关系,复杂

作者:刘庆
2007/5/25 14:52:50
本文关键字: ttnn 2006年12期

Qing 20061129

昨天在一个叫forcode的论坛上看到一篇关于社会学研究的文章,其中介绍了一些统计分析方法,看起来比较简单,比起充满公式的统计教材是更容易让人接受的。因此,能够安下心情看上几段。

这些分析方法是通用的,在BI里面,这应当是它的专长,可惜,还是得借鉴其他领域的应用情况,看来BI真是个年轻的行业啊。道理是相通的,在做社会学研究的时候,要搜集数据,分析数据,并且已经有了一套听起来蛮是那么回事的方法论。那么,这套东西能不能在分析电信、金融客户或者纳税人上面派上用场呢?也许能够用上。

其中有一节提到变量之间的关系,看它用到了"变量"这个词,这还是个比较学术的词。如果说得通俗一点,可以称之为"因素",虽然在意义上可能不是完全匹配,但大部分,在我们说话的时候,将"变量"替换成为"因素"没有太大问题。比如说"影响客户流失的两个变量"中,"两个因素"来的通俗。以前,在一些谈论数据挖掘的帖子里面,我也总是说变量变量的,这是跟周围的建模人员学的。前几天,不是设想一个"数据探索器"的玩意儿吗,它可以自动地做常规的数据分析。比如变量(因素)之间的关系。

说起这个关系,在社会学研究这篇文章里面,有总结。有相关、因果和虚无三种关系。相关关系是说,两个因素中,只要有一个因素发生变动,那么就能有个方法知道另一个因素的变动。有点像是函数的意思,y=f(x),例如一个移动用户的通话次数知道了,基本上可以测算他的通话时长了。

因果关系是指两个因素中,一个是因,一个是果。这应当也是一种相关关系,只是相关地更加强烈罢。是"因"的那个因素对决定了是"果"的因素,而"果"呢,无法影响"因"。种下一粒什么籽,发了颗什么芽,会结了什么果。这都是被最初的那个"籽"决定了。这种关系有几个表现形式。首先时间上,"因"的先出来的。肯定是先种籽,再发芽。再者,因的变量得是相对稳定的。因为如果不稳定,你咋知道是它决定别的因素而不是别的决定它?这里也只能相对而已。

其实因果这种事情比较难讲,佛家讲因果,哲学上面也有决定论。到底什么是因,什么是果,有时候还真的很难区分。也许,这世上的一切都是已经被注定了,就算我现在在这里说"因果",也是因为我看了一篇文章的结果,之所以看文章,是因为我无聊,之所以我无聊,是因为出差在外,之所以出差在外,是因为我干的就是BI这行,之所以干这一行,是因为若干年前我就开始干这个,之所以那时候干这个,是因为一位朋友的介绍,之所以有那位朋友,是因为进了一家公司和他成为同事,之所以进了那家公司,是因为毕业以后被人家看中了,之所以被人看中,是因为自己专业对口,学的是计算机,之所以学计算机,是因为当初家里人说,学这个以后好找饭碗。嗯,为什么因为这个原因学计算机呢?我就"是因为"不下去了,可能有社会因素吧。反正,总得有我这个人才有这些"果",而有我这个人,还得有父母的因。咦,说起来,那耶稣生下来的因还真是蛮奇怪的。

嗬,既然这一切都已经注定,干吗还费那些心去琢磨这个琢磨那个呢。可转念一想,不对啊,万物运行是按照一定的规律,那是宏观的,而微观的,则是不确定的。谁都不知道下一刻发生的事情。

可挖掘模型有时候就像是要充当这样的"先知",预测未来。按照上面的因果关系来说的话,如果能够影响事物变化的一切因素都考虑进去,就能准确地知道事物怎么个变化法。当然,这是废话,不可能搜集到所有影响因素。但如果说不能够就此预测,也不准确,总归能够预测个大差不差吧。影响结果的因素有大有小,只要发现了比较大的,基本就能预测了。

还有个矛盾的地方。有一次跟一位挖掘大师扯淡,我说在客户分群里面不用考虑太多的变量,因为解读的时候几乎用不上。他说,挖掘模型的目的本来就是要发现你不知道的东西,如果你将业务上能够理解的变量抛进去,那么得出来的将是你已经知道的东西。这话听起来还真有些道理,可令人困惑啊。到底是种下已知的因,还是不管三七二十一,让一大堆"因"杂交在一起,通过结出的果子来分辨"因"呢?

对因果关系说了不少,一时话匣子打开,联想丰富了。几乎忘了还有一种关系没有说,最后一种叫做虚无关系,意思是两个因素没有必然的联系。这也有意思,你说两个因素之间没有必然的联系,难道不跟你的认识有关系吗?现在的报纸新闻上,经常会蹦出一些奇怪的科学研究结论。例如曾看到有一记录片,说人的中指无名指长短比例,跟人的奔跑速度是因果。当然,一般情况下,大家会认为这是无关的两个因素,也就是虚无关系。但人家在电视上证明给你看,弄了一堆短跑选手。先让科学家丈量每位选手的中指无名指比例,然后排序,依次写好各位的名次,蒙好。接着选手赛跑,跑完看结果,嘿,竟然只是第三四名预测有误,其他的都对(鬼才信)。可怎么说,人家也将虚无关系变成了因果关系。还有诸如中指长度跟人的阴茎长度成正比之类的,当然,这个关系就算成立,也是一种相关关系,不是因果关系。但怎么说,虚无关系听起来是那么不稳定,保不准哪一天,你就会发现,原来,美国总统的岁数跟中国大盘股指有啥关系呢。

innovate511 20061202

所以搞数据挖掘的人一般告诉搞数据仓库的人, 尽量多考虑些因素进去

forward sun 20061106

原来也很赞同这个观点的,后来发现理论和实际有很多矛盾,或者说业务目的不同。
现在我作的一些分析和挖掘工作开始的时候是知道要得出什么结论的,目的是验证它;用数据包装它;让需要忽悠武器的人和知道要被忽悠又必须接受的人满意。
可能说得有点负面,如果从正面来看是否挖掘真能出金子呢?
最近各个xx公司都在冲指标,需要有说服力的东西来证明指标攀升的合理性。本身的数据也要体现这一点,可以说金子是预埋的,如果真的蒙上眼睛挖得出的结论就要看脸色了。就跟拦截导弹一样,告诉你往哪里打,打什么,都安排好的。

行政行为和市场行为不同,挖到别人的痛脚,铁锹给你没收了都不奇怪。
BI是社会学还是自然科学?赫赫

Qing 20061206

阿龙说得这番话,有一腚的道理。在某些行业里面,数据就是用来吹牛的,并且有了数据就像是更加科学了。

在电信行业,财大气粗,而且也是非常有特色的是,垄断和竞争并存,这是不是叫做寡头垄断啊?虽然一直在说精细化运营、管理,但根本做不到。为什么做不到?我想有一个原因是,根本没有必要做到,反正显然仍然是暴利时代,干吗要精细化呢?干吗要斤斤计较成本投入能不能收得回来呢?

从上到下,规定了一堆KPI指标。你可以用数据分析手段帮助精准营销(现在不流行精细、精确,开始流行精准了,因为前两个词听得耳朵有些生茧),在最小成本得情况达成KPI。但问题是,为了达到这个KPI,我有更好的手段。比如要一个数据业务的用户数达到xx,那就捆绑呗,干吗还去用个预测模型来预测哪些客户最可能使用这些业务呢?但不可否认,电信行业一直在作数据挖掘的事情,也是因为有钱,反正花不出去,就试试新玩意儿吧,至于回报,不用想的太多,眼光要放长远一点嘛。

这是现实情况。这两天还有个讨论,说国内没什么挖掘案例,还有金融和电信的对比。其实我倒是认为在中国,比电信、银行更需要作数据分析、挖掘的行业多得很,是那些对投资回报看的格外重,市场竞争激烈的行业。但这里也有个矛盾,现在BI系统、服务的价格不菲,因此投入在这个系统上的回报到底有多大?这让他们不得不慎重而行,还是等BI的价格便宜下来,仔考虑这种系统吧。

于是目前这个阶段好生奇怪,那些不在乎投资的企业给了BI人饭碗,而我们也在埋怨人家管理不够精细化,导致英雄无用武之地。

到年底的时候,总是在讨论明天的规划,列举出各种各样的分析专题,其中不乏诸如"满意度、忠诚度"这样的东东。现在我衡量一个专题是否应当建设的标准是,能否将他能够解决什么问题用语句清晰地描述出来。上面这种各式各样的"度",说不清道不明。但反驳意见是,"在电信行业里面,不是要将问题想清楚再动手的,就是要快。别人没有想到的,你都做完了,就是亮点。"这也是有一腚道理的,至少从反映业绩,从评奖角度看是如此。

责编:刘庆
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map