当前位置：首页> 存储> 大数据> 正文

来自大数据的反思：需要你读懂的10个小故事

来源：互联网

2015/7/28 10:46:16

大中小

随着各种技术发展，很多人都在吹捧大数据。然而如同股市一样，越是高涨，越是需要警醒，在大数据热火朝天前行的路上，多一点反思，多一份冷静，或许能让这路走的更好、更远。本文的10个小故事，或许能让你有所得。

分享到：新浪微博腾讯微博

本文关键字：大数据战略认知趋势预测

从第01故事的分析中，我们知道，大数据分析的第一层作用就是，面向过去，发现潜藏在数据表面之下的历史规律或模式，也就是说达到描述性分析。而为了让读者相信数据分析的能力，灌输一些“心灵鸡汤（或称洗脑）”，是少不了的，哪怕它是假的！

故事07：啤酒和尿布：经典故事是伪造的，你知道吗？

这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后，研究人员突然发现：跟尿布一起搭配购买最多的商品，竟是啤酒！

尿布和啤酒，听起来风马牛不相及，但这是对历史数据进行挖掘的结果，反映的是数据层面的规律。这种关系令人费解，但经过跟踪调查，研究人员发现，一些年轻的爸爸常到超市去购买婴儿尿布，有30％~40％的新爸爸，会顺便买点啤酒犒劳自己。随后，沃尔玛对啤酒和尿布进行了捆绑销售，不出意料，销售量双双增加。

上面这个案例，出自于涂子沛先生的所著的大数据畅销书《数据之巅》，在这个案例中，要情节有情节，要数据，有数据，誓言旦旦，不容你置疑。但是，这个故事虽经典，但是让你意想不到的是：

1.案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《大数据》类图书的常客，事实上，它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念，更是“居家旅行，必备之良药（周星驰语）”。当前，基本上所有讲大数据应用，都会捎带讲上这个经典案例，要求大家多研究“相关性”，少研究因果关系！但实在扫兴的是，这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽，但信不得！

实践是检验真理的唯一标准。如果这个故事是真的，按理说，应该给超级市场以无限启发才对，可实际上，不管是中国，还是在美国，在超市里面观察一下，就会发现，根本没有类似的物品摆放，相近的都很少。

故事性强，事出有因。据吴甘沙先生透露，它是Teradata公司一位经理编出来的“故事”，目的是让数据分析看起来更有力，更有趣，而在历史上从没有发生过，感兴趣的读者可以自己参阅文献。但公平地讲，这个故事对数据挖掘的普及意义重大，仅从教育意义上看，仍不失为一个好故事。

2.相关性并非什么大事

即便真的有这个案例，也不说明数据分析出来的“相关性”，有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是：趾高气扬的因果关系光芒不再，卑微的相关关系将被“翻身做主人”，知道“是什么”就够了，没必要知道“为什么”。但需要我们更为深入了解的事实是：

“要相关，不要因果”，这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》（Wired）主编Chris Anderson ，2008年他在题为 “理论的终结：数据洪流让科学方法依然过时（End of Theory: the Data Deluge Makes the Scientific Method Obsolete）【9】” 文章中，率先提出：在PB时代，我们可以说，有相关性足够了（Petabytes allow us to say: "Correlation is enough）"。

图6 连线杂志：理论的终结

“要相关，不要因果”的观点，并不受学术界待见。甚至，《大数据时代》的中文版翻译者周涛亦在序言里说，“放弃对因果关系的追求，是人类的堕落”。对于这个观点，李国杰院士认为【10】：在大数据中，看起来毫不相关的两件事同时或相继出现的现象比比皆是，相关性本身并没有多大价值，关键是找对了“相关性”背后的理由，才是新知识或新发现。

大数据分析的第二个功能，或者说更为的核心功能在于，预测。预测主要用于对未来进行筹划，大到产业的布局，小到流感的预警，均可用预测。但是对未来的预测，能准吗？

故事08：谷歌流感预测：预测是如何失效的？

2009年2月，谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文【11】：《利用搜索引擎查询数据检测禽流感流行趋势》，并设计了大名鼎鼎的流感预测系统（Google Flu Trends，GFT，访问网址为：www.google.org/flutrends/）。

GFT预测H1N1流感的原理非常朴素：如果在某一个区域某一个时间段，有大量的有关流感的搜索指令，那么，就可能存在一种潜在的关联：在这个地区，就有很大可能性存在对应的流感人群，相关部门就值得发布流感预警信息。

GFT监测并预测流感趋势的过程仅需一天，有时甚至可缩短至数个小时。相比而言，美国疾病控制与预防中心（Center for Disease Control and Prevention，CDC）同样也能利用采集来的流感数据，发布预警信息。但CDC的流感预测结果，通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病（如禽流感等），疫情预警滞后发布，后果可能是致命的。

GFT一度被认为是大数据预测未来的经典案例，给很多人打开了一扇未来的窗口。根据这个故事，大数据的布道者们给出了4个令自己满意的结论：

由于所有数据点都被捕捉到，故传统的抽样统计的方法完全可以被淘汰。换句话说，做到了“n=All”；

无需再寻找现象背后的原因，只需要知道某两者之间的统计相关性就够用了。针对这个案例，只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。

不再需要统计学模型，只要有大量的数据就能完成分析目的，印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。

大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。

但据英国《财经时报》（FT）援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3]，这四条 “完全是胡说八道（complete bollocks. Absolute nonsense）”。

针对前3条观点的不足之处，前文故事已经涉及到了，不再赘言。针对第4条，我们有必要再解析一下——GFT预测是如何失效的？

谷歌工程师们开发的GFT，可谓轰动一时，但好景不长，相关论文发表4年后，2013年2月13日，《自然》发文指出【12】，在最近（2012年12月）的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重，然而疾控中心（CDC）在汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍，如图7所示。

图7 GFT流感预测失准（图片来源：自然期刊）

研究人员发现，问题的根源在于，谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联，也没有试图去搞清楚关联背后的原因，只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性，谷歌工程师们不断地微调预测算法，但GFT每一次算法微调，都是为了修补之前的测不准，但每次修补又都造成了另外的误差。

谷歌疫情之所以会误报，还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳海森堡（Werner Heisenberg），曾在1927年的一篇论文中指出，在量子世界中，测量粒子位置，必然会影响粒子的速度，即存在“测不准原理”。也就是说，在量子尺度的微距世界中，“测量即干涉”。如今，在媒体热炒的“大数据”世界中，类似于“测不准原理”，即存在“预测即干涉”悖论。

这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处：当年的大白菜卖价不错（历史数据），预计明年的卖价也不错（预测），于是众多菜农在这个预测的指导下，第二年都去种大白菜（采取行动），结果是，菜多价贱伤农（预测失败）。

进一步分析就可发现，GFT预测失准在很大程度上是因为，一旦GFT提到了有疫情，立刻会有媒体报道，就会引发更多相关信息搜索，反过来强化了GFT对疫情的判定。这样下去，算法无论怎么修补，都无法改变其愈发不准确的命运。

对GFT预测更猛烈的攻击，来自著名期刊《科学》【13】。2014年3月，该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言：大数据分析中的陷阱（The parable of Google Flu: traps in big data analysis）”，他们对谷歌疫情预测不准的问题做了更为深入地调查，也讨论了大数据的“陷阱”本质。《科学》一文作者认为：大数据的分析是很复杂的，但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密，难免会出现失准的情况，作者以谷歌流感趋势失准为例，指出“大数据傲慢(Big Data Hubris)”是问题的根源。

共4页: 上一页 [1] [2]3 [4] 下一页

责编：樊晓婷

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

来自大数据的反思：需要你读懂的10个小故事

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。