来自大数据的反思:需要你读懂的10个小故事

来源: 互联网
2015/7/28 10:46:16
随着各种技术发展,很多人都在吹捧大数据。然而如同股市一样,越是高涨,越是需要警醒,在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远。本文的10个小故事,或许能让你有所得。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 战略认知 趋势 预测
《科学》一文还认为,“大数据傲慢(Big Data Hubris)”还体现在,存在一种错误的思维方式,即误认为大数据模式分析出的“统计学相关性”,可以直接取代事物之间真实的因果和联系,从而过度应用这种技术。这就对那些过度推崇“要相关,不要因果”人群,提出了很及时的警告。毕竟,在某个时间很多人搜索“流感”,不一定代表流感真的暴发,完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。

果壳网有一篇对《科学》一文深度解读的文章:“数据并非越大越好:谷歌流感趋势错在哪儿了?”,感兴趣的读者可以前去围观。

苏萌、柏林森和周涛等人合著的《个性化:商业的未来》【14】,他们强调,“个人化”服务是未来最有前途的商业模式。可这里有个问题,提供“个人化”服务,就需要了解顾客的“个性化信息”,如果顾客许可使用个人信息的,那么这种个性化服务是贴心的,如果没有许可呢?

下面这个故事就是一则有关商品个性化推荐的,但它体现出来的是数据分析的智慧,还是愚蠢呢?
故事09:Target超市预测女孩怀孕:“大数据”智慧,还是愚蠢?

2012年2月16日,《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》(How Companies Learn Your Secrets)的报道【15】。文中介绍了这样一个故事:
一天,一位男性顾客怒气冲冲地来到一家折扣连锁店Target(中文常译作“塔吉特”,为仅次于沃尔玛的 全美第二大零售商),向经理投诉,因为该店竟然给他还在读高中的的女儿,邮寄婴儿服装和孕妇服装的优惠券。
但随后,这位父亲与女儿进一步沟通发现,自己女儿真的已经怀孕了。于是致电Target道歉,说他误解商店了,女儿的预产期是8月份。

图8 《纽约时报》:这些公司是如何知道您的秘密的

一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?这里就需要用到“关联规则+预测推荐”技术。

事实上,每位顾客初次到Target刷卡消费时,都会自动获得一个唯一顾客识别编号(ID)。以后,顾客再次光临Target消费时,计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从 其它管道取得的统计资料,Target便能形成一个庞大数据库,运用于分析顾客的喜好与需求。

有了数据,特别是有了“大”容量的数据,后面的问题就简单了。Target的数据分析师,开发了很多预测模型,其中怀孕预测模型(pregnancy-prediction model)就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品,就预测到了这为女顾客可能怀孕了,而怀孕了,未来就有可能需要购置婴儿服装和孕妇服装,多么贴心的商店啊。但是需要我们注意的是:

1.这是“大”数据的傲慢,而非聪慧。

由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿,因此,这个故事往往被用来作为“数据比人更了解人”的证明,并在当下,被用来论证大数据的功力。国内有的新闻媒体,对大数据的理解似是而非,针对这个案例的报道标题就是《大数据的功力:比父亲更了解女儿冲击大卖场》【16】。大数据的无所不能的“傲慢”,跃然纸上。

或许“旁观者清”,信息领域外的上海 金融与法律研究院研究员刘远举认为【17】,这案例并不能说明,数据比人更“聪慧”,更了解人,恰好相反,这证明计算机是“愚蠢的”:还在读高中的女儿,显然想保护自己的隐私,并不想父亲知道,但“愚蠢的”计算机却自作主张,把孕妇优惠卷寄寄到了她家里,结果被爸爸逮个正着。

这正是(大)数据的另一种傲慢——好像有了(大)数据,就可以“君临天下”,对顾客的理解就可做到出神入化,对顾客的隐私就可以肆无忌惮。

2.这并非大数据的案例

进一步分析,我们可以发现,实际上这个例子并不属于大数据的案例,它不需要太强的计算能力,甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲,其实是不恰当的。

大数据一般要具备典型的4个V特征,Target收集的消费数据属于典型的结构化数据,即使数量再大,也仅仅满足4V特征之一——Volume(体积大)。但是,“数据大”不等于“大数据”。如果光拼体积“大”,那么早在20年前,天文、物理和生物信息学的数据,也够得上是“大数据”了。《纽约时报》的原文【15】,非常“厚道”,通篇没有提及“big data(大数据)” 字样。

3.更重要的是,这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。

数据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”,励志自己,忽悠客户。对此,美国纽约大学统计学教授Kaiser Fung认为[3],很多人在看到这个故事时,都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人,都是孕妇。但这是不可能的!更为实际的情况是,孕妇之所以能收到这些购物券,是因为Target给非常多客户都邮寄了这种购物券。在众多客户中,碰巧有那么一位高中女生“不太可能但却又真地”怀孕了,碰巧那位父亲发现并投诉了,碰巧那位父亲发现自己错了并道歉了,这么多巧合,“无巧不成书”。因为极具有故事性,所以大家都爱听。

各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮(Direct Mail,DM)”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

商家能够提供个性化服务,确实很贴心,但倘若在利益的趋势下,商家对顾客的个性化信息运用不当或越界,就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事。
故事10:你的一夜情我知道——大数据的隐私之痛
Uber(优步,著名的打车软件服务公司,乘客可以通过发送短信或是使用移动应用程序来预约车辆,利用移动应用程序时还可以追踪车辆的位置)曾在官网上发布一篇题为“荣耀之旅(Rides of Glory,RoG)”的博客。文中写到,“我知道,我们不是你们生命中唯一的爱人,我们也知道,你们会在别的什么地方寻找爱情(we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere)。” Uber称作的“荣耀之旅(RoG)”——实际上就是所谓的一夜情(one-night stand)代名词。
Uber利用数据分析技术,专门筛选出那些在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后(这段时间足够完成一场快速的RoG),在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。
图9 美国大城市一夜情发生率的对比(图片来源:Uber)
根据对这些数据的分析,Uber推断出那些发生一夜情的时间和地点,并将这些地点在纽约(NYC)、旧金山(SF)、波士顿(Boston)以及其他美国城市的地图上进行标注,得出一夜情频繁的高发区。数据分析发现,波士顿位于美国“一夜情”之首,而纽约人则显得比较保守,“一夜情”的比率仅仅为波士顿的1/5。在时间节点上,一夜情“发作”的高频发段是在周五和周六晚上,如果你的另一半在这个时间点上说自己工作忙要加班,你就要“悠着点”相信。

当然,Uber此处虽多为开玩笑之举,但也确实严重侵犯了用户的隐私,在遭到了很多用户及媒体的的抗议,例如,《纽约时报》发表题为《我们不能信任优步》(We Can’t Trust Uber)【18】。

在遭到用户和媒体抗议以后,Uber迅速删除了这篇博客,但在这个数字时代,一旦上网,“侯门一入深似海”,踏雪无痕梦难成”。感兴趣的读者仍可访问 互联网文档收录网站https://archive.org/,找到这篇文章。

不可否认的是,大数据时代的到来,为我们的学习、生活带来诸多便利。但是,收之桑榆,失之东隅。任何事情都有两面性。目前,人的行为(诸如购物、乘车、甚至游戏等)已经被数字化了,隐私已经无处可藏!不论是美国斯诺登“棱镜门”监听项目的曝光,还是层出不穷的诸如Uber等公司企业泄露客户资料事件,都向我们发出大数据时代下个人隐私保护的预警。

中国著名生命伦理学家邱仁宗先生认为【19】,大数据技术,与所有技术一样它本身无所谓“好”“坏”,故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的,大数据犹技术如一把双刃剑,它可以给我们的生活、科研带来便利,但也能带来诸如侵犯隐私的消极影响。

完善的立法,对保护用户隐私来说极其重要。例如,规定只有用户需要个性化服务定制的时候,提出需求,大数据公司才能调用该用户的信息,其他情况下的信息调用都采取匿名的方式,否则就视作侵犯隐私。

网上有个以“恐怖的大数据”为题的段子,用定披萨饼的流程,把用户的隐私披露地“一览无遗”,虽有夸张成分,但在大数据时代,隐私保护的必要性,已经不容置疑了。
小结

《旧约·箴言篇》18章17节里有句话:“先诉情由的,似乎有理。但邻舍来到,就察出实情”。

随着诸如舍恩伯格教授的《大数据时代》、涂子沛先生的《数据之巅》等大作的面世,对世人带来了“醍醐灌顶”式的教育洗礼,在教育民众和政府官员接纳大数据时代的普及意义上,这些著作,居功至伟。他们书中的很多思维,已被很多大数据的拥趸者奉为圭臬,但任何事情都有两面性,一味的热捧,就会带来认知的偏颇。

诸如《纽约时报》、《财经时报》、《自然》及《科学》等重量级的反思“邻舍”的到临,能让我们对“大数据”有更为客观的认知。从他们给出的一各个小故事(小案例或小段子)中,可以促使我们对大数据的热炒有所反思,从而告诫我们之间,一定保持清醒头脑,批判性地接受大数据布道者的思维,切不可将其当作放之四海而皆准的真理。对大数据的过分依赖,就有可能重蹈伊卡洛斯(Icarus)的覆辙。

图 10 伊卡洛斯之殇(图片来源:百度百科)

在希腊神话中,伊卡洛斯是个自负的天神,他是代达罗斯的儿子,一天,在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时,由于他过分相信自己的飞行技,故而飞得太高,双翼上的蜡在太阳照射下融化,羽翼脱落,最终导致自己葬身大海。

大数据技术就犹如那 “蜡和羽毛”做的翅膀,它可以助我们飞得更高,但倘若过分依赖它,就有葬身大海的风险。我们要学会如何让大数据为我所用,而不是成为大数据的奴隶。

参考文献(部分链接,需翻墙才能访问):
[1] 湖北日报.李国杰:大数据刚刚过了炒作的高峰期. ,2015-3-30
[2]Gary Marcus and Ernest Davis. Eight (No, Nine!) Problems With Big Data. New York Times. 6, 2014
[3] Tim Harford. Financial Times. Big data: are we making a big mistake? . March 28, 2014
[4]池建强. 大数据都是骗人的啊.北京青年报.
[5] Phil Simon. Potholes and Big Data: Crowdsourcing Our Way to Better Government.Wried.
[6] Jonah Berger. Is Little Data The Next Big Data? .
[7] Steve Lohr. New York Times.
[8] 李国杰. 对大数据的再认识[J]. 大数据, 2015, 1(1): 2015001.
[9] Shanks B. Scout's honor: The bravest way to build a winning team[M]. Sterling & Ross Pub Incorporated, 2005.
[9]_chris Anderson. End of Theory: the Data Deluge Makes the Scientific Method Obsolete.Wired.
[10] 李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15.
[11] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014
[12] Declan Butler. When Google got flu wrong. Nature news.
[13] Lazer D, Kennedy R, King G, et al. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(14 March).
[14]苏萌,柏林森,周涛.个性化:商业的未来[M]. 机械工业出版社, 2012.
[15]_charles Duhigg. How Companies Learn Your Secrets.
[16]刘戈(央视经济频道《今日观察》观察员). 中外管理. 大数据时代:重新定义商业.
[17] 刘远举.大数据的傲慢.百度百家.
[18] Zeynep Tufekci and Brayden Kingdec. We Can’t Trust Uber,New York Times . 2014-07.
[19]邱仁宗, 黄雯, 翟晓梅. 大数据技术的伦理问题[J]. 科学与社会, 2014, 4(1): 36-48.

作者介绍:张玉宏,博士。2012年毕业于电子科技大学,现执教于河南工业大学。中国计算机协会(CCF)会员,ACM/IEEE会员。主要研究方向为 高性能计算、生物信息学,主编有《Java从入门到精通》一书。
共4页: [1] [2] [3]4 下一页
责编:樊晓婷
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map