|
大数据就是很多数据?NO!
自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。
由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿,因此,这个故事往往被用来作为“数据比人更了解人”的证明,并在当下,被用来论证大数据的功力。国内有的新闻媒体,对大数据的理解似是而非,针对这个案例的报道标题就是《大数据的功力:比父亲更了解女儿冲击大卖场》【16】。大数据的无所不能的“傲慢”,跃然纸上。 或许“旁观者清”,信息领域外的上海金融与法律研究院研究员刘远举认为【17】,这案例并不能说明,数据比人更“聪慧”,更了解人,恰好相反,这证明计算机是“愚蠢的”:还在读高中的女儿,显然想保护自己的隐私,并不想父亲知道,但“愚蠢的”计算机却自作主张,把孕妇优惠卷寄寄到了她家里,结果被爸爸逮个正着。 这正是(大)数据的另一种傲慢——好像有了(大)数据,就可以“君临天下”,对顾客的理解就可做到出神入化,对顾客的隐私就可以肆无忌惮。 2.这并非大数据的案例 进一步分析,我们可以发现,实际上这个例子并不属于大数据的案例,它不需要太强的计算能力,甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲,其实是不恰当的。 大数据一般要具备典型的4个V特征,Target收集的消费数据属于典型的结构化数据,即使数量再大,也仅仅满足4V特征之一——Volume(体积大)。但是,“数据大”不等于“大数据”。如果光拼体积“大”,那么早在20年前,天文、物理和生物信息学的数据,也够得上是“大数据”了。《纽约时报》的原文【15】,非常“厚道”,通篇没有提及“big data(大数据)” 字样。 3.更重要的是,这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。 数据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”,励志自己,忽悠客户。对此,美国纽约大学统计学教授Kaiser Fung认为[3],很多人在看到这个故事时,都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人,都是孕妇。但这是不可能的!更为实际的情况是,孕妇之所以能收到这些购物券,是因为Target给非常多客户都邮寄了这种购物券。在众多客户中,碰巧有那么一位高中女生“不太可能但却又真地”怀孕了,碰巧那位父亲发现并投诉了,碰巧那位父亲发现自己错了并道歉了,这么多巧合,“无巧不成书”。因为极具有故事性,所以大家都爱听。 各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮(Direct Mail,DM)”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。 商家能够提供个性化服务,确实很贴心,但倘若在利益的趋势下,商家对顾客的个性化信息运用不当或越界,就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事。 故事10:你的一夜情我知道——大数据的隐私之痛 Uber(优步,著名的打车软件服务公司,乘客可以通过发送短信或是使用移动应用程序来预约车辆,利用移动应用程序时还可以追踪车辆的位置)曾在官网上发布一篇题为“荣耀之旅(Rides of Glory,RoG)”的博客。文中写到,“我知道,我们不是你们生命中唯一的爱人,我们也知道,你们会在别的什么地方寻找爱情(we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere)。” Uber称作的“荣耀之旅(RoG)”——实际上就是所谓的一夜情(one-night stand)代名词。 当然,Uber此处虽多为开玩笑之举,但也确实严重侵犯了用户的隐私,在遭到了很多用户及媒体的的抗议,例如,《纽约时报》发表题为《我们不能信任优步》(We Can’t Trust Uber)【18】。 在遭到用户和媒体抗议以后,Uber迅速删除了这篇博客,但在这个数字时代,一旦上网,“侯门一入深似海”,踏雪无痕梦难成”。感兴趣的读者仍可访问互联网文档收录网站https://archive.org/,找到这篇文章。 不可否认的是,大数据时代的到来,为我们的学习、生活带来诸多便利。但是,收之桑榆,失之东隅。任何事情都有两面性。目前,人的行为(诸如购物、乘车、甚至游戏等)已经被数字化了,隐私已经无处可藏!不论是美国斯诺登“棱镜门”监听项目的曝光,还是层出不穷的诸如Uber等公司企业泄露客户资料事件,都向我们发出大数据时代下个人隐私保护的预警。 中国著名生命伦理学家 邱仁宗先生认为【19】,大数据技术,与所有技术一样它本身无所谓“好”“坏”,故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的,大数据犹技术如一把双刃剑,它可以给我们的生活、科研带来便利,但也能带来诸如侵犯隐私的消极影响。 完善的立法,对保护用户隐私来说极其重要。例如,规定只有用户需要个性化服务定制的时候,提出需求,大数据公司才能调用该用户的信息,其他情况下的信息调用都采取匿名的方式,否则就视作侵犯隐私。 网上有个以“恐怖的大数据”为题的段子,用定披萨饼的流程,把用户的隐私披露地“一览无遗”,虽有夸张成分,但在大数据时代,隐私保护的必要性,已经不容置疑了。 小结 《旧约·箴言篇》18章17节里有句话:“先诉情由的,似乎有理。但邻舍来到,就察出实情”。 随着诸如舍恩伯格教授的《大数据时代》、涂子沛先生的《数据之巅》等大作的面世,对世人带来了“醍醐灌顶”式的教育洗礼,在教育民众和政府官员接纳大数据时代的普及意义上,这些著作,居功至伟。他们书中的很多思维,已被很多大数据的拥趸者奉为圭臬,但任何事情都有两面性,一味的热捧,就会带来认知的偏颇。 诸如《纽约时报》、《财经时报》、《自然》及《科学》等重量级的反思“邻舍”的到临,能让我们对“大数据”有更为客观的认知。从他们给出的一各个小故事(小案例或小段子)中,可以促使我们对大数据的热炒有所反思,从而告诫我们之间,一定保持清醒头脑,批判性地接受大数据布道者的思维,切不可将其当作放之四海而皆准的真理。对大数据的过分依赖,就有可能重蹈伊卡洛斯(Icarus)的覆辙。 图 10 伊卡洛斯之殇(图片来源:百度百科) 在希腊神话中,伊卡洛斯是个自负的天神,他是代达罗斯的儿子,一天,在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时,由于他过分相信自己的飞行技,故而飞得太高,双翼上的蜡在太阳照射下融化,羽翼脱落,最终导致自己葬身大海。 大数据技术就犹如那 “蜡和羽毛”做的翅膀,它可以助我们飞得更高,但倘若过分依赖它,就有葬身大海的风险。我们要学会如何让大数据为我所用,而不是成为大数据的奴隶。 参考文献(部分链接,需翻墙才能访问): 作者介绍:张玉宏,博士。2012年毕业于电子科技大学,现执教于河南工业大学。中国计算机协会(CCF)会员,ACM/IEEE会员。主要研究方向为高性能计算、生物信息学,主编有《Java从入门到精通》一书。
责编:胡雪妍
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|