大数据隐藏的偏见

2015/2/11 10:21:24【作者】Whitney Baker

大数据是近两年来讨论最火爆的IT话题,参与大数据讨论的门槛很低,它给许多人群都带来了一个令人难以置信的机会,它可以包括数据科学家、企业管理者、教育人员、记者等等所有能从其中学习受益的人。但是所有的炒作和兴奋之下其实存在非常真实的陷阱。

与“科学美国人”中的警告相同,来自“哈佛商业评论”的文章也提到了大数据炒作问题,其中使用了具体的例子来打破大数据是解决普遍问题救世主的观念。

炒作是有问题的,我把它称为“数据原教旨主义”,这种观点认为联系总是代表了因果关系,大数据集合预测分析总是折射了客观真理。

该评论文章以飓风桑迪肆虐期间从社交媒体中收集到的数据为例,数值展现了在美国纽约市及周边游非常高度集中的微博和其它移动活动,从中得到的结论只是在暴风雨来临前夕所有的杂货店都经历了业务的高峰期,但是数据无法预测哪些地区遭到了飓风最猛烈的袭击。

数据和数据集并不是客观的,它们是人类设计的杰作。我们给他们的声音提供数据,从其中得出推论,通过我们的解释定义数据的含义。在数据集中和分析阶段隐藏的偏见会存在相当大的风险,这些风险与大数据本身一样重要。

该评论文章还说,误解大数据的主要危险之一就是公共资源的分配不当。

虽然庞大的数据集可能看起来非常抽象,但它们把物理位置和人类文化紧密联系。地点像人一样都有自己的个人和情况。虽然在挖掘大数据时可能比较容易发掘出令人惊奇的结论,但是这种数据并不总是正确的。

【打印】
查看完整文章| 频道首页| 网站首页
Baidu
map