大数据:没有最大,只有更大

来源: 温州网   
2014/2/24 9:38:53
大数据或巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工截取、管理、处理并整理成为人类所能解读的信息。

本文关键字: 大数据

百度能知道我们在关注什么,淘宝能洞察我们喜欢什么,这是喜还是忧?大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。《自然与科技》杂志最近刊文研判,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。

没有最大,只有更大

维基百科这样定义大数据(Big data):大数据或巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工截取、管理、处理并整理成为人类所能解读的信息。

IBM团队为了让电脑战胜国际象棋冠军卡斯帕罗夫,收集了将近100年来的60万盘高手的棋谱,这个就是大数据,人脑是无法记忆所有这些棋谱并加以有效利用的。1997年,国际象棋特级大师卡斯帕罗夫在《危险边缘》(jeopardy)节目中首次输给了IBM深蓝电脑,成为轰动一时的新闻。电脑能战胜人脑,秘诀就在于存储在深蓝电脑内的棋谱大数据。科学家研制了人工智能博弈软件,能从大量的棋谱中找出最合适的步骤,这是人脑所无法企及的。

有人把大数据的特征归纳为4V:Volume(量大)、Variety(多样)、Velocity(高速)、Value(价值密度低)。让我们来回顾一下去年的“双十一”节,那天淘宝商城达成了1.88亿笔交易,总交易额达到创纪录的350.19亿元。这些交易记录就形成了那天疯狂网购的大数据。

这样的记录首先体现在数据量巨大上。首先,我们知道一部高清电影的容量大约有1GB,而1024个GB就是一个TB,再1024个TB就是一个PB,而大数据往往达到PB数量级,可见数据量大得无法想象;其次,就是数据的多样性,交易的品种、卖家的信息、买家的信息、快递的信息、支付的信息,构成了一个行业多样化的数据链;第三,就是数据产生的速度极快,检索结果的速度也要求快,要在几百万件商品中查找出一类商品,其检索速度只需要1秒,这是传统技术无法达到的。最后,需要说明的是,大数据的内容虽然真实、完整地反映了客观世界,但它的价值密度很低,如果不去研究挖掘,大数据是不会自动产生有用结果的。比如,在街景的海量监控视频中,犯罪分子留下的踪影也许只有几秒钟。

大数据时代

英国的大数据权威专家维克托·迈尔·舍恩伯格(Viktor Mayer-Sch nberger)写过一本书,书名就叫《大数据时代》,书中首次断言人类已经无可逆转地跨入了大数据时代。据他估算,人类在2000年时大约只有1/4的信息实现了数字化,其他的3/4信息仍然以报纸、书籍、胶片、磁带等形式存在,但到了2007年人类存储的数据超过了300艾字节,相当于3000亿GB的信息量。大数据时代在生活、工作和思维上给人们带来了巨大变革。

首先,是数据的形式由原来的关系型数据(如电子表格形式)更多地表现为非关系型数据(如用户评论、图片等);数据存储方式也由原来集中式存储变为分布式存储,大型数据不得不存储在不同地方的存储服务器中,通过网络进行互联访问,构成所谓的云存储。

其次,是对数据处理的方式发生了根本变化,人们已无法只用一台电脑处理数据,必须依赖网络后面的云平台,进行云计算,才能有效处理大数据。在对大数据处理上,我们可以看到三个有趣的变化:在小数据时代,人们限于获取数据的困难,只能采用随机抽样的方式获取数据样本,然后根据样本数据进行分析预测。一旦样本出现偏差,那推导出的结果就会产生很大的误差。

共2页: 上一页1 [2]
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map