|
倪光南:大数据从数据挖掘、商业智能BI发展而来
大数据的一些特性表现为:首先,大数据的“实时”性比不意味着真正的实时,而往往是近似的“实时”,在一个相对时间里产生并可利用;其次,在一个与场景有关的时期里,即能允许作出相应,并在既定效果的一个时间段里,允许产生一个反馈过程,产生可利用资源。
随着互联网、移动互联网的发展,大数据成为2012年的“宠儿”,那么,大数据时代有哪些特色?大数据到底从而何来,BI与大数据有哪些区别?近日,中国工程院院士倪光南进行了分析。 “由于数据产生和发送的速度和频率在急剧增长,数据源的数据和种类在不断上升,产生了海量数据。” 倪光南解释了大数据产生的原因。 全球范围内可用的数字数据从2005年的150EB增长到2010年的1200EB,预计在以后一些年里将年增长40%。即相当于人口增长速度的40倍,这意味着数据从2007年到2010年将增长44倍。每20个月翻一番。这些新的数字数据源包括搜索、新闻、博客、微博等社交网、移动电话和短信、热线电话和监控数据、通测数据等等。这些新数据的特点是:一、一般以数字方式产生,往往是我们日常生活或与数字服务交互的副产品;二、一般是自动收集,在数据产生时同时提取和存储它的系统,地理上或短时期里可以跟踪,如手机位置数据或通话持续时间。三、可连续地进行实时或近乎实时的分析。这些新的情况再加上云计算的发展,为大数据提供了合适的环境和处理能力,推动数据挖掘、商业智能发展到大数据。 那么,大数据到底从而何来?倪光南认为,大数据从数据挖掘、商业智能BI发展而来。 经典实例一:“啤酒与尿布”的故事,20世纪90年代,沃尔玛的超市管理人员分析销售数据时发现了一个令人理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这样,他们在尿布货柜附近放置了啤酒,结果销量大幅上升。 经典案例二:美国第二大超市Target为了抓住含金量偏高的一个顾客群体——孕妇,通过数据挖掘建立了一个模型,选出了25种典型用品的消费数据构建了“怀孕预测指数”,由此。它能在较小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个父亲意外发现他高中的女儿怀孕了,一时轰动全美。 大数据与BI有很多不同,具体区别表现在信息量、信息特征、信息来源、应用领域涉及的技术上。 大数据的一些特性表现为:首先,大数据的“实时”性比不意味着真正的实时,而往往是近似的“实时”,在一个相对时间里产生并可利用;其次,在一个与场景有关的时期里,即能允许作出相应,并在既定效果的一个时间段里,允许产生一个反馈过程,产生可利用资源。 当然,应用大数据面临若干挑战:一方面关系到数据本身,包括数据的获取,共享和消除对隐私的顾虑,令一方面是数据分析。隐私是最敏感的问题,涉及观念上、法律上一级技术上的问题,按照ITU的定义:隐私权是个人监控或影响关于关于他们自身的信息是否披露的权利,我们必须警惕新技术的兴起可能会对它造成损害并应设置必要的防护。 另外,还有对新的数据源进行分析方面的挑战,比如如何得到合适的描述即对数据进行摘要,如何通过演绎,解释数据或使数据有意义;如何定义和检测异常,因为数据分析不当可能造成误导,表面的相关不一定表明真正的因果关系。
责编:李代丽
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
热门博文
|
|