商业智能和数据仓库推动大数据变革

来源: CIO时代
2012/5/8 13:44:12
大数据的定义是高科技领域内非常精细的事件驱动数据的采集和分析。这涉及到互联网的派生数据,这些派生数据的规模远远超出了网站的分析能力。

分享到: 新浪微博 腾讯微博
本文关键字: BI 数据仓库 大数据

大数据的定义是高科技领域内非常精细的事件驱动数据的采集和分析。这涉及到互联网的派生数据,这些派生数据的规模远远超出了网站的分析能力。它还与传感器数据相关,而对于大部分传感器数据我们直到最近才丢弃。现在,那些有很大价值的数据,将更有利于我们深入了解业务运转和与客户的互动。这才是能否被称为大数据的标准。

大数据不仅是一种数据仓库技术或BI(商业智能)的升级版,同时也是一场革命。大数据的宣言:无需恐惧毋庸置疑,大数据是一场大变革。

第一次世界技术革命时,我们正在考虑的不是如何减少数据数量和如何把它归档,而是如何收集更多的数据并对其进行分析。那时,我们并不怕受到受到数据量的威胁,而是在寻找额外的数据,以帮助我们发展业务,进一步了解我们的政府和社会。

后来,磁盘和存储的低成本与价格下降推动了商品服务器集群的分散式处理趋势。虽然我们收集、处理和分析大数据已经有相当长的一段时间了,但直到如今,我们所使用的方法依然是低效率,并缺乏经济性的。但这场大变革中有着我们一直想知道但以前又不曾涉及的数据,所以,现在的我们无需恐惧。

2012年:大数据年代?

大数据正在成为主流,它从科学和高科技公司的专用技术转变为企业IT应用程序的专用技术。大数据作为IT工具的主流,对IT领域有重大的影响,其可用性和易安装标准是高于科学与高科技公司界对大数据的要求的。这就是为什么我们会看到像微软这样的公司,可以通过Web浏览器来实现利用云基础大数据技术,从而进军游戏行业。

为了更好的使大数据与企业相融合,我们应该实现技术的细化和降低经营成本。眼下,很多大数据工具都是粗糙的或昂贵的,或者是需要能够实施操作的高度专业化的技术人员的辅助。不过,这种情况正在逐渐改变,而且,它从侧面也证明了大数据革命的光明前景。

Spreadmarts不是大数据,但他们也有自己的作用大数据和我们习惯使用的电子表格模型和数量运算有什么不同吗?电子表格技术员们一直在做分析,但肯定不是大数据,因为Excel不符合前面对大数据集的定义。直到2007年,Excel才可以处理超过有16,384行的电子表格。但是,它还是不能处理较大的业务数据量,这方面它比大数据逊色许多。

当然,大数据分析的结果可以利用Excel来进一步计算和探讨。事实上,微软已经开发了一个与Excel连接的附件,与Hadoop连接的数据仓库接口,还有象征性的大数据技术。大数据工作就像经过以Excel为基础的分析和粗糙的编辑之后的后期制作。

从另一方面上看,BI(商务智能)和DW(数据仓库)是相辅相成的,这对大数据而言是一件好事。大数据让落后的、传统的技术,为涵盖比以前更广的操作和交互范围的数据集提供见解。我们可以在全新的环境下继续使用熟悉的工具,从而实现对看似不可能或随意的事情的访问。

自然语言处理和大数据关于用Hadoop开展自然语言处理(NLP)的解决方案已经产生了。该解决方案涉及到了Python编程语言和一套称为NTLK(自然语言工具包)。另一个例子是苹果的SIRI技术在iPhone上的应用。用户只需与SIRI进行对话,就能从一个庞大的领域专家团队那里得到答案。有趣的是,大数据技术将有助于改善自然语言技术,例如,对更大数量的书面作品进行处理和对算法的理解。因此,大数据将变得更容易使用。

责编:罗信
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map