CIO应了解的关于大数据的五件事

来源:企业网  
2012/5/18 15:29:03
大数据分析始于大型Web服务提供商,如谷歌、雅虎和Twitter,这些公司需要最大化地利用其用户所产生的数据。大型企业则需要大数据分析以保持竞争力。

本文关键字: CIO 大数据 存储

 

1你应该考虑大数据

大数据分析始于大型Web服务提供商,如谷歌、雅虎和Twitter,这些公司需要最大化地利用其用户所产生的数据。大型企业则需要大数据分析以保持竞争力。

你也许是一家真正的小公司,并且拥有大量的数据。GigaOm大数据研究部主任JoMaitland表示一个小的对冲基金可能拥有TB级的数据。咨询公司麦肯锡最近的一份报告预计在未来几年中,为数众多的行业——包括卫生保健,公共部门,零售,制造——将从数据分析中获益。

从雅虎剥离的公司Hortonworks的首席技术官EricBaldeschwieler表示,Hadoop和大数据是大势所趋。Hortonworks提供一个Hadoop的发行版。它适用于各种庞大的客户。对交易数据的收集和分析,将让组织更深入地了解他们客户的喜好。这可以用来更好地了解产品和服务的创新,并让组织更迅速地纠正出现的问题。

2有用的数据可以来自任何地方

你也许不认为你有PB级的数据值得分析,但你需要这么做,即使你没准备。“大数据是收集过去”掉在地上“的数据。”Baldeschwieler说。

大数据可能是您服务器的日志文件。例如,服务器保留每个人登录网站、访问什么页面的记录。跟踪这些数据可以了解你的客户正在寻找什么。虽然日志数据分析不是什么新东西,但是大数据可以做到令人目不眩晕的新粒度级别。

另一个数据源是传感器的数据。多年来,分析家们一直在说物联网,廉价的传感器连接到互联网,提供持续的使用数据。它们可能来自汽车、桥梁或苏打水机。微软WindowsEmbedded总经理KevinDallas说:“设备的真正价值是他们捕捉数据、分析信息、驱动业务效率的能力。

3您将需要新的大数据的专业知识

根据Forrester的分析师JamesKobielus,当设立一个大数据的分析系统时,你最大的障碍是寻找合适的人才,知道如何使用工具来分析数据。

Kobielus说大数据依赖于坚实的数据建模,组织将必须致力于数据科学。他们必须聘请统计建模者、文本挖掘人才、专门从事情绪分析的人。这可能是和如今精通于商业智能工具的分析师所知道的不一样的技能组合。

这样的人可能会供不应求。麦肯锡估计,到2018年,美国就有可能面临140,000至190,000名具有深刻分析能力的人才短缺,以及150万知道如何使用大数据分析来做出有效决策的经理和分析师的短缺。

Maitland指出,你需要的另一种技能是管理大量具有存储和分析数据能力的硬件。管理100台服务器与10个服务器从根本上是不同的。您可能需要从本地大学或研究实验室聘请一些超级管理员。

4大数据并不需要事先组织

习惯于严格地规划每一种将进入企业数据仓库(EDW)的数据的CIO,可以对大数据的设置松一口气。这里的规则是,先收集数据,然后担心你将如何使用它。

有了数据仓库,你必须先奠定了数据架构,然后才可以开始在数据本身铺设。“这基本上意味着你必须事先知道你正在寻找什么。”MapR营销副总裁JackNorris说。因此,“你是在平面化数据,并且失去一些粒度。”他说,“后来,如果你改变了主意,还是希望做一个历史分析,你已经限制了你自己。”

“你可以使用一个大数据仓库作为数据的倾倒场所,并在上面运行分析,接着发现数据间的关系。”Norris说。许多组织可能在他们过滤完数据之前不知道他们在寻找什么。“所以这种‘自由’是件大事。”他说。

5大数据不仅仅是关于Hadoop的

当人们谈论大数据,大多数时间他们指的是Hadoop数据分析平台。Kobielus指出在许多组织中“Hadoop是一个热门的倡议,预算和人都分配给它。”然而,归根结底,你可能会使用其他软件

最近,法律研究巨头LexusNexus公司对大数据分析没有懈怠,将其自身的分析平台HPCC系统进行开源。MarkLogic还配备了自己的非结构化数据的数据库——theMarkLogicServer,用于大数据风格的工作。另一个获得青睐的工具是Splunk的搜索引擎,它可以用于搜索和分析机器产生的数据,比如从服务器产生的日志文件。“不管你从日志中可以提取什么数据,Splunk可以提供帮助。”Monash研究的CurtMonash指出。

责编:罗信
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map