大数据成本会迅速攀升

来源: 互联网
2012/9/10 10:00:23
对于大数据市场的好消息是,我们一般都同意大数据的定义,也就是众所周知的 volume、velocity 、variety 和企业需要收集、存储、管理和分析以获取商业上的value,被归纳为“4V”。但你一旦开始探究旁边的"V"所代表的真正价值时,你会发现这个定义过于广泛,它对于不同的人意味着不同的事。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 存储

当你开始你的的大数据旅程或项目时,一定要弄清楚究竟是什么业务需要。

对于大数据市场的好消息是,我们一般都同意大数据的定义,也就是众所周知的 volume、velocity 、variety 和企业需要收集、存储、管理和分析以获取商业上的value,被归纳为“4V”。但你一旦开始探究旁边的"V"所代表的真正价值时,你会发现这个定义过于广泛,它对于不同的人意味着不同的事。说实话,对于不同企业容量也意味着不同。对于有些人来说,是在他们的BI环境中超过10 TB的管理数据,对于其他人来说可能是PB级别。数十亿的日常记录以同样的速率通过各种外部和内部网络进入企业。当它真的发生的时候,每个企业的情况会有很大的不同,不仅从规模和速度的角度,更重要的是从业务需求方面来看。一家大型银行大数据问题跟一个在线零售商或者航空公司可能是非常不同的。如果把公用事业提供商运行的智能电网或电信运营商和一家医院正在试图收集分析的所有患者的传感器数据对比一下,真的,你可以把它们都归类为机器生成的原始数据,但确切的数据类型可能是不同的,更不用说容量或者增长率。大概在上述所有行业中,一个独特的共同点是都会保留较长时间数据周期的数据,没有人把它扔了----甚至没有详细的数据。

许多成本要考虑的因素

取决于IT预算分配的分配不同,成本也会有所不同。但无论该公司如何分配IT预算,新的大数据举措都是需要考虑的。让我们面对现实吧,企业不会因为新的IT资产或系列产品而增加预算,当前世界经济形势也不建议如此。更可能的是现有预算重新被分配,而不是花费更多。现有的传统数据仓库或者装置资金被分配到新的项目上运行新的开源项目,其中包括Apache的Hadoop。它易于规模且成本低,更明显的是有最好的方法来管理和分析结构化的数据集。然后出现的困难是你怎么整合或让你的Hadoop环境与建立的BI及DW环境并存。

充分利用你已经拥有的

让我们假设如今你有一个数据仓库或数据集,你已经在使用各种ETL或数据移动工具、BI仪表板、分析或报告工具,你不希望扰乱企业用户不仅影响性能水平,但也有了一套新的工具,事实上,你可能已经依赖于各种业务报表和KPI严格的SLA响应时间。然而,业务同时要求访问新的数据集以搜集更好的见解,也可以直接分析这些数据或将它与现有客户数据混合。这可能采取网络日志、点击流数据及各种互动网站跟踪得来的社交媒体数据形式。只是无法避免影响利润率和获得竞争优势的承诺。

大数据是大企业,但也有严格的要求

众所周知,传统的关系型或柱状数据库不能处理非结构化数据类型,它需要推出一个不同的解决方案以满足业务需求。 评估可以采取多种形式,但通常从Hadoop发行版开始,除了MapReduce之外,还有NoSQL或NewSQL数据库查询访问工具。这当然是不容易的事,因为有大量的技术解决方案目前在市场上的声称上能运行或使用Hadoop提供的MapReduce和SQL类似的功能。它提供所有满足需求管理卷的非结构化数据。一些比别的更成熟,一些行之有效,但不都是低成本的。开放源码表面上看起来,一旦成本非常低,一旦你需要任何级别的支持,让我们面对现实吧,一旦它依赖关键业务环境,你将需要在预算上分配一条业务线。大数据的业务线不会只有一条,因为它需要包括所需的所有组件去适当的展示大数据解决方案并切实满足业务需求。就像其他IT环境明显的组件将包括:软件授权和支持、硬件、技术专用资源、专业服务和培训,企业用户提供专门的时间在关键的要求(指定类型的报表,查询和分析)上。随着时间的推移,这自然也会发生变化。

大数据成本会迅速攀升

从硬件所需开支方面管理新的大数据集,你可能会开始使用Hadoop集群是10个节点,这当然是可管理的,但如果你的数据速度是相当数量的,可以迅速达到100个以上的节点,现在你将面临诸多其他费用包括额外的员工和技术资源管理环境,潜在的软件等。你可能还需要一个商业工具提供的前端GUI仪表板追踪特定的关键绩效指标或者数据可视化工具好让企业用户可以很快明白是怎么回事。有关存储和硬件成本越来越少,围绕软件,专注于这个新数据集获得的最大价值。无可否认,大数据带来了巨大的新的机会,但在快速的时间内达到可量化的投资回报率的角度来说仍然是一个非常现实的挑战。每个人都在谈论大数据,所有的创新技术解决方法用于解决它,但仍然是很难找到任何一个行业内很多企业的成功案例。它仍然是相当不成熟,但好消息是,在当今它以比IT其他项目更快的速度发展,数据仓库和BI在过去二十年提供了经验教训。

责编:赵龙
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map