大数据大发展 Hadoop成为关键部件

来源: 网界网
2012/7/4 11:02:49
由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 Hadoop

由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。

如今,Apache的Hadoop技术在帮助企业管理海量数据的过程中变得越来越重要。包括NASA(美国国家航空航天局)、Twitter和Netflix等用户对这一开源分布式计算平台的依赖性越来越大。Hadoop作为一种处理大数据的机制已经获得了越来越多的支持。因为企业计算机系统中的数据量正在快速增长,企业开始尝试从这些海量数据中获取派生价值。由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。

Hadoop的使用现状

NASA希望Hadoop能够处理众多项目中的庞大数据,例如SKA(平方千米阵列)星空图像。这些图像在未来十年内的生成速度将达到700TB/秒。NASA的高级计算机专家Chris Mattmann表示,包括Hadoop在内的数据系统和Apache OODT(面向对象的数据技术)等技术将用于应对这些海量数据负载。

Twitter的数据专家Oscar Boykin说:“Twitter是Hadoop的大客户。所有向用户提供定制化推荐的相关产品都在一定程度上与Hadoop进行着互动。”这家公司使用Hadoop的时间已经有四年了,并且研发了Scalding。Scalding是一款Scala库,旨在让编写Hadoop MapReduce的工作变得更加容易。该产品建立在Cascading Java库的顶层,这样做的目的是对Hadoop的复杂性进行概括。

Hadoop的子项目包括MapReduce、HDFS(Hadoop分布式文件系统)和Common。MapReduce是用于处理计算集群上大型数据集的软件框架,HDFS提供了对应用数据的高速访问,Common则为支持其他Hadoop子项目提供了一些实用工具。

电影租赁服务商Netflix已经开始使用用于配置管理的Hadoop相关技术——Apache ZooKeeper。Netflix的高级平台工程师Jordan Zimmerman说:“我们在分布式锁、部分队列排列和领导人选举等所有类型的工作中都使用了这种技术,以优化服务活动。我们针对ZooKeeper开发了一个开源客户端,我们称其为Curator。这个客户端作为一个开发者库与ZooKeeper相连。”

Tagged的高级数据工程师Rich McKinley则表示,Tagged社交网络正在使用Hadoop技术用于数据分析,处理每天所生成的接近0.5个太字节的新数据。Hadoop还正在 被用于Greenplum数据库容量之外的任务中。目前Tagged仍然在使用Greenplum数据库。McKinley说:“我们希望仅通过扩展让 Hadoop做更多的工作。”

尽管大家都在称赞Hadoop,但是部分用户认为仍然有一些问题需要解决。比方说,Hadoop在可靠性和工作追踪上的不足。Tagged的 McKinley指出了Hadoop在延时上存在的问题。“获得数据的时间应该非常快,然而每个人最大的抱怨就是它进行查询时的延迟太高。” McKinley说。Tagged目前正在使用另一个Hadoop派生项目Apache Hive进行查询。他说:“Hadoop需要花上数分钟才能给出结果,而Greenplum给出结果只需要几秒钟。但是与Greenplum相 比,Hadoop更加便宜。”

Hadoop 2.0蓄势待发

Hadoop 1.0在2011年被推出,其拥有通过Kerberos(麻省理工学院开发的安全认证系统)的高强度安全认证,支持HBase数据库。对于即将推出的新版本,HortonWorks的CTO Eric Baldeschwieler提供了一个包括2.0版本在内的Hadoop技术发展路线图。(HortonWorks公司是Apache Hadoop的主要资助者之一)。

Hadoop 2.0版本在2012年年初进入测试阶段。Baldeschwieler表示:“在这一版本中,MapReduce层进行了部分重写,所有的存储逻辑和 HDFS均进行了彻底重写。”Hadoop 2.0技术改进的重点放在了利用Yarn(下一代MapReduce)和众多功能进行扩展与创新方面。Yarn将允许用户添加自己的计算模型,这样一来, 用户就不用必须使用MapReduce了。“我们希望,社区能够发现更多使用Hadoop的新方法,期待的用法包括实时应用和机器学习算法。而可扩展性、 插接式存储也在规划之中。”Baldeschwieler说。据悉,Hadoop 2.0的公布发行版本预计将在2012年年内推出。

责编:赵龙
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map