Hadoop之父勾勒大数据平台未来

来源: 网界网
2012/11/12 10:15:43
“大数据不是炒作,也不是泡沫。Hadoop在未来将继续追随谷歌的脚步。”Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示。



分享到: 新浪微博 腾讯微博
本文关键字: Hadoop 大数据

“大数据不是炒作,也不是泡沫。Hadoop在未来将继续追随谷歌的脚步。”Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示。

作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架。有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理。事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:“相信Hadoop拥有一个超越批处理的未来。”

“批处理有其用武之地。例如,你需要移动大量数据并分析所有数据的时候。但我仍认为,人们真正想要的是批处理和在线计算的结合体。Hadoop将会成为企业未来主流数据处理系统的内核。” Cutting说。

Hadoop行至何处?

在刚刚结束的Strata Conference+Hadoop World会议上,Cutting解释了Hadoop堆栈的核心思想,以及其未来的发展方向。“Hadoop被看作是一个批处理计算引擎,事实上,这是我们开始的地方(结合MapReduce)。MapReduce是一个很棒的工具,目前市场上有很多关于如何在MapReduce上部署各种算法的书籍。”Cutting说。

MapReduce是一个编程模型,由谷歌公司设计,用于使用分布式计算批量并行处理海量数据。MapReduce得到一个输入,然后将其分成很多更小的子问题,这些问题被分配到不同节点来并行处理。然后,它们重新组合子问题的答案以形成输出。

“这是非常有效的,”Cutting表示,“它允许你把计算移向数据。这样一来,当你处理数据时就不需要到处复制数据,并且它还形成了一个共享平台。构建分布式系统是一个复杂的过程,所以我们不希望反反复复重新部署它。MapReduce被证明是一个坚实的基础,依托MapReduce开发出了很多工具,例如Pig和Hive。”

Hadoop关键特性

为了证明Hadoop大数据平台的通用性,Cutting描述了他所认为的Hadoop的两个核心主题。首先,Hadoop平台具有很好的可扩展性,不仅适用于存储在内存中的小数据集,还能够扩展到处理庞大的数据集。

“评估可扩展性的一个关键因素是经济承受能力。我们在通用硬件平台上运行是因为它允许你进一步地扩展。如果你可以购买10倍的存储量,那么就可以存储10倍的数据量。所以,经济承受能力是关键,这也是我们使用通用硬件的原因,因为它是最经济实惠的平台。”Cutting说。

Hadoop另一个关键特性在于开源。Cutting指出,开源软件是非常实惠的。开发者可以向供应商付费,但是为了他们所提供的价值而付费。开发者不需要年复一年地付费,随着时间的推移,供应商需要通过向你提供价值来赢得开发者的信任和信心。此外,对于Hadoop而言,用户可以以原始的形态保存数据,然后,当你使用数据时,再使用不同的模式。

大数据领域另一种流行的做法是,在通常情况下,与更聪明的算法相比,分析更多的数据能够帮助你更好地了解你的问题。也就是说,你应该花更多的时间来收集数据,而不是调整较小数据集所采用的算法。直观地说,这很像是具有更高分辨率的图像,如果你试图分析图片,你应该选择放大高分辨率图片,而不是低分辨率图像。

Cutting还指出,批处理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆栈的一部分,它已经成为非常成功的开源非关系型分布式数据库。HBase是一个在线计算系统,而不是批处理计算系统。

“HBase也支持批处理,它与HDFS以及Hadoop堆栈的其他组件共享存储。我认为这也是HBase如此受欢迎的原因之一。HBase被整合到系统的其他部分中,而不是成为一个独立的系统。它可以与堆栈的其他组件进行共享,可以对可用性、安全性和灾难恢复等特性进行共享。”Cutting解释说。

技术未来展望

如果Hadoop不仅仅是批处理计算平台,而是成为一个更为通用的数据处理平台,它将会变成什么样,它到底将走向何方?Cutting表示,我们当然希望拥有开源的大数据平台,并且能够在通用硬件上运行。同时,我们还希望它具有线性扩展能力,也就是说,如果你需要存储10倍数据,只需要购买10倍的硬件就可以了。无论你的数据集变得有多大,都可以采用这样的方式进行扩展。

性能方面同样是如此。对于批处理性能,如果你需要更大的批处理吞吐量或更小的延迟,你只需要增加硬件数量即可。而对于交互式查询,也是同样。增加硬件就能为你带来性能和数据处理量级方面的线性扩展。Cutting还表示:“人们通常会认为,采用大数据平台后,需要放弃某些东西。我不这样认为的。从长期来看,我们不需要放弃任何的功能。”

对于Hadoop未来的技术发展方向,Cutting表示谷歌已经给出了相关路线图。“谷歌发布GFS和MapReduce的论文后,我们很快地将其复制到Hadoop项目中。这些年以来,谷歌在很多方面激励着Hadoop开源堆栈。谷歌的Sawzall系统催生了Pig和Hive,而BigTable则直接启发了HBase。我很激动地看到,今年谷歌发表了名为Spanner的论文,其中介绍了在分布式数据库系统实现传输的机制。可能很多人都会认为这不会很快成为现实,但却为我们指明了前进的方向。”Cutting说。

Cutting指出,作为一项复杂技术,Spanner并不会很快成为Hadoop的一部分,但它确实明确了技术发展的方向。他同时还提到了Impala(Cloudera最新发布的数据库引擎),它可以使用SQL查询存储在HBase中的数据集。Impala将为用户带来交互式在线查询的新体验,它同样追随了谷歌的一些研究成果,已经发布了一段时间。Cutting认为,Impala将发展成为一个通用的技术平台。

“我们已经知晓前进方向,并且知道如何去实现目标。所以,我鼓励大家现在就开始使用Hadoop,因为在未来你将收获更多。”Cutting说。(邹铮编译)

责编:杨雪姣
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map