|
Hadoop 从小象到巨人的崛起九年的长跑,Hadoop已从初出茅庐的小象变成了行业巨人,但仍需继续完善。 Hadoop还是可伸缩的,能够处理PB级数据。由于批量处理功能,Hadoop最好部署在这些场合:索引编制、模式识别、推荐引擎建立和情绪分析。在所有这些场合下,数据大量生成,存储在Hadoop中,然后最终使用MapReduce函数来进行查询。但是这并不意味着,Hadoop会取代数据中心里面目前的组件。恰恰相反,Hadoop会集成到现有的IT基础设施里面,以便充分利用进入到该企业的海量数据。 曾听过这样一则案例:Hadoop集成到一家企业网站后,情况较之先前大有改观:大大节省了时间和精力。来自Web服务器的日志数据不用经历ETL操作,而是直接被完整地发送到了Hadoop里面的HDFS。然后,对日志数据执行同样的清理过程,现在只使用MapReduce任务,一旦数据清理完毕,随后被发送到数据仓库。这个操作要迅速得多,这归因于省去了ETL这一步,加上MapReduce操作速度快。而且,所有数据仍然保存在Hadoop里面,网站操作人员后续所需数据都可以查询到。 开源的典范 Hadoop依赖于社区服务器,任何人都可以自由的下载、安装并运行。由于它是一个开源项目,所以没有软件成本,这使得它成为一种非常吸引人的解决方案。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。 Hadoop称得上开源创新领域的杰出典范。思科的James Urquhart曾经这样说过:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功”。尽管里程碑不只这么一个,但能够以这样的规模将成功果实迅速扩展的例子还真不多见。 虽然大量的行业用户开始学习Hadoop的技术架构,但在真实的生产环境中,依然显得相当谨慎,很大一部分也是因为开源。Google虽然公开了MapReduce论文,但底层的GFS、BigTable等技术都不是开源的,因为这是互联网的核心竞争力。很多企业的确想用这个技术,但是技术门槛比较高,前期投入非常之大。一旦进入维护和开发阶段,Hadoop的真实成本就会凸显出来。 群体的智慧 Hadoop作为海量数据分析的最佳解决方案,已经受到众多IT厂商的关注,并由此而锤炼出风格迥异的Hadoop发行版以及支持Hadoop的产品。 例如,IBM在Hadoop系统领域的代表产品InfoSphere BigInsights,它是基于开源Apache Hadoop框架实现,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的数据分析、机器学习技术以及文本数据分析挖掘;IBM在流计算领域的代表产品是 InfoSphere Streams,是目前业界独有的流数据处理技术。Streams能够在对诸如气象信息、通讯信息、金融交易数据的管理中动态捕捉信息、进行实时分析,能够对静态数据的处理提供有效补充;在数据仓库方面是InfoSphere Warehouse和etezza。Netezza克服了传统数据仓库在面临大数据挑战时的瓶颈,可以将大量数据整合到统一的平台上,计算能力高达TB级。 结语 Hadoop目前已经取得了非常骄人的业绩。随着互联网的发展,新的业务模式正在不断涌现,Hadoop的应用也正逐渐从互联网向电信、银行、医疗、教育等领域拓展。在不久的将来,Hadoop必然会在更多的领域中继续扮演“幕后英雄”,并带来更多的惊喜。 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|