经验之谈之Hadoop的优势及应用

来源：企业网D1net

2013/11/29 17:00:52

大数据的流行让Hadoop在大数据处理人员中也得到了广泛应用，那么Hadoop对于大数据有哪些优势呢?又如何解决其中遇到的问题呢?

企业网D1Net导语：大数据的流行让Hadoop在大数据处理人员中也得到了广泛应用，那么Hadoop对于大数据有哪些优势呢？又如何解决其中遇到的问题呢？

在当今的技术领域，大数据是个热门的IT流行词语。为了减轻处理大量数据时的复杂度，Apache开发了Hadoop——一个可靠的、可扩展的分布式计算框架。Hadoop特别适合大数据处理任务，并且它可以利用其分布式的文件系统，可靠并且低成本的将数据块复制到集群中的节点上去，从而使数据能在本地机器上进行处理。Anoop Kumar从十个方面讲解了利用Hadoop处理大数据所需要的技巧。

对于从HDFS中导入/导出数据方面，Anoop指出，在Hadoop的世界中，数据可以从多种不同的来源中被导入到Hadoop分布式文件系统中(HDFS)。在向HDFS中导入数据后，将通过用MapReduce或者其他语言比如Hive、Pig等来对数据进行某一层次的处理。

Hadoop系统不仅提供了处理大量数据的灵活性，并且同时也可以对数据进行过滤和聚合等处理，并且被处理转换过的数据可以导出到外部数据库或者其他使用Sqoop的数据库中。从My SQL、SQL Server或者MongoDB等其他数据库中导出数据也是一个强大的功能。这样的益处是可以更好的控制数据。

第二个方面是HDFS中的数据压缩，Hadoop中的数据存储在HDFS上，并且支持数据的压缩与解压缩。数据压缩可以通过一些压缩算法来实现，例如bzip2、gzip、LZO等。不同的算法可以根据其功能在不同的情况下使用，比如压缩/解压缩的速度或者文件分割的能力等。

在Hadoop的转换方面，Hadoop是一个用于提取和转换大量数据的理想环境。同时，Hadoop提供了一个可扩展、可靠的并且分布式的处理环境。通过使用MapReduce、Hive和Pig等，可以用很多种方式来提取并转换数据。

一旦输入数据被导入或放置到HDFS中，之后Hadoop集群可以被用于并行转换大型数据集。正如刚才提到的，数据转换可以通过可用工具来实现。例如，如果你想把数据转换为一个被制表符分开的文件，那么MapReduce则是最好的工具之一。同理，Hive和Python可以被用于清理和转换地理事件的数据资料。

对于如何实现通用的任务，Anoop介绍说，有很多通用的任务需要在数据的日常处理中被完成，并且其使用频率是很高的。一些如Hive、Pig和MapReduce等可用的语言可以协助你完成这些任务，并使你的生活更加轻松。

有时候一个任务可以通过多种方式来实现。在这种情况下开发人员或者架构师得做出正确的决定，从而实施最正确的方案。例如，Hive和Pig提供了数据流和查询之间的一个抽象层，并且提供了它们编译产生的MapReduc工作流。MapReduce的功能可以用于扩展查询。Hive可以用Hive QL(像SQL一样的说明性语言)来建立并且分析数据。并且，可以通过在Pig Latin中写入操作来利用Pig语言。

在Hadoop组合大量数据，一般情况下，为了得到最终的结果，数据需要加入多个数据集一起被处理和联合。Hadoop中有很多方法可以加入多个数据集。MapReduce提供了Map端和Reduce端的数据连接。这些连接是非平凡的连接，并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接，合并连接和倾斜连接(skewed join)，并且Hive提供了map端的连接和完整外部连接来分析数据。一个重要的事实是，通过使用各种工具，比如MapReduce、Pig和Hive等，数据可以基于它们的内置功能和实际需求来使用它们。

责编：郑雄

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

经验之谈之Hadoop的优势及应用

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。