当前位置：首页> 存储> 大数据> 正文

大数据新选择 Impala取代MapReduce

来源： ZDNet

2012/11/8 9:55:24

大中小

继广泛的部署Hadoop分布后，Cloudera公司最近在纽约市举行的Strata + Hadoop World做了一件令人惊讶的事情。

分享到：新浪微博腾讯微博

本文关键字：大数据 Hadoop Impala MapReduce

继广泛的部署Hadoop分布后，Cloudera公司最近在纽约市举行的Strata + Hadoop World做了一件令人惊讶的事情。没有召唤“老派”的数据库和BI专业人员(即大部分的企业开发人员和DBA人员)转移到Hadoop，而是它公布了一个新产品的测试版Impala。Impala是包括Apache Hadoop在内的Cloudera分布(CDH)4.1的一部分，是一个在Hadoop集群上运行的本地SQL查询引擎，提供原始HDFS数据和HBase数据库的简单查询访问。

以批量化为中心的假设已经破灭，MapReduce的处理必须使用大数据查询的公司，可以说是Hadoop的最坚定倡导者。企业技能集的概念已经过时，而且已经一去不复返了，现在命令行是主流。SQL、BI工具和报告是现在的主要大数据技术应用。Cloudera仅仅只是冲击了你的想法吗?

似曾相识?

也许你对此持怀疑态度。毕竟，随着Hadoop发展的一阵时间，Hive提供了一个SQL查询的抽象概念和BI工具的兼容性，那么，为什么Impala有重要的意义呢?事实上,这也是Cloudera的困扰。

Cloudera公司的CEO Mike Olson ，告诉了我关于Impala的技术细节。以下是详细内容：虽然Impal实际上是Hive和ODBC驱动程序的API兼容，但它仍然是一个完全不同的“野兽”。就像其它的Hadoop任务一样，Hive仅仅将SQL查询转换/编译转换为基于Java的MapReduce代码，然后在批处理模式下运行，并在MapReduce里增加了一个步骤，就是用Impala取代 MapReduce。

纯粹的SQL

Impala是一种在Hadoop集群上运行的本地、分布式SQL查询引擎，并取代了Hadoop的MapReduce引擎。你仍然可以得到Hadoop的分布式文件系统。你仍然可以得到其物理的分布式体系结构。你仍然有可能获得局域数据，因为分布在各节点的数据并没有改变，唯一改变的是查询方式。

BI工具来袭

不管Impala的创新程度如何，其生态系统已经建立了。近日，我采访了Pentaho公司共同创始人Rich Daley，和它的业务发展EVP Eddie White。他们告诉我，Pentaho已经与Cloudera紧密合作，以确保Pentaho的商业智能工具可以利用Impala完美地工作。

Pentaho公司向我展示了他们运行在Impala上的工具，并与Hive进行了并行比较。在演示中，通过一个Pentaho的报告工具，同时在Hive命令行和在Impala上运行一个特定的SQL查询。总裁为我演示了如何从Impala获得数据，进行了一系列的报告和数据可视化任务，并给我创建了一份完整的报告。当他完成时，Hive版本的查询(运行在同一个集群的相同的数据)仍在运行。

责编：毋小艺

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据新选择 Impala取代MapReduce

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。