在GigaOM安排Structure: Data的日程的时候,就意识到很有必要讨论在Hadoop上运行SQL查询,然而却未认识到Hadoop上运行SQL查询竟然变的这么重要。本文是Gigaom的资深编辑Derrick Harris 撰写的一篇文章 ,编译如下:
其实,对SQL支持并不是Hadoop的最终目标,但是这一特性将会帮助Hadoop找寻自己的生存方式,让Hadoop在那些已经明白下一代分析的重要性但又不想迈向MapReduce专家之路的公司中取得一席之地。
当然,Facebook发起了整场运动 ——在2009年创造了Hive,它把类似数据库SQL查询功能引向了Hadoop。Hive现在已经是Apache的一个开源项目,包括数据管理层以及类SQL的结构化查询语言HiveQL。在过去的数年里,Hive的确是非常有用而且很流行,但是由于Hive对MapReduce依赖,查询速度有着“先天性不足”,因为在查询的过程中,MapReduce需要扫描整个数据集,而且在Job的处理过程中还需要把大量的数据传输到网络。对主流用户而言,难以有很大的吸引力。
请记住,下一代的SQL-on-Hadoop工具并不仅仅只是商业智能,也不是仅仅只能读取存储在Hadoop上数据的数据库产品, EMC Greenplum, HP Vertica,IBMNetezza, ParAccel, MicrosoftSQLServer以及Teradata/Aster Data全部都允许某些方式的Hadoop数据查询。而且这些是应用,框架以及可以让用户从内部进行Hadoop数据查询的引擎,有时候也会重构底层计算以及数据基础设施。这种方式的优点在于:可以利用已有存储形式的数据,从理论上讲,对数据的分析应用就不需要再访问两个独立的数据存储。
数据仓库和BI:The Structure: Data set
Apache Drill: Drill是由MapR主导、基于Hadoop之上的类似于谷歌的Demel(或者说BigQuery)交互式查询引擎。首次公布在8月份,不过该项目正处在开发阶段,也是Apache的孵化器计划,根据其网站所言:“(Drill)明确的目标就是扩展到10000台服务器,而且能够在几秒钟之内处理PB级的数据和数万亿条的记录。”
MapR的产品管理总监Tomer Shiran表示:“Drill与MapReduce相辅相成。在谷歌,数以千计的工程师每天都在使用Dremel和MapReduce,未来也将有着更多的人来使用Drill与MapReduce。 ”
Hadapt:Hadapt实际上在2011年的Structure: Data大会上发布,它也是第一批SQL-on-Hadoop的厂商之一,其独特之处在于,在市场上已经有了真正的产品,而且已经培育了自己的客户群。其独一无二的架构包括先进的SQL分析工具,为MapReduce以及相关任务打造的split-_execution引擎,也包含HDFS和相关的存储。
Hadapt提供了一体化的分析环境,旨在对Hadoop里面的数据执行分析操作,还能对SQL环境中传统的结构化数据进行分析。而Hadapt的平台设计成了可以在私有云或公共云环境上运行,提供了从一个环境就能访问所有数据的优点,所以除了MapReduce流程和大数据分析工具外,现有的基于SQL的工具也可以使用。Hadapt可以在Hadoop层和关系数据库层之间自动划分查询执行任务,提供了Hadapt所谓的优化环境,这种环境可以充分利用Hadoop的可扩展性和关系数据库技术的快速度。
Platfora:从技术来讲,这并不是一个SQL产品,Platfora现在是“红的发紫”,而且意图打造大数据商业智能(BI)的新蓝图。大家都知道,如何能够把冗杂的数据(不管是邮件、文档、音频等)进行有效处理、视觉化,让它变成普通的用户都能看得懂的东西,“数据”才能真正变得有价值。但是Hadpoop只有一小部分开发者(相对而言)在使用,而Platfora却想把它变成一个任何人都可以理解、使用的工具。虽然也有其他的创业者在做类似的事情,但是Platfora在数据处理速度上有明显的优势,同时非常直观,并且他们在用HTML5的canvas来做解决方案,既可以保证操作简便又能兼容不同设备上的数据,公司在10月份进行的产品发布。
Qubole:Qubole是一个建设云平台进行数据分析和处理的创业公司。联合创始人兼CEO是Ashishi Thusoo,在创办Qubole之前,Ashishi负责Facebook数据基础设施团队。在他的领导下,团队创造了世界上最大的数据分析与处理平台。他也是Apache Hive项目的联合创始人,并作为该项目的Apache软件基金会的创始副总裁。Qubole声称具有自动扩展能力,并且对Hadoop代码做过优化,高速的列数据缓存可以让其服务比单独运行Hive时要快很多。Qubole运行在AWS上,相对而言,这比维护一个物理集群要容易得多。
责编:孔维维
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友