|
Hadoop发行版厂商星环发布TPC-DS评测结果大数据基础技术领域中Hadoop的地位已获得广泛认同,但目前国内外市场上的Hadoop版本也是林林总总,到底该参照什么标准来考评Hadoop,尤其是给企业应用的Hadoop发行版平台呢? 稳定性比较 上图是整个测试过程中出现的Out Of Memory次数的比较。Cloudera Impala是基于内存的计算模式,内部采用thrift作用通信协议,所以只要网络或者内存有波动就比较容易出现错误,由于没有相应的容错设计,整个测试的稳定性表现比较差。在测试过程中,部分SQL(如query3,19,42等)一共有10次跑出Out Of Memory的错误,我们每次遇到这种问题后都会重启Impala来完成测试,否则会重复的遇到这个问题。因此,Cloudera Impala的测试过程中有大量的手工动作。 相比较而言,Transwarp Inceptor也是基于内存的计算,但是支持数据可动态地从内存换入换出到磁盘,能够有效的容错等内存使用量超大的计算场景,尤其是在有大量数据倾斜状况(data skew)的场景。另外大量的数据shuffle都是通过HDFS完成的,因此可以确保正确性和容错能力。由于出色的健壮性和容错性,Transwarp Inceptor整个测试计划全部是自动完成的。 性能比较 下图是所有的测试集合的性能对比图。图中纵坐标小于1表述测试案例中Cloudera Impala 性能超过Transwarp Inceptor,而大于1则表示Transwarp Inceptor有更好的性能表现。对于Cloudera Impala不能支持的SQL,我们就标记这个性能比为100。 从图中可见,在Cloudera Impala支持的20个SQL中,有11个SQL的表现超过Transwarp Inceptor,2个表现相当,另外7个Transwarp Inceptor比Cloudera Impala表现的更好。 由于Cloudera Impala的测试案例中手工的给事实表添加了partition key的过滤条件,因此能够有效过滤大量数据,实际参与计算的数据量比Transwarp Inceptor要少,所以在这些相关的案例中Cloudera Impala得以表现良好。另外一些SQL逻辑非常简单的案例中Cloudera Impala的表现也比较好,这个则要归功于Cloudera Impala使用C++代码开发,相对来说执行效率超过Transwarp Inceptor的Java语言。除此之外的其他案例中,如逻辑复杂的SQL、或大量数据参与实际计算、或窗口统计等情况中,Transwarp Inceptor无论从稳定性还是性能上表现都更为超越。 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|