|
Hadoop发行版厂商星环发布TPC-DS评测结果大数据基础技术领域中Hadoop的地位已获得广泛认同,但目前国内外市场上的Hadoop版本也是林林总总,到底该参照什么标准来考评Hadoop,尤其是给企业应用的Hadoop发行版平台呢? 引言 大数据基础技术领域中Hadoop的地位已获得广泛认同,但目前国内外市场上的Hadoop版本也是林林总总,到底该参照什么标准来考评Hadoop,尤其是给企业应用的Hadoop发行版平台呢? 大家可能都听说过TPC – Transaction Processing Performance Council,它是一个非赢利的标准化组织。它定义了多组标准测试集用于客观地/可重现地评测数据库的性能。TPC中有个Decision Support(DS)子集,即TPC-DS,是用于评测决策支持系统(或数据仓库)的标准SQL测试集。这个测试集包含对大数据集的统计/报表生成/联机查询/数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。 TPC-DS的这个特点跟大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。随着国内外各代表性的Hadoop发行版厂商以TPC-DS为标准测评产品,TPC-DS也就逐渐成为了业界公认的Hadoop系统测试准则。这个基准测试有以下几个主要特点: ●一共99个测试案例,遵循SQL'99和SQL 2003的语法标准,SQL案例比较复杂 ●分析的数据量大,并且测试案例是在回答真实的商业问题 ●测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等) ●几乎所有的测试案例都有很高的IO负载和CPU计算需求 这个基准测试的完整信息请参考http://www.tpc.org/tpcds/。 为了使大家进一步了解星环Hadoop发行版的性能,我们选取了国外具代表性的厂商Cloudera及其产品(Cloudera Impala)做对比测试。 测试硬件环境 我们搭建了两个集群分别用于Transwarp Inceptor与Cloudera Impala的测试。每个集群采用4台普通两路x86服务器搭建,每台服务器硬件配置如下: 我们使用的操作系统是64位的CentOS 6.4,Linux Kernel版本号为2.6.32。Transwarp Inceptor集群部署了Transwarp Data Hub (TDH) v3.4,包括基准的Hadoop 2.2以及Inceptor。系统配置方面,每台服务器的6块硬盘中有1块用于操作系统,其他5块硬盘用作HDFS。Hadoop的各种服务的配置如下: 相对应地,我们在Cloudera的集群中安装了CDH 5.1.3(包含Hadoop 2.3)以及Impala 1.4。 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|