甲骨文骑上Cloudera的大数据大象

来源：比特网作者：huangliang编译

2012/1/13 17:53:43

当甲骨文联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance，甲骨文公司给人的印象，这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。

分享到：新浪微博腾讯微博

本文关键字：甲骨文 Cloudera 大数据

事实上，甲骨文公司最近透露他们开始出货Hadoop堆栈(以“在喂饱的大象之后”的名字命名)，他们实际上已经签署了一项与Cloudera的OEM协议 - 第一和迄今最大的商业的Hadoop disties - 大数据设备的mapper和reducer。具体来说，Big Data Appliance将包括来自Cloudera的CDH3累积版本的Hadoop，附加他们的Cloudera Manager 3.7，早在2011年12月推出的一个控件。

由于Oracle使用CDH3作为其核心的Hadoop，客户不会只限于使用甲骨文自己的NoSQL数据库核心价值存储，这是基于其收购的BerkeleyDB。这以前，去年秋天在甲骨文OpenWorld宣传中谈到Big Data Appliance时，它是唯一的数据存储。数据仓库技术的副总裁Cetin Ozbutun，告诉我们大数据设备的客户将能够将数据存储在Hadoop分布式文件系统(HDFS)作为Apache Hadoop堆栈的一部分，如果他们不想来运行Oracle的NoSQL，在Oracle的企业级Linux，他们的RHEL重新执行版本上。而且，因为CDH3还包括了HBase - 在列导向的对HDFS的附加，是以谷歌的BigTable数据存储为蓝本 - 甲骨文的客户会也将能够使用HBase，如果他们的应用程序可以比在原始HDFS或甲骨文的NoSQL数据库运行得更好。大数据设备使用了Oracle社区版NoSQL数据存储和运行在Oracle Enterprise Linux之上的HotSpot Java虚拟机。

甲骨文可以抓取的Apache Hadoop的代码，并推出自己的发行版，这很像他们已经获得了红帽企业Linux并成为其分支，来针对自己的硬件和软件堆栈调优，同时保持与RHEL兼容。Ozbutun说，甲骨文进行了评估这种替代以及其它来自Hortonworks和MapR的Hadoop发行版。Hortonworks从雅虎团队分拆，曾经在搜索引擎巨头的内部支持Hadoop，MapR是Hadoop的商业化，其软件OEM给EMC的Greenplum的数据设备部门。

“我们也考虑了很多不同的选择，但我们认为最好是与Cloudera的合作”Ozbutun解释说。“Cloudera显然是在这一领域的领导者，我们在其他领域的专业知识是相辅相成的。”

当然，甲骨文曾经是红帽的合作伙伴，然后出售红帽支持的一个克隆(版本)，然后决定做自己的发布和控制所有的钞票和代码。有可能的是，从长远来看，甲骨文将购买Cloudera，购买其他的发行版，或推出自己的。 Hadoop太重要了，恰好对于Oracle没有自己的这一块来说，就这么简单。

不只是简单的混搭

关于Big Data Appliance(大数据设备)重要的是，这是一个精心设计的系统，不只是一个混搭甲骨文和Cloudera的软件。Ozbutun说，甲骨文公司已经花了几个月微调底层的硬件配置，来运行大数据的算法、他们的各种数据存储和插件，让Oracle数据库和Hadoop的数据存储共享信息。

Big Data Appliance是18个Sun Fire x86服务器节点的机架。每个节点有两个运行在3.06GHz的六核心Xeon X5675处理器。服务器最高支持144GB的内存，但这个特定的配置有48GB主内存(或者说每核心4GB)。该服务器有一个磁盘控制器，带有512MB电池后备的Cache存储器和十二块3TB的7.2K RPM SAS磁盘(3.5寸，每CPU核心对应一个)。这些服务器有两个40Gb/sec InfiniBand端口和4个千兆以太网端口。机架有两个InfiniBand交换机，它们有32个QDR InfiniBand端口和8个万？？兆以太网端口，以及另一个平常普通的36端口QDR InfiniBand交换机。(甲骨文是芯片和交换机制造商Mellanox Technologies公司的少数股份持有者，并在其自己的交换机使用Mellonox的芯片。)在机架上还有另外一个以太网交换机，为Hadoop节点提供一个单独的管理网络。

Ozbutun说，关于Exadata数据库集群、Exalogic中间件集群和现在的大数据设备，主要的是不要再思考在CPU上的处理能力，并开始关注系统I/O和网络带宽的正确组合。许多客户的CPU超额配置而在网络和I/O方面配备不足。这意味着他们花了很多钱在硬件上，将不利于Hadoop的良好运行。甲骨文公司已经花了几个月来配置和调优这个系统，并确保机架内没有不需要的东西，这是因为 - 就像其他高性能计算客户那样 - Hadoop的购买者也是吝啬的。

这种大数据设备包括一个CDH3的终身OEM许可证和甲骨文核心软件许可证，每机架的成本45万美元。这是大大低于昂贵的完全配置Exadata机架 - 其中包括数据库服务器、Exadata存储阵列，以及Oracle 11g R2数据库和Real Application clusters(RAC，真正应用集群)扩展，这将在一个96核心的Exadata X2-2上花费你447万美元(标价)。硬件成本在这里是110万美元，只是作为一个比较。

衔接起来

除了大数据设备，甲骨文也推出了一套连接器连接Oracle数据库到Hadoop的数据存储。这些暗示在甲骨文去年十月的幻灯片后面，但没有任何更多的详细讨论。

首先是Oracle Loader(加载器)for Hadoop，它移动数据从Oracle 11g R2数据库到Hadoop的数据存储。有很多方法来处理这个事情，但Ozbutun说这个连接器的设计是独一无二的，于是大部分的数据分区、转换，和其它工作由Hadoop集群来做，而不是用机器(或者一组机器)运行Oracle数据库。

第二个连接器是Oracle Data Integrator(数据集成器)for Hadoop，现有数据集成工具的一种转变，可自动生成的MapReduce代码处理数据，并把数据集呈现给Oracle数据库。

第三个连接器被称为Direct Connection(直接连接)for HDFS，这实质上是将HDFS文件系统的一部分map和reduce数据作为Oracle数据库表来查看。最后，第四个连接器称为R Connector for Hadoop。有了这个，甲骨文确实已经采取开源的R统计分析软件包，并添加优化的数学库链接到Big Data Appliance堆栈中的各种数据存储。此连接器不是基于来自Revolution Analytics的Hadoop友好的R工具。

责编：杨雪姣

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

甲骨文骑上Cloudera的大数据大象

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。