|
甲骨文骑上Cloudera的大数据大象
当甲骨文联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance,甲骨文公司给人的印象,这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。
当甲骨文联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance,甲骨文公司给人的印象,这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。 事实上,甲骨文公司最近透露他们开始出货Hadoop堆栈(以“在喂饱的大象之后”的名字命名),他们实际上已经签署了一项与Cloudera的OEM协议 - 第一和迄今最大的商业的Hadoop disties - 大数据设备的mapper和reducer。具体来说,Big Data Appliance将包括来自Cloudera的CDH3累积版本的Hadoop,附加他们的Cloudera Manager 3.7,早在2011年12月推出的一个控件。 由于Oracle使用CDH3作为其核心的Hadoop,客户不会只限于使用甲骨文自己的NoSQL数据库核心价值存储,这是基于其收购的BerkeleyDB。这以前,去年秋天在甲骨文OpenWorld宣传中谈到Big Data Appliance时,它是唯一的数据存储。数据仓库技术的副总裁Cetin Ozbutun,告诉我们大数据设备的客户将能够将数据存储在Hadoop分布式文件系统(HDFS)作为Apache Hadoop堆栈的一部分,如果他们不想来运行Oracle的NoSQL,在Oracle的企业级Linux,他们的RHEL重新执行版本上。而且,因为CDH3还包括了HBase - 在列导向的对HDFS的附加,是以谷歌的BigTable数据存储为蓝本 - 甲骨文的客户会也将能够使用HBase,如果他们的应用程序可以比在原始HDFS或甲骨文的NoSQL数据库运行得更好。大数据设备使用了Oracle社区版NoSQL数据存储和运行在Oracle Enterprise Linux之上的HotSpot Java虚拟机 。 甲骨文可以抓取的Apache Hadoop的代码,并推出自己的发行版,这很像他们已经获得了红帽企业Linux并成为其分支,来针对自己的硬件和软件堆栈调优,同时保持与RHEL兼容。Ozbutun说,甲骨文进行了评估这种替代以及其它来自Hortonworks和MapR的Hadoop发行版。Hortonworks从雅虎团队分拆,曾经在搜索引擎巨头的内部支持Hadoop,MapR是Hadoop的商业化,其软件OEM给EMC的Greenplum的数据设备部门。 “我们也考虑了很多不同的选择,但我们认为最好是与Cloudera的合作”Ozbutun解释说。“Cloudera显然是在这一领域的领导者,我们在其他领域的专业知识是相辅相成的。” 当然,甲骨文曾经是红帽的合作伙伴,然后出售红帽支持的一个克隆(版本),然后决定做自己的发布和控制所有的钞票和代码。有可能的是,从长远来看,甲骨文将购买Cloudera,购买其他的发行版,或推出自己的。 Hadoop太重要了,恰好对于Oracle没有自己的这一块来说,就这么简单。 不只是简单的混搭 关于Big Data Appliance(大数据设备)重要的是,这是一个精心设计的系统,不只是一个混搭甲骨文和Cloudera的软件。Ozbutun说,甲骨文公司已经花了几个月微调底层的硬件配置,来运行大数据的算法、他们的各种数据存储和插件,让Oracle数据库和Hadoop的数据存储共享信息。 Big Data Appliance是18个Sun Fire x86服务器节点的机架。每个节点有两个运行在3.06GHz的六核心Xeon X5675处理器。服务器最高支持144GB的内存,但这个特定的配置有48GB主内存(或者说每核心4GB)。该服务器有一个磁盘控制器,带有512MB电池后备的Cache存储器和十二块3TB的7.2K RPMSAS磁盘(3.5寸,每CPU核心对应一个)。这些服务器有两个40Gb/sec InfiniBand端口和4个千兆以太网端口。机架有两个InfiniBand交换机,它们有32个QDR InfiniBand端口和8个万??兆以太网端口,以及另一个平常普通的36端口QDR InfiniBand交换机。(甲骨文是芯片和交换机制造商Mellanox Technologies公司的少数股份持有者,并在其自己的交换机使用Mellonox的芯片。)在机架上还有另外一个以太网交换机,为Hadoop节点提供一个单独的管理网络。 Ozbutun说,关于Exadata数据库集群、Exalogic中间件集群和现在的大数据设备,主要的是不要再思考在CPU上的处理能力,并开始关注系统I/O和网络带宽的正确组合。许多客户的CPU超额配置而在网络和I/O方面配备不足。这意味着他们花了很多钱在硬件上,将不利于Hadoop的良好运行。甲骨文公司已经花了几个月来配置和调优这个系统,并确保机架内没有不需要的东西,这是因为 - 就像其他高性能计算客户那样 - Hadoop的购买者也是吝啬的。 这种大数据设备包括一个CDH3的终身OEM许可证和甲骨文核心软件许可证,每机架的成本45万美元。这是大大低于昂贵的完全配置Exadata机架 - 其中包括数据库服务器、Exadata存储阵列,以及Oracle 11g R2数据库和Real Application clusters(RAC,真正应用集群)扩展,这将在一个96核心的Exadata X2-2上花费你447万美元(标价)。硬件成本在这里是110万美元,只是作为一个比较。 衔接起来 除了大数据设备,甲骨文也推出了一套连接器连接Oracle数据库到Hadoop的数据存储。这些暗示在甲骨文去年十月的幻灯片后面,但没有任何更多的详细讨论。 首先是Oracle Loader(加载器)for Hadoop,它移动数据从Oracle 11g R2数据库到Hadoop的数据存储。有很多方法来处理这个事情,但Ozbutun说这个连接器的设计是独一无二的,于是大部分的数据分区、转换,和其它工作由Hadoop集群来做,而不是用机器(或者一组机器)运行Oracle数据库。 第二个连接器是Oracle Data Integrator(数据集成器)for Hadoop,现有数据集成工具的一种转变,可自动生成的MapReduce代码处理数据,并把数据集呈现给Oracle数据库。 第三个连接器被称为Direct Connection(直接连接)for HDFS,这实质上是将HDFS文件系统的一部分map和reduce数据作为Oracle数据库表来查看。最后,第四个连接器称为R Connector for Hadoop。有了这个,甲骨文确实已经采取开源的R统计分析软件包,并添加优化的数学库链接到Big Data Appliance堆栈中的各种数据存储。此连接器不是基于来自Revolution Analytics的Hadoop友好的R工具。
责编:杨雪姣
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|