|
谁是最佳的数据仓库提供商?谁是最佳的数据仓库提供商?这是任何希望建立数据仓库系统的企业都关心的问题。但如果要回答这个问题,却会难倒一大群专家。 让我们从以下几个方面来回答这个问题,希望能够让读者满意。 首先,谁是最佳的解决方案提供商,答案取决于你的需求。你最好先把自己的需求搞清楚,然后尽可能多地与那些宣称提供数据仓库解决方案的厂商联系,找出最能满足你需求的那个提供商。如果你并不清楚自己真正需要的是什么,情况会很糟,因为任何一家提供商都号称能提供“你真正想要的东西”。 其次,“解决方案”本身就是一个不太明确的概念,而且常常是由多家厂商的产品组合形成的。Oracle可以提供你所需要的数据库、ETL、查询报告工具、数据挖掘工具和咨询服务,但是不会提供所需的硬件平台。NCR和IBM则会提供数据仓库所需的所有软件、硬件和服务。另外,还有一些咨询机构可以帮助你把来自多个厂商的产品集成起来,形成完整的数据仓库解决方案,你甚至可以通过网站上的一些专家论坛来获得数据仓库技术及解决方案的支持。所以,你必须广泛地了解情况,慎重地做出选择。 最后,直截了当地说,如果你需要一个有能力提供完整数据仓库解决方案的厂商,从系统建模、分析、设计到工程实施,那么最著名的厂商有NCR、IBM、Oracle、CA和Sybase。如果说到能够提供数据仓库解决方案中的某些部分产品和服务,这个名单将会一眼望不到头。 既然有那么多可以为企业提供数据仓库解决方案的产品、技术和服务的机构,企业就必然会面临选择。对于任何人来说,选择既是一种权利,也是一种困惑。笔者没有妄想自己有这种能力来为企业答疑解惑,但是有机会接触了不少数据仓库提供商和专家,所以提出一点参考意见还是可能的。 考察一个数据仓库解决方案,数据容量和运行性能是首要的因素。而容量和性能这两个指标是密切相关的。一个数据仓库系统,在小数据量情况下都很容易获得很高的性能。但是随着数据容量的增加,是否还能够保持同样或差不多的性能,这就不容易了。所以,在大数据容量的前提下考察数据仓库的性能,这是一个首要的指标。在这方面,NCR/Teradata、IBM和Oracle都有出色的表现。尤其是NCR/Teradata就明确提出,不是TB级的数据量,就不能叫做数据仓库。这只是一家之言,因为从技术和应用的角度来看,数据仓库主要是指一种不同于数据库的数据组织和利用方式,它是以决策支持为目的的。虽然不能仅仅以数据量的大小来定义数据仓库,但这肯定在一个方面反映了数据仓库的特点和要求。 另一方面,数据仓库系统开发、实施、管理和使用的难易程度也是需要重点考察的因素。因为谁也不愿因为无法充分利用而面对一堆数据垃圾。从这个角度来看,企业在采用自己本来就比较熟悉的系统提供商所提供的数据仓库解决方案时,可能会感到一些便利。 产品一瞥 NCR/Teradata Teradata巧妙地将开放并行数据库技术、可伸缩的硬件、经验丰富的数据仓库顾问、一流的商业工具和应用结合在一起。近20年来,Teradata创造了许多数据仓库的传奇,例如著名的“尿布与啤酒”的故事。 Teradata数据库引擎的强大能力使它适用于不同行业的各种业务需求,有能力为交易密集型业务往来中的大容量复杂数据提供智能化支持,真正造就了以客户为中心的环境。 众所周知,Teradata的高性能数据库是成功的数据仓库基础架构。从小于10GB数据容量的数据仓库,到几十TB的数据容量和几万用户的大型数据仓库,都可基于Teradata来建立。 Teradata内在的并行性不仅使它成为业内占据主导地位的性能测试基准,而且降低了用户的整体拥有成本。用户利用Teradata的并行化的结构,可以很容易地处理极为关键的高级数据仓库进程。由于有了可升级性、自我管理和并行技术,用户使用Teradata建立数据仓库是一个很简单的过程。 Teradata数据库非凡的并行机制和服务器节点自动分配机制使它具有很好的可伸缩性,也使数据仓库可以适应呈指数增加的数据量和用户量,从而保护了企业的长期投资。 今年9月30日,Teradata发布了7.0版,对性能和功能做了全面提升,详细情况参见本期相关报道。 Oracle 9i 随着数据量的不断增加,企业在数据查询和分析上所花费的时间也越来越长。在时间就是商机的今天,这种状况显得越来越不协调。Oracle 9i的主要服务对象是需要建立大数据量数据仓库的企业。 Oracle 9i将ETL、RDBMS、OLAP和知识发现等数据仓库必需的4个过程集成到单一的数据库引擎中。传统的实现方式是用不同的引擎来处理上述4个不同的过程,各个引擎都有自己定义数据的语言和知识库,而且需要单独进行管理维护。这样,企业很可能需要4类不同的专门人员来管理这4个引擎。Oracle 9i使用单一的引擎来管理这4个过程,数据只用定义一次,只需要管理维护一个引擎,大大减轻了企业的负担。 当企业向数据仓库导入数据时,会遇到越来越多的问题。比如:数据来源更多了,数据量更大了,信息类型变化多端,时间进度安排更紧张,信息反应时间要求进一步缩短。Oracle 9i在数据库引擎中集成了新的解决方案,其中包括外部数据表和一些新定义的功能。操作系统文件中的数据可以当做数据库的一部分定义到数据库引擎中,如同数据库的外部表一样,使用SQL和存储过程就可以处理这些数据。此外,数据库引擎定义了一些新的功能,比如可以把整个表当做输入,把输出作为一个新表,从而使复杂类型的数据转换更容易进行。 深入的战略数据分析涉及到更大的数据量,以前的数据分析方法已经不能满足需要。Oracle 9i的解决方法是将OLAP能力集成到数据库引擎中,同时使SQL语句有了新的分析能力。通过集成这种分析引擎,Oracle 9i使大容量数据不用移植到另外的引擎中即可做统计分析。有了OLAP 和关系元数据的集成,维数、层次和关系等概念只需要定义一次,就可以被OLAP和SQL的接口共同使用。SQL语句也被赋予了新的特性,有助于集合的分析。 总之,Oracle 9i数据库的技术特点能够满足企业大规模数据处理的需要,而且提供一些新的统计分析的特性,可以使企业在使用中充分把握自己的现状,并且得到一些改进建议。 IBM DB2 数据仓库系统常常与庞大和复杂相联系,一般的企业很难快速而简便地建立自己的数据仓库,这的确让许多企业对这种本来非常有价值的新技术望而却步。IBM DB2 Universal Database Version 7 (IBM DB2通用数据库,版本7)和IBM DB2 Warehouse Manager (IBM DB2数据仓库管理器)以简便易行而引人注目,两者的结合在为企业建立、使用和维护数据仓库时表现出许多优点。 DB2控制中心为用户提供了集成化的图形界面环境,使创建数据仓库的流程可视化,用户很容易就能掌握软件的使用方法,加快数据仓库的原型设计、开发和应用。 IBM数据仓库管理器使数据仓库的应用更加广泛,不仅适合分布式环境下的应用,而且可以访问各种数据源,比如DB2、Oracle、Sybase、Informix、Microsoft和普通文件以及ODBC和OLE DB数据源。此外,用户可以利用IBM Classic Connect来访问IMS和VSAM数据源。 DB2数据仓库管理器还包括了Information Catalog (信息目录),可以帮助用户寻找、了解和访问可用数据,这样用户就可以根据精确的数据迅速地做出决策。 除了DB2通用数据库内建的控制能力外,DB2数据仓库管理器还为管理和跟踪对数据仓库的访问情况提供了补充工具。企业可以使用UNIX和Windows平台上的Query Patroller、OS/390平台上的QMF HPO以及QMF for Windows作为DB2数据仓库的控制网关。这些控制网关使数据中心能够管理查询、分析成本、管理资源并跟踪使用情况,从而可以对数据仓库的性能进行调整以使其适应最常用的表格和查询要求,同时用户可以通过控制负载和设定不同用户或团体的访问权限对资源进行管理。 与IBM数据仓库管理器相联系的是IBM及其合作伙伴提供的服务和辅助产品。通过其商业信息合作伙伴计划,IBM联合了多家合作伙伴,可以提供800种业务信息应用和工具。在世界范围内,IBM的9500多家合作伙伴为支持DB2通用数据库设计了16300多种应用程序。在这些应用中,企业一定能发现适合自身商业需求的解决方案。不过,企业必须从基础开始——用DB2通用数据库和DB2数据仓库管理器建立自己的数据仓库。 Sybase IWS 在过去的几年中,许多分析型应用的实施都伴随着高昂的成本和极大的风险。造成这一现状主要的原因是对数据仓库设计的忽视。在过去的数据仓库应用中,往往过于重视数据的收集和前端展示,而业务数据与其他系统数据无法有效融合。前端的展现工具无法有效地组织数据,同时却需要为大量的查询付出高昂的效率代价。 数据仓库的设计方法不同于传统的OLTP的设计。Sybase公司认为:每个行业都有着特定的工作流程、测量方法、报告格式、术语和数据类型,于是便有针对性地推出了Sybase商用智能模型(IWS,Industry Warehouse Studio)。 IWS是一个集成化的应用软件包,可以分析相互不同但又相互关联的客户的行为、价值和潜力等问题,从而促进客户关系管理系统的实施。 IWS包含了完整的数据仓库设计方法学,为各行业数据仓库实施建立了核心的业务数据模型与客户关系分析模型,已经成功应用于保险、银行业、证券、电信、医疗卫生、零售和政府部门。IWS 的基本结构由IWS核心模型、垂直行业模型以及商业智能应用三个级别构成,并且允许开发商在其基础上进行再加工,从而保护了用户投资,提高了软件的可用性与灵活性。 在需求分析与设计阶段,Sybase提供设计工具PowerDesigner和包含行业数据仓库模型的IWS;在ETL阶段,Sybase提供PowerMart这一先进的ETL工具;IQ-Multiplex是适应海量数据仓库的数据管理软件;Sybase与Bo、Brio、Cogonos、SAS和SPSS等数据分析与数据挖掘软件供应商结成战略合作伙伴关系,无缝集成伙伴厂商的软件产品;Warehouse Controle Center用来管理数据仓库实施过程中的数据设计、建摸、转换、存储、展现等各个阶段。这一完整的解决方案已经成功地应用于全球各个行业。 CA数据仓库解决方案 CA以元数据为核心进行集成和管理,提供了完整的一体化数据仓库解决方案,其开放的接口可以方便地集成其他的产品和技术。另外,CA还提供一套可伸缩的数据仓库架构,在数据仓库的构建过程中具有一些明显的特点。 第一,通过Advantage Data Transformer来完成对多种数据源、各种类型数据的加工,因此可支持众多的数据源,包括:SAP、Oracle、Sybase、Informix、SQL Server、DB2 UDB、DB2 AS400、Infohub、Red Brick、Paradox、Lotus Notes、COBOL、Access、Excel、Foxpro和dBASE等。所有这些都是通过一套通用的通信函数来实现,用户可以不必顾及后台数据库的类型而透明地访问它们。 第二,采用开放式数据存储,可任意选择数据库平台作为载体,如Oracle、Sybase、DB2、Informix、SQL Server等,或者是面向多维分析优化设计的数据库,如Sybase IQ、RED BRICK等。 第三,具有灵活多样的信息访问方式。CA的OLAP工具 CleverPath 构造的多维分析模型可实现对数据的多维分析、深层挖掘,采用VB、PowerBuilder等通用工具即可直接查询和分析数据。企业的决策管理人员可用通用的Web Browser访问统计报表和动态分析。 第四,可进行全面的构造过程管理。CA Advantage Data Transformer的元数据管理工具Repository可实现对整个数据仓库构造过程的管理。对企业数据转移的调整(如企业数据转换规则的改变和企业数据定义的调整等),只需对元数据进行修改就可自动生成新的程序代码。 第五,具备良好的系统扩展性。不论是数据量增大,还是最终用户增多,只需简单地增加CleverPath OLAP应用服务器,即可保证性能的稳定,实现了良好的扩展性。 点评 三个“之最” 在数据仓库领域,IBM、Oracle和NCR/Teradata上演着“三国演义”。 IBM是全球最大的IT厂商,它的触角遍及各个领域,在数据仓库市场也是雄霸一方。从竞争格局来看,任何一个厂商都可能把IBM摆在对手的位置上,这也就不用多说什么了。但是,Oracle和NCR/Teradata之间的竞争关系,从产品理念上就值得一说。 Oracle是全球最大的数据库厂商,它的数据仓库解决方案很自然就从数据库技术拓展和延伸而来,或者反过来看,就是试图把数据仓库技术融合到数据库解决方案之中,集成性、延续性比较突出。 NCR/Teradata是最专业的数据仓库厂商,它的一切都是围绕数据仓库展开的,特别是它的数据库也是为了数据仓库而设计的。所以,Teradata总是在强调:“业务运作数据库(生产数据库)系统和数据仓库用的数据库的要求是完全不同的,用于OLTP的数据库决不能用于决策支持。” 当用户在上述三个厂商的解决方案之中做出选择的时候,希望能够注意到它们各自的不同。 责编: 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|