一大批商业智能(BI)、预测分析、数据和内容挖掘,门户和其他系统使用企业 数据仓库(EDW)不断增长的信息来源。然而,却有相当的关键业务的企业数据被置于企业数据仓库之外。为了向业务决策制定者交付最最全面的信息,IT团队利用数据虚拟化以保持和扩展他们现有的企业数据仓库投资。
本文探讨了五种整合模式,这些模式将企业数据仓库和数据虚拟化结合起来,连同来自Composite软件公司的数据虚拟化客户实例,以解决实际的业务和IT问题。这五个模式包括:
1. 数据仓库扩增
2. 数据仓库联盟
3. 数据仓库中心和虚拟数据集市
4. 提取、转换与加载( ETL)流程的补充
5. 数据仓库原型开发
企业数据仓库投资的价值最大化
在日益增长的数据量和复杂的环境下支撑关键的、但是千变万化的信息需求在今天是大型企业和政府机构充分理解的一项挑战。
这种不可抗拒的压力已经并将继续推动对企业数据仓库的需求,因为一系列商业智能(BI)、预测分析、数据和内容挖掘,门户网站以及其他重要应用程序都依赖于来自企业数据仓库的数据。
然而,业务的变化经常超过企业数据仓库改进的速度。而且虽然对一大部分企业数据物理上的集中和转换会有所帮助,但还是有大量的企业数据仍置留在企业数据仓库的范围之外。更有甚者,企业数据仓库本身在整个的生命周期内也需要支持,推动了对数据原型、迁移、延伸、联盟以及利用企业数据仓库资产的解决方案的需求。
数据虚拟化中间设备,是一种较早的数据联盟或企业信息整合(EII)中间设备的高级版本,通过提供一系列灵活的数据整合技术来维持、延伸和因而从现有的企业数据仓库的投资中推动更大的商业价值,对企业数据仓库互补。
1. 数据仓库扩增
企业针对散乱数据和数据量指数倍地增长的困境,已经部署了数据仓库以满足他们许多报表的需要。然而,许多数据源仍留在数据仓库之外。为用户提供完整的商业洞察力以支持收入、成本、风险管理的目标往往有下列需求:
• 来自数据仓库的历史数据和来自交易系统或操作数据存储器上实时更新的数据;
• 来自数据仓库的汇总数据和来自交易系统或操作数据存储器上向下钻取的详细数据
• 掌握来自主数据管理(MDM)中心或数据仓库的客户、产品或员工数据和来自交易系统或操作数据存储器上的详细数据
• 来自数据仓库的内部数据和来自外部数据源包括云计算在内的外部数据
数据虚拟化能有效地将数据仓库的信息与另外的数据源联合起来,因而延伸了现有的数据仓库架构和数据。这些互补的图表有利于补充当前数据到数据仓库的历史数据,补充详细数据到仓库中的摘要数据,补充外部数据到仓库中的内部数据。
能源公司将最新数据和历史数据结合起来 — 为跨越超过10000个生产油井优化部署维修人员和设备,一家能源公司运用数据虚拟化把来自他们油井和SAP维护管理系统的成员、设备和油井状态实时数据与来自他们的企业数据仓库的历史表层、次表层和业务数据联合起来。最终的结果是为机器的正常运转提供了更快的维修并且因此获得更多的收入。
2. 数据仓库联盟
企业实施数据仓库的一个主要原因是克服各种交易和分析系统之间的独立工作,特别是在现在的大多数大型企业和政府机构里。然而,针对许多常见的务实理由,单一的“企业”数据仓库仍然难以达成。相反,因为同样的理由,多个数据仓库和数据集市被开发和部署,以致数据分散的问题还是没有解决。
优化业务绩效需要来自这些各种各样的数据仓库和数据集市中的数据。但在物理上结合多个集市和仓库变成一个单一的、完整的企业数据仓库通常是过于昂贵又费时。
数据虚拟化能够联合多个物理数据仓库。举两个例子,销售和财务数据仓库的组合,或公司并购之后两个销售数据仓库的组合。这种方法通过创设一个跨越各个数据仓库的整合图表,用提取的方法使不同架构的设计合理化,以达到数据仓库的逻辑合并。
投资银行对金融交易数据仓库的联合 — 为实现更灵活的客户自助式服务报表和满足证券交易委员会(SEC)的合规性报表要求,一个主要证券公司用数字虚拟化将来自不同独立交易数据仓库中的股票、固定收益证券和其他投资持有和交易信息联合起来。最终结果是提高了顾客满意度和降低了报表成本。
3. 数据仓库中心和虚拟轮辐
一个典型的数据仓库模式是一个中央数据仓库中心被卫星数据集市像轮辐一样地围绕着。这些集市使用数据仓库数据的一个子集并且被数据仓库的一个子集的用户所使用。有时这些集市的创设是因为分析工具需要数据以另一种形式出现。另一方面, 他们可能被创设用来避开数据仓库的控制,好像是一个“叛逆”的数据集市。不管什么原因,每一个额外的数据集市都会增加成本以及损害数据的质量。
数据虚拟化提供的虚拟数据集市能消除或至少显著减少对围绕在数据仓库中心的物理数据集市的需要。这种方法提取了数据仓库的数据以满足特殊的消费工具和用户查询的要求,同时还保留数据仓库所固有的质量和控制。
共同基金经理消除“叛逆”金融数据集市 — 一个共同基金公司运用数据虚拟化,让150多个金融分析师建立投资组合分析模型,用分析工具利用一个10 TB的金融研究数据仓库提供的广泛的投资金融数据。在引入数据虚拟化之前,分析师经常创建新的卫星数据集市为每一个新的项目提供有用的数据子集。为加速和简化数据访问,杜绝不必要的高成本和多余的物理集市,公司用数据虚拟化创设了虚拟的由一套稳健的、可重复利用的图表构成的数据集市,直接按需要访问财务数据仓库。这使得分析师花更多时间用于分析而不是用于访问,因而提高了投资组合的回报率。IT团队也消除了额外的,不需要的集市而且省掉了维护这些物理集市的成本。
4. 补充提取、转换与加载(ETL)流程
提取、转换和加载 (ETL) 中间设备是为数据仓库的加载所选择的工具。然而,有些情况下提取、转换与加载(ETL)工具并不是最有效的方法。一些例子包括:
• 提取、转换与加载(ETL)工具缺乏易于访问数据源的界面,例如,数据来自一套如SAP这样的应用系统或来自新技术如网络服务中。
• 唾手可得的,现有的虚拟图表或者可以重复使用的数据服务,而不是从零开始建造新的提取、转换与加载(ETL)脚本
• 紧凑的批处理视窗需要在提取、转换与加载(ETL)之前访问、提取和联合活动以预处理和虚拟化阶段。
提取、转换与加载(ETL)工具可以利用数据虚拟化图表和数据服务作为输入到他们的批处理流程,作为另一个数据源出现。这个整合模式也将整合提取、转换与加载(ETL)工具无法轻松访问的数据源类型以及重复使用现有的视图和服务,节省了时间和费用。进一步看,这些提取不需要提取、转换与加载(ETL)开发者了解或相互影响实际的数据源,大大简化了他们的工作和减少了解决方案的时间。
能源公司对SAP数据进行预处理 — 为了向财务数据仓库提供所需的SAP财务数据,一家能源公司利用数据虚拟化访问和提取了SAP R / 3 FICO数据。这就替换了一个容易出错,需要较强的SAP数据专家人员,平面文件提取的流程,而且不易在复杂的SAP系统间扩展。其结果包括在财务数据仓库中提供更完善、及时的数据,以便更好的进行绩效管理。
5. 数据仓库原型
从无到有地建立一个新的数据仓库是一项大业,需要繁重的设计、开发和部署工作。其中一个最大的问题是架构的变化,这在一个仓库生命周期的早期是经常性发生的。这种变化过程需要对提取、转换与加载(ETL)的脚本和在仓库中的物理数据都进行修改,因此成为瓶颈而减慢了新数据仓库的部署。这个问题并不会在生命周期的末期消失;它只会随着改变步伐的减慢而减少。
数据虚拟化中间系统可以成为一个新数据仓库原型开发环境的一个平台。在这个原型阶段,要建立的是一个虚拟数据仓库,而不是物理的数据仓库。这个虚拟仓库包含了一个完整的易于迭代的架构,以及一个完整的功能测试环境。只是性能的测试在这个阶段有些受限。
一旦真实的数据仓库被部署,在原型阶段建立的图表和数据服务仍有价值。这些用于原型和对后续的数据仓库架构改变的测试会上升为业务需求或潜在的数据源变化。
政府机构新数据仓库原型 — 为新数据仓库项目减少数据仓库解决方案的时间或改变现有的数据仓库,某政府机构运用了数据虚拟化。相比直接建立提取、转换与加载(ETL)和仓库,花在获取正确的数据上的时间被证明提高了四倍,即使将随后的这些图表转换成提取、转换与加载(ETL)脚本和纳入物理数据仓库构架。
关键提示:
随着数据源的激增,包括许多基于网络和云计算在内的位于传统企业数据仓库之外的数据源,企业和政府机构正在部署结合企业数据仓库和数据虚拟化的解决方案,以交付最全面的信息到决策制定者手中。其结果是延长了现有信息系统投资的生命周期,更为灵活地补充新的商业智能(BI)和其它分析技术,在并购和收购这样一些活动中减少了系统中断的可能。
责编:亢晋芳
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友