一个数据仓库的基本目的是向业务提供来自数据挖掘、联机分析处理(OLAP)、计分卡和报表的分析结果。如果自数据源到分析报表整个管线上都有一致的数据质量,获得前台分析的成本可以降低。
图1.数据仓库基础设施概况
元数据是关于数据进入数据流时的质量控制。可以运行批处理对管理数据退化或更改数据的政策。通过使用元数据存储器来提高元数据政策。我们最近着手的一个项目是针对一家北美的大型保险公司。多年来该公司已用收购进行了合并,而且还开发了对银行和再保险的合作伙伴的外部后台数据的整合。
图2.一家保险公司内不同的数据定义政策
客户接触数据仓库审核咨询,因为他们觉得在数据仓库上没有得到足够的投资回报率。 预测分析、利润损失率和联机分析处理(OLAP)报表都是劳动力和时间密集型的产品。上市的保险公司也在一套用来监控萨班斯-奥克斯利(Sarbanes-Oxley)法案的遵守情况的财务记分卡应用系统的实施过程中。询问了该公司的IT经理,我们分析了不同设计的优缺点。数据仓库政策重新改组流程中的第一步是对元数据政策的检查,并获得适用于所有利益相关者的统一观点。因为公司正在着手进行一项新的计分卡方案,把各部门聚在一起提出一种新的整个企业范围内的元数据政策是可行的。
过去部门感到中央数据仓库无法响应他们的需要,就创造了他们自己的数据集市,以便快速访问报表。这也制造了一种瓶颈,因为数据并不总在存储器之间来回复制。
经IT经理的许可并得到各部门经理的认同,在全公司范围内引入了一个逐个阶段进行的元数据方案。大变革的方法很少有效 — 对竞争性强的行业诸如保险业来说,后果极其严重。我们用于该项目的隐喻则是引用莎士比亚在《裘力斯•凯撒》中开篇的话。我们觉得这或能是一个制造混乱的举动,但如果积极面对挑战,回报也将是积极的。
图 3. 公司范围的元数据政策
行业的元数据标准存在于垂直行业诸如保险、银行、制造业中。OMG的普通仓库元数据方案(CWMI)是一个供应商的支持提议,让分布式异构环境下数据仓库工具和元数据存储器之间的元数据的易于交换。
自实施以来的几个月中,项目已顺利前进。有培训讲座让员工与项目的发展保持一致并得到了相当正面的反应。萨班斯-奥克斯利(Sarbanes-Oxley)计分卡方案的实施是及时的,而且相对来说没有痛苦。许多本该面临的挑战因为有一个元数据的政策而得以避免。使用一个统一的数据源和定义,该公司正踏上进一步分析的旅程。OLAP报表正不停的推出并让所有的员工访问。随着数据挖掘模型的设置可以在更大的数据集上计分和训练,现的模型更精确了。
文本挖掘被用来评估保险理赔审核员关于客户提出的保险索赔的意见。文本挖掘工具是由数据仓库审核针对客户的独特要求定制开发的。没有适当的元数据政策就几乎不可能完成一致的文本挖掘。用于索赔检查的元数据术语是与保险合作伙伴和经纪人一起开发的。利用文本挖掘的应用系统,客户现在可以对索赔检查、潜在欺诈分析的趋势确认和为保险政策开发提供的反馈进行一致的监控。
为企业开发元数据政策分为三个领域的项目管理 ― 生成项目支持,开发出适合的指导纲要和设置技术目标。对于一个成功的元数据实施来说,必须获得行政的强大后援和支持。
一个收集主管赞助的检测方法是,首先设置部门的元数据标准,并对效率的差异进行评估。因为元数据的概念是抽象的,内在的态度会有所帮助。它也将有助于获得不愿交出元数据政策的部门的信任。
责编:亢晋芳
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友