数据仓库中的数据清洗

来源: 中国商业智能网
2011/9/14 14:31:23
什么是数据清洗?为什么要进行提取,转换和加载(ETL)?数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?如何规划数据清洗?


分享到: 新浪微博 腾讯微博
本文关键字: 数据仓库 清洗

可以将数据仓库的数据清洗比做政客们募集资金的过程。几乎不存在任何一方独立存在的可能性。数据清洗往往是数据仓库项目中时间最密集的,最有争议的进程。
什么是数据清洗?
“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”
在哪里会用到数据清洗的一个简单例子是,数据是如何储存在不同的应用系统中的。例如:2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。


为什么要进行提取,转换和加载(ETL)?
提取、转换和加载 (ETL) 指的是一种可以帮助确保数据在进入数据仓库之前被清洗过(即符合标准)的工具。供应商提供的提取、转换和加载 (ETL) 工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载 (ETL) 工具坐镇在数据仓库之前,监测输入的数据。如果它遇到了程序指定转换的数据,它就会在数据载入数据仓库之前对其进行转换。


提取、转换和加载 (ETL) 工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具,这要取决于你项目的复杂性和预算。数据库管理员们 (DBA) 可以编写脚本来完成提取、转换和加载 (ETL) 的功能,通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务 (DTS) 的提取、转换和加载 (ETL) 工具。数据转换服务 (DTS) 是一款不错的免费工具,但它确实有其局限性,尤其是在数据清洗的持续管理上。


提取、转换和加载 (ETL) 的供应商有Informatica、IBM(Cognos)及Pentaho等。 在对所有产品进行选择时,在接触供应商之前列出你认为对一个提取、转换和加载 (ETL) 供应商的需求。从咨询顾问那里获得服务还是值得的,它能在产品的选择上帮助你进行需求分析。


数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?
在数据仓库产生的结果符合利益相关者的期望值时,提取、转换和加载 (ETL) 通常被忽视和置于脑后的。结果是,提取、转换和加载 (ETL) 冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。


如何规划数据清洗?
及早开始对将要进入数据仓库的数据进行筹划是很重要的,这一筹划可能会随着项目的成熟发展而改变,但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时,这些文件的踪迹就变得极为有价值。


创建一个需要提取、转换和加载的数据列表。为极有可能需要转换格式的数据设立一个独立的列表。对是否需要购买提取、转换和加载(ETL)工具做出决定,并留出一个全面的预算。从该领域的专家那里听取建议并评估产品是否适用于你企业的整体技术层次。

责编:亢晋芳
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map