信息系统数据梳理方法浅析

作者:吴世旗
2007/5/17 13:37:19
本文关键字: BI 商业智能
利用信息技术强化企业管理的新纪元已经开始了。 ERP 企业资源计划 1][2 CRM 客户关系管理 3][4 以及 SCM 供应链管理 5 建设的基础是充分利用企业的数据资源。如果缺乏有效的数据信息,其应用水平只能是“无效进、无效出”。为了提升管理效率,公司在存货、供货、客户、零售和其他重要的企业信息方面都需要高质量的数据。否则企业资源计划和客户关系管理的实施是难以成功的。数据梳理技术 6][7 是广泛实施数据应用项目(如实施 DSS,CRM 等)的基础,通过数据梳理,可以彻底搞清楚企业现有数据的内容、结构、模式、数据属性、数据质量等至关重要的内容,从而为构建新的数据模式和建立新的管理体系打下基础。

1.数据梳理的内涵

一些业务和IT经理们在研究公司的发展时,都会面对同样的问题。即由于得不到正确的数据,公司会在不完善和不可信的数据基础上做出错误的决策。

尽管数据梳理的重要性常常被忽视,可它是开展任何管理活动的基础,企业资源计划的实施、客户关系管理的使用、数据应用开发和管理软件的改写,实际上都应从数据梳理开始。

对企业资源计划和数据库应用的工业评估表明,这些项目要么失败,要么超出当时预算的65-70%。几乎在所有的情况下,项目的失败、超支和延长工期都是由同一个问题引起的,即对数据管理活动起关键作用的数据的质量、内容和完整性得不到正确的确认。这些问题在项目开始之前应引起高度重视并得到妥善解决。在数据管理活动最开始阶段就确认数据质量,可以大大降低项目失败的风险。

为了迎接信息化建设的挑战,数据梳理有助于了解公司数据的基础条件。数据梳理,也叫做数据剖析或数据审计,可以明确地展现公司数据现状及其特点。数据梳理主要是指对数据的结构、内容和关系进行分析,在关键的数据诊断阶段可以提供公司数据的质量信息。这些信息在帮助确定公司能提供什么样的数据和这些数据的有效性和实用性等方面起到重要作用。使用合理的数据梳理方法,可以随时透视公司业务过程和改善公司的业务流程。

1.1一般数据问题

大多数公司都存在数据问题8。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。在实施任何管理项目之前,需要了解支持管理活动的基本信息:

(1)在本管理活动中使用的数据质量是否可靠,

(2)现有数据能否支持项目功能,

(3)本活动中的数据是否符合预期的业务规则,

(4)公司推行的管理活动是否可以获得所需要的数据源。

如果没有清楚地了解这些事情就开始实施诸如ERP等管理项目,将导致开发成本超支或者可能的项目失败。据工业估计,商业智能和客户关系管理的成功率在30%——50%之间。

公司通常不了解数据质量问题对公司业务影响程度。公司内部的数据问题会导致销售额下降、支出浪费、不明智的决策、不规范的客户关系。最终导致经营失败。

1.2数据结构分析

通过数据结构分析9来了解数据模式和元数据库10,帮助确定在表中或者在栏中的数据是否一致或者是否符合公司业务要求。

1.2.1元数据检验

大多数的数据都有与之相关联的元数据11,或者具有可描述的数据特征。它可能存在于相关数据库、数据模型或文本文件中。元数据中所包含的信息可以指示出数据的类型、字段长度,数据是否唯一,或者字段是否为空或为零等。

元数据用于描述表格或者表格栏中的数据。数据梳理方法是对数据进行扫描并推断出相同的信息类型。通常,元数据和数据的性质完全不同。例如,在元数据中设计长度为255字符、行数1000万行的字段。如果实际数据中最长的数据元素为200个字符,则字段设计的长度明显大于要求的长度,那么意味着浪费了550MB的磁盘空间。表1所示的是典型的产品字段元数据应该包含的信息的实例。

数据列分析

字段:产品__描述

定义类型:VARCHAR

定义长度:38 chars

公制名称

公制值

数据类型VARCHAR

主键候选no

唯一计数8513

唯一性72.78

模式计数5790

最小值101 GEN

最大值ZOO ANIMA.

最小长度5

最大长度38

零计数1

空计数0

真实类型string

计数11698

数据长度38 chars

1:字段元数据描述

1.2.2 模式匹配

一般情况下,模式匹配可确定字段中的数据值是否有预期的格式。这一技巧可以快速地确定字段中的数据与各数据源是否一致,是否符合要求。例如,模式匹配可以分析电话号码字段中是否包含所有的电话号码。模式匹配还能确定一个字段是否是全数值的,是否某个字段有着一致的长度和其他特殊需要的格式信息。

以电话号码模式报告为例。有效电话号码的格式是多种多样的,但是所有有效的格式都包括三组号码(三个区号,三个交换机号,四个本地局号)。这些号码组可能用(也可能不用)空格键或特殊字符来进行分隔。有效模式可能包括:

888888888

(888)888-8888

888-888-8888

888-888-XXXX

888-888-Xxxx

在这些例子中,“8”代表任何数字,“X”代表任何大写字母,“x”代表任何小写字母。现在来看看下面这个电话号码字段的模式报告。

模式频率分布

字段:电话号码

定义类型:VARCHAR

定义长度:15字符

模式

计数

百分比

888-888-8888316696.73

(888)888-8888421.28

(888) 888-8888341.04

888 88 8888 888200.61

888 888 888850.15

888-888-XXXX20.06

8-888-888-888820.06

x10.03

88 88 8888 88810.03

2:电话号码的模式频率报告

本字段中的电话号码数据的主体是有效的电话号码。可是一些数据条目与有效的电话号码模式不符合。数据梳理技术可以通过数据钻取方法来观察潜在的数据或者创建含有追踪数据子集的报告,用于修改这些记录。

1.2.3 基本统计

通过观察数据的基本统计,可以对数据做很多分析。这一点对于所有类型的数据都是适用的,尤其适用于数值数据。考察这些统计值,诸如最小/最大值、平均值、中值,模式和标准偏差等,可以深入观察数据的有效性。表3所示的是来自会计部门的个体贷款额的统计数据。个体贷款额通常从2万元到100万元。不正确的贷款数据库可以导致不良数据统计结果、错误的客户账目等很多麻烦。

本报告分析了贷款额的潜在问题(标有*号)。贷款的最小值是个负值。最大值是9999999元。两笔贷款有缺失值(零计数)。中值和标准偏差都是很大的数。所有这些都显示出个体贷款数据文件中的潜在问题。

元数据分析、模式分析和基本统计是数据结构分析的主要方法,用来指示数据文件中潜在的结构问题。存在问题的原因是多种多样的。有些是由于错误地把数据输入字段而造成的。有些问题是因为不知道正确的数值或者使用了默认或虚构的值。

数据列分析

字段:贷款额

定义类型:double

定义长度:53 bit

公制名称

公制值

数据类型double

主键候选no

……

最小值-223000*

最大值*9999999

最小长度not app.

最大长度not app.

零计数*2

空计数not app.

真实类型double

计数1628

数据长度53bit

平均114348.170972

中值*4888499.5

式样0

-零计数1626

……

标准偏差429438.361236*

标准误差10649.778281

3:贷款数据栏的统计

1.3数据分析

数据分析用于指示业务规则和数据的完整性。在分析了整个的数据表或数据栏之后,需要仔细地查看每个单独的数据元素。结构分析可以在公司数据中进行大范围扫描,并指出需要进一步研究的问题区域;数据分析可以更深入地确定哪些数据不精确、不完整和不清楚。

1.3.1标准化分析

公司的数据常常来自于不同的来源:不同的部门、不同的数据录入人员和不同的合作者。这常常是公司数据质量问题的根本所在。如果一条数据多次以不同的排列方式出现,则查询和统计报告都必须指出每次报告中所用的数据源和数据名称。公司名称、产品代号和客户地址等数据信息在数据库中只能有唯一的一种表示方式,否则一些重要的数据点会被丢失。

例如,开展以家庭电话资料为基础的通信个性化的营销活动,如果在同一地址内有大量的客户资料,而地址的表达却不一致。地址不同的表达方式会对针对性很强的活动产生很差的效果,导致错误的个性化分析。这些无效的数据将对优先选择的客户进行无效的促销而疏远客户,同时在人力和物力方面造成了浪费。

这些只是简单的数据不一致的例子,相似的情况在世界范围的数据库有着不同的表现形式。运用适当的数据分析方法可以找出这些非标准的缺陷,为数据质量提供保证。

1.3.2频率分布和外延分析

频率分布技术可以减少数据分析的工作量。这项技巧重点关注所要进一步调查的数据,辨别出不正确的数据值,还可以通过钻取技术做出更深层次的判断。

外延分析也可以帮助你查明问题数据。频率统计方法根据数据表现形式寻找数据的关联关系,而外延分析则是为检查出那些明显的不同于其它数据值的少量数据。外延分析可指示出一组数据的最高和最低的值。这一方法对于数值和字符数据都是非常实用的。

实例:分析食品重量字段的10个最大和10个最小的值。在表4中,分析字段以克为单位,用于微波炉的个人份食品。有效的重量在400 2000 之间。

外延分析

字段:重量-

定义类型:小数

定义长度:7字符

最小值

最大值

020020

0.8520620

3.6522400

16.831808

21.0201602

22.68215049

28.3304641

29.0322563

30.83325475.3

31.80342572

4产品重量外延报告

分析结果,在低端和高端都有外延。在低端,数值可能用千克单位来代替克的输入。在高端,可能用团体的总重量代替个人份重量。外延分析能确定在某些数据元素中是否存在不一致性。通过深入钻取这些实际的数据可以确定修正的最佳方法。

1.3.3业务规则的确认

每个公司都有自己的基本业务规则。以某公司部分员工工资职级为例:

工资级别

工资低端

工资高端

20

¥26,000

¥52,000

21

¥32,000

¥64,000

22

¥40,000

¥80,000

5:某公司员工工资职级规则

对于工资级别为20级的员工,他的年薪必定在26,000元到52,000元之间。

在数据输入点可以检查很多基本的业务规则,实际上,还可以在数据库中重新检查这些规则。有时由于缺乏有效确认而导致问题发生,包括超额支出、存货不足和少计利润等。

对于公司而言,业务规则一般都是确定的,很少要用到“规则以外”的梳理技术。预编制的业务规则可提供字段、范围检查,查找确认或者明确公式。其次,针对公司特定的业务规则,除了需要有效的数据梳理技术外,还必须建立、保存和确认有效的数据梳理流程。

为了确认数据的有效性,要求能够随时储存、启用和执行基本的业务规则。数据梳理还使用相同数据确认方法来检查和落实违背业务规则的情况。

1.4数据关联分析

数据梳理的第三步是数据关联分析。这一方法用于分析数据冗余和相似性。可以分析正在使用的数据,并且可以把基于它们相互关系的不同用法联系到一起,还可以与新的用法联系起来。由于很多相互关联的数据条存储于分开的数据体中,导致很难掌握完整的数据情况。

现代公司都存储了大量的数据,例如,客户数据、供应商数据、产品数据、运营和商业智能数据、财务和税务数据等等。另外,公司从合作伙伴、专业公司得到数据,以及从其他来源获得特殊的业务数据。一般来说,公司在搞清所有数据来源和它们的不同应用关系之前,难以充分了解他们的全部数据,并且很难有效地管理这些数据。

关联分析有助于了解数据来源以及数据的相互作用。下面是当数据源没有正确关联时产生的问题:

1在登记的产品发票中有产品的代码,但在公司的产品数据库中没有相应的产品。

2销售订单中有客户代码,但在公司的客户数据库中并没有对应的客户。

3在库存中发出的产品有某种通用产品代码。而在采购数据库中却没有相应代码。

4在客户数据库中有多个客户有着相同的识别码。

关联分析提供数据记录之间相互关联的信息。在相同的数据文件、不同的数据文件中或者不同的数据库之间都可能存在多次记录。用关联分析方法可以回答以下问题:

1在各表之间是否存在隐键关系,

2是否有主/外键关系,是否是强制关系,

3是否存在直接的或间接键关系,是否有孤立的数据(没有主键关联的数据),

4是否有复制的数据记录。

关联分析方法从确定元数据关系开始,可以用任何与键相关的元数据。已确定的元数据关系要进一步确认。在没有元数据的情况下,关联分析方法还可以确定哪些字段有关联关系。

隐键关系一旦被确定,需要做进一步检查。是否存在主/外键?如果存在,主键是否唯一?如果不存在,哪些记录能使它成为唯一?有了键的关联,是否有明显的记录没有服从这种关系?

数据梳理还有很多方法。这里阐述的是一些基本的方法。可靠的数据梳理工作应包括结构、数据和关联分析,分析完成后应形成分析报告和相应的业务规则。

2.数据梳理实践

数据梳理是一项艰巨的任务。好的数据梳理方法会成为公司业务和IT业务基础工作的一部分,可用于全面诊断公司数据系统的质量情况。

当前,一些公司还在用手工的方法进行数据梳理。如果数据栏和数据行很少,这种方法是可行的。但是现在大多数公司都有着数以千计的数据栏和上百万(或几十亿)的数据记录。手工梳理这些数据引入了大量的人为干涉,这种人为干涉会产生主观误差。

实际上,数据梳理的最好方法是把各种主流的数据梳理技术整合成完整的、自动的梳理流程。把数据梳理和质量控制结合起来,形成有效的管理手段。

有效的数据管理手段可以大大提高公司数据质量。数据梳理结果可以作为数据质量和数据整合的基础。在数据梳理过程中,可以直接建立数据修改、确立和确认程序。这些有助于把数据检查和整改阶段结合起来,有助于建立智能的数据管理程序。

数据梳理是一个持续的过程。公司是动态发展和变化的。新的业务板块的创立以及新的业务规则不断地在公司的系统中创建和合并成新的数据。每一个新元素都可以带来更多的潜在的数据问题和附加的问题。

作为数据梳理活动一部分,所创建的梳理规则应该在公司的整个数据管理过程中都能适用。随时间去监测数据的一致性、可靠性和精确性时,需要把这些规则应用到日常的数据检查中。研究数据梳理手段,则要把规则和技巧都与数据梳理过程相结合,并寻找数据质量改善的新方法。

3.数据管理方法

数据梳理是有效数据管理战略的开始。尽管数据梳理技巧是重要的第一步,但要完成数据管理还有许多事情要做。数据管理基础工作除数据梳理以外,还包括了三个方面:数据质量管理、数据增容和整合以及数据运行监测。

3.1数据质量管理

标准化、确认和检验数据是数据质量的基础。通常会出现无效、超出范围和不符合现有业务规则的数据。数据还可能被误写或者成为过期的数据。通过检查字段、范围和丢失的值,可以建立合理的算法来分辨和修正问题数据。针对客户、供应商和产品,要建立信息标准和唯一的确认规则。

标准化是数据质量控制的重要组成部分。标准化通常是对相似的数据概念建立一致性定义和确立统一的规则。在有效整合各个数据源之前,必须对数据源实施标准化,必须做到同一概念的数据以同一种方式表达。实施标准化最好的方法是使用基准的数据库或者使用确定业务规则和企业标准。

3.2数据增容和整合

数据增容和整合是数据增值的手段。前项技术用于添加新的数据和弥补漏失数据。针对商用和普通消费者,一般数据增容包括人口统计学、地理学和信用等方面的信息。数据增容还能建立相应的数据管理算法和应用方法学,这些法则的建立有利于争夺有限的市场,或用以解决业务数据难题。数据增容方法还能增强企业级和特定工艺流程的数据应用,例如,可以通过实施商品编码分析丰富数据信息,使企业了解公司范围货品和服务的消费技巧。

数据整合技术可在数据源之内或在数据源之间辨识相似的数据或者去除和合并重复的数据,这对于了解公司数据的真实情况是非常必要的。数据整合要有精确的技术来寻找相关的不明显的成员组。如可以辨认出“郭峰100大直街东段”和郭林100东大直街是同一家庭的成员。好的整合方法还可以确定来自同一地址的不同姓的两个人可能是同一家庭的夫妻或者成员。数据整合技术可用于在同一概念及精确数据匹配基础上添加数据。

3.3数据运行监测

在对公司数据进行检验、修正、合并和改进以后,需要确认所有数据在任何时候都是一致、准确和可靠的。数据监测技术用于控制数据的完整性,可以连续的方式反复检查数据质量,可在数据质量问题广泛影响到企业数据库和各种应用之前识别和消除数据问题。数据监测技术包括审计方法,该方法用于随时检查数据源的质量;还包括趋势分析,这一方法用于探测回馈到数据库和运营系统的数据质量问题。通过自动报警或适当的控制,数据监测技术能够找出超范围的数据和记录。这一功能使有效的数据更为可靠。还可以通过编制程序,指示数据的输出/输入比率,监测数据流量。

4.结论

获得一致、精确和可靠数据的最有效的方法要从数据梳理开始。而数据梳理最有效的方法是建立良好的梳理流程,把各种有效的梳理技术集合到一起,完成公司数据的自动梳理。

在增强公司数据质量的努力过程中,完成数据梳理仅仅是第一步,应该把各种有效的数据管理方法紧密地结合起来,即把数据梳理、数据质量、数据整合、数据增容和数据监测等方法更好地融合到一起,形成完整的数据管理方法。

数据梳理是一切以数据为驱动力的管理活动的基础,在实施ERPSCMBI等管理活动之前,必须首先搞好企业的数据梳理。

责编:
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map