主数据定义之争

作者:姜玲
2007/4/3 19:01:06
本文关键字: ttnn 2006年04期

刘庆
20060405

看到一篇关于主数据管理的文章,国外的。"主数据"这个概念已经在很多厂商的产品线中出现了,SAS、海波龙等,在ttnn中也多次提及。可对于主数据的理解还是非常模糊的,知道大概是那么个东西,是记录那种实体性的数据,诸如客户、产品等。一般可以划入数据质量的范畴,参见《 数据用途分类,主数据》
原来国外对这个概念也是百家争鸣在,各位专家对这个词语下的定义含义上都有所不同,包括数据仓库之父比较郁闷。有的说主数据就是对那种被参照的数据进行管理,所谓被引用的,客户、产品不都是这种数据吗?这确实是记录某种实体的,但是被引用的不光是这些,还有诸如产品类型、客户信用级别,这些看上去可不算是"实体"啊,只能说是实体的属性。

还有一位说主数据是那种表示"跟踪状态"的数据,什么叫跟踪状态?在此之前,此位专家将数据分成三种,跟踪事物状态的、跟踪事件行为的、记录关系的(包括依赖事物的关系和依赖时间的关系)。那么所谓"主数据"就是跟踪事物状态以及记录依赖事物关系的数据,而非跟踪事件行为和依赖事件之关系数据。哎哟,真累,像绕口令一样。这种数据分类方法中,跟金球先生提出的三种分类,有两种是重合的,累积快照型=跟踪事物状态类,事务型=跟踪事件行为类,还有一种周期快照型和这里的记录关系类对应不上。金先生的分类可以用来作为ETL增量抽取之依据,但对于此处的三类,尚不知其用途为何?难道是仅供参考?

扯远了,此位专家提到的跟踪事物状态,也就是累积快照型数据,和主数据关系很大。说到主数据是此种类型的数据,但是否可以说此种类型数据就是主数据呢?未必。
看到这些不同的见解,很是欣慰,很多人认为国外的数据仓库体系很成熟了,其实不也是争执不休吗,争执不休算好的,有些厂家更是强推自己的概念、名词,也不管哪些东西是否让你感到困惑。例如跟主数据管理相关的,就有客户数据集成(CDI)、产品数据管理(PDM)等。如此,国内的数据仓库从业人员也不用妄自菲薄乐,五十步笑百步而已。
在追求这个概念本意而不得之后,不由要重新回头看看为什么会冒出这个概念。其实主数据管理主要还是保证数据的一致性,也就是在整个企业中建立数据标准。客户、产品需要标准化,不然,让你统计究竟有多少客户数都口径不一;客户级别也要统一,分金牌、银牌、普通,其他每个地方都用这个级别。

这是它的目的,要建立数据标准。但主数据是什么?是标准本身?还是标准与那些不标准之间的对应关系,这点还没有想明白。而且,如果说标准,整个数据仓库的目的岂非也是要达到这个目的,所谓"Single Verion Of the Truth"。似乎大家都在争当标准,可究竟谁是"唯一"呢?

20060406

继续昨天关于主数据的话题,又想到一个概念,"system of record",这个词语我也一直不明白是什么意思,从字面上理解,曾经将它理解为记录原子数据的表,将它用中文表述成为"记录系统"。见《度量数据仓库系统的指标》。
但恐怕它并非此意,而跟主数据有着很类似的含义。由此,又开始犯糊涂,它们俩到底有什么区别呢?

System of record是一个比较古老的概念,应该是在主数据之前。它是记录某种信息的地方,是唯一的,是标准的。

数据一般会分布、复制。在作版本控制的时候,总得确定一个最新版本,这个版本可以被取出,但如果你要修改,就要锁定这个最新版本,告诉别人,这个最新版本在你这里,修改完了在解除锁定,否则,造成版本混乱。因此,可以将最新版本看作是一种system of record。

譬如对于目前移动正在建设的数据集市,同样的数据会出现在省公司数据仓库、地市公司集市,例如客户的姓名、地址资料,帐单、详单等。总得要以某个为标准,这个标准就是system of record,按理来说,这个标准是在省公司的。但很多实际工作中,并没有这样的标准。例如客户资料,在营业系统中录入的客户资料很多都是不准确的,大客户部门提取大客户资料进行一对一关怀,在沟通过程中完善了客户资料,可这些资料有时就保留在大客户部门自己手中。如此,也就没有了标准。

在统计工作中,通常发生统计口径不一致的现象,同一个指标数,从市场部得到,和从生产部门得到的,有差别。可能是指标定义不同,也可能获取的途径不同。这也是缺乏标准的结果。

我想system of record无非就是强调标准化。作数据管理也要想作版本管理一样,要有个作为标准的地方,可以将数据复制发布下去。如果副本修改,需要更新标准。
因此,说到system of record与主数据的区别,我想他们应当是不同领域中,在不同语境中用到的两个词,前者是在信息架构中用到,是一种数据管理的基本思想。而主数据,大多在数据仓库领域,谈论数据质量的时候谈到,可以认为它用到了前者的思想。


责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map