|
ETL前传——扯扯手工录入数据的审核个人谈一点看法,如果有用大家可以试试,没用大家但故事看看拉倒。 首先是鸭鸭的问题具有典型代表性,在政府的数据分析项目中,原始数据来自手工单据的情况很常见,另外,市场调查公司的问卷资料绝大多数也是纸张存储媒介。尽管我们看到电信和银行的数据大部分都是电子数据,但我们日常生活中,更多的数据还是存储在纸上的。我们姑且录入过程当作把数据从纸张存储媒介转移到磁盘存储媒介上的过程,并把这个过程作为ETL的前传。 另外一个事实就是如鸭鸭列举出来的各种数据质量问题的存在以及原因。鸭鸭很有经验,我就不班门弄斧了,这里只提出一些改进质量的办法,看灵不灵。 首先一个是数据质量的审核工作,不是指录入之后的审核,而是对原始纸张记录的审核。这个审核过程可以通过抽样来进行,比如将总份数的10%抽出来,检查纸张录入不合规格的各种情况,然后和客户讨论一下针对每一种情况的处理方法(我觉得这种业务规则很重要),一个是技术方法,也就是在录入员录入的时候应该怎样处理这些不规格的数据,或者你的后台录入程序应该怎样处理;另一个是业务处理规则和逻辑,比如某些情况要求重新复审,某些情况则要重新登记等等。 下一个过程是根据数据审核的结果,把数据问题分类归总,如果运气好或者水平高的话,期望能够10%的抽样发现90%的数据质量问题来源,归总之后要做三件事情:第一是根据这些归总把所有资料做一次预筛选,并且把那些需要重新登记复审的资料挑出来提交给业务部门,让他们先去处理;第二是修改录入程序(软件)和录入说明文档(给录入员做录入培训),按照约定的业务规则,把能够自动处理的捡错和更正功能增强完善;最后一件事情就是对录入员的培训了,不仅仅是软件的操作和使用,还包括遇到不合规格的数据的处理方法,别忘了录入工作也很容易引入人为的数据错误,因此,无论从软件还是业务操作流程规范上来说,都要加强控制才行。 这样下来,录进入的数据应该比较干净了,不干净的数据都还没录入。我个人的观点是脏数据录进去还不如暂时不录。当然,输出一份脏数据报告也很有价值,有N份资料由于XX和XXX的原因未能录入系统,这样大家至少能够知道你的数据干净到什么程度。否则让脏数据放进来,就好比粥里面有几粒鼠粪...... 接下来的工作是数据的录入过程,让录入员明白该怎么干,设立考核和奖惩机制,人性化一点的待遇和环境,是保证录入员在主观上和客观上都尽力提高质量的软方法。 在数据录入数据库之后,还要用软件手段对数据进行校验,如果存在逻辑参照关系而没有物理外键关联的数据,一定不要忘了两边核查对比。另外,抽样和原始资料的对比也是好方法,看来鸭鸭已经用得很纯熟了。 二位都提出了重在从管理流程上下工夫,我就想起一个问题,信息系统是要适应实际工作,还是要改造实际工作,当然,大部份朋友会回答既要适应,更要改造既有的管理。但是,做到这样的理想过程非常难,我大致概括下。 第一、资料非常多,你要亲自参与这类普查的工程就会知道,资料箱拉来的时候,放在我们公司大库房里,比一个大集装箱还要大的一垛。我们专门为此次录入工作设立了二个资料库管,为了不使资料发生丢失、漏录、串箱等情况,我们在录入教室里,资料是先进先出的单列排队,出库要登记,录完要标记。这个大顺序经实践检验后,还是不错的。 第二、原始资料上,发生编号出错(主要是幢户表编号不一致、重号)的约1%,我们这次进行了50万份资料,就是约有5000份编号出错,这个数目已经很糟糕了。表内填写有逻辑关系错误的近10%或更多。房管局对我们录入时间的要求是12月前完成,我们约只有40天时间,最初软件里是处处设了提示,发现错误就由局里在场的业务人员来更正,这样业务人员也是忙乱不堪,眼前要改的表堆起一米高,而且他们在机关里时间久了,脑袋也不灵光,这样呢,改完的资料,改的是哪一页,当初交上来是哪种情况,哪个操作员交上来的.....现场陷入一团混乱。于是这样的情况持续了二天后,我们迅速决定把太常见的,事后可以批量处理的错误限制都屏蔽掉,这世界下子清静了,速度也提了上来。 如果按 Michael兄所讲,错误资料先提出来复核(虽然据客户讲他们的资料是经过10%抽检复核的),那将是一个耗费人力巨大的工作量,从我们软件公司的成本和人力来讲,根本不可能,指望局里的人来对,那是个梦。 第三、做为普查,我想任何性质的普查,都有几个共同点,就是基层工作的工作人员得用很多(这次房屋普查动用了一千多),而且基层人员的文化素质普遍不能指望,一般就是居委会的大妈,物业公司的保安等等人,你们保证他们全部理解每个表格的每项意图和规则,亦是个完美的梦。 所以从现实来讲,资料汇总到我们这里,大量的问题是必然的,无法一一更正也是必然的客观的(我认为)。我们这次的录入工作,我认为进行的不错了,但是我们对这种事都是没有经验的,所有的流程完全是大量的人力财力来实现的我的一个设想:D ,能达到98%的吻合度,没有查到资料丢失,也是经过一番艰难的历程。 大致流程是这样: 客户的要求是二遍录入核对。录入员录入一本的第一遍后,翻回来录第二遍,第二遍入库后马上与第一遍比较,把不一样的地方列出来,录入员核对后,如完全一致,入中间库。 录入员一本打完AB遍后,值班员工当场核对其完整性,就是一幢里所有的户都应已录入(软件里模拟了楼盘表),不完整的补齐不值班的员工,对每一本数据进行50%覆盖的抽样校验。由此能改正一部份错误,并能得出每一个录入员的正确率,以方便给他们发工资,奖惩等。校验完后入正式库。 罗罗唆地打了这么多字,啥问题都没表明,真是抱歉。 现实是粗糙的,我们的信息处理系统,是要适应它,还是改造它,想适应它,会陷入无穷尽的今天这样做明天那样做,想改造它,客户答应不,支持不,支持力度有多大,也是困难重重。
责编:姜玲
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
热门博文
|
|