|
数据质量与原始资料我是做房产方面的数据分析。BI谈不上,目前只能算是报表吧。 我目前所在的公司承接今年银川市房屋普查的数据处理工作,目前已经接近结项,数据处理经过了一个长长的路,有一些心得和尚存的疑惑。 普查数据录入的前提是:严格遵守原表,录入错误不得超过万分之三。 第二,在普查表填写上,有很多项目普查员没有填,这个在做录入程序的时候是考虑到的,但是如果每遇到这种情况就停来下等待改表,录入速度将大大降低,也很影响录入员的情绪,于是录入时,没有填的项就录为0,但是,做报表的时候就有问题了,报表是从各项目出发来做统计的,从原理上来讲从各项出来的统计数据总和都应相等,放一列"没有填写"是很难看的。于是房管局又要把这部份数据挑出来,一一去查证核实(局里人的速度比蜗牛都慢)。 第三,普查表上,有一些逻辑关系,比如房屋产别是直管公房时,不应有办理产权证,军产时不应处于集体土地,直管公产不能是自用。但实际情况是,表上会出现各种情况,超出正常人的想像力,录入员和软件都不可能强制其遇到问题就停下来改表,(我想可以在录入完毕后统计批量更新)。 二和三就是所谓数据清洗吧,把不合格的数据跳出来,更正之。但这样做真的感觉不爽,因为房管局的同志为了体现工作认真,把所有挑出来的数据又一一去查证核实,他们效率是很慢的,而且核过以后,还得我们再来重新一条条修改一遍。 不知各位有没有普查数据,或其它大批手工数据录入的经验,对于资料比较严重的不合格是怎样处理的?对于手工资料的重号问题是怎样处理的?对于这种录入的错误率不得超过万分之三(我们最后录完,抽查正确率约98%)是怎样看待的? 谢谢各位用宝贵的时间看我的贴子:) 错误率是这么算出来的 : 和政府的人打交道有时候是很有趣的:) 现在政府管的很严,下属办什么事都是提心掉胆的,尤其涉及到数字的事。这个项目是招标的,而且信息处理的技术负责人,是房管局党委书记的准女婿,拍脑袋在招标的时候定出了万分之三的准确率(神都达不到哦),多么完美的信息处理工作:D 当然,我们一边录的过程中,他们一边在抽查,所以能得出准确率和错误率的。 我也来讲个故事,是最近遇到的案例。
责编:姜玲
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
热门博文
|
|