数据探索之挖掘之前

作者:姜玲
2007/4/4 14:20:33
本文关键字: ttnn 2006年05期

刘庆 20060508

假期过去了。刚回到北京,处理一些杂事,和朋友小聚,也挺悠闲。可头脑似乎还没有清醒过来,昏昏沉沉的。

因此,也不想太耗费脑筋去深入思考,五一之前yoyo的这个问题,其实我在写完数据源分析的时候,就有打算,写写挖掘中的数据探索。可自己没有太多的实践,不好瞎喷,即便是同事完成了这个探索,也无法抽象出其中的思路。

上个月,同事给我一份数据探索报告,word格式的,19页,贴满密密麻麻的数字。看了第一、二页,在往下就有些范晕,硬着头皮再看三、四页,决定不再看下去。这不是一份非常理想的数据探索报告。

挖掘中的数据探索,我认为跟数据源分析这种探索一样都是分析的过程,因此仍然使用分析三步曲来衡量。这份19页的文档似乎是平铺直叙,而最后也没有得出什么结论,只是从不同的角度来统计出一些数据。如此,分析的第一步——目的,在这份数据探索中就是缺乏的。开始我以为使自己耐心不够,看不下去,后来还有几个人也表示看不下去,这才释然,原来不是自己懒惰啊,呵呵。后来,探索者又重新将这份文档整理成ppt,一方面条理、主次清晰一些,另一方面并给出结论性的东西——哪些数据范围是适合我们用来建模的。

多少,可以从这个数据探索报告中看到一些探索者的分析思路,大概有两条路线。首先是分析符合某种条件的特定用户群的在全体用户中的占比分布,以及趋势。第二条路线是通过锁定用户群分析趋势变化,所谓锁定,这似乎不是一个通用的术语,它的含义是指在某时间点符合某条件,区别于第一条路线,那是任何时间符合某条件的。

当然,我不知道这样的分析思路是否有重大意义,没有证明,但至少已经有思路了。

这份报告给出了建模数据的约束条件,撇开实践,谈心目中挖掘数据探索的目的,我认为应当还有辅助定义业务目标,例如什么叫做"客户流失",是客户状态标志为离网就算流失,还是消费降低到某个标准就是流失?如果是后者,这个标准是多少?

另外的目的就是变量的选择,"变量"是数据挖掘中的术语,其实跟上个月大肆谈论的属性是很类似的。虽然,从业务经验上,可以给出一些"变量",但那时大多都在业务层面,如何细化到物理层面?现有数据是否能够给出这个变量?这应当也是数据探索要给出的答案吧。譬如说考虑竞争对手模型的时候,从业务上期望能够将竞争对手的长途、漫游通话时长作为变量输入,但从现有数据上,恐怕不能支持,只能舍弃。

关于挖掘的数据探索,暂时只有这点水,以后再继续总结吧。

而yoyo的一个感慨,说搞数据挖掘模型的人很牛气,我也有这样的感觉。可能主要的原因是两者说得语言不大相通吧,挖掘模型的人多多少少偏向数学语言,跟平日里多接触的说计算机语言的还不大一样,跟说业务语言的可能更加不同了。

看,如果一项工作对外部是不透明的,是个黑盒子,那么拥有这个黑盒子的人就会牛气。挖掘模型对于软件设计、实现者会是如此;而软件设计者对业务使用者何尝也不是如此牛气呢?

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map