分群解读之小技 续

作者:姜玲
2007/4/11 16:46:23
本文关键字: ttnn 2006年07期

刘庆 20060627

上次介绍了分群解读的小小技巧,那只是为了更加直观查看那些数据而已。继续深入进去,发现还会有一些其他的技巧可以辅助解读。在此,再来探讨一二。

客户分群建模是个比较耗时的过程。昨天是周一,早上去问模型跑得怎样了,他明显看上去有些不自在,说话音量都比平时提高了几个等级。

"服务器死机了!"

"会有什么后果",我问。

"可能上一周的工作都白费了。"

对此,我帮不上什么忙,但如果真的是这样,我也只能干瞪眼了。他忙着去找管理员了解情况,还好,并没有想象中的那么言重,很快,上周的工作成果还在。这次的建模是将群分得更细了。为什么分得更细?因为客户觉得他预想的某个群没有体现,是不是分得细一些就会出来了呢?于是,就有了细分十几群的决策。对此,我是有疑惑的,当我找不到理由反驳。如果我说,分出来的十几群难以理解,因为不是有研究论证,人的大脑同时最多只能接受不超过9个概念吗?(也可能是7个,管他呢?反正意思就是少一点容易理解)

当然,这个理由不是非常充分,因为也可以回应说,细分出来十几群,但最后交付的可能只有7或9群,这中间还得有一个解读、归并的过程。这话听起来是有道理的。可任何什么话都能听出来道理,可究竟那些是能够解决问题的呢?只能等待验证。

这次不谈这个,既然要分出十几群出来,建模者就拼命让机器跑吧。这群数原来跟模型训练时间还大有干系,不小心,还会出现昨天早上那样的惊险。而我呢,就拼着命,睁大了眼去分辨这十几群相互之间的区别,然后找出一些动人的形容词出来,并且建议一些策略。这几乎也是体力活了,但要从中找点乐子出来,总结一些小技巧就是一种乐子。

基本的数据,还是上次提到cluster1图中excel的形式。行上是各种属性名,多大200个,列上,有群的编号,和每群属性值的排名。对于排名在第一,或是最后的属性值,都已经用颜色标记出来。

两人分组,各自对这个数据进行解读,然后对比,看是否英雄所见略同。

我用到了上次提到的,如cluter2图中的百分比堆积图来解读。嘿,效果真的不错,您瞅准罗,百分比堆积图。这个技巧并没有在项目组内部散播,不过后来还是告知这个方法。

对于"特征",有不同的理解。从cluster1那个基础数据阅读,你可以将排名在第一,或最后一位的当作特征,可我不是非常认同这样的理解。我认为所谓特征,就是"区别",得和其他群不一样,至少不能和大多数一样。因此,从百分比堆积图中,肉眼观察就可以得到一些直观的感觉,那些就是特征。

有些属性,某群的值超高,它的那根柱子绝对的一支独秀。毫无疑问,这是这一群的特征属性之一,可以用"绝对高"来表示。

如果某个群的柱子肉眼看上去能够分辨出它是最长的,但同时其他还有两三根稍微次一点。那么可以用"最高"来表示。

如果某个群的柱子肉眼上,不能分辨它和其他三四个柱子的长度区别,他们都有可能是最长的。那么就用"高"来表示。并且,记录下其他柱子的编号(因为这几个群在这个属性上面相似,就得找出其他属性的不同出来)。

如果所有的柱子都是相差无几,分布均匀,那么,这个属性就不能够表示某种特征。但如果这中间有个柱子异常地短,那么显然这也就成了该群的特征。

对这十几群,依次地看每个属性上柱子长度的对比,就能够得出每群的特征,哪些属性是"绝对高"的,哪些是"最高"的,哪些是"高"的...只是,群数太多,变量太多。从左到右,拉动水平滚动条。每看一群,就重新回到最左边,依次看过去。累眼、累心、累人,但这恐怕已经是最省事的办法了。

而且还有问题。虽然通过这种方式完成第一轮特征解读,可如果要细化地分析有造成这些特征的原因,就不能光看每群属性值的百分比对比了。还得看绝对值。例如通过图形看出第3群的长途通话占比超高,可如果结合具体属性值,发现它的通话次数本身就非常低,这似乎就并不能表明什么特征。因此,我想还得需要将某些"权重"不大的属性去除,或者,要将一些属性结合起来阅读。哪些属性需要结合起来,还需要进一步思考。

另外一个坐在前面的工作还包括属性的分类,上次也提到了。特别是涉及到太多变量和群的时候,分类显得更加迫切。不加分类会让图形变得超宽,不容易阅读。加上分类,再用筛选的功能,哪些图形就会显示出指定类别的属性。

例如这些属性可以区分成为业务使用量、占比、幅度、趋势几类。这样,如果我想分辨每一群在趋势变化上的对比,就可以过滤出来。这只是一种分类,还可以再加上其他分类。例如分成普通通话类、数据业务类、IP类、短信类等,分别标记为c、d、i、s吧。当然可以对普通通话类再细分,分成漫游类、长途类等等,标记成c-r,c-l等,这样,只要按照这个分类列进行排序,就能够将相似的属性归到一起。自动地,图形上的柱子也会自动凑到一起。看起来方便,又实惠。

总之,对属性分类的目的之一是能够让相似的,表示某一类特征的属性筛选出来。

刘庆 20060729

上午去开会,跟客户讲解分群的结果,讨论每群的市场策略。

群数很多,这两天一直都在整理。前两天的文章中提到人的大脑同时只能容纳不超过9个概念吗,这话还是得到印证了。初步给十几群总结了特征,命了名。第二天睡觉起来,发现还是记不起来。讨论的时候也都是顾此失彼,说到第3群,联想到第9群的什么特征,他们的区别是啥?似乎里面有个群有个什么特征,是哪一群?如此的疑问总是突然蹦出来。

昨天下午试讲了一边,发现将有些人讲的昏昏欲睡,完了,这十几群都是什么名字,什么特征,似乎不太记得了。为了解决这些群之间特征区别的问题,我特意将一些有相似特征的群作个比较,放在报告的最后。有人启发我,为什么不将这些群归纳成几类,每类每类地讲呢?

是啊,何不如此。既然群数太多,就人为地将它层次化。

从实际效果看,作用挺好。表面上,客户已经接受这样的分群结果,甚至已经作出肯定的断语(只是不知道是不是因为双方领导在场,给点面子而已)。但至少从讲解的角度,也是顺畅很多。原来这仅仅是一个小小的技巧。

讨论市场策略,头脑风暴,根据各群的特征去想象都是什么样的人。哦,这种人,保守,不愿尝试新事物;那种人,明显是学生才有那样的特征嘛。如此将每群推选出来一个形象代言人,倒是直观。不过心中还是有个疑问,对于这客户分群的机理有些疑问。

为了显示模型考虑得充分,放置了很多变量。参考其他分群项目的资料,看到别人有个有意思的变量,于是我们也塞进去。可问题是,变量放多了,一些无关紧要的变量难道不会将那些重要特征变量冲淡了吗?反正从最终的结果解读来看,描述特征几乎也就是用几个变量而已。昨天也问了搞模型挖掘的同事,他说,会有这样的情况,然后跟我说了一通理论,没有听明白。最后的结论是,要交差,客户又希望看到放入很多变量,这是最现实的做法。其实,他觉得能够考虑四十个变量已经够多的了。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map