当前位置：首页> BI-商业智能> TTNN-BI观点> 正文

分群解读之小技续

作者：姜玲

2007/4/11 16:46:23

大中小

本文关键字： ttnn 2006年07期

刘庆 20060627

上次介绍了分群解读的小小技巧，那只是为了更加直观查看那些数据而已。继续深入进去，发现还会有一些其他的技巧可以辅助解读。在此，再来探讨一二。

客户分群建模是个比较耗时的过程。昨天是周一，早上去问模型跑得怎样了，他明显看上去有些不自在，说话音量都比平时提高了几个等级。

"服务器死机了！"

"会有什么后果"，我问。

"可能上一周的工作都白费了。"

对此，我帮不上什么忙，但如果真的是这样，我也只能干瞪眼了。他忙着去找管理员了解情况，还好，并没有想象中的那么言重，很快，上周的工作成果还在。这次的建模是将群分得更细了。为什么分得更细？因为客户觉得他预想的某个群没有体现，是不是分得细一些就会出来了呢？于是，就有了细分十几群的决策。对此，我是有疑惑的，当我找不到理由反驳。如果我说，分出来的十几群难以理解，因为不是有研究论证，人的大脑同时最多只能接受不超过9个概念吗？（也可能是7个，管他呢？反正意思就是少一点容易理解）

当然，这个理由不是非常充分，因为也可以回应说，细分出来十几群，但最后交付的可能只有7或9群，这中间还得有一个解读、归并的过程。这话听起来是有道理的。可任何什么话都能听出来道理，可究竟那些是能够解决问题的呢？只能等待验证。

这次不谈这个，既然要分出十几群出来，建模者就拼命让机器跑吧。这群数原来跟模型训练时间还大有干系，不小心，还会出现昨天早上那样的惊险。而我呢，就拼着命，睁大了眼去分辨这十几群相互之间的区别，然后找出一些动人的形容词出来，并且建议一些策略。这几乎也是体力活了，但要从中找点乐子出来，总结一些小技巧就是一种乐子。

基本的数据，还是上次提到cluster1图中excel的形式。行上是各种属性名，多大200个，列上，有群的编号，和每群属性值的排名。对于排名在第一，或是最后的属性值，都已经用颜色标记出来。

两人分组，各自对这个数据进行解读，然后对比，看是否英雄所见略同。

我用到了上次提到的，如cluter2图中的百分比堆积图来解读。嘿，效果真的不错，您瞅准罗，百分比堆积图。这个技巧并没有在项目组内部散播，不过后来还是告知这个方法。

对于"特征"，有不同的理解。从cluster1那个基础数据阅读，你可以将排名在第一，或最后一位的当作特征，可我不是非常认同这样的理解。我认为所谓特征，就是"区别"，得和其他群不一样，至少不能和大多数一样。因此，从百分比堆积图中，肉眼观察就可以得到一些直观的感觉，那些就是特征。

有些属性，某群的值超高，它的那根柱子绝对的一支独秀。毫无疑问，这是这一群的特征属性之一，可以用"绝对高"来表示。

如果某个群的柱子肉眼看上去能够分辨出它是最长的，但同时其他还有两三根稍微次一点。那么可以用"最高"来表示。

如果某个群的柱子肉眼上，不能分辨它和其他三四个柱子的长度区别，他们都有可能是最长的。那么就用"高"来表示。并且，记录下其他柱子的编号（因为这几个群在这个属性上面相似，就得找出其他属性的不同出来）。

如果所有的柱子都是相差无几，分布均匀，那么，这个属性就不能够表示某种特征。但如果这中间有个柱子异常地短，那么显然这也就成了该群的特征。

对这十几群，依次地看每个属性上柱子长度的对比，就能够得出每群的特征，哪些属性是"绝对高"的，哪些是"最高"的，哪些是"高"的...只是，群数太多，变量太多。从左到右，拉动水平滚动条。每看一群，就重新回到最左边，依次看过去。累眼、累心、累人，但这恐怕已经是最省事的办法了。

而且还有问题。虽然通过这种方式完成第一轮特征解读，可如果要细化地分析有造成这些特征的原因，就不能光看每群属性值的百分比对比了。还得看绝对值。例如通过图形看出第3群的长途通话占比超高，可如果结合具体属性值，发现它的通话次数本身就非常低，这似乎就并不能表明什么特征。因此，我想还得需要将某些"权重"不大的属性去除，或者，要将一些属性结合起来阅读。哪些属性需要结合起来，还需要进一步思考。

另外一个坐在前面的工作还包括属性的分类，上次也提到了。特别是涉及到太多变量和群的时候，分类显得更加迫切。不加分类会让图形变得超宽，不容易阅读。加上分类，再用筛选的功能，哪些图形就会显示出指定类别的属性。

例如这些属性可以区分成为业务使用量、占比、幅度、趋势几类。这样，如果我想分辨每一群在趋势变化上的对比，就可以过滤出来。这只是一种分类，还可以再加上其他分类。例如分成普通通话类、数据业务类、IP类、短信类等，分别标记为c、d、i、s吧。当然可以对普通通话类再细分，分成漫游类、长途类等等，标记成c-r，c-l等，这样，只要按照这个分类列进行排序，就能够将相似的属性归到一起。自动地，图形上的柱子也会自动凑到一起。看起来方便，又实惠。

总之，对属性分类的目的之一是能够让相似的，表示某一类特征的属性筛选出来。

刘庆 20060729

上午去开会，跟客户讲解分群的结果，讨论每群的市场策略。

群数很多，这两天一直都在整理。前两天的文章中提到人的大脑同时只能容纳不超过9个概念吗，这话还是得到印证了。初步给十几群总结了特征，命了名。第二天睡觉起来，发现还是记不起来。讨论的时候也都是顾此失彼，说到第3群，联想到第9群的什么特征，他们的区别是啥？似乎里面有个群有个什么特征，是哪一群？如此的疑问总是突然蹦出来。

昨天下午试讲了一边，发现将有些人讲的昏昏欲睡，完了，这十几群都是什么名字，什么特征，似乎不太记得了。为了解决这些群之间特征区别的问题，我特意将一些有相似特征的群作个比较，放在报告的最后。有人启发我，为什么不将这些群归纳成几类，每类每类地讲呢？

是啊，何不如此。既然群数太多，就人为地将它层次化。

从实际效果看，作用挺好。表面上，客户已经接受这样的分群结果，甚至已经作出肯定的断语（只是不知道是不是因为双方领导在场，给点面子而已）。但至少从讲解的角度，也是顺畅很多。原来这仅仅是一个小小的技巧。

讨论市场策略，头脑风暴，根据各群的特征去想象都是什么样的人。哦，这种人，保守，不愿尝试新事物；那种人，明显是学生才有那样的特征嘛。如此将每群推选出来一个形象代言人，倒是直观。不过心中还是有个疑问，对于这客户分群的机理有些疑问。

为了显示模型考虑得充分，放置了很多变量。参考其他分群项目的资料，看到别人有个有意思的变量，于是我们也塞进去。可问题是，变量放多了，一些无关紧要的变量难道不会将那些重要特征变量冲淡了吗？反正从最终的结果解读来看，描述特征几乎也就是用几个变量而已。昨天也问了搞模型挖掘的同事，他说，会有这样的情况，然后跟我说了一通理论，没有听明白。最后的结论是，要交差，客户又希望看到放入很多变量，这是最现实的做法。其实，他觉得能够考虑四十个变量已经够多的了。

责编：姜玲