小谈挖掘模型变量

作者：姜玲

2007/4/30 14:36:31

本文关键字： ttnn 2006年09期

Qing 20060824

这是个分类预测模型，建模人员当初在选择变量的时候，恐怕并没有仔细考虑每个变量。
是啊，一百多个变量，要将每个变量实实在在业务含义定义清楚，实在是比较枯燥的事情。而仅仅从数据层面，结合两三个维度组合成一个变量，实在是省心的事。例如将呼叫方向维，好比有两个维元素吧，主叫、被叫。再结合一个对方号码类型，好比有三个元素，手机、固话、小灵通。这样就能组合出来6个变量，可是，这组变量的确切业务含义，被漠视。

这是一种从数据出发的思路，虽然最终建立的模型效果也不错，lift值能够达到预期值。反正模型训练都是工具来完成，中间过程谁也不知道。记得几个月前，刚接触这个模型，我问，"能不能将最重要的变量以公式的形式列出来呢？"

"不行，那些变量是工具自己处理的，我也不知道。"建模者如此回答。

我知道，这是欺负我不懂挖掘工具，将我当作傻逼，那我就是傻逼吧。反正这边客户也是对模型讳深莫测，不大关心其中奥妙，只看结果。不过这种想法的，大多是负管理职责的人。他们负责买枪，据说这种枪杀伤力无比高，能灭了一公里之外一只苍蝇的根。好枪，可是前线的哥们儿除了这个诱惑力的指标，还想知道为什么它这么厉害。

这不，当地市公司用你模型输出的结果，也会有此疑问，"请问你是靠什么逻辑得到这些名单的呢？"我可不敢叫他不要再问这个问题，不敢回答，"这是俺们模型出的，它是咋弄出来，俺什么都不知道。"

不过既然是客户提出这样的问题，比我几个月前提出此问题当然有份量。因此，建模者也就整理出来一份列表，显示了权重靠前的20个变量。这样的列表，很难让人明白。因为开始提到的原因，那些变量只是一种数据的体现，而非业务含义的体现。因此，要解释这些变量。

先将他们归类，看他们分别在描述哪方面的特征。譬如有些变量反映的是通话量（不论是通话次数，或是时长，姑且都归到此类里面），有些反映的是交往圈，等等。这样，就可以将这些冗长的变量翻译成简单的业务语句。譬如，交往圈越大，近三月发生突增突降，那么就导致流失；譬如，与外地用户通话越多，并且通话量呈下降趋势，那么就容易流失。这样的语句，应该是可以理解的。

但，即便这样的语句可以被接受。对于这些语句反映的业务含义可不敢太相信，毕竟，这仅仅是通过仅有的几个变量和权重值判断出来的。这些规则是否起作用？如果起作用是否就能代替了挖掘模型？这还得得到验证。其实这是早就应该做的工作，是在建模之前，要从业务角度分解出变量（而不是如今这种从变量归纳出业务含义，这多少有些自圆其说之嫌）。建模之后，要抽象出业务规则，并验证它们（不再仅仅是模型lift验证了）。
Soyintou 20060903

比较同意

从业务角度分解出变量（而不是如今这种从变量归纳出业务含义......)
老实说，我不是搞bi的。对于bi，dm这些东西还没有真正入门。但在自己的研究当中想运用dm的方法去解决一些问题。

之所以同意上述的说法，是因为在研究的一开始就陷入了对工具的不断尝试，不断重复并且乐此不疲。结果是得出的结论都是不可解释的。

现在返回到变量的选择和调整。面对着一大堆不能确定，可能有影响的，但是纷繁复杂的因子；变量的互相转换；缺失的，但是有的文献也确定的因子，所有这些不能不在自己的专业范围内寻找答案。重新把变量列出来，请教导师，查阅文献，抄袭，偷窃（呵呵，这两个词不太好），才发现对影响因子的选择多么的重要。

这个过程相当的恶心痛苦，面对一大堆excel文件，整个屏幕都是数字，眼睛有点受不了。

如果说"不行，那些变量是工具自己处理的，我也不知道。"我相当鄙视这种说法。
如果亲身经历这个数据处理整合的过程，那么对工具的依赖会变得XX（找不到一个好的形容词）。

现在，多么希望整个研究是一个团队的工作。
所有的工作都一个人做，有点吃不消了。
坚持吧～～～～～～～
努力吧～～～～～～～
成功就在前面。

Bolow 20060908

能不能将最重要的变量以公式的形式列出来呢

事先哪知道什么是最重要的呢？这个和拍脑袋的结果不一定吻合的
要在不断的优化和修正模型中逐步的发现

Rasu 20060921

小弟是数据挖掘还没入门，所以要是问题太菜了，希望大家谅解。