小谈挖掘模型变量

  作者:姜玲
2007/4/30 14:36:31
本文关键字: ttnn 2006年09期

Qing 20060824

这是个分类预测模型,建模人员当初在选择变量的时候,恐怕并没有仔细考虑每个变量。
是啊,一百多个变量,要将每个变量实实在在业务含义定义清楚,实在是比较枯燥的事情。而仅仅从数据层面,结合两三个维度组合成一个变量,实在是省心的事。例如将呼叫方向维,好比有两个维元素吧,主叫、被叫。再结合一个对方号码类型,好比有三个元素,手机、固话、小灵通。这样就能组合出来6个变量,可是,这组变量的确切业务含义,被漠视。

这是一种从数据出发的思路,虽然最终建立的模型效果也不错,lift值能够达到预期值。反正模型训练都是工具来完成,中间过程谁也不知道。记得几个月前,刚接触这个模型,我问,"能不能将最重要的变量以公式的形式列出来呢?"

"不行,那些变量是工具自己处理的,我也不知道。"建模者如此回答。

我知道,这是欺负我不懂挖掘工具,将我当作傻逼,那我就是傻逼吧。反正这边客户也是对模型讳深莫测,不大关心其中奥妙,只看结果。不过这种想法的,大多是负管理职责的人。他们负责买枪,据说这种枪杀伤力无比高,能灭了一公里之外一只苍蝇的根。好枪,可是前线的哥们儿除了这个诱惑力的指标,还想知道为什么它这么厉害。

这不,当地市公司用你模型输出的结果,也会有此疑问,"请问你是靠什么逻辑得到这些名单的呢?"我可不敢叫他不要再问这个问题,不敢回答,"这是俺们模型出的,它是咋弄出来,俺什么都不知道。"

不过既然是客户提出这样的问题,比我几个月前提出此问题当然有份量。因此,建模者也就整理出来一份列表,显示了权重靠前的20个变量。这样的列表,很难让人明白。因为开始提到的原因,那些变量只是一种数据的体现,而非业务含义的体现。因此,要解释这些变量。

先将他们归类,看他们分别在描述哪方面的特征。譬如有些变量反映的是通话量(不论是通话次数,或是时长,姑且都归到此类里面),有些反映的是交往圈,等等。这样,就可以将这些冗长的变量翻译成简单的业务语句。譬如,交往圈越大,近三月发生突增突降,那么就导致流失;譬如,与外地用户通话越多,并且通话量呈下降趋势,那么就容易流失。这样的语句,应该是可以理解的。

但,即便这样的语句可以被接受。对于这些语句反映的业务含义可不敢太相信,毕竟,这仅仅是通过仅有的几个变量和权重值判断出来的。这些规则是否起作用?如果起作用是否就能代替了挖掘模型?这还得得到验证。其实这是早就应该做的工作,是在建模之前,要从业务角度分解出变量(而不是如今这种从变量归纳出业务含义,这多少有些自圆其说之嫌)。建模之后,要抽象出业务规则,并验证它们(不再仅仅是模型lift验证了)。
Soyintou 20060903

比较同意

从业务角度分解出变量(而不是如今这种从变量归纳出业务含义......)
老实说,我不是搞bi的。对于bi,dm这些东西还没有真正入门。但在自己的研究当中想运用dm的方法去解决一些问题。

之所以同意上述的说法,是因为在研究的一开始就陷入了对工具的不断尝试,不断重复并且乐此不疲。结果是得出的结论都是不可解释的。

现在返回到变量的选择和调整。面对着一大堆不能确定,可能有影响的,但是纷繁复杂的因子;变量的互相转换;缺失的,但是有的文献也确定的因子,所有这些不能不在自己的专业范围内寻找答案。重新把变量列出来,请教导师,查阅文献,抄袭,偷窃(呵呵,这两个词不太好),才发现对影响因子的选择多么的重要。

这个过程相当的恶心痛苦,面对一大堆excel文件,整个屏幕都是数字,眼睛有点受不了。

如果说"不行,那些变量是工具自己处理的,我也不知道。"我相当鄙视这种说法。
如果亲身经历这个数据处理整合的过程,那么对工具的依赖会变得XX(找不到一个好的形容词)。

现在,多么希望整个研究是一个团队的工作。
所有的工作都一个人做,有点吃不消了。
坚持吧~~~~~~~
努力吧~~~~~~~
成功就在前面。

Bolow 20060908

能不能将最重要的变量以公式的形式列出来呢

事先哪知道什么是最重要的呢?这个和拍脑袋的结果不一定吻合的
要在不断的优化和修正模型中逐步的发现

Rasu 20060921

小弟是数据挖掘还没入门,所以要是问题太菜了,希望大家谅解。

是这样的,就是在变量的选取中,我们能不能做但变量分析,找出某些个目标有关系的变量(自定义一个阈值),这样就去掉了一部分变量。
  我想用以下的方法:

1。做散点图或其他单变量测试,找出和目标有关系的变量。

2。使用decision tree建立一个简易的模型,从里面取出一部分变量,然后用这些变量做神经网络或logistic回归模型,或再使用decision tree 对这些变量进行调优。

3。使用神经网络建立简易模型,找出权重相对大的变量,以这些变量作为候选变量,进行更一步的分析。

请问,上面那种方法在实际中运用较多,有没有可行性。

同时,如果仅从业务上来考虑,会不会漏掉一些感觉和目标无关,但其实是重要变量的变量。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map