|
小谈挖掘模型变量Qing 20060824 这是个分类预测模型,建模人员当初在选择变量的时候,恐怕并没有仔细考虑每个变量。 这是一种从数据出发的思路,虽然最终建立的模型效果也不错,lift值能够达到预期值。反正模型训练都是工具来完成,中间过程谁也不知道。记得几个月前,刚接触这个模型,我问,"能不能将最重要的变量以公式的形式列出来呢?" "不行,那些变量是工具自己处理的,我也不知道。"建模者如此回答。 我知道,这是欺负我不懂挖掘工具,将我当作傻逼,那我就是傻逼吧。反正这边客户也是对模型讳深莫测,不大关心其中奥妙,只看结果。不过这种想法的,大多是负管理职责的人。他们负责买枪,据说这种枪杀伤力无比高,能灭了一公里之外一只苍蝇的根。好枪,可是前线的哥们儿除了这个诱惑力的指标,还想知道为什么它这么厉害。 这不,当地市公司用你模型输出的结果,也会有此疑问,"请问你是靠什么逻辑得到这些名单的呢?"我可不敢叫他不要再问这个问题,不敢回答,"这是俺们模型出的,它是咋弄出来,俺什么都不知道。" 不过既然是客户提出这样的问题,比我几个月前提出此问题当然有份量。因此,建模者也就整理出来一份列表,显示了权重靠前的20个变量。这样的列表,很难让人明白。因为开始提到的原因,那些变量只是一种数据的体现,而非业务含义的体现。因此,要解释这些变量。 先将他们归类,看他们分别在描述哪方面的特征。譬如有些变量反映的是通话量(不论是通话次数,或是时长,姑且都归到此类里面),有些反映的是交往圈,等等。这样,就可以将这些冗长的变量翻译成简单的业务语句。譬如,交往圈越大,近三月发生突增突降,那么就导致流失;譬如,与外地用户通话越多,并且通话量呈下降趋势,那么就容易流失。这样的语句,应该是可以理解的。 但,即便这样的语句可以被接受。对于这些语句反映的业务含义可不敢太相信,毕竟,这仅仅是通过仅有的几个变量和权重值判断出来的。这些规则是否起作用?如果起作用是否就能代替了挖掘模型?这还得得到验证。其实这是早就应该做的工作,是在建模之前,要从业务角度分解出变量(而不是如今这种从变量归纳出业务含义,这多少有些自圆其说之嫌)。建模之后,要抽象出业务规则,并验证它们(不再仅仅是模型lift验证了)。 比较同意 从业务角度分解出变量(而不是如今这种从变量归纳出业务含义......) 之所以同意上述的说法,是因为在研究的一开始就陷入了对工具的不断尝试,不断重复并且乐此不疲。结果是得出的结论都是不可解释的。 现在返回到变量的选择和调整。面对着一大堆不能确定,可能有影响的,但是纷繁复杂的因子;变量的互相转换;缺失的,但是有的文献也确定的因子,所有这些不能不在自己的专业范围内寻找答案。重新把变量列出来,请教导师,查阅文献,抄袭,偷窃(呵呵,这两个词不太好),才发现对影响因子的选择多么的重要。 这个过程相当的恶心痛苦,面对一大堆excel文件,整个屏幕都是数字,眼睛有点受不了。 如果说"不行,那些变量是工具自己处理的,我也不知道。"我相当鄙视这种说法。 现在,多么希望整个研究是一个团队的工作。 Bolow 20060908 能不能将最重要的变量以公式的形式列出来呢 事先哪知道什么是最重要的呢?这个和拍脑袋的结果不一定吻合的 Rasu 20060921 小弟是数据挖掘还没入门,所以要是问题太菜了,希望大家谅解。 是这样的,就是在变量的选取中,我们能不能做但变量分析,找出某些个目标有关系的变量(自定义一个阈值),这样就去掉了一部分变量。 1。做散点图或其他单变量测试,找出和目标有关系的变量。 2。使用decision tree建立一个简易的模型,从里面取出一部分变量,然后用这些变量做神经网络或logistic回归模型,或再使用decision tree 对这些变量进行调优。 3。使用神经网络建立简易模型,找出权重相对大的变量,以这些变量作为候选变量,进行更一步的分析。 请问,上面那种方法在实际中运用较多,有没有可行性。 同时,如果仅从业务上来考虑,会不会漏掉一些感觉和目标无关,但其实是重要变量的变量。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|