模型效果的三字经

作者:kaiyun体育官方人口
2007/9/28 12:50:19
挖掘模型有一种功能,它能预测目标。告诉你什么人会离网,什么人会欠费,什么人你赠送话费可以让他多打电话……

分享到: 新浪微博 腾讯微博
本文关键字: 挖掘模型 电信

作者: Qing 20070918

挖掘模型有一种功能,它能预测目标。告诉你什么人会离网,什么人会欠费,什么人你赠送话费可以让他多打电话...

你希望这种模型能起到什么效果?概括起来,我想可以用三个字来形容。这三个字,大家很熟悉,当然,也很老套。大家猜猜..............不是,绝对不是"我爱你"这三个字,也不是"他妈的"。

且容我卖个关子。先从离网模型来引入这个模型效果三字经。

客户离网模型是电信行业里一项悠久的挖掘模型,追溯历史,得是遥远的上个世纪。有人专门研究这个课题,当然,也并不妨碍很多挖掘团队自己从头开始建立模型。为了能让非电信行业的人对这个模型有个基本了解,作个简单介绍。

首先提出的业务问题----什么样的手机用户会离网?要留住他。答,可能工作地点变动的;可能他去世了;可能厌倦了运营商的服务,对质量、客户不满的,嫌贵的;被竞争对手硬挖过去的...因此,专门研究这个课题的专家会将离网分为主动和被动的。主动就是那种不可控外界因素导致的原因,被动就是那种可控的因素导致的(称作主动和被动有些词不达意)。要对离网客户作出预警,最好是针对那些被动的,也就是可控因素导致的进行。并且,假设这样的客户在离网前行为是有所规律的。

那么将会有哪些规律呢?于是通过挖掘模型来识别。

现在电信运营商的离网预警模型基本上都是这个思路吧,如果有什么新的,我衷心很希望了解一下。因为很不好意思地,我们有个运行好几年的离网预警模型,现在似乎不尴不尬地存在那里,人们不信任他,也不愿意用它。原因当然很多,跟运营商关注离网的程度有关系,另一个原因,当然跟模型自身有关系。后一个原因,自然就是对模型效果的期望。

这个模型的精度并不差,模型评估的结果,lift在3以上,我们经常引以为傲的。简单表述一下lift的含义,假设模型预测到离网的用户1000个里面真的有100个离网,命中率10%。而平均情况下,全体100万用户,真的有3万个用户离网,3%流失率。于是,lift等于10%除以3%,提升了3倍。

我们津津乐道于这个显著的lift,大家齐称赞模型多牛比。不过大家忘了一点,业务人员从来不会傻逼到随机地抽取一批号码,去赌其中有多少离网的。多少,他们会动动脑子,从感觉出发。比如,有可能消费太低的容易离网,那好,将月消费小于30块的挑出来。也可能是连续三个月消费消费突降的容易离网,那好,将前两个月平均消费在80以上,最近一个月跌破20的挑出来。这样的猜测大多比随机要准一些,按照这些条件,假设挑选出有1万个用户,其中真的有800个离网,那么命中率也就是8%了。

如果用模型的命中率跟这个业务猜测的命中率相比,lift确实还多了一点点,2%。只多了一点点?也许说这是微不足道的有点不厚道,因为大家知道有时候即便是提高一点点也得费老鼻子力气。不过不要忘了业务上还有其他关注点。一方面是希望你能够准一点,这通过lift能够证明。另一方面,假如总共1000个目标,你能够找出多少出来?全找出来就算你狠,这一般用查全率来表示。

从查全这个角度,按照前面的数据,业务猜测找到800个,预测模型找到100个,显然是前者狠一点。也许,你会说,我可以将预测模型的打分放宽一点,也能找到800个目标,但那样,命中率恐怕就不及10%,甚至不及8%。命中率跟查全率俩兄弟常常是一个吃饱了,另一个就得饿肚子。

当然,上面的数字是我随口诌出来的,没有什么根据,只是为了说明方便。如果那个业务猜测真的能够达到那样的效果,所谓模型到真的不必,虽然有时候所谓的"猜测"是知道了模型的结论之后作出的。挖掘模型号称是从海量数据里面发掘知识,所谓知识,也就是规则。因此,掌握了这个知识的人,当然可以"猜测"。这里涉及到一个将模型转换为知识的过程,且不说。

如果我们将模型当作一个大学生,将知识当作一个有业务经验的人,将什么都没有,没知识,没文化,没道德的人当作白痴。

可以这么说,现在的lift计算方法,大学生的预测能力除以白痴的预测能力。

惭不惭愧呢?惭愧。有本事去跟业务经验比嘛,干吗欺负白痴。整天叫嚣者我比白痴提升3倍,真的有点惭愧。

当然,从商业角度,宁愿将基准线放低一点。不是有句古话说得好吗,聪明人跟笨蛋在一起更加聪明,美女在恐龙面前更加美丽。

OK,大家现在已经知道模型效果的三字经了吧。不错,就是稳、准、狠。

果然很老套,也不要怪我牵强附会,但它们真的可以涵盖我们对模型效果的期望哦(之前曾经提到的抽象性、结论性、简洁性都是特性,不是效果)。刚刚并没有说全这三字经。已经说了"准",用lift来衡量,还有"狠",用查全率来衡量。还有一个我没说,是"稳"。这个效果需要时间证明,不过通常现实中很多模型,在项目进度跟客户关注点漂移不定的环境下,"稳"是退而求其次的。然而,最近我们一项模型,客户就对我们有这个要求,发现,这简直就是一个比准和狠更难搞的事情。准、狠,大不了豁出去,凑合达到要求。但稳要求一贯的准和狠,别上个月lift是8,这个月就是1。

就像是上市公司的业绩一样,你可以短时间将自己盈利搞得很好看,但是你能长期保持吗?比如官员的业绩也是如此,可以搞搞政绩工程显得红红火火,但可以长治久安吗?可是现实情况又是,世人大多只关注短期,不关注长期。所以,你说"稳"到底是重要还是不重要哩?

作者: Hu Jiangtang 20070918

对Qing的lift,有些地方不明白。

lift是为了评估模型效果,Qing举了个分群模型。我们计算lift,一般要先把所有的样本分为10个decile,以后才说对第几个decile,提升指-数lift是多少多少。第一个decile,比如说,是最有离网趋向的人群的前10%,一个好模型,第一个decile的lift值应该最大,第二个decil-e次之,以此类推,对第10个decile,这就包括了所有的人群,lift显然为1.

我的问题是,那个为3的lift,是对第几个decile来说的,还是有一个平均的东西

作者: Qing 20070918

呵呵,文中不是提到了嘛。我们的lift差不多就是你那种第一个decile的提升指数,跟白痴比。

你说的这个decile是个什么东东,看起来更酷一点。也许对于挖掘模型的应用,分成十种情况来评估显得有些太麻烦了吧,所以就选一种最好的。

作者: villa7 li 20070918

说到模型也来两句,现在觉得模型不重要,以前我们敢忽悠移动公司"模型",现在都基本不敢忽悠了,后来一再强调应用,判别出用户离网不重要的,重要的是如何保有-离网,判断出这些用的目的是什么,为什么要做离网专题,这个专题是对哪些用户来做,不能将全体用户都扔到模型里跑一遍出来,先把目标确定好了,再考虑做,如果移-动公司只为了判断离网用户而来让我们做这个专题,那专题就做的很没意义,而且现在也不敢把自己牛哄哄的"模型"给拿出来,就像Qing说的,业务经验拍出来的和-我们费了九牛二虎之力做了个半年搞出来的差不到哪儿去,提升不了多少,最终反倒自己挖了个坑把自己埋进去跳出不来了。所以现在觉得搞模型似乎没什么钱途,技术上-提升不了什么,反倒做了这个专题后移动的执行力、移动的他们自己的想法等都是起非常关键的作用。这儿没有bs做研究的任何意思,当然如果能在技术上有更高的改进-还是非常不错的。

作者: Qing 20070918

villa讲的话,很有道理,也许这就是现实情况。

说模型不重要,似乎会伤害很多人的感情。其实他还是很重要,但在目前这个形势下,至少他的重要性不是体现在模型本身的性能上面,而是在于模型的存在——需要它放-在那里,但不大需要它的作用。

也请不要绝对地理解这个说法,我对这件事情报乐观态度。因为模型的作用已经越来越被重视,如果决策者真的是很谦逊地认为,需要科学方法来提高决策能力的话。也许-这样的决策者还是太少,很多都还是很自我,认为自己比模型牛。确实牛啊,他们也没错,因为现在大多模型并没有显示出比决策者更有洞察力,决策者有理由骄傲。

如果模型能够证明他的性能,就能发挥作用。否则,还是摆设。

当然,另一方面,应用设计者还得给机会证明。

不同的时期重要的东西不同,现在,也许是执行力、想法缺少,这块重要。等这块弥补了,发现方法、工具跟不上,那时候,模型可能又重要的。风水轮流转,不好说。

作者: 兰德里尼 20070920

正好让我翻译的那篇文章里有关于LIFT的说法,也贴出来凑凑热闹:

==================================
对于二分式目标的预测来说经常会参考LIFT值,但是如果没有考虑环境变量的话,这个值有时候会大(或者小)得出奇。Lift是组内收益与整体收益的比值。LIFT=组内发生的比重/整体发生的比重。

举个例子,目标整体发生概率是50%,通过模型筛选可以找到概率为75%的群体,那么LIFT值可以这样来计算,用75%整体概率50%,得到LIFT值为1.5;然而我们在考虑另外一个场景:目标整体发生概率为1%,模型提升后为8%,这时lift值为8。LIFT值为8远比LIFT值为1.5要好得多。然而LIFT值为1.5对应了预测可能的25%的提高,LIFT8仅仅对应了7%的提高。而且结果的可信性是其9倍之多(75% VS 8%)。

当整体概率为50%时,LIFT值最大(提升至100%时)是2,然而当整体概率为2%时,LIFT值最大(提升至100%时)可以达到50。这个例子可以说明当整体环境没有考虑的时候,单纯的LIFT值时没有意义的。为了避免这个问题,要通盘考虑实际提升值和模型最终的概率(准确率)。
==================================

谈一下我的感想:诚如qing所说的,我也曾一度迷恋于LIFT,但是关注到具体的模型的时候,比如离网模型,纳税欺诈,信用欺诈这类模型,具备一个特点:对于预测失误所花的成本很大(或者说失败不起),言外之意就是要追求高命中率;另外一些模型例如邮寄的反馈预测命中率无需很高,大家看看有所提高就很高兴了。我曾经做得一个模型,LIFT大约在3左右,但是从20%提升到60%,似乎很好了,也自我陶醉了一下,但是客户只看60%准确率,呵呵,好郁闷。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map