如何将连续值分段

  作者:姜玲
2007/7/2 14:25:47
本文关键字: 案例交流

作者: Qing 20070612

将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段...如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。

关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。

有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。

这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下----用到了二八原则。

近来遇到一个需要将信用评分划分成信用级别的事情,属于这类问题。

其实在分级之前,我已经初步有了一个想法,分成5级。为什么呢?因为这是客户容易接受的,在金融行业里面不也是有五级吗,因此,这里借鉴一下。于是,问题便演变成为如何将0到1之间的浮点数划分阈值,区分成可以解释的,比较清晰的五个等级。

级别从A到E,信用逐步降低,分值从0到1,逐步提升。当然,有个明显的前提,信用好的是占据了大多数,只有少数害群之马是被认为信用差的。因此,我想,他们应当被冠以E级,或者D级。中间不好不坏的,当然就是C级。那么,D、E级大概占多少比例呢?5%应该可以接受。

于是,对信用模型打分结果首先进行等分分值的频次观察。将分值分成每0.01一个段,观察人数。结果发现,前两个段,0.01和0.02占据了80%,真是不好意思,怎么正好跟二八原则挂上构呢。于是,初步决定将这两个段分别作为A和B级的分值。接着还有20%,如果按照前5%作为D、E级,那么中间着15%的人,当然就算作C级。

凭什么就是5%呢?要知道,这仅仅是之前的猜测。于是,在对人数进行等分观察分值的变化,将所有客户按信用评分排序,均分成100组,每组的客户数量大致相同。发现,分值在一直到96组之前,都是平平坦坦,平稳增长,但是到了96组的时候,不得了,有个明显的观点,从0.049左右,猛增到0.4,然后增加到0.7,再到1。OK,找到了,就是在0.05这道槛。它就是区分C和D级的界限。和当初的设想很接近,信用最差的两个等级占了4%。

在做完这次分级之后,试图总结两点:

1、通过等分数值的频次分布来,结合二八原则,决定主要(频次多)的级别;
2、通过等分人数的数值分布,观察显著变化的点,决定边缘级别(频次少)的级别;

剩下的就是其他级别。当然,也可能就上面这两个已经重叠了,例如发生显著变化的分值,在60%的客户就开始了。这样,我想可以选一个策略,要不以二八原则优先,要不以分值变化拐点为优先。这根本不重要,重要的是如何让级别的划分看起来像那么回事,确实不是乱盖的。

不知道总结的这两点适用范围多广,但应该能够适用大多数情况,这也就够了。

作者: Mr.Somebody 20070613
庆兄没有在文章里面说信用评估应用在哪里,我假设一下是为了信用卡或者是贷款的发放决策(0,1),而不是信用或者是贷款的额度决策。

为什么会与二八原则挂上钩呢?庆兄或许重新看看数据,看看是不是本来目标值(0和1)的分布就是大概20/80呢?

为什么要划分五个等级呢?从信用评估的角度上看,决策的结果有两种,给和不给。如果单纯以模型预测的值来做决策的话,两个等级就够了。如果以模型+决策
树的方法的话则或许有必要多划分几个等级。

为什么要给最后的4%再分两个等级呢?分完之后能够在D和E之间找出显著的区别并据此加入不同的决策规则吗?最终能被应用上这些规则并有不同的决策结果
的(潜在)客户有多少呢?相同的问题也可以问在等级A B C 上。

作者: Qing 20070613

这个问题切中要害,我试着回答一下。
 
这个模型并非用于信用卡或贷款是否发放,是在电信行业用的,用以决策话费透支的额度。如果深入探讨这个问题,很有意思。究竟该不该用一个信用度或者信用等级来决定透支额度?我现在不敢说,但使用信用等级来决定这个额度显然是比较简洁明了的。A级可以透支1000,E级不允许透支……

至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。
 
那为什么是5种,而不是4种呢?为什么要给最后的4%再分成两个等级?当初步看了Somebody的提问,我想,可能是没什么必要,确实,从策略上,对于这4%的客户不会又太大的差异。
 
也许就是个人喜好吧,一开始选择了5这个数字,因为他是奇数,有中间值保持对称,符合中庸之道。

如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。
 
作者: Mr.Somebody 20070613

根据qing兄的在这帖子的回答和在"确定分析目标"的帖子,现在我对问题有了更深一点的认识,同时也有了更多的疑问。

用"用户是否欠费"来作为目标变量建立模型,预测的自然是用户会否欠费。
用"用户是否欠费且不还"来作为目标变量建立模型,预测的就是用户会否欠费且不还。
模型的结果和目标的定义是应该一致的。同时,在定义目标是还应该加上时限。因为预测的目标应该是用户在未来一段时间(N天、N个月还是N年)内会否欠
费,而不是简单的yes 和no。

当然,用户会否欠费与用户信用是肯定相关的,但是是如何相关呢?正比线性还是其他非线性关系?这个问题用目前这个模型是不能够回答的。所以,以用户是否
欠费来作为目标变量建立的模型是不足以用来衡量用户信用的。

要解决透支额度的问题,最好还是借鉴一下金融行业信用评估的方法。

作者: Qing 20070613

我也非常怀疑用这个欠费可能性模型是否能够说明信用的好坏。其实这个模型的目标是是否欠费(当然会有时间限制),如果我们将预测的结果当作是信用差的,应该是可以理解的。然后,对于哪些欠费可能性不大的客户就是信用好的吗?似乎不能这么说。
 
今天下午,将这个结论跟客户说,正是提出了这个问题。
 
因为我们现在的五个等级是金字塔型的,A、B占去80%,D、E只有很少的一部分,从欠费可能性来说,非常符合现实。但客户的一个疑问是----信用好的应当也是很少的,所以这个等级不应该是金字塔型,而是符合正态分布,差不多是纺锤形。这个质疑让我觉得似乎有什么地方不对劲,但从业务角度这是让人觉得有道理的。从分析角度来说,信用好和信用差应该是两个分析目标,如果要得到理想的纺锤形,那么也应当分成两个步骤,一个是识别信用差的群体,一是识别信用好的群体。但又蹦出一个问题----什么叫做信用好。如果说信用差,可以说曾经发生欠费并且不还的,就是信用差的。但信用好的不能说未曾欠过费就是好。
 
有人说,男人不出轨,是因为诱惑不够。同样,那些未曾欠费的,并不是完全因为诚实,恐怕也有诱惑不够大的原因吧。因为本身现在的欠费率不算太高,运营商已经做了很大的控制,很多信用问题已经被隐藏在控制之后。
 
信用度跟这个模型的目标并非严格匹配,就是这样的。当探讨到这里的时候,客户已经认同现有模型。因为他们也意识到没有一个标准来定义"信用好"。
 
按照我开始的预期,果然客户并没有将注意力放在为什么分成五级(而不是三级)。更受关注的,是每个级别的数量构成(最终还是接受了金字塔形的构成),另外确实还有每个级别的区别。A级跟B级如果都是信用好的,但他们的区别是什么,难道只是0.01和0.02分值的差别吗?这不容易让人理解。如果你能发现A级主要客户是中高端,而B级主要客户是中低端,那么这也是个不错的结论(当然,我们还尚未发现这个结论)。

作者: Mr.Somebody 20070615

关于评分结果可以用二八原则来解释,Qing兄的解释很合常理。但是我还有另外一种猜测,那就是因为建模时使用的数据本身就是服从二八原则的。能请
Qing兄验证一下么?

作者: Qing 20070615

你说本身数据服从二八原则是从那个方面来看?如果每个月的欠费客户和非欠费客户比例,不符合二八原则,欠费率大概只有2%,很少。从最后验证看,如果有实际有1万个欠费的,那么模型预测出来,D、E两级大概两万人,命中(确实欠费)大概8千人,命中率40%,查全率80%,结果还算可以了吧。
 
不过后来想想,恐怕还是因为2%这个基数太小,对分析并不是好事。

作者: 严国友 20070615

Qing,您好!
      
不知这个模型的等级划分,最终如何在实际中去应用。
      
早先的手机用户多是后付费用户,先消费,在付钱。曾出现过有人那别人或假身份证办手机号,一下就消费个十万、百万的,当然是不会给移动/联通缴手机费的。
      
因此出现了很多黑名单,即这个身份证不能入网;到现在多数都是预付费了,你得先缴钱,然后才能打电话,一旦余额不多就限制你使用。

此前有过信用度控制系统、黑名单管理系统等。在移动/联通都要求大伙先付钱了,信用度控制还有多大需求呢?
      
不过总还是有点后付费的用户,多数省份比例已经很小了,不过北京移动好像还不少:入网要北京本地身份证担保,或者预交500块。头几个月消费总额几乎都控制在200元以内,否则就限制使用;不过用了半载、一年后,就可以不太受控制,一般都可以消费个千儿八百的。

其实这样的控制还是蛮实用的,配上缴费提醒系统,基本就能应付欠费问题。 不管用户实际信用度高不高,新来的就得受限,等成了老用户了,基本上一个月的消费额度就可以用来作为欠费额度了。
      
而用模型去预测打分,给用户分成5类,在最终应用上 和 以上的信用控制公式比,手机用户的可理解性相比可就要难了。

作者: Qing 20070618

面提到了,虽然这叫作信用度模型,但其实是预测客户欠费的可能性。本身,欠费问题在国内的电信行业已经不太显著,很多都变成预付费,欠费就停你机。除了几个大城市还存在很多后付费的客户,他们更关注欠费问题吧。
 
也许,运营商是期望构建一个能够预期客户"信用"好坏的模型,这种好坏得是相对的。比如,你给他1万块透支,他岿然不动,你给他10万透支,他心动了,于是用完就跑了。但也有人,给10万不动心,给100万才动心。如此,这被100万打动的就比那10万的信用好。可惜,我们的模型无法预测这个,只能通过客户历史行为来分析。可是大多数客户根本就没有机会展示其信用好坏的机会,你说咋整。
 
所以说,如今我们的模型只能拿哪些被预测出来信用不好的客户(D/E级,4%左右)来说事。
 
欠费问题应该不光是避免欠费导致的坏账,应当是提高客户服务和降低欠费欺诈的平衡。如果给你足够的透支额度,你会感到收到信任,满意度提高,而且因为没有余额的限制,你的消费也是不知不觉涨了上去。这就看这个度怎么把握了,这是个策略问题。如果能仿真一下,给足够多的客户予以宽松的透支额度,然后观察收入增长和欠费率,如果收入增长远大于欠费坏账,自然可以给予客户更大的消费空间。

作者: 兰德里尼 20070618

---我也做了个类似的模型,命中率50%,查全率60%,好像还不如你这个呢,你这个从效果来看可以了。不过实际情况是客户一般会要求命中率越高越好,对于查全率似乎不是很关心,可能是因为客户对于差样本审核的成本太高了吧,而且如果命中率很低,客户上报的时候也会很没面子的。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map