|
关于客户流失的问题请教大家一个问题。 在电信的数据挖掘应用中经常会看到关于预测客户流失的应用。通常可能的做法是选取四个月的数据,比如选2006年1,2,3,4四个月的数据。 首先删除了到 4 月末为止入网时长小于等于 3 个月的用户。其次对用户的 4 个月的使用情况进行汇总,删除 4 个月的使用总次数为 0 的用户。第三,确定用户流失变量,把 4 月 通话次数大于 0 的用户确定为非流失用户 ,其他用户确定为流失用户 。这样数据中就可以给客户打上是否流失的标签。 接下来可能会用一些预测模型比如MLN之类的,进行模型的训练,然后利用检验数据对模型进行检验,再接着用一套方法,把预测模型的预测准确率提高。最终就用该模型来预测客户流失与不流失了。 我的问题是: 1、能否把那些已经标记为流失的用户,再进行一次聚类方法的分析,分析出流失风险不同的组呢?比如按流失概率的大小,分为高流失风险客户,中等流失风险客户,低流失风险客户等,这种分群应当怎么分?分成几群?这样做有什么利弊,在实际中有没有实用价值? 2、对于这种聚类的分群,一般所用的数据都是话费详单数据。在这些数据中有用户通话行为类型的数据,这类数据是数值型的,有客户社会属性的数据,这类数据是字符型或者布尔型的。那么在选取上有没有什么讲究?是用数据值型的多?还是用混合型的好? 3、对于以下字段,选取哪些进行分析比较好一点?
以上三个问题请各位多指教。请大家指教的时候,也分为三个问题来分别答一下。多谢。 Nirvana2000 20061008 第一个问题,很有必要,这给市场部做外呼挽留工作的人员很大帮助,能有针对性地采取营销工作,分群的时候需要多做一些探索,分成不同群数,进行对比,还有结合一些业务知识看分的群是否合理; 第二个问题,你可以从分群后的结果分析出一些对特定群相关性较大的属性,你分不同的群数,那么特定属性对特定群的决定因素可能有些变化,这就需要反复做些比较,再还可以考虑采用挖掘工具的因子分析,得到属性对该模型相关性程度的一个排序,这也有很好的参考作用,再就是和业务人员沟通,他们会很熟悉客户的那些特征最能反映客户的流失倾向。 第三个问题,参考二 Hawk 20061009 多谢Nirvana2000。 我试着进行了分析,按问题3中所列的字段,主要取了一些通话费用的字段和客户自然属性的的字段,进行分群,试图找出流失客户中可以分成什么样的群,但没有找到任何规律。在流失客户中再按什么原则分群才有意义呢?这是最大的困惑所在。 希望有这方面的经验的朋友多指点,现在关键找不出"因变量",若是能够找到一个"因变量",然后再试图去找到影响这个"因变量"的因素,就可以用你的说的"因子分析"法去分析一下了。 希望有高人结合我的问题3所列的字段,指点一下。 Qing 20061010 最近遇到类似hawk提出的第一个问题,在预测模型打完分,是否需要再将这些名单划分成几组?怎么划分比较合理? 预测的结果可能是一个预测值,或者是一个概率,这种数据拿给营销执行人员,对他们没什么意义。只是知道,0.9比0.6的概率大,但是这个"大"是遥遥领先?还是高出那么一点点呢?不知道。因此,我想对于执行人员来说,根本就不必关心这些数值,所有的数值都得离散化。根据ARPU,知道对方是一个高价值或是低价值的,根据流失概率,得知这是高流失风险或是低流失风险的。 有个问题我也非常迷惑。仅仅根据预测的值,划分几组,比如高、中、低三档,这好弄,因为一般来说,目标变量只是一元的。而如果根据预测模型中重要变量来对这些客户的特征进行划分,就有些难度了。一种方法当然是hawk提出的,聚类的方法。当然,hawk提出用聚类来划分流失风险,觉着没必要。因为流失风险就可以根据流失概率来划分,用不着聚类这么麻烦。即便再多一个因素考虑,用人工经验来划分类别也是更简单一点的。如果要刻画这些高流失风险客户的特征,并分成几类,因为依赖的变量较多,用聚类的方法可能好些。例如,有些流失客户是通话量突增突降型的,表现为通话时长、次数、交往圈(这就三个变量了)突增突降,有的是外地交往圈减少型,等等(这里举出的两种型只为说明用)。可见,这些类型的划分是依赖多个变量的,人脑不大能够顾得上来。 分出这些群的目的是什么? 还是为了帮助营销。然而,从以往我们的一些分析应用看,虽然很多都加入一些分群信息(大多是依赖认为经验划分的),但这些信息几乎很少被执行人员用到,最多也就是我们评估的时候,看看这些不同组的对比而已。 问题出在什么地方呢?我想是在这些群划分以后,配套的市场策略没有,或者说这些划分不足可信,市场人员不敢用它。当然也有可能是目前的营销还没有到那样精细化程度。既然你给我一万个号码,我就一骨碌做了不就完了,反正有足够的资源。这些因素也许都存在吧。 一般来说,目前作一项营销活动大多采用一种策略。例如客户流失,就是一套外呼脚本。先跟你套磁,然后抛出预存话费送话费,不行就送手机,如果都曾经办理过,就跟你推荐这个xx套餐,xx新业务体验之类。而没有说,针对第一种类型的客户,优先推荐xx套餐,然后新业务体验,第二类型的,优先送话费,再推荐套餐,第三类型的,推荐套餐,不行拉到。如此,这个分类信息就已经结合到外呼人员的外呼脚本里面了,当然能够用的起来。 因为缺乏这个,所以这些分类到底可不可信也无从说起。如果设立对照组就能说明问题,对照组是不区分类型,采用统一策略的,看这些客户对策略的接受率。再跟这些不同类型接受不同策略的接受率对比,如果后者高出一些,说明分类和策略匹配甚好。如果并未高出一些,那么还得设计更好的策略,如果试了几次还是不见效果,可能就是分类的问题,干脆将这个分类并入其他类别里面去。反正一个道理,有对比才有优劣。 不过大家也看出来,前面这段是空谈,现在很难执行下去。正是因为没有到精细化营销的地步,你看,如果要做这样的工作,需要一段长长的周期,他们可能要连续半年地做这项营销活动。比如说流失预警吧。这个营销活动现在确实已经连续执行了一年多了,是"要求"执行,流程已经固化。每个月发布名单、市公司给出反馈,生成评估。但反而倒是没有人再关注那些评估结果了,也不会再去优化整个流程了。反正当初刚作起来的几个月,效果还可以,领导也认可了,就这样吧。 我想如果竞争再激烈一点,利润空间再小一些,资源再紧张一些,就会想着应该优化这些流程,避免不必要的资源浪费。 至于hawk提到的第二、三个问题,其实是涉及到挖掘建模的话题,不大懂,这里应该有一些挖掘高手,看能不能探讨一下。 Zeus amiao 20061022 关于问题1:为什么要分群,分群目的是减少我们理解的难度,原来有1大堆,现在有个方法能把它区分开来,或者至少能区分一部分,比原来只给1个SCORE无疑要进步很多。至于分群怎么用,具体的话,要跟市场人员交流,核心是这个吧。 关于问题2:如果只是SEGMENTATION的话,可以直接的根据变量做一些划分,至于划分的依据,你可以先做一些单变量分析;如果要CLUSTER的话,至少要把字符型的进行转化,可以转化成BULL型,如男女可以设置一个01变量。至于变量究竟怎样一个组合到最优,不同的数据有不同的结构,每个结构又取决于你参数的设定,就技术上而言,这些是固定的。我觉得唯一的标准是合理,解释得通,数据又是如此,同时MARKETING部门的人能认同。 关于问题3:这个要看具体的数据,或者你所要分析的对象,技术上而言,你可以做一个TREE,看看这些变量的IMPORTANCE。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|