Qing 20061009
来个新任务,一项新的分析应用,不清楚要解决什么问题,只知道我们要搭建分析框架,采用三种分析方法,包括挖掘模型。说不清楚所谓的"分析框架"是什么,有点跟前两天一位朋友提出他们导师要的"数据挖掘框架",让人犯晕。
目的始终是要去明确的,原来,有一种业务,注册使用的用户多,但实际使用的用户少。要解决这个问题。我首先想到的是,这不是用数学模型来解决的,应该先从业务角度考虑,提出问题,如果这些问题的解答需要数据的支持,那就通过基本的统计、olap等方法来支持。如果是那种需要预测,或者需要对现有数据进行一些特征描述的,可以用到挖掘模型的方法。而不是本末倒置,总是先想着要用挖掘模型解决问题,或者建立一个什么分析框架。
其实看看,即便是有数据分析的需求,很多情况下并不一定需要数据挖掘。比如说要预测,这玩意儿听起来玄乎,比如预测一批名单。用挖掘模型的方法,采用分类预测模型,塞进去一堆变量,构造一个分类器,然后用它得出一批名单。简单一点,可以用自己"拍脑袋"定义一个分类器啊,例如如果是男性、如果近三个月平均消费超过100、并且他还没有使用xx业务,那么就将他当作目标,塞到名单里面去。这也是个分类器吧,有点跟决策树类似,只是它并非通过数据规律得到,而是通过业务经验得到。
你也不能说这个"拍脑袋"就肯定不对,同样,你也可以将它看作一个经验模型,然后对它进行评估,设定对照组、行动组、不行动组,评估其成功率之类的。
虽然这主观一些,但符合发展规律。用挖掘模型来实现,感觉上很客观,完全依据数据说话。却总有点一步达到共产主义的感觉。
因此,我想不论对于想用数据分析来辅助自己决策的客户来说,还是对提供这种分析服务的集成商、咨询商来说,恐怕都会走向上面这种比较现实的过程。先明确问题,再探索思路,最后再落实方法。
方法可以固定,思路也可以固定,可问题总是在变化。固定的方法几乎就是那些模型,而思路,没有方法固定,却也可以固定下来。以前曾经讨论过分析流,也就是分析问题的思路,这玩意儿不好固定,有待时日。而问题,相信无论在什么时候,总会有新的出现。虽然也是可以将问题归类,每类辅以固定的思路,用固定的方法解决,形成定式。不过怎么看起来也像是共产主义。
万里 20061010
很同意庆的看法,问题是变化的,人的经验往往比数据分析更有效。最近在想的一个问题是,能不能总结出一套框架,开发出一个好的人机界面,让业务人员,用户,行业专家等等有经验的人更好的根据数据去运用自己的经验,换句话说达到人机合一的境界。现在的olap,统计查询系统应该也有这种功能,我的想法是能否做更多的分析辅助工作,比如结构型数据的可视化,用户参与数据训练等……
不知大家有什么看法。
Hunter 20061011
呵呵,说谁谁就到,谈谈俺的想当然认识:注册用户多,使用客户少,数据分析和挖掘应该可以提取一些二者的特征和差异所在。。。
但是激活那些未使用的注册用户,就是一个需要实践的过程了,这期间业务经验“拍脑袋”没准很管用,不过如果能有一个框架(又是框架),判断一下这个业务的属性,客户和哪些其他业务接近,尽量利用/参考以往别的业务的激活模型,客户特性(这也算广义的增量数据挖掘吗),做一个模型来预测哪些客户激活率最高,或者用聚类等将客户分类,然后让市场人员去激活,把激活的结果反馈回来,用来搭建激活模型……
框架哪怕是一个纸上记录下来的流程呢(经验流程),也会对理清思路,分析问题有一定的规范和启示。一步登天肯定不容易,针对某类具体问题,有一个经实际检验的规范,里面再有一些具体方法,示例等应该还是很好的,也许效率不是最高,但是对质量控制是一个保证。
Qing 20061013
还记得那天接到的新任务吗,经过两天的思考,确定了一条新思路,去和客户探讨目标客户定位,探讨具体市场策略以及应用流程。发现,已经开始找到了一点"分析"的感觉。总算和客户有了点共同语言。
这个分析是什么来着?注册用户多,使用用户少。其实这个分析已经进行了好几个月,之前主要是挖掘建模者来沟通,于是建立了一个预测模型,将用量当作目标,据说抛进去500个变量,综合了各种属性、行为特征考虑。但如果让我去做这个应用方案,实在想不出,一个预测值能够如何用的上。比如说,模型预测出来一个用户的用量将会是100,这个非常"具体"的值对业务人员究竟有什么含义呢?他真的相信该用户能够达到这个值?恐怕连我们自己都不敢相信。
而且,总觉得这个思路跟业务目标有些背离。目标是希望能够刺激那些沉默的用户使用,而模型却去预测使用多少。虽然说不是南辕北辙,可难有说服力。
前两天hunter对这个问题提出自己的想法,觉得比较有谱。在这种很多事情并不明朗的情况下,例如为什么注册的人多?是不是因为不要钱?注册了为什么不用?是不是因为资费的问题?或者是功能比较弱?这些问题还有待去验证呢。用挖掘、分析的方法主要是要得到一些规律,先不能用来做准确的预测。例如,用挖掘的方法来分析注册使用和注册不使用两组用户,他们都有哪些特征差异。分析那些因素对用户使用该业务有正面的影响,哪些是负面的影响。
我也有类似的想法,所以,在构建这个应用方案时,尽量淡化了这个预测模型,而是从变量中挑选了几个重要的变量。其实,这些变量的重要性根本也不是模型体现出来的,而是在做数据探索时,他们有些显著特征而已。但老实说,这些变量是不是真的"重要",我不知道,从表面上看,是有说服力的。基于这些变量,再去做一个简单的聚类,划分成四五个群体。如此,就可以锁定目标用户群。譬如说,一二三群的特征表明,使用该业务的可能性比四五群要小,因此,可以重点对四五群的用户做工作。而一二三群采用一些低成本的市场策略。
最终探讨完毕,发现几乎将原来的预测模型废掉。瞅瞅建模的同事,脸上颇有些黯然销魂之色。还好,客户表态,下个月将那个预测值也提供出来吧。
从这事,得到一些启发。大家都知道挖掘模型有两类,一种是预测型的,一种是描述型的。是不是可以这样总结一下:
当业务问题还处于模糊的初期阶段,尽量采取一些描述型模型来"解释"业务问题出现的原因,例如聚类模型,用来描述群体的特征。如产品关联,描述业务之间关联度。在问题稍微清楚一点之后,再用预测性模型来分析。此时,前面的描述型模型反映的很多因素都可以作为变量输入。
再举个例子。在ttnn曾经讨论过好多关于客户离网模型的事情,应用上一般成为"客户挽留应用"。一谈挖掘应用,几乎都会谈这个。这是一个预测型模型,预测哪些客户流失概率会高些。相信,绝大多数运营商都已经实现了这个模型。因此,在这之后,很多分析应用,几乎总是套用它的思路。比如,预测哪些客户的价值能够提升,预测哪些哪些客户会使用xx业务...从技术上,确实都是类似的。确定业务目标之后,建立诸如分类预测之类的模型,模型完了做一个评估,lift达到一个数,OK,这个模型就建好了。但我往往发现一个问题,模型评估完的lift值,往往比后面实际做营销活动时候的lift值要高。这是何解啊?难道说模型过期了?这是内部的解释,但在客户眼中,难免对建模过程有些耽心,"您那个模型lift是怎么弄出来的啊?"
不好意思,有些跑题了。刚说到好多预测类应用都是套用离网模型的路子,其实还不能忽略一点。离网模型这个玩意可以说是提的最早的分析模型了,经过这些年的研究,大家对哪些变量对客户离网多少有些概念。而且,君不见,国外还有专家,专门研究这个问题。那个Robttson(是这个名字吧,有些记不住),不是有一本专门讲述客户离网的书吗,厚厚地一本。在国内曾经被华为的一哥们翻译过来,业界传唱。好多公司也是将此书奉为离网问题经典只作。当初,严去亚信面试的时候,就得到一本,让他看完之后给点感想(不过是英文的,大概亚信这样的半外企也是看不起中文的)。在这本书里面,Rob将客户流失划分成不同类别,然后针对不同类别的客户应当如何做挽留等等。到这样的地步,做离网模型,大概还是有一些东西可以参考的。
即便如此吧,书上的东西也是死的,硬套这些内容。将书中提到的因素作为变量输入到预测模型中,恐怕也是偷懒的行为。看看业界这么多做离网模型的集成商、咨询商,有哪些能够从模型中得到实实在在的,就像Rob在书中描述出来的那种规律呢?
当然,环境也是个原因。研究一个业务问题的原因,解决方法。需要长的周期,需要客户、开发商的配合,需要模型,也需要营销的配合才能得到好的营销方案。阿Qing说,基本上,这个,很难。
责编:姜玲
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友