一次寻求卖点的分析

作者:kaiyun体育官方人口
2007/9/28 11:30:47
数据分析前没有对数据进行提取,没有对决策所对应数据模型进行设计,直接对操作数据进行分析(这里边有Not Additive Data,Semi additive Data,而且还存在定义的问题),最后聚类出现问题并不奇怪。这就是为什么BI里ETL存在的原因。

分享到: 新浪微博 腾讯微博
本文关键字: 数据模型 聚类 ETL

作者: Qing 20070827

"我们来看看手机邮箱怎么作营销吧。"

阿Q对面坐着的是G市移动公司数据业务部的两位年轻人,一位江小姐,体态颇丰满,一位叫小温,头挺大,都不到三十岁,工作热情很高,江姐提出了要作手机邮箱营销。手机邮箱这个业务是个并不招人喜欢的业务,但具体作什么业务似乎并不是凭喜好,当然也未必靠市场,更多可能看指标吧。阿Q本人是手机邮箱的用户,手机邮箱就是可以用手机号码作为用户名的电子邮箱。说实话,他并不太愿意用这个破邮箱,不光是要收费的缘故,操作方面也是够烂。但跟移动公司打交道,似乎还有个不成文的规定,你必须优先使用他们的业务,所以,如果你用其他邮箱跟他们互通邮件被拒了,可别抱怨。

这项业务是原是一家小公司经营的,但移动分成不少,所以"如同己出",乐得搞一些营销活动。这次会议就是讨论如何分析手机邮箱的目标客户群特征。

"手机邮箱应该是有些卖点,是否可以分析一下?"小温说,"是否可以用聚类的方法来给现有手机邮箱的用户分群,最好能找出一些明显的区别,也就是我们的卖点。比如可以宣传短信回复查看邮件,或者是免费自写短信彩信什么的。我们可以从手机邮箱平台上取用户数据,到时候给你。"

听到这样的要求,阿Q不由苦笑。想找手机邮箱的卖点,当然可以,不过被指明用什么具体的方法来分析,实在是很没面子的事情。况且,这件事也未必需要用什么聚类来实现。首先,这项业务的发起人难道没有想到什么卖点吗?如果有,则验证之,看这些卖点是否被接受,为什么完全反其道行之,从数据出发找卖点呢?

"恐怕也未必采用聚类方法。"阿Q如是说。

小温笑呵呵地说,"聚类嘛,完全从数据出发,客观点嘛,我们想看看结果。"

阿Q决定闭嘴,因为这事情没什么争论的必要。关键是目的,是要找到所谓卖点,而不是强求用什么方法。至于完全从数据出发是否更客观,他嗤之以鼻。他更愿意挑选出来几个待选的卖点,找几个用户调查一下,为什么这项业务吸引人。从经验判断,短信通知还是个比较特色的卖点----每当有新邮件到达,可以发一条短信到手机上。

不过,这件事情在阿Q的项目组并不好操作,具体作这项分析的是另一个小组----挖掘组,这中间还是有道沟,你要交代一个大的目标----"找出卖点",不好协调,反倒是小温提出的聚类方法是比较让人接受,因为已经指明用什么方法,好作。

回到项目组,阿Q将这个需求提了出去,思索之下,觉得还是让挖掘组作聚类操作更简单一些。等有了分群结果,再来解读,也是一种法子,退而求其次吧。

过了几天,坐在阿Q后面的小黄说,"手机邮箱的聚类分析已经搞定,结果发给你了。"小黄是位进项目组不久的哥们儿,阿Q以前还没有跟他打过交道。打开了Excel,扫了一眼便回过头说,"这个分群结果有问题。"

小黄下意识地防卫回答,"这会有什么问题,都是从数据跑出来的。"

"你看,分群结果显示,手机邮箱用户分成五群。前四群,分别是四种不同品牌的用户,全球通、神州行...第五群倒是除了全球通之外的其他三个品牌。很明显,这个结论从业务上大家都已经知道。"

聚类技术一直没有什么严格的标准,似乎觉得只要扔进去一堆变量,总会分出几群。考虑什么变量,考虑多少变量,似乎不是问题。因此,当这个结论被认为是无用时,小黄有些不高兴,说,"我觉得挺好啊。"是的,如果从聚类的客观标准来说,是挺好。每组分布比较均衡,组与组之前距离比较分散等等。可惜,得出了一个地球人都知道的结论就是失败。

聚类其实是一种分类,当然,这里说分类不是挖掘里面的术语,而是人们普遍意义上的分类。一次分类只能从某一方面来进行,所谓方面,实在是找不到合适的词来形容。但抱定这个想法,就得在变量选择时小心进行。比如用户手机邮箱使用行为算是一方面的,手机邮箱的配置算是一方面,用户一般业务属性算是另一方面,如果将这些不同方面杂糅起来分群,只会导致混乱。

在手机邮箱这个案例里面,品牌算是用户的一般属性,其他变量大多是使用行为,比如登录web的次数、登录wap的次数等等。因此,还是"纯粹"一点吧,阿Q如此建议,小黄不大情愿地采纳了建议,只考虑用行为变量。

过了半小时,小黄在后面又嘀咕,"不行啊,怎么也分不出理想的几群。",阿Q回头看看,确实,总共170万用户,有一群里面将近160万。毫无疑问,这是数据的问题,应该是有些变量根本就不起作用。在实际分群之前,应该还有一步,观察数据的,阿Q怀疑小黄根本没有作这一步。于是跟隔壁的老潘探讨,老潘是挖掘组组长,经验自然丰富一些。打开那个数据文件一瞅,发现很多记录在行为变量上的值都是一样的,都是0,这部分用户虽然订了该业务,却根本不使用。

剔除这些用户,发现真正有效的记录只有区区10万,真是可悲啊,更可悲的还在后头呢。

基于10万用户再分群已经很快,不一会儿,小黄又说出结果了。这次似乎还换了算法,前面一直用k-means算法,要事先指定分多少群。现在用了叫什么系统聚类的玩意儿,自动分,结果分出3群出来。反正这些算法阿Q不懂,小黄尽管忽悠。

这次的结果很明显,第一群还是几乎不用手机邮箱的,每项指标少的可怜。第二群用的比较猛,第三群,在自写短信彩信方面比较有特点。上面说了还有更可悲的事情,那就是第一群几乎又占去9万,剩下1万才算是活跃用户。

那么从这里面能够看出什么卖点呢?还是不能。虽然说自写短信彩信算是一条,但原来预料的短信通知根本没有什么表现。这是因为短信通知是默认有的功能,凡是使用手机邮箱的,都会有,跟用户喜不喜欢没啥关系。

可是还谈什么卖点呢?170万用户,只有1万活跃,是否得考虑一下这项业务存在的必要。不将精力放在产品完善和客户服务上,只在营销上面下功夫。移动公司在数据业务上经常干这类事,比如今年推的飞信,类似QQ、MSN的IM业务,可能移动公司觉得有钱就可以办成事。可除了建立一个非核心的业务之外,别无所获,过段时间,还是得废掉。为什么会考虑手机邮箱业务,为什么搞飞信业务,为什么会有这样的决策,可惜,BI系统似乎并不能辅助这类决策。

作者: 谭和民20070826

没有分析出是什么样的人使用此项服务的概率比较高啊,另外使用此服务的人所处的行业分布情况也没搞清楚啊,要使用手机邮箱还得邮箱服务器支持此项功能,那么可以调查有多少,那些单位的邮件服务器设置了此项功能,我们现在使用手机邮箱,基本上是一些关注事物进展,关心信息回复的管理者使用比较多,另外做生意的老板也会时刻关注客户或合作伙伴的信息回复,比如国内外贸易,由于时差关系,这个手机短信通知还是比较有卖点

作者: BI菜鸟 20070826

其实这样的情况不少,换个角度也可以体现BI的价值。

Qing说是"170万用户,只有1万活跃,是否得考虑一下这项业务存在的必要",这话没错,不要说GE了,一般公司都应该砍掉这样的业务。可现实工作中,就有很多业务是这种状态的,因为这样那样的原因也不适合放弃。

如果该业务还是要继续下去,BI在这里可以做的就是,通过数据挖掘帮助这项业务找出那活跃的1万人的特征,并配合以传统的市场调研,重新锁定该业务的目标消费群。

这样做,可以使业务负责部门,把眼光从"激活169万"转向"复制更多的1万",在可行性和成本控制方面,后者都更好。

那169万呢?短期内就任它去吧,估计本来也是各业务抢用户抢来的,等到"复制更多的1万"遇到阻力的时候,可以再回来看看情况。

作者: 严国友 20070827

非常有意思的分析结果。

看你提到手机邮箱是移动和SP合作搞的,落得你分析的结果也就不足为奇。

现在所处的项目也是,很多SP就想着怎么捆绑,而且最想捆绑的就是那些不太关心费用,一个月消费巨高的人;感觉和小偷差不多(个人观点,莫怪),专门捡那些粗心、瞌睡、有点钱的人。

作者: Qing 20070827

嘿嘿,这项业务有没有存在的必要不好说,恐怕不是光靠数字说话。即便可以依赖数字,这个数字说明什么?说明业务发展很不好?决策者看了,一句话,"不好就做好嘛",不还是得继续干下去。为什么会有这样的虚假繁荣,因为有个KPI指标,完成不了,岂不是很没面子。完成指标的事情,说难也难,说不难也不难。假设现在有个指标叫做"手机邮箱用户数",只要免费赠送就能完成指标。即便要求严一点,考核"活跃用户数",担保也能炮制出一个非常好看的数字。

有时候BI干得事情就是为虎作伥,这跟财务一样,上面瞎指挥,下面忙分析,不是为了分析点知识,而是去证明领导的英明决策。

这个故事仅仅是个故事,没有太高的高度。

另外,故事并没有结束。

作者: Qing 20070829

手机邮箱的聚类分析完成好几天了,结论已经提交给客户那边,得到如此一个凄惨的结论,阿Q很高兴。因为他根本不在乎结论证明业务的好坏,总之这个结论反应出一个比较出乎意料的现状,虽然所有人都知道手机邮箱业务是送的多用的少,但没人会料到是这么少吧,所以他到处炫耀这个结果。

"哈哈哈",当天晚上,阿Q从梦中笑醒。

刚刚他做了个梦,梦到自己奔跑在狂乱的草原,夹杂着沙砾的风打在自己带毛的脸上,哦,原来他竟是匹毛发参差的野狼。后面一个头大大的家伙在后面追逐,大声叫唤,"给我站住,还我手机邮箱用户,为什么能告诉我活跃用户数不到1%,我怎么向上头交代!" 野狼陡然停住,回转身,寒冷的眼光凝视大头仔。"I'm sorry,我只看事实,你那些用户不是我吃掉的,不要跟着我。" 大头仔说,"怎么可能就这么少的活跃用户呢,看看我们周围,多少人在用,你不也是活跃用户吗?起来吧,活跃起来吧,只要你能活跃,我将我们部门最美的姑娘介绍给你。"狼的眼中冒出五颜六色的光彩,仰天长啸,"呜~~呜~~"

第二天上班,阿Q仍在回味这个梦境,心想要是现实多好啊。可是惋惜得很,他肯定已经是个活跃客户,所以那个前提就无法满足,更别谈什么姑娘,终归是个梦。

不过,自己的手机邮箱用量指标到底怎么样,即便是活跃客户,又算是多活跃呢?他并没有看过数据,于是让小黄将分群数据给他,数据已经分成三个文件,一群一个。他首先打开第二个群文件,这是活跃客户的号码,阿Q自信满满地搜索自己的号码,...嘟,"没有搜索到该号码!"对话框告诉一个让他不敢相信的结果,不会吧,他可是几乎天天都要用手机邮箱,每天都要登录,每天都收到好多邮件的。他依稀记得在当初输入变量里面有两个变量,一个是web登录次数,一个是邮件通知次数,这两个变量上,他可绝对少不了。再打开第一个文件,这是不活跃客户的号码,搜索,果然他的号码位于其中。

有一点点郁闷,已经忘了如果他不活跃还有姑娘可介绍,分群结果将他归入不活跃简直就是奇耻大辱。于是再找小黄要来原始数据文件,定位到自己的号码,结果发现也只是在web登录一栏里面,数字是1,邮件通知一栏里面是62。按照前一个变量,恐怕确实是不活跃,而按照后一个变量,得算是活跃吧。

从最后三群各项指标来解读,第一群的各项指标几乎都是在1以下,最大也不超过2,如此指标,只能解释成"不活跃"。第二群各项指标到真的很大,有的值都上到100多,邮件通知62确实也比不上。阿Q决定找个高手老潘来问问。

"这是怎么回事,我竟然被分到不活跃群?"

"哦,这是系统分出来的,看来你真的不够活跃。"

"可是,那个'web登录'到底是个啥子意思嘛?明明我每天都web登录邮箱,有时候一天还登上好几次,怎么可能是1呢?"

"我想想...可能这个变量不是指web登录次数,可能是指'最近一天登录次数'。"

"如果那样的话,这个变量岂不就是不应该和其他变量放在一起分了吗?"

"为什么?"

"因为其他变量都是表示一个月发生的次数,而这个变量只是表明某一天发生的次数,这样分出来不好解读哦。"

"唔...放在一起分当然是可以的...不过解读起来确实也是有些麻烦的...如果我们对这个变量乘以30,可能解读意义就会强一点了。但是不能保证用户每天的登录次数都很固定,所以如果能够拿到一个月的登录次数还是准确一点。"

"那现在怎么办?真是不好意思,我已经大肆宣扬出去这个结论了。原来并不能完全看着分群变量的均值来解读,妈的,我的62是个中间派,于是被划到不活跃组去了。不过这也太不公平了吧,聚类真他妈操蛋。"

"是的,我们做聚类之前确实一些步骤做的不够完善,在数据探索上没有仔细看数据,这点我要向你道歉。另外,我们也没有对变量含义仔细理解,其实还应该对变量进行分类的。比如web登录次数、自写短信次数这些都是用户web使用行为,而短信回复邮件、wap登录都是反应在手机终端的行为,其实还得区别开来,但他们都表示了用户主动使用手机邮箱的活跃程度。而'邮件短信通知'反应了用户邮件的多少,但并没有代表主动活跃。想想,如果这个用户经常收到垃圾邮件总不能表示他还是活跃的吧。如果要表明用户是主动型还是被动型,那么我们可能就不光用原始的这些变量了,还得合成一个新的比如叫做'邮件收发比'的变量。所以,可以说,你想得出什么样的分群结果,不能完全依赖数据,还要对数据进行一些分类、预准备。每个变量是准备从那个方面来区分客户的,必须得事先确认清楚。但客观一点说,这不应该是我们组的工作,其实这项工作是你之前没做好。"

"我靠,竟然罪魁祸首是我,I服了you。"阿Q郁闷了,但随即又开心得很,"没关系,现在结论已经提交,虽然看来这三群显然并不合理,但是问题也不大。大不了不要将第一群命名成'不活跃组'就可以了,这样活跃客户就从原来的1万增加到10万,因此,活跃用户比例就从原来的不到0.6%到现在的6%,哈哈哈,这下移动高兴了,哈哈哈,我的姑娘也有戏了。"

作者: Xuanpu Sun 20070829

数据分析前没有对数据进行提取,没有对决策所对应数据模型进行设计,直接对操作数据进行分析(这里边有Not Additive Data,Semi additive Data,而且还存在定义的问题),最后聚类出现问题并不奇怪。这就是为什么BI里ETL存在的原因。

作者: hunter 20070831

感觉需要把做分析的这个组织流程再优化一下。。比如q不给任务或评价不高就和奖金挂钩什么的

觉得”BI菜鸟”说的很有道理,这就是bi和业务互相作用的一个过程看来数据还是符合20/80原则,果然是简单的模型的反映比较接近实际

作者: villa7 li 20070919

算老贴了,再翻出来,发觉很有意思的帖子!

1、活跃和不活跃,我在想为什么要做聚类,估计模型组的人看到这个帖子都砍了我,那样他们就没有存在的意义了,既然我们认为登录web次数多就算作为一个活跃的变量,那把这些变量找出来给个标准定义一下不就ok了么,甚至直接就sql就可以解决掉。曾经我们做细分,把一堆变量扔进去聚,后来发觉j聚类的算法不重要,只是聚类的每个变量非常重要,所以倒是看看每个变量的分布以及对最终结果影响变量之间的关系,最终决定是否需要这个变量,对每个变量一定要想清楚到底要他出来的结果会代表什么,否则聚出来经常就是将一样大小的苹果和桔子给弄到了一起,当然如果你就是想找一样大小的东西这样的做法也是对的。

2、对发展一个新业务更多的是需要去调研用户,看看客户到底需要什么,了解他么的心理需求,这样应该会比单从数据出发的结果会更好一些,对手机邮箱这样的业务对一些经常出差的,或者就是一般的公司职员,或者做生意的推一推也大家接受度还是可以,我想比单纯的从数据来看要好一些,当然可能这些数据在库里是没有,所以也比较为难。

3、关于移动的KPI,大家深有体会,单纯为了完成KPI还是很容易的,更多的是看移动是否愿意砸钱来做这个产品,如果想拿钱来砸还是能砸出个坑的,一堆人会被忽悠到那个坑里去,说到飞信,我认为这个产品发展前途还是不错的,只是很多功能现在没有完善起来,比如来电提醒这些业务都还可以,移动只是没有大力的去推。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map