分析建模

作者:姜玲
2007/5/25 13:37:55
本文关键字: ttnn 200年11期

Goldenfish 20061023

朋友打电话说客户想搞一些分析,通信行业,对产品收益进行分析,找出影响收益的关键影响因素。这些影响因素不仅包括系统内记录的因素,如客户的属性;还应该涵盖外部因素,如同业竞争产品的影响;促销活动的影响等等。前一阵也有搞金融的朋友谈到金融产品定价的事情,同样需要考虑的因素是全方位的,数据不限定在系统内,例如宏观经济走势或国家政策影响因素。

可以借鉴Codd对数据分析模型的划分来理解这类需求。Codd根据处理数据的范围、用户-分析人员的交互需要、多维分析需求及现有工具的支持等因素,将数据分析模型分为四种模型?绝对模型(categorical model); ?解释模型(exegetical model); ?思考模型 (contemplative model); ?公式化模型(formulaic model)。这四种模型一种较一种深入,从描述基本事实到寻找原因, 从代入变量值进行预测到寻找关键变量。 其中,绝对模型是静态的分析和综合路径;解释模型利用已有的多层次路径层层细化,找出原因;思考模型在一维度或多维度上引入变量,以完成假设分析;公式化模型就是分析在维度上引入哪些变量或参数,并分析引入变量后的结果。上述需求需要第四种模型,即公式化模型完成,很直观的解释就是需要建立一个公式,这个公式有诸多输入,但结果输出是比较确定的,可以回答是或者否,或者程度。

在这种情况下,分析建模不再是一个技术人员凭报表工具就能完成的事情,也不是交给数据挖掘工具嘎吱嘎吱操作一通就能出结果。需要行业专家参与或主导;需要整理全方位的数据输入等,虽然定义模型的过程中肯定会使用到多维分析和数据挖掘一些工具和技巧,但定义的模型结果却是一个复杂的公式,完成从发散到收敛的过程。

Qing 20061024
这个Codd真是厉害,搞出ER理论,创造OLAP的名词,连分析模型,他也来掺和一把。以前看过这四种分类,但没怎么注意。现在想想,这样的分类确实挺有必要,帮助理解对什么样的问题,可以用什么类型的方法去分析。codd的这种分类应当是90年代初提出来的吧,对于四种模型,试图结合现有的分析方法理解一下,却发现有一些模糊之处。让人怀疑,这种分法是否还适用现在的环境。

我将codd的这四种分析模型放到了ttnn矩阵上,请看:
http://ttnn.c3crm.com/index.php?title=Codd%E5%88%86%E6%9E%90%E6%A8%A1%E5%9E%8B%E5%88%86%E7%B1%BB

首先看绝对模型和解释模型。

都说这两个是"静态数据分析",何谓静态,当然得有动态。我想,为动静的划分就在于——是否改变影响分析目标的因素。我想尽量表达的通俗一点,却发现这个表达其实反而更加拗口。"分析目标"是什么,"因素"是什么。似乎没有好的定义,而在数据挖掘里面,"因素"通常更加学术地称为"变量","分析目标"也就是"目标变量"。但问题是,codd的意思似乎是,静态数据分析根本还扯不到数据挖掘上面去。

静态数据分析,不改变影响分析目标的因素。这种分析,反映的是现状。所谓绝对模型,goldenfish说是"静态的分析和综合路径"。这句话可太难理解了,我也不知道所谓的"综合路径"是指什么,但猜测,应当是指"设计好"的分析思路。在说白一点。报表、ad-hoc查询,都是绝对模型的例子。说报表是一种模型,恐怕很多人都难以认同,但不可否认,一张报表确实包含了一种思路。一张最简单的收入报表,能够展示收入、利润、同比,能够分地市对比,能够显示他们的排名。这个"模型"能够反映经营的宏观情况。也许,报表设计者,能够设定一个钻取路径,当阅读者点击某某地市的收入单元格时,能够跳转到一个查看该地市近六个月的收入趋势图上去。如果我将这种设定好的的路径当作所谓"综合路径"的话,这应该就是codd的绝对模型。

显然,一般报表反映了现状,但不是所有报表都只反映现状的。一张收入预测报表,就会有预测值,可能仅仅是通过简单线性回归计算出来的,但怎么着,也是预测。我搞不清楚,这算什么,还是绝对模型吗?

先绕过这个问题,再来看解释模型。这也是静态分析模型,只是可以从不同的角度(维度),层层细化。看吧,显然,这是OLAP最擅长的。说它是静态的,一点没错。它不会改变影响分析目标的变量,这里的变量,也可以看作是维度。一个分析Cube里面,度量、维度都实现设定好,不可以改变其中的值,甚至真的发生了维元素变更的时候,整个cube都可能要重新刷新。OLAP提供了比报表更灵活的分析功能,报表中的思路,是固定的,适合让高层领导阅读。OLAP则适合于分析人员,寻找问题的原因。

这是两种静态数据分析模型,另外两种。思考型和公式型的模型,是动态的。按照上面的说法,是会去改变影响分析目标的因素的。

思考型模型,大概就是我们通常提到的"what-if"分析吧,假设一个因素发生了什么样的变化,对目标有什么样的影响。我寻思了半天,发现身边很少做这样的分析。不是没有需求,而是这种方法似乎没怎么见过太成功的案例。比如说,如果明天下雨,这周的收入会波动多少。如果单价降低一般,那么通话量能够提高多少。这些是what-if分析吧,但发现这比预测还难。按理说,codd的四种模型里面,一种比一种深入,可看起来,要做what-if分析,这其中还得有一种"公式"才行啊,似乎它比公式型模型还要深入。

最后的公式型模型。它的特点是能够告诉你,"哪些变量是对目标有影响的"。这太神奇了。虽然,我们常常想知道这个问题的答案,但发现,本身变量的选择就是我们给出的。在此基础上,建立一个挖掘模型,比如分类预测模型,确实能够告诉你哪些变量是最有影响的。并且,真的能够用一种近乎公式的形式来反映这种影响。

照此理解,一般的挖掘模型都是公式模型。这种模型能够从数据中总结出来一套规则,输入了一堆变量,但得到的可能只是几个变量构成的规则。可是我不敢确认这样的理解是否符合这四种分类的本意。

在数据挖掘中,还有一种对模型的分类。描述型模型和预测型模型。我觉得这种分类比较容易理解。

描述型的,告诉你过去。预测型的,告诉你未来。聚类、关联分析是描述型的;回归、神经网络是预测型的。但如果要将这几种模型套到codd的4种分类上,却有些拿不定注意。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map