后数据分析

作者:姜玲
2007/5/25 15:02:11
本文关键字: ttnn 2006年12期

丁西宁 20061207

听说过后现代主义,不知道具体什么含义。但我希望大家在我描述完后数据分析以后,能帮我理清思路。:)

所谓后数据分析,就是指数据分析之后所做的事情。我们浏览一张报表,通过对数据进行比对、排序、取差值、钻取、旋转等手段来进行分析,然后我们保存分析后的结果,最后关机。这就是我们通过BI系统进行分析的一般步骤。我们还会不停的重复这样的操作,保存很多这样的结果。后数据分析就是如何处理我们分析后的这些历史分析数据。

有人会说,我不需要分析这些结果,我可以通过调整时间参数来重现以前所有的结果。没错!你可以这么理解。如果只是这么使用,确实没有必要。

可以换一种思路:这些历史的分析结果数据除了当时分析的结果外,还保存了什么?是你的思维,是你当时分析问题的方法。从这个角度来说,能够保留一个人的考虑问题的思路,最终可以通过分析这些思路来挖掘出更有效的idea,岂不是更好!

市场上有很多管理方面的书籍,讲述一些管理大师的思想,我们在学习大师们的理念的同时,更应该理解管理者考虑问题、解决问题的思路。

当然仅仅光靠保存分析结果来记录一个人在看报表的思路还远远不够,可以在看报表的同时提供供浏览者记录想法、问题的空间,就好像word中的标注一样。

今天讲的是要不要分析,怎么分析,如何应用到系统中去,还在继续考虑中。。。 还请大家发表建议!

Qing 20061207

呵呵,你这叫做"数据分析后"。

前段时间帮客户做了个长途话务流向分析,分析这个地区打到哪里的长途最多,哪里打到这个地区的长途最多。这个过程正好跟西宁的后数据分析有点关系。

如果是提取数据,那么只需要一条SQL列出一些排名就OK。
如果是分析数据,那么可以得到一些知识,所谓知识,先可以简单认为是一种规则吧。发现,长途话务流向跟地区地理位置和经济发展关系重大。而且首先是位置,越靠近这个地区邻近的城市,长途来往越多。这说明这个地区的人大多人是在以地区为中心周围不大的范围活动。另外,就是经济发达城市,北京、上海、香港,这些地方去的人多。这两个因素倒是非常容易理解,符合经验认识,拿数据来分析也就是验证一下而已。

但仍然有些古怪的联系。广东的一个地市为什么跟四川、贵州的某个特定地市长途联系那么紧密呢?当然,我没有继续往下分析,如果要寻找这个原因的话。再深入数据去看是下下策,倒不如看看这两个城市之间是不是有什么社会上联系,去新闻里面去找。例如其他城市有不少人来这边打工的,长途通话以探亲电话为主。当然,也可能是一个城市的大企业在另一个城市开设了一个分支机构,来往的业务联系。也许还有其他原因。这些原因不难调查出来。

还可以继续深入啊,比如对于打工人士,他们使用移动通信来打长途,可不可以对他们提供更好的服务或者更多的优惠刺激他们的话务量提高(当然,也许这是低价值群体,运营商看不上,他们一贯如此)。如果是一个企业的分支机构,可不可以向他们推销一些集团产品?

因此,数据分析之后,可以提炼知识,还可以进一步产生行动。


丁西宁 20061207

上回书说到该不该在数据分析之后再进行分析,现在要考虑如何分析。

考虑一: 丢给用户自己来完成后续的分析功能,后数据分析功能只提供对于历史分析结果的整理、查询功能,可以做到对于历史的思维痕迹有据可查。 上回书说了,分析的结果不光包括数据,还可以包括文字格式的批注。这种形式要求用户有良好的分析归纳的能力和空间想象能力。

考虑二:考虑采用哪种格式来保存分析结果。大多数BI工具提供把分析结果以PDF、WORD、EXECL、PPT等格式进行输出。输出的文档可以在向领导汇报工作的时候来用。如果输出到EXECL文件中,我们还可以借助EXECL的统计分析功能对数据进行再分析。

考虑三:在考虑一和考虑二的基础上,考虑如何提供把不同分析结果的数据进行比较的功能,当然这是在不同分析结果之间具有可比性的条件下进行。

考虑四...考虑100:应该有很多方法来进行再分析,不管是何种方法,每次分析的结果都是我们思考的结果,或者叫知识。这种后数据分析的方法,看来也可以看做获取、整理、提炼知识的知识管理方法。

那么下回是否应该从知识管理的角度来看到数据分析利用呢?

老沈 20061208

老丁用了一个很文学气的名词。其实在很多BI系统中,这叫二次分析。

最近我在一个税务BI项目的实施中就遇到这样的问题。

简述案例:
以前纳税评估都是根据企业的属性、指标来进行的,我们不妨叫做平面指标;而目前我的客户希望按一些数理统计指标来对企业进行评估。所谓数理统计指标,是类似一些离散系数、相关系数等等,这些指标需要企业的很多期历史数据进行数理统计而得到,我们不妨把这样的指标叫做纵向分析指标吧。

经过业务部门整理,每个企业纵向分析指标大约有20个左右。税务部门需要根据这些指标对每个企业进行打分,而且打分结果需要允许各级税务机构查询、再分析。

这显然不是"一阶分析"能实现的, 必须用到二次分析。目前我们的系统中专门增加了二次分析的功能,其核心是对一次分析的结果进行自动建模、回写。

老丁,不知道我说的是不是也基本符合你的"后数据分析"概念?

丁西宁 20061208

后数据分析的叫法其实是为了吸引眼球:)
看来老沈又走在了我的前面。

在做分析模型的时候,也许会遇到这些问题:
1 需求调研不是很完善
2 对业务理解不透彻,无法从当前的业务中挖掘出需要解决的问题
3 有很多分析问题的方法(算法、函数),不能都一股脑的都推给客户

当我们对上述问题没有很好的解决方法的时候,二次数据分析是一个权宜之计。毕竟它提供一个补救的接口,提高了软件分析能力的灵活度。

老沈,是说呢?

请教老沈:你文中提到“其核心是对一次分析的结果进行自动建模、回写。”,这个自动建模和回写指的是什么?

老沈 20061208

老丁太谦虚啦!

不过这个问题确实在很多BI实施中会遇到。
我问过一些朋友,他们都是通过手写SQL来解决问题的。

其实手写SQL不能真正解决问题,特别是当数据量比较大时,象上面我提到的"纵向分析指标"每次都动态SQL查询得到,实在效率太低。所以我认为好的BI系统必须支持二次分析。(其实核心就是自动主题建模、自动回写)

回写是很明确的,也就是将一次分析数据回写到数据库中;

但回写不能随便回写,总得有个模式。为了方便展现,当然MD模式最好,所以需要把回写内容自动按MD主题模式进行回写,我就把这叫做自动主题建模。

见笑了。

::ttnn::

用图形表示相关性 @blog

Qing 20061212

前段时间曾经探讨了因素之间的关系,还对因果关系着重说了一下。这个话题还可以深入。这不,昨天遇到一个新的分析任务,按照以往的分析思路,总是先明确分析目标,然后再头脑风暴寻找对这个目标产生影响的因素。

确定了一系列因素,学术点就叫做变量,挖掘建模人员习惯地要建立一个预测模型,去预测哪些客户可能会是分析目标。但从以往的教训来看,这样做几乎只是应付了任务,并没有挖掘点什么值钱的东西。也许,应该多作一些数据探索吧。这些因素是凭感觉想出来的,有可能是那么回事,有可能是想当然,当然,肯定还有没有想到的。

我想知道每个因素之间是否有某种关系,因素跟"果"之间有没有某种关系。

这种关系,现在还无法表达出来。当然,也许在统计学里面,这些关系都都已经抽象出来了,但那玩意儿大多用一大堆公式表示,看着头就大了。有人说,最终可以通过一个叫做"相关系数"的东东来表示关系的密切程度。可惜,这个值在理解上面恐怕不大能派上用场,通过以往对关联分析中支持度、置信度的讨论就能知道。并不能简单地为这个值定义一个阈值,比如高于0.7的,就是有关,否则就是无关。

从便于直观理解的角度,存在某种关系的表示可以从图形上看出来。从图形上,如果能够看出一些可疑的规律性,那就是有关。这里所说的图形是用散点图表示的。输入两列数据,一个在X轴,一个在Y轴,在坐标空间里面标出每个点。当然,这就要求每列数据是连续型变量了。因此,这种方法也只能适用于连续型变量之间的相关分析。

不过要从XY散点图中找出"规律"也非易事。能够有明显的线性、曲线分布真是百年难遇,如果出现这种情况,大多也是明白着的,不用看图也知道的。例如通话时长和通话次数,就是这种关系。

最好是能够出乎意料,本来认为没有关系的因素,从图形上突然看到某种规律,那才是喜出望外呢。

frankwansunny 20061212

喜出望外的规律是最最最难得的。就像观察哈雷慧星一样。已经开始怀疑数据挖掘是不是就是统计的自动化(对海量数据的统计处理),或许根本就是学术、工业界的联合操作看到一种说法,数据分析分三个层次:报表、即席查询、数据挖掘

报表给出的是数据,即席查询给出的是信息(觉得有点类似于olap),数据挖掘给出的是知识

数据-> 信息->知识,一个比一个抽象,数据是离散的,发现之间的结构或者说关联关系之后就变成了信息,将信息围绕一个主题系统化、抽象化就变成了知识,知识可能是出乎人们常识可以预料的,就像相对论一样,但是越让人出乎意料的知识往往实用性越差。

发现出乎意料的知识(规律)固然重要,但是如何应用知识客户更关心,在应用知识的时候,知识的实用范围和应用方式,应用时机往往才是最重要的。

我们在给用户做营销支持的时候,客户营销经验其实比我们丰富,通过经验的积累市场规律了解得也很透测,营销手段也有不少,并且还很主观,对一个问题是有自己的想法和固有认识的。所以对于我们做数据挖掘的人来说发现规律是吃力不讨好的,如果是显而意见的规律最多达到个验证的效果,局方会说我付了钱你给我讲的都是我知道的东西,如果是出乎意料的规律往往是不被认可的,会提出一大堆你无法从数据中验证的因素来证明你的分析不完全。

所以,现在学乖了,还是顺着局方的思路去找数据来支持局方认为对的东西。回答如何应用规律,应用规律的时机,验证规律的正确性。。。。。。是否是更符合市场的数据挖掘方法论呢???

总结一下吧,数据挖掘肯定是要发现知识的,并且知识出乎人的意料越好,但是这似乎更适合于实验室研究;个人觉得,在市场上根据数据证明经验知识的正确性,发现如何应用知识,包括方式和时机,更是数据挖掘更现实的任务。

刚刚看到一句话可以概括上一篇帖子想说的意思:挖掘有用的知识而不是让人意想不到的知识,两者虽然实际上有重合的部分

Delin He 20061212

用图形表示相关性,贝叶斯网络是做好的工具。

数据挖掘中的关联算法能对数据中隐含的变量之间的关联关系进行挖掘与发现;分类算法则能对各个观测变量与目标变量之间的关联关系进行建模,从而根据观测变量值对目标变量值进行预测。然而,这些算法大都是对事物之间的统计关联关系的挖掘与发现,没有涉及到事物之间的因果联系。

贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用以发现数据间的潜在的因果关系。在贝叶斯网络中,节点表示变量,连接节点的有向边表示变量间直接的因果关系。它用概率测度的权重来描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。

贝叶斯网络又称为因果网,概率网和信念网等。贝叶斯网络是由因果推理,因果模式,决策图等逐渐演变而来。贝叶斯网络被越来越多地在专家系统中用于不确定性知识表示和推理。1988年,Pearl建立了贝叶斯网络基础理论体系。1995年,Heckerman等一些研究者使用贝叶斯方法进行贝叶斯网络学习,并把贝叶斯网络用于数据挖掘中。随着研究的深入,贝叶斯网络逐渐成为人工智能,模式识别,机器学习和数据挖掘等领域处理不确定性问题的重要方法之一,是近年来这些领域的一个研究热点。

摘了我的开提报告的第一段话,贝叶斯网络因为其图形化的概率表示方式,成为因果推理的一个重要方法。在数据挖掘中贝叶斯现在用的最多的还是用在聚类,分类上,在因果推理上还有待研究

Qing 20061213

咦,听起来很酷哦,哪里有卖?

这个东东的输入是什么?输出是什么?是不是可以输入一个数据集,比如有40个变量,500条记录(观测),然后哗啦啦跑出一副图,上面显示每个变量之间的相关关系,用概率表示关系深浅?

不过既然贝叶斯网络是表示变量之间连接概率的图形模式,那为什么后面又说到"用的最多的还是用在聚类、分类上,在因果推理上还有待研究"?

还请delin能多介绍一下这个东东。

Delin He 20061213

简单的说贝叶斯网络的学习吧, 就是输入一个数据集,比如有40个变量,500条记录(观测),应用贝叶斯网络结构学习算法,出来一个图形结构,节点表示变量,连接节点的有向边用概率表示,


data
A B C 学习算法 网络结构
1 0 0 ========> A->B->C 概率表:
1 0 1 学习出网络结构和概率表 p(a=1)=0.6 p(a=0)=0.4
1 0 0 p(b=1|a=1)=0.8 p(c=1|b=0)=0. 3
0 0 0 p(b=1|a=1)=0.8 ........
0 1 0
1 0 1
........

贝叶斯网络结构由有向无环图和概率表组成,p(b=1|a=1)=0.8就表示 信念概率的意思, A->B->C中 A和B有弧,A和C有弧,A是B的父节点,C的概率只与B有关,与A无关,这个叫条件独立性。可以假设贝叶斯网络中的有向弧代表的是因果关系,有些时候也不一定,在某些特定领域是可以这样的,贝叶斯网络的一个吸引人的特性就是提供了一个方便的途径表示因果关系,这个例子中就可以说A导致B,B导致C,给定B,C条件独立与A,有了这个网络后,也有一些观察值,可以推理出一些目标变量,这的推理是给定一些随机变量观察值,推出目标变量的概率分布。例如一个信用欺诈的贝叶斯网络,用其他变量的观察值可以推测欺诈的概率。

对贝叶斯网络研究贡献最大的人是一帮搞生物医学研究的家伙,他们用贝叶斯网络研究基因,搞医疗诊断,现在我接触过的一些DM软件贝叶斯用的最多的是 用朴素贝叶斯网络做分类,聚类,用信念贝叶斯网络的还不多,其他方面还有待努力啊,欢迎大家补充,批评指正!

兰德里尼 20061220

呵呵,好像Clementine里面就有这些功能,SQL2005里面带挖掘模型里面也有.

不过我觉得贝叶斯网络表现得图形模式只是表象而已,不一定代表真的有因果关系.

也就是说:因果关系并不等同于概率关系

Delin He 20061210

SQL2005挖掘模型里加了*Naive Bayes,*其实微软里的人研究贝叶斯的人的技术实力很强滴,我以为SQ2005里会把信念贝叶斯加进来的,结果还是没有,微软的heckerman等人都是研究贝叶斯的鼻祖级人物,难道他们认为应用还不成熟?

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map