当前位置：首页> BI-商业智能> BI案例> 正文

关于DM的几点体会

作者：杜昭翼

2007/8/1 17:00:10

大中小

用IBM的IM做过一段时间的电信客户挖掘由于时间不是很长，做的挖掘模型效果还有待提高应朋友要求简单总结几点（水平有限，也希望经验丰富的朋友给些建议）：

分享到：新浪微博腾讯微博

本文关键字：案例交流

用IBM的IM做过一段时间的电信客户挖掘
由于时间不是很长，做的挖掘模型效果还有待提高
应朋友要求简单总结几点（水平有限，也希望经验丰富的朋友给些建议）：

1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类：商业数据挖掘产品具有代表性的SPSS Clementine，SAS Enterprise Miner,IBM Intelligent Miner；SQL Server2005属于集成了挖掘模型类的，挖掘算法与SQL数据库产品密不可分，你甚至可以把自己实现的数据挖掘算法跟SQL进行集成，Oracle也类似，DB2的BI功能没怎么用，不是很清楚。

2、数据挖掘过程的重点绝对是数据预处理，一般认为预处理工作会占60%-80%时间不等，为什么预处理会如此重要，大家都知道garbage in garbage out的道理，这在整个BI领域都是成立的。商业智能-既然提到智能层面，那就不只是展现，还要做分析和预测（不过现阶段很多BI项目确实只是在做展现，最多加点多维分析）。BI概念提出之初就是辅助战略决策的产物，当然向操作型BI发展的趋势这里不做过多介绍，经验告诉我们战略决策是基于历史和别人现成经验的，怎样从历史数据的展现和分析过程中得到有用知识，不管你是通过报表或多维分析得到企业各领域指标相关性，还是通过挖掘模型的实施来根据历史数据预测企业未来发展，这一切都是基于企业历史数据的。没有数据质量基础的保证，展现得多华丽的走势图表都是垃圾。

（1）如果是基于数据仓库或者数据集市的挖掘，那么可直接在仓库或者数据集市中建立挖掘模型源输入（也可叫临时宽表，这个表是根据挖掘业务需求对其他维度表属性的一个综合提取，合适的时间窗口在这里是个要考虑的关键因素）；如果是没有仓库或集市这一数据基础，那么就需要一个针对挖掘业务需求字段属性的简单ETL过程了。

（2）上面只是挖掘源数据的建立，接下来才进入数据预处理的核心阶段，由于源数据（临时宽表）里面很多数据是有偏差的，比如空值，错误值，异常值等...这就需要根据每个业务字段属性的规范标准来进行处理，这步是一个繁杂的工程，数据预处理技术各式各样，比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等；而且针对不同字段数据特征，不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术，但要用好，除了需要一些统计学，数据分布等知识外，对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将，很多挖掘产品有因子分析工具，貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序，但这也不能全信，毕竟工具是死的，它只能从数据本身的数理特征去理解和自动分析，例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件，但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多，却是值得注意的地方。

3、经过上面两步，挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解，有朋友赞成挖掘模型是“黑匣子”的观点，有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点：如果不是做算法研究的朋友，只是做挖掘模型应用，却需要对挖掘模型算法有专业理解是不现实的，毕竟公司讲的效益和效率，不像是在实验室，有的是时间让你查资料，折腾进而对模型有个深入全面的理解；但完全黑匣子也是不妥的，一个对该挖掘模型完全不理解的人，指望能利用该模型挖掘出有用知识是不可能的。一是他不可能对挖掘结果有很好的理解；二是参数的调整是最大障碍，挖掘过程本来就是迭代过程，对算法完全不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解的，再就是每个参数的范围及所代表的意义和对模型所起作用也是需要了解的。

4、数据规模也是个关键因素，训练数据，测试数据，验证数据？训练数据是选连续五个月加起来10万条记录，还是选连续三个月加起来6万条记录；测试数据是选两个月加起来2万条记录还是只选一个月？如果一个月数据就有几十万条记录，那么采取那种方式抽取几万条记录，是随机取还是写个简单选择算法？10万条记录挖掘模型跑了一晚上才出来结果，用5万条记录跑出来效果跟用10万条记录的差异大不大？抽取几千条记录完全可以用统计模型实现，为什么还要抽取上万记录用复杂的挖掘模型呢？这些因素很难说有个统一标准，相信很多人还是相信自己的经验多一点，像我等菜鸟们也只能指望经验丰富的老鸟们多出几本数据挖掘指南了。

5、不管是需求分析还是挖掘模型的评估及应用，和业务人员和决策者们的充分沟通交流是完全必要的。闭们造车的数据挖掘模型是脆弱的...

责编：杜昭翼

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

关于DM的几点体会

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。