老生常谈:CRISP-DM

  作者:hunter
2007/7/2 14:20:33
本文关键字: 学习培训

今天又看回了CRISP-DM的流程模型介绍文档。

发现非常之详细有用,模型除了大家耳熟能详的6阶段,还提出了分4层的模型,最上面是6阶段,下一层是通用任务(对6个阶段的每个进行任务分解),在下一层是具体任务(通用任务在具体的情况下应该采取什么行动)。比如通用任务是数据清洗,具体任务则有数值数据清洗,或是否判断问题类型是聚类或预测。
最下一层是流程实例,即某次挖掘的行动、决定和结果记录。

CRISP-DM还提出了数据挖掘上下文的概念,对于将通用模型映射到具体模型很有用,其由下列某些或全部维度特征组成: 问题域、数据挖掘问题类型、技术面、工具包和具体技术。 无论是挖掘理论,或者某次挖掘,都是可以用这个上下文来描述,并且互相关联的。

杂谈:
这种映射可能需要规则推理(替换)+基于案例的推理,可以考虑用owl, ruleml, swrl来实施。

和我最早懵懵懂懂提出的context,其实还是一个方向,原来这几个公司的哥们早就替我想好了,转了一圈看了n多东西,又回来到这篇没认真读完(或者当时读了也不懂)的文档上。下一步要做的就是改进和实例化

笔记:启发式heuristic:一种妥协式的方法,不保证能找到最优/正确解,也不保证时间,只是提出貌似可行的解

作者: richardzzh 20070608
CRISP-DM虽然是一套不错的方法论,但在实施的时侯是可以很灵活的使用的,SPSS公司的方论也不错在真正的项目中,只要根据项目管理的理论合理分配工作比例,对数据挖掘项目的几个关键环节加以控制
均是可以保障项目成功的,简单说就是在项目中,做什么方论不重要的,重要的是以结果为导向的质量控制

作者: richardzzh 20070608

呵,是呀,没错,但有几个人是按着方法论在做的呢?方法论只是告诉我们理论上应该怎么做,曾经与SPSS、SAS的人合作过,真正做项目时重要的是项目
中的几个环节的控制,回过头来看,其实与方法论是有差异的
我的工作进程如下:

Project Description (General Information)
Sample Size & distribution
Business Explore
Data collection
Modeling
Automate

SPSS的5A方法论较符合实际工作需要。

责编:hunter
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map