数据爆炸带给人们无限恐慌,杂乱无章的表象数据,影响着人们的视听,混乱着人们的决策思维。然而,数据在本质上是提炼信息和知识的原料,丰富的数据资源意味着更丰厚的知识储量。可见,人们缺乏的是从数据原矿中开采知识的方法,而非知识本身。于是,数据挖掘应运而生。
有史为证,自古人们就发现了煤和石油。在北宋首府汴梁(今河南开封),曾盛传“汴都数百万户,尽仰石炭,无一家燃薪者”,沈括的《梦溪笔谈》更是记载了:“延境内有石油,旧说‘高奴县出脂水’即此也”。
然而,由于缺乏先进的冶炼技术,人们只看到了煤和石油作为可以燃烧的石炭和脂水的功能,却未料到它们所蕴含的物质和能量,足以支撑起今天的文明世界。
无独有偶,信息时代带给我们丰富的数据资源,但从抽象的原始数据,我们顶多只能获取其表层的、统计学意义上的信息。事实上,在海量的原始数据内部,蕴藏着丰富的内在关系和隐含信息,亟待先进的技术去开采。这就是今天谈数据挖掘(Data Mining)技术的意义之所在。
缺乏的是方法,而非知识
数据爆炸带给人们无限恐慌,人们悲叹“淹没在数据的海洋里,却独不见信息和知识”。的确,杂乱无章的表象数据,只能起到障眼法的作用,影响人们的视听,混乱人们的决策思维。
然而,数据在本质上是提炼信息和知识的原料,丰富的数据资源意味着更丰厚的知识储量。可见,人们缺乏的是从数据原矿中开采知识的方法,而非知识本身。正是在这种背景下,数据挖掘技术出现了。
对于数据挖掘,人们的认识日益趋同,即认为它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
与传统的数据分析方法(例如,统计)相比,对于相同的原料,却能开采出不同的内容,由此可见,数据挖掘具有更深层次的内涵。
致力于知识发现
实际应用中,人们常将数据挖掘与知识发现(KDD)、数据融合(Data Fusion)等相提并论,是因为数据挖掘瞄准的对象是阐述个体间联系的相关性知识、而非描述个体属性、支零破碎的数据。数据挖掘旨在发现五类知识:广义知识(Generalization)、关联知识(Association)、分类知识(Classification & Clustering)、预测型知识(Prediction)和偏差型知识(Deviation)。
拓宽原材料的范围
数据挖掘的视野非常开阔,其加工的原材料不仅限于单一类型的数据。用于数据挖掘的数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据;甚至可以是分布在网络上的异构型数据。
将数据原矿刨挖到底
“工欲善其事,必先利其器”,与传统的数据分析技术相比,数据挖掘遵循了科学的流程、结合了先进的技术,并在此基础上开发出了功能强大的工具,这是数据挖掘能将数据原矿刨挖到底、析取知识的根本原因。
流程
从凌乱的原始数据,到生产出可以利用的知识,无论采用什么样的技术手段,其基本操作流程都大同小异,可以用图表示。
图中底部的五个动作对应着确立业务目标、准备数据、调整数据、建立和评价数据挖掘模型、应用模型这样五个环节。
◆ 确立业务目标
清晰地定义出业务问题,认清数据挖掘的目的,是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而进行没有清晰业务对象的数据挖掘带有盲目性,是不会成功的。
◆ 准备数据
搜索所有与问题有关的内部和外部数据,从中选择适用于数据挖掘应用的数据;鉴别数据的质量,对数据进行一定的加工处理,为进一步的分析做准备,同时确定挖掘操作的类型;将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。
◆ 调整数据
通过上述两个步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求要对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。
◆ 建立和评价数据挖掘模型
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立模型。这一步是数据挖掘的核心环节,运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。
然后,解释并评估用所建立的模型来挖掘的结果。评估有三种方法:一是直接使用原先建立模型样本和样本数据来进行检验;二是另找一批数据并对其进行检验,已知这些数据能反映客观实践的规律性;三是在实际运行的环境中取出新鲜数据进行检验。
◆ 应用模型
将分析所得到的知识集成到业务信息系统的组织结构中去,对企业的有关经营活动决策提供支持。
技术
数据挖掘强大的数据处理功能与其采用的先进技术密不可分,它将传统的数理统计技术、逻辑分析技术和今天的人工智能技术融合在一起,形成一套综合性的数据分析方法。
◆ 统计学技术
数理统计是最原始的数据分析方法,它旨在从抽样分析中提取未知的数学模型。数据挖掘并不排斥这种传统的方法,因为在数据挖掘中常常会涉及一定的统计过程,如数据抽样和建模、判断假设以及误差控制等。
◆ 粗集技术
粗集技术模拟人类的抽象逻辑思维,以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的。
粗集技术通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的。简化知识表达空间是基于不可分辨关系的思想和知识简化的方法来进行的,从数据中抽取推理逻辑规则作为知识系统的模型。它是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
◆ 神经网络
神经网络是模拟人的神经系统,通过训练来学习待分析数据中的模式来构造模型。神经网络具有联想记忆功能,可对一些模糊低精度类型数据进行分类。
将神经网络应用于数据挖掘的基本思路是将数据聚类,然后分类计算权值。神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。
◆ 决策树
决策树提供了一种展示“类似在什么条件下会得到什么值”这类规则的方法。它根据数据的值,把数据分层组织成树型结构,即用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。在决策树中每一个分支代表一个子类,树的每一层代表一个概念。
◆ 模糊逻辑
模糊逻辑是模糊集合与布尔逻辑的融合。一个公式的真值,可在[0,1]区间任意取值。在数据挖掘和知识发现中,常用逻辑模糊来进行数据查询、排序,以及进行证据合成、置信度计算等。
此外,在数据挖掘中还会经常用到的技术包括遗传算法、最邻近技术、规则归纳和可视化等。
工具
今天,人们基于数据挖掘开发了各种各样的应用工具,并在实践中取得理想的应用效果,这是数据挖掘技术能被迅速推广的主要原因。
◆ 商业智能
商业智能(Business Intelligence)是一种基于对跨平台的数据进行分析,以获取用于支持商业决策的情报的技术。
它从不同数据源收集的数据中提取有兴趣的数据,对数据进行清理以保证数据的正确性,数据经过转换后装载到数据仓库和数据集市,然后利用合适的查询和分析工具、数据挖掘工具等对其进行分析和处理,并把结果呈现给管理者,为决策者的决策过程提供支持。这其中,数据挖掘对于大批量的数据处理起到重要作用。
◆ 基于数据挖掘的搜索引擎
这是数据挖掘在Web数据挖掘中的一种应用,主要用于开发呈几何级数增长的网络数据。比如,A hoy!是一个个人主页搜索系统,用户只要输入个人的姓名以及机构或单位名称等信息,A hoy! 就可以在WWW网上找到此人的主页;WebKB是卡内基梅隆大学的万维网信息挖掘研究项目。它致力于建造一个大型的知识库,这样的知识库能够促进对WWW网上的信息的抽取,以及对基于Web的知识推理和问题求解的支持。
链接1
数据挖掘应用领域
从应用的角度来看,数据挖掘可被应用到多个数据密集型领域(如表),将杂乱的数据变废为宝,分析出潜在的信息和知识,从而改观过去人们凭主观臆断的决策模式。
链接2
数据挖掘技术可实现的功能
作为一种基础性的数据分析技术,数据挖掘在应用各种先进的流程思想和技术方法的基础上,可以实现这样一些功能:
概念描述
数据挖掘可以对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
关联分析
关联就是两个或多个变量的取值之间存在某种规律性。它是数据库中存在的一类重要的可被发现的知识,包括简单关联、时序关联和因果关联等。关联分析的目的是找出数据库种隐藏的关联网。
预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。
聚类分析
数据库中的记录可被划分为一系列有意义的子集,这个过程被称为聚类。它与分类和预测不同,只是分析数据对象,而不考虑已知的类标记。
链接3
数据挖掘的误区
误区1:数据挖掘提供了即时的未来预测。
数据挖掘是一个多步骤的处理过程,其中包括:定义业务问题,扫描并按条件搜索数据,开发模型,运用获得的知识。典型情况是,企业花费大量时间预处理并且按照条件搜索数据,保证其干净、一致、良好整合,以便于应用他们所需要的商务智能。
误区2:数据挖掘对于商务应用程序仍然是不可用的。
实际上,数据挖掘是一种可用的技术,并且由于它的商业效果受到了很高的评价。
误区3:数据挖掘需要单独的、专用的数据库。
数据库技术的发展使得现在数据挖掘再也不需要在一个单独的数据中心进行了。
误区4:只有拥有博士学位才可以进行数据挖掘。
数据挖掘是一项需要三个专业领域的技术专家共同合作的工作,实际情况是:在成功项目的实施者中根本用不到一个博士。
误区5:数据挖掘是给那些拥有大量客户数据的大公司提供的。
一个公司,无论大小,只要拥有能够精确反映业务或者客户情况的数据,都能在这些数据基础上构建模型,对应重要的业务挑战。
责编:
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友