聚类分析——客户数据海洋中的导航仪

来源: kaiyun体育官方人口作者:北京机械工业自动化研究所 产品部 余斌
2012/3/31 9:54:31
当然企业还能从聚类结果中结合企业自身的行业信息,挖掘出更多隐藏在客户数据中的信息,比如各个类别客户的重要程度,同一类客户的购买习惯和取向,不同类别之间客户的差异等等。通过对这些数据的深层挖掘,就能更好地理解客户,为客户提供更精确的服务,从而提高企业效益。



分享到: 新浪微博 腾讯微博
本文关键字: 数据挖掘 数据库 聚类分析

21世纪是知识经济的时代,信息化已经成为主流趋势。信息化的建设为企业生产运营带来了极大的便利,但由于信息传播速度的加快,企业之间的竞争也日益激烈。在这种环境下,企业想要更好更快地发展,就必须为客户提供更优质的服务。企业在经过了信息化建设的初期阶段后,信息系统中必定会积累大量的客户数据,如何利用这些数据,挖掘出有价值的客户信息来为客户提供更优质的服务,而不是淹没在数据的海洋中,成为企业在后信息化时代提高竞争力的关键。

一、数据挖掘与聚类分析

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或"挖掘"知识。数据挖掘是知识管理的基础,是一类深层次的数据分析,是实现数据上升到知识的必然过程,数据挖掘是知识管理非常关键的部分,它是一个应用数据进行有效的知识管理的过程。数据挖掘的精髓在于运用数学工具从海量的数据库中寻找隐含的数据关系,它直接决定了产生知识的有效程度,为企业知识的创造提供了有效的工具。

聚类分析(Cluster Analysis)是一种重要的人类行为,是数据挖掘一项很重要的模式。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析方法是数据挖掘中的核心方法之一,是一种数据简化技术。聚类分析作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小。聚类分析在企业ERP系统的客户信息管理中有重要的作用,通过分组聚类出具有相似行为的客户,并分析客户的共同特征,可以帮助企业更好地了解自己的客户,向客户提供更合适的服务。这样能有效提高客户满意度,同时提高企业产品的销量和效益。

聚类分析的主要技术方法有如下几类:划分方法,层次方法,基于密度的方法,基于网格的方法,基于模型的方法,高维数据的方法和基于约束的聚类。在应用过程中,聚类过程由以下数据分析阶段组成:

1. 数据预处理;

2. 为衡量数据点间的相似度定义一个距离函数;

3. 聚类或分组;

4. 评估输出。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步的分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

二、聚类分析算法

本文介绍的聚类分析算法是K-means算法(K均值算法)。K-means算法是最常用的划分方法。K-means 算法以k为输入参数,然后将n个数据对象划分为 k簇,使得同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。簇的相似度是利用各聚类中对象的均值度量的,可以看作簇的质心或重心。

k-means 算法的工作过程说明如下:首先从n个数据对象中随机选取 k 个对象作为初始聚类中心;而对于剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。通常我们采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开,采用平方误差准则,其定义如下:

其中E是数据集中所有对象的平方误差和,p是空间中的点,表示给定对象,mi 是簇ci的均值(p和mi都是多维的)。K-means算法试图确定最小化平方误差函数的k个划分。当结果簇是紧凑的,并且簇与簇之间明显分离时,它的效果很好。对于处理大数据集,该算法是相对可伸缩和有效率的。

三、应用案例

假设某公司主要生产14种机械部件,经过ERP系统客户管理模块统计出该公司最主要的31家客户对14种部件的购买情况,如表1所示。其中第一列是客户编号,第一行是部件编号。数值1到4表示该客户对产品的购买额的映射指标。通过K-means聚类分析功能对实验数据进行聚类,本次聚类将分类数设为4,即将客户分为4类。在实际运用中客户数量众多,企业可以根据需要和成本灵活制定。

表1 客户购买额量化情况表

客户 1 2 3 4 5 6 7 8 9 10 11 12 13 14

1 4 2 2 3 3 4 2 4 1 4 1 2 2 1

2 4 3 3 4 4 3 3 4 3 3 3 2 2 3

3 4 4 4 1 4 3 3 3 2 3 4 2 2 3

4 4 3 3 3 2 3 2 2 2 3 2 2 1 1

5 3 3 2 2 3 3 2 3 3 2 3 2 2 2

6 3 4 3 2 2 2 1 2 2 2 2 3 2 2

7 3 4 3 4 3 1 2 1 3 2 2 2 2 3

8 3 2 3 3 3 3 2 3 3 1 1 1 2 1

9 2 3 2 2 3 2 3 2 3 2 2 3 2 2

10 3 3 2 2 1 1 2 2 2 3 2 2 2 2

11 4 2 3 2 2 2 2 2 3 3 3 3 2 2

12 4 2 3 3 3 3 2 3 3 2 2 3 3 2

13 3 3 2 2 2 3 3 2 3 3 2 3 3 2

14 4 3 2 3 2 3 2 2 2 3 1 1 2 2

15 3 3 2 2 3 2 2 2 3 3 2 2 3 3

16 3 2 3 2 3 3 2 3 2 2 3 3 3 3

17 3 3 3 1 3 3 2 3 2 3 3 4 3 2

18 3 1 3 2 2 3 3 3 2 2 2 3 3 2

19 4 3 2 3 2 3 3 1 2 2 2 2 2 3

20 4 3 4 3 3 4 2 2 2 3 3 4 2 3

21 3 3 4 3 3 3 4 3 3 3 1 2 4 2

22 4 3 3 2 3 3 2 3 3 2 3 3 2 2

23 3 3 2 2 1 2 3 3 3 2 2 3 2 1

24 4 4 1 1 1 3 2 2 1 2 3 1 2 2

25 3 3 2 1 2 2 3 2 2 2 3 2 2 3

26 3 2 4 3 2 1 3 3 4 3 3 4 2 3

27 4 3 3 4 2 2 3 3 4 3 3 4 3 2

28 4 2 3 4 3 2 3 3 2 1 2 2 2 2

29 4 3 3 4 3 3 1 2 2 2 3 2 3 3

30 3 3 2 4 4 3 2 3 2 2 3 2 3 2

31 3 2 3 2 3 3 2 3 4 3 2 3 3 2

表2 聚类结果

类别1客户 1,2,4,8,14,28,29,30

类别2客户 7,9,11,12,13,15,18,21,23,26,27,31

类别3客户 3,5,16,17,20,22

类别4客户 6,10,19,24,25

从聚类的结果(见表2)可以初步看出:第一类客户(客户ID为1,2,4,8,14,28,29,30)应该增加部件1,5,6,7的营销力度;第二类客户(客户ID为7,9,11,12,13,15,18,21,23,26,27,31)应该增加部件1,9,14的营销力度;第三类客户(客户ID为3,5,16,17,20,22)应该增加部件1,2,6,11,12的营销力度;第四类客户(客户ID为6,10,19,24,25)应该增加部件1,2,10,11,14的营销力度。

当然企业还能从聚类结果中结合企业自身的行业信息,挖掘出更多隐藏在客户数据中的信息,比如各个类别客户的重要程度,同一类客户的购买习惯和取向,不同类别之间客户的差异等等。通过对这些数据的深层挖掘,就能更好地理解客户,为客户提供更精确的服务,从而提高企业效益。

在后信息化时代,聚类算法在企业信息系统中有着重要的应用价值。企业如何将存储在信息系统中的数据变成企业生产、营销、管理过程中的重要知识金矿已成为企业的重要工作之一。借助数据挖掘的聚类分析方法将企业ERP系统中已有的客户信息进行聚类,可以帮助企业将客户群定位成不同特征的客户群体,从而实现不同层次的管理。它可以帮助市场人员发现客户群、利用购买模式来描述这些具有不同特征的顾客组群;对客户进行聚类和分组还可以帮助企业有策略地制定市场营销计划,改善客户关系,对客户将来的趋势和行为进行预测,为企业决策提供有力的支持。

责编:李代丽
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map