聚类是将数据对象按照事物的某种属性进行分类,即类似于“物以类聚”。聚类分析对个体或对象进行分类,使得同一类对象之间的相似性强于与其他类对象之间的相似性。其目的是最大
聚类是将数据对象按照事物的某种属性进行分类,即类似于“物以类聚”。聚类分析对个体或对象进行分类,使得同一类对象之间的相似性强于与其他类对象之间的相似性。其目的是最大化类内对象的同质性和类间对象的异质性。在商业活动中,聚类分析用于对客户群体进行分类,并表征每个群体的特征。同时,聚类分析是市场细分的有效工具,可以用来研究消费者行为,发现潜在市场。
本章将介绍常用聚类方法的基本原理,让读者了解适合用聚类分析解决的问题,区分不同的聚类方法及其相关应用,掌握系统聚类和K-means聚类分析方法的SPSS Statistics 24.0的具体操作步骤,并对分析结果进行说明,以便灵活运用聚类分析方法分析实际业务数据。
1聚类分析概述
1.1聚类分析简介
聚类就是根据研究对象的特征对其进行分类。基本思想是所研究的案例或变量之间存在不同程度的相似性(亲和力)。
先找出一些可以衡量病例或变量之间相似性的统计量,作为分类的依据。然后,一些相似的聚合成一类,另一些聚合成另一类。关系密切的类群收敛到一个相对较小的分类单元,关系疏远的类群收敛到一个相对较大的分类单元,直到所有类群聚合起来,不同类型逐一划分,形成一个从小到大的分类系统。最后将整个分类系统化为谱系图,用来显示所有病例(或变量)之间的关系。
值得注意的是,聚类分析可以作为独立的数据分析工具,也可以与因子分析、判别分析、主成分分析等其他方法结合使用。,并经常取得良好的效果。
在商业经济领域中存在着大量的聚类问题。比如对我国各省、市、自治区独立核算工业企业经济效益的分析,一般不一一做,比较好的办法是选取能反映企业经济效益的代表性指标,如资本利税率、产值利税率、全员劳动生产率等。
根据这些指标对各省市自治区进行分类,然后根据分类结果对企业的经济效益进行综合评价,这样就容易得到科学的分析。比如商场要分析顾客的特点。可以从客户分类入手,根据客户的年龄、职业、收入、消费金额、消费频率、喜好等多方面收集数据,进行聚类分析,从而得出客户群体。
此外,聚类技术还应用于医学病人数据分析、图像分割、生物基因特征分类、地貌特征分类和天文研究。因此,聚类分析越来越受到人们的重视。
在聚类分析中,根据分析对象的不同,聚类分析可分为样本聚类和变量聚类。
(1)在实践中,样本聚类分析被广泛应用。样本聚类,也称为Q型聚类,对案例进行聚类,以便将具有相似特征的案例聚集在一起,并将差异较大的案例分开。也就是对样本单元的观测量进行分类,以观测对象的各种特性的变量值作为分类依据。
(2)变量聚类,也称R型聚类,将变量进行聚类,使相似的变量聚集在一起,在相似的变量中选择少数有代表性的变量参与其他分析,从而达到变量降维的目的。例如,在回归分析中,由于自变量的共线性,偏回归系数不能真实反映自变量对因变量的影响。因此,往往需要对变量进行聚类,在不丢失大部分信息的情况下,找到独立的、有代表性的自变量。
1.2数据结构和数据标准化
1.数据结构
1)数据矩阵
2)相异矩阵
相异度矩阵的本质是对象-对象结构,存储了所有N个对象的相似度。
因此,相异度矩阵中的对角线值都是0。
2.数据标准化
因为变量代表样本的各种属性,所以它们经常使用不同的测量单位,它们的观察值可能会有很大的不同。这样绝对值大的变量可能会湮灭绝对值小的变量,使后者的应有作用得不到体现。为了确保每个变量在聚类中的位置相同,可以对数据进行标准化和转换。有三种常用的转换方法:
1)标准偏差标准化
请记住,第j个属性的平均值是:
记住j属性的标准差,如下所示:
下面表示第j个属性的n个样本的标准偏差标准化:
变换后,每个变量的均值为0,标准差为1,与变量的维数无关。
2)范围标准化
标准化第j个属性的n个样本的范围:
变换后,各变量的均值为0,范围为1。
1.3相似性测量
聚类就是根据事物的相似性进行分类。所以首先要定义一个指标来衡量相似度。目前,距离和相似系数主要用作相似性的度量。
在选择相似性度量时,要考虑的问题包括属性值的性质(离散、连续、二元)、测量值的尺度(分类尺度、排序尺度、距离尺度、尺度比例尺度)以及与研究问题相关的知识,这通常涉及到相当大的主观性。在对样本进行聚类时,相似性通常用距离度量来表示。当聚类变量时,通常使用相关系数或其他类似的相似性度量。
1.距离
1)满足条件
2)公共距离
第个样本和第j个样本之间的距离。当各项指标的测定值相差较大时,先将数据标准化,再用标准化后的数据计算距离。最常见的距离如下:
绝对值距离
绝对距离
欧式距离
欧几里得距离
明考斯基距离
闵可夫斯基距离
马哈拉诺比斯距离
这个距离考虑了指标的相关性,不受指标计量单位的影响。
兰氏距离
朗距离
2.相似系数
越近。换句话说,属性越接近,它们的相似系数就越接近1。无差异指标,其相似系数越接近0。反之,指标相似系数为-1,相似的指标归为一类,相似度低的指标分属不同的类别。常用的相似系数(按指数)如下
夹角余旋
角度旋转
相关系数
相关系数
参考资料:
范等。基于SPSS (M)的商业数据分析方法。上海:立信会计出版社。2018.
他是肖群。多元统计分析(第四版)[M].北京:中国人民大学出版社,2015。
(数据分析知识系列由范教授团队编写。转发本文时请注明作者和出处。欢迎关注,带你一起增长见识!)