聚类分析

更新时间:2023-09-22 17:29:01 阅读量: 经管营销 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

SPSS的聚类分析

1、 已知我国南方8个少数民族11个生活方式指标的均值数据,进行层次聚类分析,部分结果如下:

1) 结合上述分析结果,说明这8个少数民族依据生活方式的聚类过程。

根据聚类状态表分析得出:第一步中,广西瑶族与广西侗族聚成一小类,个体距离是3.722,这个小类将在下面第二步中用到

第二步中,广西瑶族和贵州苗族聚成一类,个体距离是9.970,这个小类将在下面第四步中用到

第三步中,崩龙族和白族聚成一小类,个体距离是11.556,这个小类将在下面第五步中用到 第四步中,广西瑶族与基诺族聚成一小类,个体距离是18.607,这个小类将在下面第六步中用到

第五步中,土家族和崩龙族聚成一小类,个体距离是20.337,这个小类将在下面第六步中用到

第六步中,广西瑶族与土家族聚成一类,个体距离是22.262,这个小类将在下面第七步中用到

第七步中,广西瑶族与湖南侗族聚成一小类,个体距离是31.020,经过七步类聚过程,8个样本最后聚成一大类

2) 结合上述分析结果,绘制聚类树形图。

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 广西瑶族 1 广西侗族 3 贵州苗族 8 基诺族 6 土家族 4 崩龙族 5 白族 7 湖南侗族 2

3) 如果将这8个少数民族依生活方式分成三类,哪些少数民族分为了一类?

广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类

2、 根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:

1) 根据凝聚状态表利用碎石图对聚类类数进行研究。

3530252015105002E+104E+106E+10距离8E+101E+11类数31个省市自治区聚类分析碎石图

2) 绘制聚类树形图,说明哪些省市聚在一起。

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

?÷2? 26 ?? ?t?? 30 ?? ?ào£ 29 ?? 1ó?Y 24 ?? D??? 31 ?? 1??÷ 20 ?? ???? 25 ?? oúáú? 8 ?? oó?? 16 ?? ?ú?é 5 ?? ???ì 22 ?? ?ê?à 28 ?? ??÷ 14 ?? é??÷ 4 ?????? °2?? 12 ?? ? o£?? 21 ?? ? ?aá? 7 ?? ? ??? 11 ?? ?

ìì?ò 2 ?? ? oó±± 3 ?? ?

áé?t 6 ?? ????????????????????????????????????????????? ??′¨ 23 ?? ? ? ?£?¨ 13 ?? ? ? é??? 15 ?? ? ? é??÷ 27 ?? ? ? ??? 10 ?? ? ? 1??? 19 ?? ? ? é?o£ 9 ?????? ? ot?? 18 ?? ? ot±± 17 ?? ? ±±?? 1 ????????????????????????????????????????????????

3) 绘制各类的科研指标的均值对比图。

4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。

3、 试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?

答:聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。

4、 试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?为什么?

答:变量之间的高度相关性会对层次聚类分析结果造成影响,因为从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终结果偏向该类变量。

5、 试说明K-Mean聚类分析的基本步骤。

答:K-Mean聚类分析的基本步骤是:第一步,指定聚类数目K

第二步,确定K个初始类中心

第三步,根据距离最近原则进行分类 第四步,重新确定K个类中心

第五步,判断是否已满足终止聚类分析的条件

本文来源:https://www.bwwdw.com/article/muyd.html

Top