主成分分析和聚类分析

更新时间：2023-09-14 12:58:01 阅读量：初中教育文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

北京建筑工程学院

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点：基础楼C-423日期__2016.5.5_____ 姓名张丽芝班级信131 学号 201307010108___ 指导教师王恒友成绩

【实验目的】（1）熟悉利用主成分分析进行数据分析，能够使用SPSS软件完成数据的主成分分析；（2）熟悉利用聚类分析进行数据分析，能够运用主成分分析的结果，做进一步分析，如

聚类分析、回归分析等，能够使用SPSS软件完成该任务。

【实验要求】

根据各个题目的具体要求，分别运用SPSS软件完成实验任务。【实验内容】

1、表4.9（数据见exercise4_5.txt）给出了1991年我国30个省市、城镇居民的月平均消费数据，所考察的八个指标如下：（单位均为元/人） X1: 人均粮食支出； X2：人均副食支出； X3: 人均烟酒茶支出； X4: 人均其他副食支出； X5:人均衣着商品支出； X6: 人均日用品支出； X7: 人均燃料支出； X8: 人均非商品支出。（1）求样本相关系数矩阵R。

（2）从R出发做主成分分析，求出各主成分的贡献率及前两个主成分的累积贡献率； 2、（1）对题1中的数据，按照原有的八个指标，对30个省份进行聚类，给出分为3类的聚类结果。

（2）利用题1得到的前2个主成分指标，分别按最短距离法（最近邻居距离）、最长距离法（最远邻居距离）、类平均距离法（组间平均距离）、重心距离法；其中距离均采用欧式平方距离，对样本进行谱系聚类分析，并画出谱系聚类图；给出分为3类的聚类结果。并与（1）的结果进行比较【实验步骤】（此部分主要包括实验过程、方法、结果、对结果的分析、结论等） 1 1）相关矩阵相关 V2 V3 V4 V5 V6 V7 V8 V9 V2 1.000 .334 -.055 -.061 -.289 .199 .349 .319 V3 .334 1.000 -.023 .399 -.156 .711 .414 .835 V4 -.055 -.023 1.000 .533 .497 .033 -.139 -.258 V5 -.061 .399 .533 1.000 .698 .468 -.171 .313 V6 -.289 -.156 .497 .698 1.000 .280 -.208 -.081 V7 .199 .711 .033 .468 .280 1.000 .417 .702 V8 .349 .414 -.139 -.171 -.208 .417 1.000 .399 V9 .319 .835 -.258 .313 -.081 .702 .399 1.000

第页共页

2）

表:方差贡献率和累计贡献率解释的总方差初始特征值成份 1 2 3 4 5 6 7 8 合计 3.096 2.367 .920 .706 .498 .230 .131 .051 方差的 % 38.704 29.590 11.500 8.824 6.231 2.874 1.635 .643 累积 % 38.704 68.294 79.794 88.618 94.848 97.722 99.357 100.000 合计 3.096 2.367 提取平方和载入方差的 % 38.704 29.590 累积 % 38.704 68.294 合计 3.079 2.385 旋转平方和载入方差的 % 38.485 29.809 累积 % 38.485 68.294 提取方法：主成份分析。由上图可知，只有前两个成分的特征值大于1，所以只选择前两个主成分。第一个主成分的方差贡献率是38.704%，第二个主成分的方差贡献率是29.590%，前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%，选择前两个主成分即可代表绝大多数原来的变量。 2

由上图可知，聚类2包含样本数最多，聚类3包含样本数最少。通过K中心聚类分析，可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类；其中第二类包含的省市最多，有18个，其他两类包含城市较少。通过分析结果也可知每个地区所属类别。

第页共页

V2 V3 V4 V5 V6 V7 V8 V9 最终聚类中心聚类 1 8.79 47.05 8.82 12.80 16.96 12.80 1.88 13.63 2 8.48 31.14 7.07 9.14 16.31 10.21 1.78 11.51 3 10.38 70.37 6.76 16.73 17.29 18.56 3.09 24.20 每个聚类中的案例数聚类

1 2 3

有效缺失

10.000 18.000 2.000 30.000 .000 （2）

按最短距离法（最近邻居距离）对样本进行谱系聚类分析聚类表群集组合阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 群集 1 1 5 5 8 12 5 5 3 5 12 15 12 12 3 1 12 24 1 12 1 21 21 1 1 1 1 1 1 1 群集 2 2 6 7 9 13 8 10 4 11 14 16 18 15 5 3 17 25 19 24 12 22 23 20 26 21 27 28 29 30 系数 3.299 4.854 4.910 6.314 10.409 10.539 11.730 12.469 15.194 17.539 18.698 19.264 20.778 22.778 25.407 27.956 33.748 37.414 37.945 38.070 39.765 47.432 52.468 64.048 82.053 82.066 259.409 300.223 396.775 首次出现阶群集群集 1 0 0 2 0 0 3 6 0 7 5 0 10 12 8 1 13 0 15 16 18 0 21 20 23 24 25 26 27 28 群集 2 0 0 0 0 0 4 0 0 0 0 0 0 11 9 14 0 0 0 17 19 0 0 0 0 22 0 0 0 0 下一阶 15 3 6 6 10 7 9 14 14 12 13 13 16 15 18 19 19 20 20 23 22 25 24 25 26 27 28 29 0 由聚类表可知聚类的具体过程。以第一步为例，样品1和2合并为一类，距离系数为3.299，在“首次出现阶段集群”里显示为0，因此合并两项都是第一次出现，合并结果取15，即归为第15类。

第页共页

群集成员

案例 1:山西 2:内蒙古 3:吉林 4:黑龙江 5:河南 6:甘肃 7:青海 8:河北 9:陕西 10:宁夏 11:新疆 12:湖北 13:云南 14:湖南 15:安徽 16:贵州 17:辽宁 18:四川 19:山东 20:江西 21:福建 22:广西 23:海南 24:天津 25:江苏 26:浙江 27:北京 28:西藏 29:上海 30:广东

3 群集

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3

集群成员表如图，当划分为3个类别时，各个地区所属类别。与上一问所得结论有较大出入。

第页共页

第页共

上图直观的反应了样品逐步合并的过程。

页

本文来源：https://www.bwwdw.com/article/3vfh.html

相关文章：