主成分分析和聚类分析

更新时间:2023-09-14 12:58:01 阅读量: 初中教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

北京建筑工程学院

理学院 信息与计算科学专业 实验报告

课程名称 《数据分析》 实验名称《主成分分析和聚类分析》 实验地点: 基础楼C-423日期__2016.5.5_____ 姓名 张丽芝 班级 信131 学号 201307010108___ 指导教师 王恒友 成 绩

【实验目的】 (1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析; (2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如

聚类分析、回归分析等,能够使用SPSS软件完成该任务。

【实验要求】

根据各个题目的具体要求,分别运用SPSS软件完成实验任务。 【实验内容】

1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均消费数据,所考察的八个指标如下:(单位均为元/人) X1: 人均粮食支出; X2:人均副食支出; X3: 人均烟酒茶支出; X4: 人均其他副食支出; X5:人均衣着商品支出; X6: 人均日用品支出; X7: 人均燃料支出; X8: 人均非商品支出。 (1)求样本相关系数矩阵R。

(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率; 2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。

(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较 【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等) 1 1) 相关矩阵 相关 V2 V3 V4 V5 V6 V7 V8 V9 V2 1.000 .334 -.055 -.061 -.289 .199 .349 .319 V3 .334 1.000 -.023 .399 -.156 .711 .414 .835 V4 -.055 -.023 1.000 .533 .497 .033 -.139 -.258 V5 -.061 .399 .533 1.000 .698 .468 -.171 .313 V6 -.289 -.156 .497 .698 1.000 .280 -.208 -.081 V7 .199 .711 .033 .468 .280 1.000 .417 .702 V8 .349 .414 -.139 -.171 -.208 .417 1.000 .399 V9 .319 .835 -.258 .313 -.081 .702 .399 1.000

第 页 共 页

2)

表:方差贡献率和累计贡献率 解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 合计 3.096 2.367 .920 .706 .498 .230 .131 .051 方差的 % 38.704 29.590 11.500 8.824 6.231 2.874 1.635 .643 累积 % 38.704 68.294 79.794 88.618 94.848 97.722 99.357 100.000 合计 3.096 2.367 提取平方和载入 方差的 % 38.704 29.590 累积 % 38.704 68.294 合计 3.079 2.385 旋转平方和载入 方差的 % 38.485 29.809 累积 % 38.485 68.294 提取方法:主成份分析。 由上图可知, 只有前两个成分的特征值大于1,所以只选择前两个主成分。第一个主成分的方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。 2

由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。通过K中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。通过分析结果也可知每个地区所属类别。

第 页 共 页

V2 V3 V4 V5 V6 V7 V8 V9 最终聚类中心 聚类 1 8.79 47.05 8.82 12.80 16.96 12.80 1.88 13.63 2 8.48 31.14 7.07 9.14 16.31 10.21 1.78 11.51 3 10.38 70.37 6.76 16.73 17.29 18.56 3.09 24.20 每个聚类中的案例数 聚类

1 2 3

有效 缺失

10.000 18.000 2.000 30.000 .000 (2)

按最短距离法(最近邻居距离)对样本进行谱系聚类分析 聚类表 群集组合 阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 群集 1 1 5 5 8 12 5 5 3 5 12 15 12 12 3 1 12 24 1 12 1 21 21 1 1 1 1 1 1 1 群集 2 2 6 7 9 13 8 10 4 11 14 16 18 15 5 3 17 25 19 24 12 22 23 20 26 21 27 28 29 30 系数 3.299 4.854 4.910 6.314 10.409 10.539 11.730 12.469 15.194 17.539 18.698 19.264 20.778 22.778 25.407 27.956 33.748 37.414 37.945 38.070 39.765 47.432 52.468 64.048 82.053 82.066 259.409 300.223 396.775 首次出现阶群集 群集 1 0 0 2 0 0 3 6 0 7 5 0 10 12 8 1 13 0 15 16 18 0 21 20 23 24 25 26 27 28 群集 2 0 0 0 0 0 4 0 0 0 0 0 0 11 9 14 0 0 0 17 19 0 0 0 0 22 0 0 0 0 下一阶 15 3 6 6 10 7 9 14 14 12 13 13 16 15 18 19 19 20 20 23 22 25 24 25 26 27 28 29 0 由聚类表可知聚类的具体过程。以第一步为例,样品1和2合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。

第 页 共 页

群集成员

案例 1:山西 2:内蒙古 3:吉林 4:黑龙江 5:河南 6:甘肃 7:青海 8:河北 9:陕西 10:宁夏 11:新疆 12:湖北 13:云南 14:湖南 15:安徽 16:贵州 17:辽宁 18:四川 19:山东 20:江西 21:福建 22:广西 23:海南 24:天津 25:江苏 26:浙江 27:北京 28:西藏 29:上海 30:广东

3 群集

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3

集群成员表如图,当划分为3个类别时,各个地区所属类别。与上一问所得结论有较大出入。

第 页 共 页

第 页 共

上图直观的反应了样品逐步合并的过程。

本文来源:https://www.bwwdw.com/article/3vfh.html

Top