主成分分析

更新时间:2023-11-15 18:13:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

引言:

主成分分析也称主分量分析,是由霍特林于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。本文用主成分分析的方法对某市14家企业的经济效益进行分析。[1]

在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p个指标构成的p维随机向量x=(x1,x2,x3,……,xp)进行分析,而是先对向量x进行线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。

主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量x1,x2,

x3,……,xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间

的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。[5]

一、 材料与方法

1.1数据材料

表1 14家企业的利润指标的统计数据 企业 净产值利润率(%) 固定资产利润率(%) 总产值利润率(%) 销售收入利润率(%) 产品成本利润率(%) 物耗利润率(%) 人均利流动资润率 金利润xi7(千率(%) 元/人) xi8 2.442 3.542 0.578 0.176 1.726 3.017 0.847 1.772 2.449 0.789 0.874 0.056 2.126 1.327 20.0 9.1 3.6 7.3 27.5 26.6 10.6 17.8 35.8 13.7 3.9 1.0 17.1 11.6 xi1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 40.4 25.0 13.2 22.3 34.3 35.6 22.0 48.4 40.6 24.8 12.5 1.8 32.3 38.5 xi2 24.7 12.7 3.3 6.7 11.8 12.5 7.8 13.4 19.1 8.0 9.7 0.6 13.9 9.1 xi2 7.2 11.2 3.9 5.6 7.1 16.4 9.9 10.9 19.8 9.8 4.2 0.7 9.4 11.3 xi3 6.1 11.0 4.3 3.7 7.1 16.7 10.2 9.9 19.0 8.9 4.2 0.7 8.3 9.5 xi5 8.3 12.9 4.4 6.0 8.0 22.8 12.6 10.9 29.7 11.9 4.6 0.8 9.8 12.2 xi6 8.7 20.2 5.5 7.4 8.9 29.3 17.6 13.9 39.6 16.2 6.5 1.1 13.3 16.4 1.2 分析方法 本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。[2]

二、 分析过程

2.1利用系数相关矩阵分析是否能进行主成分分析; 表2变量的系数相关矩阵

主成分分析方法适用于变量之间存在较强相关性的数据。上表为各个指标的相关系数矩阵,由表中数据可以看出各个变量之间存在较强的相关性,因此运用主成分分析可以起到很好的降维作用。

2.2从相关阵出发求主成分,要求根据累计贡献率达到85%左右确定主成分的个数;

表3 特征值、贡献率的结果表

上表是特征值、贡献率的结果表。该表显示了各主成分解释原始变量总方差的情况,由表中数据可以看出前两个成分的累积贡献率是89.734%大于85%,因此保留2个主成分最合适。

2.3给出载荷阵

通过载荷阵给出主成分系数表,据之写出标准化变量的主成分表达式,并根据主成分表达式给出14个企业的主成分得分值;

表4 载荷阵

对spss的因子分析模块运行结果输出的表4的第i列的每个元素分别除以第i个特征根的平方根表:

λi,这样得到主成分分析的第i个主成分的系数,结果如下

表5 主成分系数

由上表得到前两个主成分y1 ,y2的线性组合为:

y1=0.321317694x1*+0.295079688x2*+0.389133815x3*+0.3846934920.+

****

0.379445837 x5+0.370968855 x6+0.320106966 x7+0.355629555 x8

y2=0.415367007x1*+0.597579892x2*-0.230215204x3*-0.279197163x4* -0.316423451 x5*-0.371283244 x6*+0.278217524 x7*+0.156742267 x8*

其中x1* ,x2* ,x3* ,x4* ,x5* ,x6* ,x7* ,x8* 表示对原始变量标准化后

[3]

的变量。

主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定,由因子载荷矩阵可以看出,第一主成分的线性组合中除了x2外,其余变量的系数相当,所以第一主成分可以看成x1,x3,x4,x5,x6,x7,x8的综合反映,它标志着企业的资金和人力的利用水平。第二主成分中只有x2系数较大,因此它的经济意义由x2确定。

为了分析各企业在主成分所反映的经济意义方面的情况,将原始数据标准化,代入主成分表达式计算各个企业的主成分得分,得到下表:

表6 主成分得分

2.4对企业的综合经济效益排名。

关于用样本主成分得分进行排序的问题我们常用的方法是利用主成分y1 ,y2 做线性组合,并以每个成分的贡献率αk作为权系数构造一个综合评价函数:y3=α1 y1 +α2 y2根据计算出的y3的值的大小进行排序或分类划级。利用SPSS计算进行排序并导入Excel得到下表:

表7 综合评价排序表

由表中数据可以看出有许多企业得分是负数,但这并不表明企业的经济效益为负,这里的正负表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。

从表7中可看出第9个企业的综合经济效益最好排在第一名,第12个企业综合经济效益则最差。[4]

三.讨论

本文用spss软件分析了企业的综合效益,利用主成分分析的要求对各企业的各项指标进行分析最终对各企业的综合效益进行排名,在最后的综合排名中本文用了最常用的一种排名计算方法且此方法在很多专业文献中都有介绍,也可采用另外一种方法,只利用第一成分作评价指数,但此方法有很大的局限性,只有在主成分系数全为正数的时候,也就是要求所有评价指标变量都是正相关的时候,第一主成分来进行排序。假如系数中有正有负或近似为零,说明第一主成分是无序指数,不能用来作为排序评价指数。

主成分分析不要求数据来自于正态总体,实际上主成分分析就是对矩阵结构的分析其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。对于多元随机变量而言,其相关矩阵是非负定的,因此我们可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到所见数据维数的目的。主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理我们都可尝试用主成分分析,不用花太多精力考虑其分布问题。

另外,主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量间的相

关系数都小于0.3时运用主成分分析的效果不明显。

四、 总结

4.1 本文利用主成分分析的方法对各企业的综合效益进行排名,主成分分析方法是一种降维的方法,使得数据更加标准化,从而使各企业的排名更加准确。 4.2在我们使用主成分分析方法分析变量时我们应充分考虑到该方法的利弊,我们首先要对原始数据变量进行分析,分析其运用主成分分析法的可行性,我们应当对于不同的数据运用其最合适的分析方法以使得分析结果更加准确 。

参考文献:

[1] 张尧庭,方开泰。 多元统计分析引论. 北京:科学出版社 1982 322-328 [2] 方开泰. 实用多元分析 上海:华东师范大学出版社,1989 [3] 王惠文。偏最小二乘回归方法及应用。北京:国防工业出版社,1999 168 [4] 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社 2011 220-226

[5] 何晓群. 多元统计分析(第三版)。北京:中国人民大学出版社 2011 114—141

本文来源:https://www.bwwdw.com/article/yjiv.html

Top