多元统计分析之主成分分析

更新时间：2023-03-08 16:45:58 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

第七章主成分分析

§7.1 什么是主成分分析及基本思想

1 什么是主成分分析

主成分概念首先由Karl parson在1901年引进，不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量。

在实际问题中，研究多指标（变量）问题是经常遇到的，然而在多数情况下，不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性，势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标，同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降维的一种方法，例如，某人要做一件上衣要测量很多尺寸，如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标，但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多，而是从多种指标中综合成几个少数的综合指标，做为分类的型号，如利用主成分分析将十几项指标综合成3项指标，一项是反映长度的指标，一项是反映胖瘦的指标，一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式，如物价指数、生活费用指数，商业活动指数等等。

主成分分析除了可以单独用来处理上面所讨论的这一类问题外，还可以与其它方法结合起来使用，例如与回归分析结合起来就是主成分回归，它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。

2 基本思想

主成分分析就是设法将原来众多具有一定相关性的指标（比如p个指标），重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第一个线性组合即第一个综合指标记为F1，自然希望F1尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？最经典的方法就是用F1的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1,F2)=0，称F2为第二主成分，依此类推可以构造出第三，四，??，第p个主成分。不难想像这些主成分之间不仅不相关，而且它们的方差依次递减。因此在实际工作中，就挑选前几个最大主成分，虽然这样做会损失一部分信息，但是由于它使我们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。

§7.2 主成分分析的数学模型及几何解释

1 数学模型

设有n个样品，每个样品观测p项指标（变量）；X1,X2,?,Xp，得到原始数据资料阵：

?x11?x21X??????xn1?x12x22?xn2?x1p??x2p???(X,X,?,X)

12p????xnp??其中

?X1i??X?Xi??2i? i?1,?,p

?????X?ni?用数据矩阵X的p个向量（即p个指标向量）X1，?，Xp作线性组合（即综合指标向量）为： ?F1?a11X1?a21X2???ap1Xp??F2?a12X1?a22X2???ap2Xp ?? ???F?aX?aX???aX1p12p2ppp?p简写成

Fi?a1iXi?a2iX2???apiXp i?1,?,p

（注意：Xi是n维向量，所以Fi也是n维向量。）上述方程组要求：

22a12i?a2i???api?1i?1,?,p

且系数aij由下列原则决定：

（1）Fi与Fj(i?j,i,j?1,?,p)不相关；

（2）F1是X1,?,Xp的一切线性组合（系数满足上述方程组）中方差最大的，F2与F1不相关的

X1,?,Xp一切线性组合中方差最大的，?,Xp是与F1,F2,?,Fp?1都不相关的X1，?，Xp的一切线性

组合中方差最大的。

如何求满足上述要求的方程组的系数aij呢？下一节将会看到每个方程式中的系数向量

(a1i,a2i,?,api),i?1,?,p不是别的而恰好是X的协差阵?的特征值所对应的特征向量，也就是说，数

学上可以证明使Var(F1)达到最大，这个最大值是在?的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在?的第p个特征值所对应特征向量处达到。

2 主成分的几何意义

从代数学观点看主成分就是p个变量X1,?,Xp的一些特殊的线性组合，而在几何上这些线性组合正是把X1,?,Xp构成的坐标系旋转产生的新坐标系，新坐标轴使之通过样品变差最大的方向（或说具有最大的样品方差）。下面以最简单的二元正态变量来说明主成分的几何意义。

设有n个样品，每个样品有p个变量记为X1,?,Xp，它们的综合变量记为F1,F2,?,Fp。当p=2时，原变量是X1,X2，设X?(X1,X2)?~N2(?,?)，它们有下图的相关关系：

对于二元正态分布变量，n个点的散分大致为一个椭园，若在椭园长轴方向取坐标轴F1，在短轴方向聚F2，这相当于在平面上作一个坐标变换，即按逆时针方向旋转?角度，根据旋转轴变换公式新老坐标之间有关系：

?F1?X1cos??X2sin? ?F??Xsin??Xcos?12?2我们看到F1, F2是原变量X1和X2的线性组合，用矩阵表示是

?F1??cos??F????sin??2??sin???X1??X??U?X cos????2?显然U??U?1且是正交矩阵，即U?U?I。

从上图还容易看出二维平面上的n个点的波动（可用方差表示）大部分可以归结为在F1轴上的波动，而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的，那么我们可以只考虑F1方向上的波动，忽略F2方向的波动。这样一来，二维可以降为一维了，只取第一个综合变量F1即可。而F1是椭圆的长轴。

一般情况，p个变量组成p维空间，n个样品就是p维空间的n个点，对p元正态分布变量来说，找主成分的问题就是找p维空间中椭球体的主轴问题。

§7.3 主成分的推导及性质

在下面推导过程中，要用到线性代数中的两个定理先作一下复习：

??10???定理一若A是p?p阶实对称阵，则一定可以找到正交阵U使U?1AU????，其中

?0?p????1,?,?p是A的特征根。

定理二若上述矩阵A的特征根所对应的单位特征向量为u1,?,up

?u11?u21令U?(u1,?,up)??????up1?u12u22?up2?u1p??u2p??

????upp??则实对称A属于不同特征根所对应的特征向量是正交的即ui?uj?0?UU??U?U?I。

1 主成分的推导

设F?a1X1?a2X2???apXp?a?X

其中a?(a1,a2,?,ap)?，X?(X1,X2,?,Xp)?，求主成分就是寻找X的线性函数a?X使相就的方差尽可能地大即使

Var(a?X)?E(a?X?E(a?X))(a?X?E(a?x))?

?a?E(X?EX)(X?EX)?a

?a??a

达到最大值，且a?a?1。

设协差阵?的特征根为?1??2????p?0，相应的单位特征向量为u1,u2,?,up。

?u11?u21令 U?(u1,?,up)????(p?p)???up1由前面线性代数定理可知：U?U?UU??I，且

u12u22?up2?u1p??u2p??

????upp??????1??U???0??因此

p???p??10U????iuiui? ?i?1????p?pp2a??a?所以

??a?uu?a???(a?u)(a?u)????(a?u)iiiiiiiii?1i?1i?1

a??a??1而且当a?u1时有

?(a?u)ii?1p2??1(a?U)(a?U)???1a?UU?a??1a?a??1

p?p?''2??u1?u1?????u1?uuu??uuuu??(uu)??1 ??iii1i1ii1111??i?1?i?1?因此 a?u1使Var(a?X)?a??a达到最大值，且

?X)?u1??u1??1 Var(u1同理

Var(ui?X)??i

而且

p?p???uj???a(ui?ua)(ua?uj)?0,i?j Cov(ui?X,u?jX)?ui??uj?ui????auauaa?1?a?1?上述推导表明：X1,X2,?,Xp的主成分就是以?的特征向量为系数的线性组合，它们互不相关，其方差为?的特征根。

由于?的特征根?1??2????p?0，所以有：VarF1?VarF2???VarFp?0。了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。

在解决实际问题时，一般不是取p个主成分，而是根据累计贡献率的大小取前k个。

定义称第一主成分的贡献率为?1??i，由于Var(F1)??1，所以?1i?1p??i?i?1pVar(Fi)?Var(F)ii?1p。因此

第一主成分的贡献率就是第一主成分的方差在全部方差综合X1,?,XP信息的力越强。

前两个主成分的累计贡献率定义为(?1??2)??i?1pi中的比值。这个值越大，表明第一主成分

??i?1pi，前k个主成分的累计贡献率定义为

????ii?1i?1kpi。如果前k个主成分的贡献率达到85%，表明取前k个主成分包含了全部测量指标所具有

的信息，这样既减少了变量的个数又便于对实际问题的分析和研究。

值得指出的是：当协差阵?未知时，可用其估计值S（样本协差阵）来代替。设原始资料阵为：

?x11x12?x1p??x?x?x21222p? X?????????xx?x?n2np??n1?则

1nS?(sij) 其中sij??(xai?xi)(xaj?xj)

na?1而相关系数阵：

R?(?ij) 其中?ij?显然当原始变量X1,?,Xp，标准化后，则

sijsiisjj

1X?X n实际应用时，往往指标的量纲不同，所以在计算之前先消除量纲的影响，而将原始数据标准化，这

1样一来S和R相同。因此一般求R的特征根和特征向量，并且不妨取R?X?X。因为这时的R与X?Xn1只差一个系数，显然X? X与X?X的特征根相差n倍，但它们的特征向量不变，它并不影响求主成分。

n2 主成分的主要性质

性质1 F的协差阵为对角阵A。证明：记??(?ij)p?p, UU??Ip

S?R?显然 Var(F)?性质2

? U?U????i?1pi?1pii???i?1pi

证明：

??ii?tr(?)?tr(?UU?)

?tr(U??U)?trA?性质3 ?(Ek,Xi)???I?1Pi

uki?k?ii证明：?Var(Fk)??k,Var(Xi)??ii

?X,ei?X) Cov(Fk,Ki)?Cov(uk?D(X)ei?ei??uk?ei?(?uk) ?uk?ei?(?kuk)??kuki

其中ei?(0,?,0,1,0,?,0)?为单位向量第i个分量为1，其余为0。

所以

, i,k?1,?,p

?(Fk,Xi)?Cov(Fk,Xi)VarFkVarXi?uki?k?ii

§7.4 计算步骤及实例

设有n个样品，每个样品观测p个指标，将原始数据写成矩阵

?x11x12?x1p??x?x?x21222p? X?????????xx?x?n1?n2np??1．将原始数据标准化。

这里为书写方便，不妨设上边矩阵已标准化了。 2．建立变量的相关系数阵：

R?(rij)p?p R?X?X

3．求R的特征根?1??2????p?0及相应的单位特征向量：

?a1p??a11??a12???????aaa21222p??,?,a??a1???,a2??p??? ??????????????ap1??????ap2??app??4．写出主成分

Fi?a1iX1?a2iX2???apiXp i?1,?,p

例对全国30个省市自治区经济发展基本情况的八项指标作主成分分析，原始数据如下：

居民消固定资省份费水平产投资 X2 X3 1394.89 2505 519.01 北京 920.11 2720 345.46 天津 2849.52 1258 704.87 河北 1092.48 1250 290.9 山西 832.88 1387 250.23 内蒙 2793.37 2397 387.99 辽宁 1129.2 1872 320.45 吉林 2014.53 2334 435.73 黑龙江 2462.57 5343 966.48 上海 5155.25 1926 434.95 江苏 3524.79 2249 1006.39 浙江 2003.58 1254 474 安徽 2160.52 2320 553.97 福建 1205.11 1182 282.84 江西 5002.34 1527 1229.55 山东 3002.74 1034 670.35 河南 2391.42 1527 571.68 湖北 2195.7 1408 422.61 湖南 5381.72 2699 1639.83 广东 1606.15 1314 382.59 广西 364.17 1814 198.35 海南 3534 1261 822.54 四川 630.07 942 150.84 贵州 1206.68 1261 334 云南 55.98 1110 17.87 西藏 1000.03 1208 300.27 陕西 553.35 1007 114.81 甘肃 165.31 1445 47.76 青海 169.75 1355 61.98 宁夏 834.57 1469 376.95 新疆数据来源：1996年《中国统计年鉴》 GDP X1 职工平均工资 X4 8144 6501 4839 4721 4134 4911 4430 4145 9279 5943 6619 4609 5857 4211 5145 4344 4685 4797 8250 5105 5340 4645 4475 5149 7382 4396 5493 5753 5079 5348 货物周转量 X5 373.9 342.8 2033.3 717.3 781.7 1371.1 497.4 824.8 207.4 1025.5 754.4 908.3 609.3 411.7 1196.6 1574.4 849 1011.8 656.5 556 232.1 902.3 301.1 310.4 4.2 500.9 507 61.6 121.8 339 居民消费价格指数 X6 117.3 115.2 115.2 116.9 117.5 116.1 115.2 116.7 118.7 115.8 116.6 114.8 115.2 116.9 117.6 116.5 120 119 114 118.4 113.5 118.5 121.4 121.3 117.3 119 119.8 118 117.1 119.7 商品零售价格指数 X7 112.6 110.6 115.8 115.6 116.8 114 114.2 114.3 113 114.3 113.5 112.7 114.4 115.9 114.2 114.9 116.6 115.5 111.6 116.4 111.3 117 117.2 118.1 114.9 117 116.5 116.3 115.3 116.7 工业总产值 X8 843.43 582.51 1234.85 697.25 419.39 1840.55 762.47 1240.37 1642.95 2026.64 916.59 824.14 433.67 571.84 2207..69 1367.92 1220.72 843.83 1396.35 554.97 64.33 1431.81 324.72 716.65 5.57 600.98 468.79 105.8 114.4 428.76 第一步将原始数据标准化。

第二步建立指标之间的相关系数阵R如下：

X1 X2 X3 X4 X5 X6 X7 X8 X1 1.000 .267 .951 .191 .617 -.274 -.264 .874 X2 .267 1.000 .426 .718 -.151 -.234 -.593 .363 X3 .951 .426 1.000 .400 .431 -.282 -.359 .792 X4 .191 .718 .400 1.000 -.356 -.134 -.539 .104 X5 .617 -.151 431 -.356 1.000 -.255 .022 .659 X6 -.274 -.234 -.282 -.134 -.255 1.000 .760 -.126 X7 -.264 -.593 -.359 -.539 .022 .760 1.000 -.192 X8 .874 .363 .792 .104 .659 -.126 -.192 1.000 第三步求R的特征值和特征向量。主成分 1 2 3 4 5 6 7 特征值 3.755 2.195 1.214 0.403 0.213 0.139 6.594E-02 方差贡献率 46.943 27.443 15.178 5.033 2.660 1.737 0.824 累计贡献率 46.943 74.386 89.564 94．59 97.256 98.993 99.817 8 1.462E-02 0.183 100.000 从上表看，前3个特征值累计贡献率已达89.564%，说明前3个主成分基本包含了全部指标具有的信息，我们取前3个特征值，并计算出相应的特征向量：

第一特征向量 a1 0.470641 0.456708 0.424712 -0.31944 0.312729 0.250802 0.240481 -0.26267 第二特征向量 a2 0.107995 0.258512 0.287536 0.400931 -0.40431 0.498801 -0.48868 0.167392 第三特征向量 a3 0.19241 0.109819 0.19241 0.397525 0.24505 -0.24777 0.332179 0.723351 因而前三个主成分为：

第一主成分：F1=0.470641X1+0.456708 X2+ 0.424712X3

-0.31944X4+0.312729X5+0.250802X6 +0.240481X7-0.26267X8

第二主成分：F2=0.107995X1+0.258512 X2+0.287536 X3

+0.400931X4-0.40431 X5+0.498801X6 -0.48868X7+0.167392X8

第三主成分：F3=0.19241X1+0.109819 X2+0.19241X3

+0.397525X4+0.24505X5-0.24777X6

+0.332179X7+0.723351X8

在第一主成分的表达式中第一、二、三项指标的系数较大，这三个指标起主要作用，我们可以把第一主成分看成是由国内生产总值、固定资产投资和居民消费水平所刻划的反映经济发展状况的综合指标；在第二主成分中，第四、五、六、七项指标的影响大，且第六、七项指标的影响尤其大，可以将之看成是反映物价指数、职工工资和货物周转量的综合指标；

在第三主成分中，第八项指数影响最大，远超过其它指标的影响，可单独看成是工业总产值的影响。下面将会看到此例用因子分析去作会得到更进一步的解释。

§7.5 附注

1．从?和从R出发计算主成分一般是不同的，当变量取值范围彼此相差很大或度量单位不同时，应该考虑标准化，以便使计算结果有合理的解释，避免出现误解。如果没有上述度量单位和数量级的差异，从?和从R出出发计算的结果对主成分的解释或计算贡献时，在一般情况下是不会发生矛盾的。

2．主成分是原始变量的线性组合，它不能简单地解释为单变量的属性作用，因而不能直接说明单个原始变量属性对主成分的作用，而应该同时看一些起主要作用的原始变量的综合作用，依此给主成分一个合理解释。

3．从主成分的数学推导，不难看出主成分仅依赖于X1，X2，?，Xp的协差阵（或相关系数阵）并不要求分布是多元正态的，即未对总体分布提出什么特定的要求。

4．主成分个数的确定。一种方法在前边计算过程中已提到即根据实际问题的需要由累计贡献率的大小来确定，因此一般就选前二、三个主成分代替原来p个变量的信息，而不会损失很多信息。另一种方法是作如下的假设检验：

设X~Np(?,?) （如果不作检验就没必要有这个限制）

H0:?q?1??q?2????p

因为特征根相等意味着数据在相应的p—q维空间上有各向同性的散布。若接受H0则在q的基础上，再增加任何主成分就得把剩下的全部包括进去，因为后p—q个主成分含有相同的信息量。

在H0成立下可得Bartlet近似检验统计量：

a02p?11??~?2((p?q?2),(p?q?1)2) ?n??(p?q)ln6?g0?其中

a0?1(?q?1????p) p?q （算术平均）

g0?(p?q)?q?1?q?2??p

（几何平均）

若拒绝H0即应增加主成分的个数。若接受H0,说明在已给检验水平下取q个主成分已能描述数据。

5．主成分分析用于系统评估

系统评估是指对系统营运状态做出评估，而评估一个系统的营运状态往往需要综合考察许多营运的指标，例如对某一类企业经济效益作评估，影响企业经济效益就有许多指标，很难直接比较其优劣，所以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式，也就是说只有在一维空间中才能使排序评估成为可能，因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用，下面介绍三种方法。

第一种方法，利用主成分F1, …, Fm做线性组合，并以每个主成分Fi的方差贡献率ai作为权数构造一个综合评价函数：

y?a1F1???amFm

也称y为评估指数，依据对每个系数计算出的y值大小进行排序比较或分类划级。

这一方法目前在一些专业文献中都有介绍，但在实践中经常看到它的应用效果并不理想，主要原因是产生主成分的特征向量的各分量符号不一致，很难进行排序评估，因此有下面的改进方法。

第二种方法，只用第一个主成分作评估指数即y =F1,理由是：第一主成分与原始变量X1,?,Xp综合相关度量强即

?r(F,r)?max

1jj?1P从这个意义上看，如果想以一个综合变量来代替原来所有原始变量，则最佳选择应该是F1，另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小，精度最高的一维综合变量。但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关的，也就是说对所有变量均有同增、同减的趋势，这个前提条件是基于代数中的Frobinius定理。

定理若相关系数阵R?(rij)中的每一个元素都是正值，即rij?0，对一切i,j，则R矩阵的第一个特征向量中的所有分量均大于零，即u1?(u11u21?up1)??0

如果不满足这个前提条件，在原变量系统中X1,?,Xp有一部分变量正相关，另一部分变量负相关，则无法保证第一个特征向量u1?0，因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至

于一部分变量无关，这时很难以F1(i),i?1,?,n取值的大小来排序。特别是当出现某一分量uj1?0或

uj1?0时使用F1作为评估指数，更要慎重防止遗漏xj上的重要信息。

第三种方法是在前两种方法的基础上又作了改进，具体做法是：

（1）将原始资料阵X?(xij)进行标准化处理记为X*，标准化后的变量记为x*j。

n?pn?pxj?(1?aj)x*（2）令~j即根据变量的重要程度赋予权数，重要的变量aj大些，这时

2*2Var((1?aj)x*j)?(1?aj)Var(xj)?(1?aj)

因此，1~p变量的方差分别为

(1?a1)2,(1?a2)2,?,(1?ap)

由于一部分在系统评估中更为重要的变量被赋予更大的权数，因此在这些指标上，变量的变差被拉

长，于是在求第一主成分时，这些指标会得到更多的重视。