多元统计分析

更新时间:2023-11-07 07:18:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

多元统计分析

现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主成分分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。 一、主成分分析

1、主成分分析的原理

多变量的主成分分析是在不损失或很少损失原有信息(指方差)的前提下,将原来多个彼此相关的指标转换为新的少数几个彼此独立的综合指标的一种统计分析方法。

多变量的主成分分析在教育评估中可用以寻找反映或影响评估对象的综合指标。如描述教师能力的指标很多:对教育对象的控制能力,对教育影响的控制能力,表达能力、教学思维能力、创新能力、组织协调能力等等。这些评估教师能力的指标个数可能很多,且指标之间彼此相关,多变量的主成分分析就是要综合这些指标,从而找出反映教师能力的少数几个彼此独立的指标,以便综合出教师能力的重要信息。

主成分分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量中

?的信息。从原始变量到新变量是一个正交变换(坐标变换)。设有X??X1?Xp?是一个p维随机变量,有二阶矩,记??E(X),??Var(X)。考虑它的线性变换

?Y?l?X?lX???lX11111p1p????? ??Y?l?X?lX???lXp1p1ppp??p易见

?Var(Yi)?li?li?Cov(Yi,Yj)?li?lji,j?1,?,p

如果要用Y1尽可能多地保留原始的X的信息,经典的办法是使Y1的方差尽可能大,这需

?要对线性变换的系数l1加限制,一般要求它是单位向量,即l1l1?1。其它的各Yi也希望尽可

能多地保留X的信息,但前面的Y1,?,Yi?1已保留的信息就不再保留,即要求

?Co(vYi,Yj)?0,j?1,?,i?1,同时对li也有lili?1的要求,在这样的条件下使Var(Yi)最大。

设协方差阵?的特征值为?1??2????p?0,相应的单位特征向量分别为a1,a2,?,ap(当

?特征根有重根时单位特征向量不唯一)。这时X的第i个主成分为Yi?aiX,i?1,?,p,且

Var(Yi)??i。记A??a1??1?????ap?,????,Y??Y1?Yp?,则A为正交阵,??p???Y?A?X,Var(Y)??,且?1p?i??1p?ii,其中?ii为?的主对角线元素。

主成分Yk与原始变量Xi的相关系数?(Yk,Xi)称为因子负荷量(factor loading),可以证明

p2p2p2 /?ii?1。?i?1?ii?(Yk,Xi)??k,?(Yk,Xi)??kaik/?ii,k,i?1,?,p,??(Yk,Xi)???kaikk?1k?1为了减少变量的个数,希望前几个Yi就可以代表X的大部分信息。定义?k分Yk的贡献率,称??ii?1m??1pi为主成

??i?1pi为主成分Y1,?,Ym的累计贡献率。一般取m使得累计贡献率达

到70%-80%以上。累计贡献率表示m个主成分从X1,?,Xp中提取了多少信息,但没有表达用它来恢复每一个Xi能恢复多少,为此定义m个主成分Y1,?,Ym对原始变量Xi的贡献率?i,

2?i为Xi对Y1,?,Ym的复相关系数平方,可以用公式?i???kaik/?ii计算(注意m?p时

?。前m个主成分Y(m)??Y1,?,Ym?在X的m个线性组合中能对X最好地线性逼近。 ?i?1)

在上面的主成分计算方法中,方差越大的变量越被优先保留信息,实际中为了消除这种影响经常把变量标准化,即令

Xi*?Xi?EXi,i?1,?,p

Var(Xi)*?这时X*?(X1?X*p)的协方差阵就是X的相关阵R。这时,主成分的协方差阵是

p**??diag(?,?,?),其中?????为R的特征根;??*i?p;Xi与主成分Yk的相关系**1*p*1*pi?1********???a1,?,a数(因子负荷量)为?(Yk,Xi)??kaik,其中akkpk?为R的对应?k的单位特征

向量;??(Yk,Xi)??k;??2(Yk,Xi)?1。

2*****i?1k?1pp

对于X的观测样本,设第t次观测为x(t)??xt1?xtp?,t?1,2,?,n,把数据写成矩阵

?x11?~?x21X?????x?n1x12x22?xn2?x1p???x2p?

?????xnp??形式为

~?和相关阵R的估计R?或R?,从??可以得到主成分分解。计算特征由X得协方差阵?的估计??值和单位特征向量,仍记为?1??2????p?0和a1,a2,?,ap,用Yi?aiX作为X的第i主~成分,而Y(t)?x(t)A称为第t个观测的主成分得分。结果得到的主成分得分矩阵为Y?XA。

~可以把Y的前几行作为维数压缩后的数据。在SAS的PRINCOMP中计算主成分得分时如果

主成分分解是用相关阵得到的则原始自变量要先标准化(减去均值并除以标准差),如果分解用的是协方差阵则计算主成分得分时只对原始变量中心化(减去均值)。

? 主成分的个数可以由用户自己确定,主成分的名字可以用户自己规定,主成分得分是否

标准化可自己规定。

? 输入数据集可以是原始数据集、相关阵、协方差阵或叉积阵。输入为原始数据时,用户

还可以规定从协方差阵出发还是从相关阵出发进行分析。由协方差阵出发时方差大的变量在分析中起到更大的作用。

? 计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,

每个主成分解释的方差比例,累计比例等。可生成两个输出数据集:一个包含原始数据及主成分得分,另一个包含有关统计量,类型为TYPE=CORR或COV。

? 可揭示变量间的共线关系。若某特征值特别接近0说明变量线性相关,这时用这些变量

作回归自变量可能得到错误的结果。 2、应用举例

例1.一月和七月平均气温的主成分分析

在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主成分分析。程序如下:

/*EXAMPLE 1*/ DATA TEMPERAT;

INPUT CITY $1-15 JANUARY JULY; CARDS;

MOBILE 51.2 81.6 PHOENIX 51.2 91.2 LITTLE ROCK 39.5 81.4 SACRAMENTO 45.1 75.2 DENVER 29.9 73.0 HARTFORD 24.8 72.7 WILMINGTON 32.0 75.8 WASHINGTON DC 35.6 78.7 JACKSONVILLE 54.6 81.0 MIAMI 67.2 82.3 ATLANTA 42.4 78.0 BOISE 29.0 74.5 CHICAGO 22.9 71.9 PEORIA 23.8 75.1 INDIANAPOLIS 27.9 75.0 DES MOINES 19.4 75.1 WICHITA 31.3 80.7 LOUISVILLE 33.3 76.9 NEW ORLEANS 52.9 81.9

PORTLAND, MAINE 21.5 68.0 BALTIMORE 33.4 76.6 BOSTON 29.2 73.3 DETROIT 25.5 73.3 SAULT STE MARIE 14.2 63.8 DULUTH 8.5 65.6 MINNEAPOLIS 12.2 71.9 JACKSON 47.1 81.7 KANSAS CITY 27.8 78.8 ST LOUIS 31.3 78.6 GREAT FALLS 20.5 69.3 OMAHA 22.6 77.2 RENO 31.9 69.3 CONCORD 20.6 69.7 ATLANTIC CITY 32.7 75.1 ALBUQUERQUE 35.2 78.7 ALBANY 21.5 72.0 BUFFALO 23.7 70.1 NEW YORK 32.2 76.6 CHARLOTTE 42.1 78.5 RALEIGH 40.5 77.5 BISMARCK 8.2 70.8 CINCINNATI 31.1 75.6 CLEVELAND 26.9 71.4 COLUMBUS 28.4 73.6 OKLAHOMA CITY 36.8 81.5 PORTLAND, OREG 38.1 67.1 PHILADELPHIA 32.3 76.8 PITTSBURGH 28.1 71.9 PROVIDENCE 28.4 72.1 COLUMBIA 45.4 81.2 SIOUX FALLS 14.2 73.3 MEMPHIS 40.5 79.6 NASHVILLE 38.3 79.6 DALLAS 44.8 84.8 EL PASO 43.6 82.3 HOUSTON 52.1 83.3 SALT LAKE CITY 28.0 76.7 BURLINGTON 16.8 69.8 NORFOLK 40.5 78.3 RICHMOND 37.5 77.9 SPOKANE 25.4 69.7 CHARLESTON, WV 34.5 75.0 MILWAUKEE 19.4 69.9 CHEYENNE 26.6 69.1 ;

PROC PRINCOMP COV OUT=PRIN; VAR JULY JANUARY; RUN;

图 1 一月、七月气温的散点图和主成分散点图

在INSIGHT中打开WORK.PRIN,分别绘制JULY对JANUARY、PRIN2对PRIN1的散点图(图 1)。从图可以看出主成分为原始变量的一个正交旋转。输出如下:

Principal Component Analysis 62 Observations 2 Variables Simple Statistics

JULY JANUARY Mean 75.92096774 32.55483871

StD 4.88061193 11.59197967

Covariance Matrix JULY JANUARY JULY 23.8203728 43.4319461 JANUARY 43.4319461 134.3739926 Total Variance = 158.19436542

Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative

PRIN1 149.396 140.597 0.944380 0.94438

PRIN2 8.799 . 0.055620 1.00000

Eigenvectors PRIN1 PRIN2 JULY 0.326866 0.945071 JANUARY 0.945071 -.326866 输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主成分如此计算:

PRIN1 = 0.326866 (JULY-75.92) + 0.945071 (JANUARY-32.55) PRIN2 = 0.945071 (JULY-75.92)+ (-0.326866) (JANUARY-32.55)

如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主成分是两个月份的加权平均,代表了一个地方的气温水平,第二主成分系数一正一负,反应了冬季和夏季的气温差别。 例2.美国各种类型犯罪的主成分分析

在数据集CRIME中有美国各个州的各种类型犯罪的犯罪率数据。希望对这些犯罪率数据进行主成分分析以概括犯罪情况。程序如下:

/* EXAMPLE 2*/ DATA CRIME;

TITLE '各州每十万人的犯罪率';

INPUT STATE $1-15 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO; CARDS;

ALABAMA 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 ALASKA 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3 ARIZONA 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5 ARKANSAS 8.8 27.6 83.2 203.4 972.6 1862.1 183.4 CALIFORNIA 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 COLORADO 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 CONNECTICUT 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2 DELAWARE 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0 FLORIDA 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 GEORGIA 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 HAWAII 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4 IDAHO 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6 ILLINOIS 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6 INDIANA 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4 IOWA 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 KANSAS 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3 KENTUCKY 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 LOUISIANA 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7 MAINE 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9 MARYLAND 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5 MASSACHUSETTS 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1 MICHIGAN 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5 MINNESOTA 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 MISSISSIPPI 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 MISSOURI 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4 MONTANA 5.4 16.7 39.2 156.8 804.9 2773.2 309.2 NEBRASKA 3.9 18.1 64.7 112.7 760.0 2316.1 249.1 NEVADA 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 NEW HAMPSHIRE 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4 NEW JERSEY 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5 NEW MEXICO 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5 NEW YORK 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8

NORTH CAROLINA 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1 NORTH DAKOTA 0.9 9.0 13.3 43.8 446.1 1843.0 144.7 OHIO 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4 OKLAHOMA 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8 OREGON 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 PENNSYLVANIA 5.6 19.0 130.3 128.0 877.5 1624.1 333.2 RHODE ISLAND 3.6 10.5 86.5 201.0 1489.5 2844.1 791.4 SOUTH CAROLINA 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1 SOUTH DAKOTA 2.0 13.5 17.9 155.7 570.5 1704.4 147.5 TENNESSEE 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0 TEXAS 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 UTAH 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5 VERMONT 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2 VIRGINIA 9.0 23.3 92.1 165.7 986.2 2521.2 226.7 WASHINGTON 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 WEST VIRGINIA 6.0 13.2 42.2 90.9 597.4 1341.7 163.3 WISCONSIN 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 WYOMING 5.4 21.9 39.7 173.9 811.6 2772.2 282.0 ;

PROC PRINCOMP OUT=CRIMCOMP; RUN;

PROC SORT; BY PRIN1; PROC PRINT; ID STATE;

VAR PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO; TITLE2 '各州按第一主成分作为总犯罪率排列'; PROC SORT; BY PRIN2; PROC PRINT; ID STATE;

VAR PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO; TITLE2 '各州按第二主成分作为金钱犯罪与暴力犯罪对比的排列';

PROC GPLOT;

PLOT PRIN2*PRIN1=STATE;

TITLE2 'PLOT OF THE FIRST TWO PRINCIPAL COMPONENTS'; PROC GPLOT;

PLOT PRIN3*PRIN1=STATE;

TITLE2 'PLOT OF THE FIRST AND THIRD PRINCIPAL COMPONENTS'; RUN;

输入数据后,用PROC PRINCOMP对数据进行主成分分析,结果先给出了各变量的简单统计量,变量的相关阵,其特征值和特征向量结果如下:

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative PRIN1 4.11496 2.87624 0.587851 0.58785 PRIN2 1.23872 0.51291 0.176960 0.76481 PRIN3 0.72582 0.40938 0.103688 0.86850 PRIN4 0.31643 0.05846 0.045205 0.91370 PRIN5 0.25797 0.03593 0.036853 0.95056 PRIN6 0.22204 0.09798 0.031720 0.98228 PRIN7 0.12406 . 0.017722 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7

MURDER 0.300279 -.629174 0.178245 -.232114 0.538123 0.259117 0.267593

RAPE 0.431759 -.169435 -.244198 0.062216 0.188471 -.773271 -.296485

ROBBERY 0.396875 0.042247 0.495861 -.557989 -.519977 -.114385 -.003903

ASSAULT 0.396652 -.343528 -.069510 0.629804 -.506651 0.172363 0.191745

BURGLARY 0.440157 0.203341 -.209895 -.057555 0.101033 0.535987 -.648117

LARCENY 0.357360 0.402319 -.539231 -.234890 0.030099 0.039406 0.601690

AUTO 0.295177 0.502421 0.568384 0.419238 0.369753 -.057298 0.147046

第一主成分贡献率只有59%,前两个主成分累计贡献率达到76%,可以用前两个主成分。前三个主成分累计贡献率已达到87%,所以前三个主成分可以表现犯罪率的大部分信息。第一主成分的计算系数都是正数,所以它是一个州的犯罪率的一个加权平均,代表这个州的总的犯罪情况。第二主成分在入室盗窃(BURGLARY)、盗窃罪(LARCENY)、汽车犯罪(AUTO)上有较大的正系数,在谋杀(MURDER)、强奸(RAPE)、攻击(ASSAULT)上有较大的负系数,所以代表了暴力犯罪与其它犯罪的一种对比。第三主成分为抢劫、汽车犯罪等与盗窃罪、入室盗窃、强奸的对比,其意义不易解释。 为了看出各州按第一主成分和第二主成分由低到高排列的情况,先用SORT过程排了序,然后用PRINT过程打印了结果(结果略)。在按第一主成分排序中,North Dakota、South Dakota、West Virginia排列在前,说明其犯罪率最低,Nevada、California排列在后,说明其犯罪率最高。在按第二主成分排列的结果中,Mississippi排在最前,说明其暴力犯罪最高,Massachusetts最后,说明其暴力犯罪最低。后面用PLOT过程画了主成分的散点图。 二、聚类分析

聚类分析是研究“物以类聚”的统计分析方法,聚类分析之前对事物的类别尚不清楚,它是根据事物本身的“性质”来进行分类的,而不是根据“历史资料”来分类的。

聚类分析有R型聚类分析和Q型聚类分析两种:R型聚类分析是对观测指标(或变量)进行的聚类分析。在教育评估中,对学校办学水平的综合评估,就可以先将办学条件、管理水平、教育成果等一级指标进行分解成相应的二级指标,如:教师队伍、校舍建设、教学设备、体育设施、教育经费、生源状况;领导班子、教师管理、教学管理、常规管理、校风校纪、培养人

才的数量和质量。再将二级指标分解为三级指标。但这些众多的指标哪些是同类的,哪些是有代表性的,就可以用R型聚类分析进行分类筛选,进一步找出若干典型指标。

Q型聚类分析是对样品进行的聚类分析方法。比如对学生英语能力的评估,可以先测量学生单词辨义、词汇量、单词搭配、字组织词、近义词使用等指标的数值,再用Q型聚类分析方法对学生的外语能力进行分类,以评估其能力趋向。

聚类分析和判别分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。

所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。

1 对样品分类(称为Q-型聚类分析)常用的距离和相似系数定义 (1)距离

如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:

i)明氏(Minkowski)距离

?pdij(q)??xia?xja??a?1?iaq????1q

当q=1时

dij(1)??xa?1p?xja 即绝对距离

12当q=2时

?p?2?dij(2)??(x?x)iaja???a?1?? 即欧氏距离

当q??时

dij(?)?maxxia?xja

1?a?p 即切比雪夫距离

当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。

明氏距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表面在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。除此之外,从统计的角度上看,使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误结论。因此一个合理的做法,就是对坐标加权,这就产生了“统计距离”。比如设P?(x1,x2,?,xp)?,Q?(y1,y2,?,yp)?,且Q的坐标是固定的,点P的坐标相互独立地变化。用s11,s12,?,spp表示p个变量x1,x2,?,xp的n次观测的样本方差,则可以义P到Q的统计距离为:

(xp?yp)2(x1?y1)2(x2?y2)2d(P,Q)?????

s11s22spp所加的权是k1?111,k2?,?,kp?,即用样本方差除相应坐标。当取y1?y2???yp?0s11s22spp时,就是点P到原点O的距离。若s11?s22???spp时,就是欧氏距离。

ii)马氏(Mahalanobis)距离

马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用,下面给出定义。

设?表示指标的协差阵即:

??(?ij)p?p

1n其中?ij?(xai?xi)(xaj?xj) i,j?1,?,p

n?1a?1?1n1nxi??xai xj??xaj

na?1na?1如果??1存在,则两个样品之间的马氏距离为

2dij(M)?(Xi?Xj)???1(Xi?Xj)

这里Xi为样品Xi的p个指标组成的向量,即原始资料阵的第i行向量。样品Xj类似。

顺便给出样品X到总体G的马氏距离定义为

d2(X,G)?(X??)???1(X??) 其中?为总体的均值向量,?为协方差阵。

马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。

iii)兰氏(Canberra)距离

它是由Lance和Williams最早提出的,故称兰氏距离。

1dij(L)?p?xa?1pxia?xjaia?xja i,j?1,?,n

此距离仅适用于一切xij?0的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。

计算任何两个样品Xi与Xj之间的距离dij,其值越小表示两个样品接近程度越大,dij值

越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后,可排成距离阵D:

?d11?dD??21????dn1d12d22dn2?d1n??d2n??

???dnn?其中d11?d22???dnn?0。D是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。

2 对指标分类(称为R-型聚类分析)常用的距离和相似系数定义

p个指标(变量)之间相似性的定义与样品相似性定义类似,但此时是在n维空间中来研究的,变量之间的相似性是通过原始资料矩阵X中p列间相似关系来研究的。

(1)距离

令dij表示变量Xi?(x1i,?,xni)?与变量Xj?(x1j,?,xnj)?之中距离。

i)明氏距离

?ndij(q)??xai?xaj??a?1?q????1q

ii)马氏距离

设?表示样品的协差阵即

??(?ij)n?n

1p其中?ij?(xia?xi)(xja?xj) i,j?1,?,n ?p?1a?11p1pxi??xia xj??xja

pa?1pa?1如果??1存在,则马氏距离为

2dij(M)?(xi?xj)???1(xi?xj)

iii)兰氏距离

dij(L)??xa?1nxai?xajai?xaj

此处仅适用于一切xij?0的情况。

3、八种常用的系统聚类法

最短距离法、最长距离法、中间距离法、重心法、类平均法、可变平均法、可变法、离差平方和法。

并类的结果都是一致的,只是并类的距离不同。然而在一般情况下,用不同的方法聚类的结果是不完全一致的。自然会问哪一种方法好呢?这就需要提出一个标准作为衡量的依据,但至今还没有一个合适的标准。各种方法的比较目前仍是值得研究的一个课题,在实际应用中,一般采用以下两种处理方法:一种办法是根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数。另一种办法是多用几种分类方法去作,把结果中的共性取出来,如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质,而将有争议的样品暂放一边或用其它办法如判别分析去归类。下面再看两个实例。

例1 为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、分别用来反映较高、中等、较低文化程度人口

的状况,原始数据如下表:

1990年全国人口普查文化程度人口比例(%) 序 号 DXBZ CZBZ WMBZ 1 9.30 30.55 8.70 2 4.67 29.38 8.92 3 0.96 24.69 15.21 4 1.38 29.24 11.30 5 1.48 25.47 15.39 6 2.60 32.32 8.81 7 2.15 26.31 10.49 8 2.14 28.46 10.87 9 6.53 31.59 11.04 10 1.47 26.43 17.23 11 1.17 23.74 17.46 12 0.88 19.97 24.43 13 1.23 16.87 15.63 14 0.99 18.84 16.22 15 0.98 25.18 16.87 16 0.85 26.55 16.15 17 1.57 23.16 15.79 18 1.14 22.57 12.10 19 1.34 23.04 10.45 20 0.79 19.14 10.61 21 1.24 22.53 13.97 22 0.96 21.65 16.24 23 0.78 14.65 24.27 24 0.81 13.85 25.44 25 0.57 3.85 44.43 26 1.67 24.36 17.62 27 1.10 16.85 27.93 28 1.49 17.76 27.70 29 1.61 20.27 22.06 30 1.85 20.66 12.75 地区 北 京 天 津 河 北 山 西 内 蒙 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 河 北 湖 南 广 东 广 西 海 南 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆

计算样品之间的相似系数,使用最长距离法、重心法,将上机计算结果按样品号画出聚类图如下:

0 5 10 15 20 25

根据聚类图把30个样品分为四类能更好地反映我国实际情况。

第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。

第二类:安徽、宁夏、青海、甘肃、云南、贵州。其中大多是西部经济、文化发展较慢的地区。

第三类:西藏。经济、文化较落后的地区。

第四类:其它省、直辖市、自治区。经济、文化在全国处于中等水平。

例2 根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 country call movecall fee computer mips net 1 美 国 631.60 161.90 0.36 403.00 26073.00 35.34 2 日 本 498.40 143.20 3.57 176.00 10223.00 6.26 3 德 国 557.60 70.60 2.18 199.00 11571.00 9.48 4 瑞 典 684.10 281.80 1.40 286.00 16660.00 29.39 5 瑞 士 644.00 93.50 1.98 234.00 13621.00 22.68 6 丹 麦 620.30 248.60 2.56 296.00 17210.00 21.84 7 新加坡 498.40 147.50 2.50 284.00 13578.00 13.49 中国台8 469.40 56.10 3.68 119.00 6911.00 1.72 湾 9 韩 国 434.50 73.00 3.36 99.00 5795.00 1.68 10 巴 西 81.90 16.30 3.02 19.00 876.00 0.52 11 智 利 138.60 8.20 1.40 31.00 1411.00 1.28 12 墨西哥 92.20 9.80 2.61 31.00 1751.00 0.35 13 俄罗斯 174.90 5.00 5.12 24.00 1101.00 0.48 14 波 兰 169.00 6.50 3.68 40.00 1796.00 1.45 15 匈牙利 262.20 49.40 2.66 68.00 3067.00 3.09 马来西16 195.50 88.40 4.19 53.00 2734.00 1.25 亚 17 泰 国 78.60 27.80 4.95 22.00 1662.00 0.11 18 印 度 13.60 0.30 6.28 2.00 101.00 0.01 19 法 国 559.10 42.90 1.27 201.00 11702.00 4.76 20 英 国 521.10 122.50 0.98 248.00 14461.00 11.91 这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作Q型聚类分析。描述信息基础设施的变量主要有六个:(1)Call—每千人拥有电话线数,(2)movecall—每千房居民移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率《每秒百万指令》,(6)net—每千人互联网络户主数。数据摘自《世界竞争力报告—1997》。

由于数据存在量纲和数量级的差别,在聚类之前先进行标准化处理,计算样品之间的距离采用欧氏距离。下面分别用最长距离法、重心法进行计算,其结果如下表:

最长距离法

Brazil Mexico Porland Hungary

Malasia Chile Russian Tailand

Indian Taiwan Korea Japan

German France Singapo

British Switzer

Sweden Denmar USA

重心法

Brazil Mexico

Porland Hungary Chile Malasia Russian Tailand Indian German France Singapo British Switzer British Switzer Taiwan Korea Japan Sweden Denmark

10

从聚类图看,本例用两种方法聚类结果基本一致,而最长距离法和重心法所得结果比较一致,结合实际情况分析采用离差平方和法把20个国家分为两类:

第Ⅰ类:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。 第Ⅱ类:瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士。

其中第Ⅰ类中的国家为转型国家和亚洲、拉美发展中国家,这些国家经济较不发达,基础设施薄弱,属于信息基础设施比较落后的国家;第Ⅱ类中的国家是美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。新兴工业化国家这几十年来发展迅速,努力赶超发达国家,在信息基础设施的发展上已非常接近发达国家,而发达国家中美国、瑞典、丹麦的信息基础设施发展最为良好。

三、因子分析

因素分析是要把刻画事物性质、状态的一组变量缩成能反映这一组变量之间的内在联系和能起主导作用的少数几个共同变量,以达到简化现象,发现规律的目的。

在教育测量和评估中,可以用因素分析的方法进行项目分析,鉴定测验的质量。也可以根据培养人才的目的要求,初拟“双基”教学内容,并编制若干份测验,根据这些测验变量的观测数据,用因素分析法提取几个共同性变量,经过“因素分析——调整教学内容”的过程,制订科学地培养人才的教学大纲。

1、原理

主成分分析作p个原始变量的m个线性组合,这些线性组合在原始变量的所有m个线性组合中可以最好地预报原始变量。因子分析对主成分分析进行了推广,它用潜在的m个“因子”来概括原始变量的信息,这些因子不一定是原始变量的线性组合。

设x为p?1随机向量,其均值为?,协方差阵为??(?ij),我们称x有k个因子的模型,若x能表为

x????f?u

其中?:p?k是未知常数阵,f:k?p和u:p?1为随机向量。f称为公共因子,u叫做特殊因子,叫因子负荷矩阵。这个模型象是回归分析模型,但是这里x是多元随机变量而不是一个随机变量的样本,f也是随机变量而不是一般的回归系数。求因子分解要用到原始变量协方差阵?与?、特殊因子的协方差阵?的如下关系式:

???????

公因子模型分解是不唯一的,因为如果?是一个正交阵,则有

x???(??)(??f)?u

这时??f是新的因子,??是新的因子负荷阵。我们可以利用这一特点对得到的因子模型进行旋转以产生容易解释的因子。旋转时一般试图使因子载荷系数靠近正负1和0,这样容易解释因子的组成。 2、例子 数据集SOCECON为洛杉基12个地区统计的五个社会经济指标:人口总数(POP),教育程度(SCHOOL),就业数(EMPLOY),服务业人数(SERVICES),中等的房价(HOUSE)。用FACTOR过程可以进行主成分分析。下例中的SIMPLE选项要求计算变量的简单统计量,CORR要求输出相关阵。

DATA SOCECON;

TITLE '五个经济指标的分析';

INPUT POP SCHOOL EMPLOY SERVICES HOUSE; CARDS;

5700 12.8 2500 270 25000 1000 10.9 600 10 10000 3400 8.8 1000 10 9000 3800 13.6 1700 140 25000 4000 12.8 1600 140 25000 8200 8.3 2600 60 12000 1200 11.4 400 10 16000

9100 11.5 3300 60 14000 9900 12.5 3400 180 18000 9600 13.7 3600 390 25000 9600 9.6 3300 80 12000 9400 11.4 4000 100 13000 ;

PROC FACTOR DATA=SOCECON SIMPLE CORR; TITLE2 '主成分分析'; RUN;

结果给出了五个变量的简单统计量,相关阵,和相关阵的特征值、累计贡献:

1 2 3 4 5

Eigenvalue 2.8733 1.7967 0.2148 0.0999 0.0153

Difference 1.0767 1.5818 0.1149 0.0847 Proportion 0.5747 0.3593 0.0430 0.0200 0.0031

Cumulative 0.5747 0.9340 0.9770 0.9969 1.0000

2 factors will be retained by the MINEIGEN criterion. 前两个主成分解释了93.4%的方差,按照缺省的选择因子个数的准则MINEIGEN,取大于1的特征值,所以取两个因子。因子模式阵(factor pattern,或称因子载荷阵)为最重要的结果之一:

Factor Pattern

FACTOR1 FACTOR2 POP 0.58096 0.80642 SCHOOL 0.76704 -0.54476 EMPLOY 0.67243 0.72605 SERVICES 0.93239 -0.10431 HOUSE 0.79116 -0.55818 它们是用公因子预报原始变量的回归系数。第一主成分(因子)在所有五个变量上都有正的载荷,可见这个因子反应了城市规模的影响。第二主成分在人口、就业上有大的正载荷,在教育程度和住房价格上有大的负载荷,则第二个因子较大的城市人口多但是教育程度和住房价格低。结果还给出了公因子解释能力的估计:

Final Communality Estimates: Total = 4.669974 POP SCHOOL EMPLOY SERVICES HOUSE 0.987826 0.885106 0.979306 0.880236 0.937500

这里给出了公因子对每一个原始变量的解释能力的量度,这是用原始变量对公因子的复相关系数平方(取0到1间值)来计算的。Communality Estimate是这些复相关系数平方的总和。因为每一个复相关系数平方都比较大,所以我们可以认为两个公因子可以很好地解释原始变量中的信息。但是我们得到的因子解释不够清楚,于是考虑用其它的因子分析方法。 我们来进行主因子分析。用FACTOR过程作主因子分析与作主成分分析的不同只是增加一个PRIORS=选项,可以用PRIORS=SMC或者MAX、ONE等。例如:

PROC FACTOR DATA=SOCECON priors=smc;

TITLE2 '主因子分析'; RUN;

主因子法计算简约了的相关阵的特征值(相当于???的估计),所以其特征值可能为负值。选取因子个数的缺省准则是PROPORTION=1,即累计特征值达到特征值总和的100%。这样取了两个因子。结果与主成分分析相似。为了得到好的因子解释,我们在上面的PROC FACTOR语句中再加上一个ROTATE=PROMAX旋转选项,这样将在得到主因子分析后先产生方差最大正交预旋转(VARIMAX)然后进行斜交旋转,并加了一个REORDER选项使输出时把原始变量受相同因子影响的放在一起:

PROC FACTOR DATA=SOCECON PRIORS=SMC ROTATE=PROMAX REORDER; TITLE2 '主因子分析及PROMAX斜交旋转'; RUN;

在初始的主因子结果之后是方差最大预旋转的结果(只显示了旋转阵和旋转后的因子载荷):

Orthogonal Transformation Matrix 1 2 1 0.78895 0.61446 2 -0.61446 0.78895 Rotated Factor Pattern FACTOR1 FACTOR2 HOUSE 0.94072 -0.00004 SCHOOL 0.90419 0.00055 SERVICES 0.79085 0.41509 POP 0.02255 0.98874 EMPLOY 0.14625 0.97499

可见第一因子反映了房价、教育水平、服务业人数,这些应该与发达程度有关。第二因子反映了人口和就业情况,与城市规模有关。这样得到的因子已经比较好用。我们再看斜交旋转的结果,这里只给出了旋转后的因子模式阵:

Rotated Factor Pattern (Std Reg Coefs) FACTOR1 FACTOR2 HOUSE 0.95558 -0.09792 SCHOOL 0.91842 -0.09352 SERVICES 0.76053 0.33932 POP -0.07908 1.00192 EMPLOY 0.04799 0.97509

从结果看得到的因子比正交旋转没有改进。因为斜交旋转后的公因子是相关的,所以结果中还给出了公因子的相关阵,参考结构(Reference Structure,为每个原始变量与公因子扣除其它公因子影响的偏相关),因子结构(Factor Structure,为原始变量与公因子间的相关系数)。

Prerotation Method: Varimax Orthogonal Transformation Matrix 1 2

1 0.78895 0.61446 2 -0.61446 0.78895 Rotated Factor Pattern FACTOR1 FACTOR2 POP 0.02255 0.98874 SCHOOL 0.90419 0.00055

EMPLOY 0.14625 0.97499 SERVICES 0.79085 0.41509 HOUSE 0.94072 -0.00004 为了产生因子得分,需要在FACTOR过程中使用SCORE选项和OUTSTAT=选项输出得分系数数据集并调用SCORE过程。比如,为了计算方差最大正交旋转的主因子得分,可以用如下程序:

PROC FACTOR DATA=SOCECON PRIORS=SMC ROTATE=VARIMAX REORDER SCORE OUTSTAT=OUTF; TITLE2 '主因子分析及VARIMAX正交旋转'; RUN;

PROC SCORE DATA=SOCECON SCORE=OUTF OUT=OUTS; TITLE2 ' VARIMAX正交旋转后的主因子得分'; RUN; 四、判别分析

判别分析是多元统计分析中一个十分活跃的分支。例如教育评估中学校类别的判别,学习趋向、心理特征、人才类型的评估等。

判别问题的一般提法是:设有K个已知的评估总体G1,G2?Gk,它们之间是可以用某种方法彼此区分的。现有一个评估对象,已知它必定属于其中某个评估总体,问题是将其判别给哪个总体最合适。判别分析就是讨论如何给出最优判别准则,把归属不明的评估对象分配到一个恰当的评估总体(类)中去。

判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本去分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。

1、原理

判别分析的方法有参数方法和非参数方法。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。

记X为用来建立判别规则的p维随机变量,S为合并协方差阵估计,t?1,?,G为组的下标,共有G个组。记nt为第t组中训练样本的个数,mt为第t组的自变量均值向量,St为第t组的协方差阵,St为St的行列式,qt为第t组出现的先验概率,p(t|x)为自变量为x的观测属于第t组的后验概率,ft(x)为第t组的分布密度在X?x处的值,f(x)为非条件密度

?qf(x)。

ttt?1G按照Bayes理论,自变量为x的观测属于第t组的后验概率p(t|x)?qtft(x)f(x)。于是,可以把自变量X的取值空间Rp划分为G个区域Rt,t?1,?,G,使得当X的取值x属于Rt时后验概率在第t组最大,即

p(t|x)?maxp(s|x),?x?Rt

s?1,?,G建立的判别规则为:计算自变量x到每一个组中心的广义平方距离,并把x判入最近的类。

广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关,定义为

Dt2(x)?dt2(x)?g1(t)?g2(t)

其中

?dt2(x)??x?mt?Vt?1?x?mt?

。mt可以用第t组Vt?St(使用单个类的协方差阵估计)或Vt?S(使用合并的协方差阵估计)的均值Xt代替。在使用合并协方差阵时,

?Dt2(x)??x?Xt?S?1?x?Xt??2lnqt?1?1?x?Sx??X?SX?2lnqt??2x?SXt?1

其中x?S?1x是共同的可以不考虑,于是在比较x到各组中心的广义平方距离时,只要计算线性

~?1??判别函数Dt2(x)???XtS?1Xt?lnqt??x?S?1Xt,当x到第t组的线性判别函数最大时把x对应

2??观测判入第t组。在如果使用单个类的协方差阵估计Vt?St则距离函数是x的二次函数,称为二次判别函数。

后验概率可以用广义距离表示为

p(t|x)?eGu?11?Dt2(x)212?Du(x)2

?e因此,参数方法的判别规则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算x到各组的广义距离,把x判入最近的组;或者计算x属于各组的后验概率,把x判入后验概率最大的组。如果x的最大的后验概率都很小(小于一个给定的界限),则把它判入其它组。 非参数判别方法仍使用Bayes后验概率密度的大小来进行判别,但这时第t组在x处的密度值ft(x)不再具有参数形式,不象参数方法那样可以用mt和St(或S)表示出来。非参数方法用核方法或最近邻方法来估计概率密度ft(x)。

最近邻估计和核估计也都需要定义空间中的距离。除了可以用欧氏距离外,还可以用马氏(Mahalanobis)距离,定义为:

dt2(x,y)?(x?y)?Vt?1(x?y)

其中Vt为以下形式之一:

Vt?S

合并协方差阵

Vt?diag(S) 合并协方差阵的对角阵 Vt?St

第t组内的协方差阵

Vt?diag(St)第t组内的协方差阵的对角阵 Vt?I

单位阵,这时距离即普通欧氏距离

2、例子 用卫星遥感可以分辨作物的种类。CROPS是训练数据集,其中包含了作物的实际种类(CROP)和四种遥感指标变量(X1-X4)。数据集中还把各X1-X4变量值作为一个字符型变量读入来作为行标识。

data crops;

title '五种作物遥感数据的判别分析';

input crop $ 1-10 x1-x4 xvalues $ 11-21; cards;

CORN 16 27 31 33 CORN 15 23 30 30 CORN 16 27 27 26 CORN 18 20 25 23 CORN 15 15 31 32 CORN 15 32 32 15 CORN 12 15 16 73 SOYBEANS 20 23 23 25 SOYBEANS 24 24 25 32 SOYBEANS 21 25 23 24 SOYBEANS 27 45 24 12 SOYBEANS 12 13 15 42 SOYBEANS 22 32 31 43 COTTON 31 32 33 34 COTTON 29 24 26 28 COTTON 34 32 28 45 COTTON 26 25 23 24 COTTON 53 48 75 26 COTTON 34 35 25 78 SUGARBEETS22 23 25 42 SUGARBEETS25 25 24 26 SUGARBEETS34 25 16 52 SUGARBEETS54 23 21 54 SUGARBEETS25 43 32 15 SUGARBEETS26 54 2 54 CLOVER 12 45 32 54 CLOVER 24 58 25 34 CLOVER 87 54 61 21 CLOVER 51 31 31 16 CLOVER 96 48 54 62

CLOVER 31 31 11 11 CLOVER 56 13 13 71 CLOVER 32 13 27 32 CLOVER 36 26 54 32 CLOVER 53 08 06 54 CLOVER 32 32 62 16 ; run;

用下列DISCRIM过程可以产生线性判别函数(METHOD=NORMAL规定使用参数方法,POOL=YES选项规定使用合并协方差阵,这样产生的判别函数是线性函数)。用OUTSTAT=选项指定了判别函数的输出数据集为CROPSTAT,这个数据集可以用来判别检验数据集。选项LIST要求列出每个观测的结果,CROSSVALIDATE要求交叉核实。“PRIORS PROPORTIONAL”即按各种类出现的比例计算各类的先验概率,ID语句指定列出各观测时以什么变量值作为标识。

proc discrim data=crops outstat=cropstat method=normal pool=yes list crossvalidate; class crop;

priors proportional; id xvalues; var x1-x4;

title2 '使用线性判别函数'; run;

结果如下(节略):

Discriminant Analysis 36 Observations 35 DF Total 4 Variables 31 DF Within Classes 5 Classes 4 DF Between Classes 上面是一些基本情况。

Class Level Information

Prior CROP Frequency Weight Proportion Probability CLOVER 11 11.0000 0.305556 0.305556 CORN 7 7.0000 0.194444 0.194444 COTTON 6 6.0000 0.166667 0.166667 SOYBEANS 6 6.0000 0.166667 0.166667 SUGARBEETS 6 6.0000 0.166667 0.166667 以上为各组的基本情况,并列出了先验概率值。因为指定了“PRIORS PROPORTIONAL”所以各组的先验概率按实际数据中各组比例计算。

Discriminant Analysis Pairwise Generalized Squared Distances Between Groups

2 _ _ -1 _ _ D (i|j) = (X - X )' COV (X - X ) - 2 ln PRIOR i j i j j

??1??(X)?X?X上面为各组均值间广义距离平方的公式,即D2jiijS?Xi?Xj??2lnqj。

_ -1 _ -1 _ Constant = -.5 X' COV X + ln PRIOR Coefficient Vector = COV X j j j j 上面即线性判别函数的公式,给出了到第j类的线性判别函数的常数项和各自变量的系数的公式。下面具体给出了各类的线性判别函数的各常数项及系数值。

CROP CLOVER CORN COTTON SOYBEANS SUGARBEETS

CONSTANT -10.98457 -7.72070 -11.46537 -7.28260 -9.80179

X1 0.08907 -0.04180 0.02462 0.0000369 0.04245

X2 0.17379 0.11970 0.17596 0.15896 0.20988

X3 0.11899 0.16511 0.15880 0.10622 0.06540

X4 0.15637 0.16768 0.18362 0.14133 0.16408

比如,观测了X1-X4后到CLOVER(苜蓿)类的线性判别函数就可以用-10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4来计算。下面为判别分析对训练数据集(Calibration Data)用线性判别函数的判别结果,先给出了广义平方距离函数的公式

Discriminant Analysis Classification Results for Calibration Data: WORK.CROPS

Resubstitution Results using Linear Discriminant Function Generalized Squared Distance Function: 2 _ -1 _ D (X) = (X-X )' COV (X-X ) - 2 ln PRIOR j j j j 然后是每个观测属于各类的后验概率的公式:

Posterior Probability of Membership in each CROP: 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k 下面就是每个观测的判别情况,包括原来为哪一类(From CROP),分入了哪一类(Classified into CROP),即属于各类的后验概率值。有星号的为错判的观测。

Posterior Probability of Membership in CROP:

XVALUES From Classified CROP into CROP CLOVER CORN COTTON SOYBEANS SUGARBEETS

16 27 31 33 CORN CORN 0.0894 0.4054 0.1763 0.2392 0.0897

15 23 30 30 CORN CORN 0.0769 0.4558 0.1421 0.2530 0.0722

16 27 27 26 CORN CORN 0.0982 0.3422 0.1365 0.3073 0.1157

18 20 25 23 CORN CORN 0.1052 0.3634 0.1078 0.3281 0.0955

15 15 31 32 CORN CORN 0.0588 0.5754 0.1173 0.2087 0.0398

15 32 32 15 CORN SOYBEANS * 0.0972 0.3278 0.1318 0.3420 0.1011

12 15 16 73 CORN CORN 0.0454 0.5238 0.1849 0.1376 0.1083

20 23 23 25 SOYBEANS SOYBEANS 0.1330 0.2804 0.1176 0.3305 0.1385

24 24 25 32 SOYBEANS SOYBEANS 0.1768 0.2483 0.1586 0.2660 0.1502

21 25 23 24 SOYBEANS SOYBEANS 0.1481 0.2431 0.1200 0.3318 0.1570

27 45 24 12 SOYBEANS SUGARBEETS * 0.2357 0.0547 0.1016 0.2721 0.3359

12 13 15 42 SOYBEANS CORN * 0.0549 0.4749 0.0920 0.2768 0.1013

22 32 31 43 SOYBEANS COTTON * 0.1474 0.2606 0.2624 0.1848 0.1448

31 32 33 34 COTTON CLOVER * 0.2815 0.1518 0.2377 0.1767 0.1523

29 24 26 28 COTTON SOYBEANS * 0.2521 0.1842 0.1529 0.2549 0.1559

34 32 28 45 COTTON CLOVER * 0.3125 0.1023 0.2404 0.1357 0.2091

26 25 23 24 COTTON SOYBEANS * 0.2121 0.1809 0.1245 0.3045 0.1780

53 48 75 26 COTTON CLOVER * 0.4837 0.0391 0.4384 0.0223 0.0166

34 35 25 78 COTTON COTTON 0.2256 0.0794 0.3810 0.0592 0.2548

22 23 25 42 SUGARBEETS CORN * 0.1421 0.3066 0.1901 0.2231 0.1381

25 25 24 26 SUGARBEETS SOYBEANS * 0.1969 0.2050 0.1354 0.2960 0.1667

34 25 16 52 SUGARBEETS SUGARBEETS 0.2928 0.0871 0.1665 0.1479 0.3056

54 23 21 54 SUGARBEETS CLOVER * 0.6215 0.0194 0.1250 0.0496 0.1845

25 43 32 15 SUGARBEETS SOYBEANS * 0.2258 0.1135 0.1646 0.2770 0.2191

26 54 2 54 SUGARBEETS SUGARBEETS 0.0850 0.0081 0.0521 0.0661 0.7887

12 45 32 54 CLOVER COTTON * 0.0693 0.2663 0.3394 0.1460 0.1789

24 58 25 34 CLOVER SUGARBEETS * 0.1647 0.0376 0.1680 0.1452 0.4845

87 54 61 21 CLOVER CLOVER 0.9328 0.0003 0.0478 0.0025 0.0165

51 31 31 16 CLOVER CLOVER 0.6642 0.0205 0.0872 0.0959 0.1322

96 48 54 62 CLOVER CLOVER 0.9215 0.0002 0.0604 0.0007 0.0173

31 31 11 11 CLOVER SUGARBEETS * 0.2525 0.0402 0.0473 0.3012 0.3588

56 13 13 71 CLOVER CLOVER 0.6132 0.0212 0.1226 0.0408 0.2023

32 13 27 32 CLOVER CLOVER 0.2669 0.2616 0.1512 0.2260 0.0943

36 26 54 32 CLOVER COTTON * 0.2650 0.2645 0.3495 0.0918 0.0292

53 08 06 54 CLOVER CLOVER 0.5914 0.0237 0.0676 0.0781 0.2392

32 32 62 16 CLOVER COTTON * 0.2163 0.3180 0.3327 0.1125 0.0206

* Misclassified observation 下面给出了训练数据判别的概况,先写出了广义平方距离的公式和属于每一类的后验概率的公式(略),然后是每一类判入各类的个数和百分比:

Discriminant Analysis Classification Summary for Calibration Data: WORK.CROPS

Resubstitution Summary using Linear Discriminant Function

Number of Observations and Percent Classified into CROP: From CROP CLOVER CORN COTTON SOYBEANS SUGARBEETS Total

CLOVER 6 0 3 0 2 11

54.55 0.00 27.27 0.00 18.18 100.00

CORN 0 6 0 1 0 7

0.00 85.71 0.00 14.29 0.00 100.00

COTTON 3 0 1 2 0 6

50.00 0.00 16.67 33.33 0.00 100.00

SOYBEANS 0 1 1 3 1 6

本文来源:https://www.bwwdw.com/article/uh72.html

Top