SPSS实习指导书

更新时间:2023-09-23 09:32:01 阅读量: 人文社科 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

SPSS和SAS统计实验指导书

(学生用)

王慧、欧晓华、王立平等编

经济与贸易系市场营销教研室

2006年4月

目 录

实验一:统计描述 ....................................................................................................... 3

1. 均值(Mean)和均值标准误差(S.E.mean) .......................................... 3 2. 中位数(Median) ...................................................................................... 5 3. 众数(Mode) .............................................................................................. 6 4. 全距(Range) ............................................................................................ 7 5. 方差(Variance)和标准差(Standard Deviation) ......................... 8 6. 四分位数(Quartiles)和十分位数(Deciles) ................................ 10 7. 频数(Frequency) .................................................................................. 12 8. 峰度(Kurtosis) ..................................................................................... 14 9. 偏度(Skewness) .................................................................................... 16 实验二:均值比较和T检验 ..................................................................................... 17

1.均值比较 ........................................................................................................ 17 2.单一样本T检验 ............................................................................................ 20 3.两独立样本T检验 ........................................................................................ 21 4.两配对样本T检验 ........................................................................................ 23 实验三:相关分析 ..................................................................................................... 26

1.实验理论概述 ................................................................................................ 26 2.二元定距变量的相关分析 ............................................................................ 26 3.二元定序变量的相关分析 ............................................................................ 33 4.偏相关分析 .................................................................................................... 36 5.距离相关分析 ................................................................................................ 41 实验四:回归分析 ..................................................................................................... 51

1.一元线性回归 ................................................................................................ 51 2.多元线性回归分析 ........................................................................................ 57

2

实验一:统计描述

实验内容:

均值、中位数、众数、全距、方差与标准差、四分位数、十分位数、频数、峰度、偏度 实习目的:

掌握SPSS基本的统计描述方法,可以对要分析的数据的总体特征有比较准确的把握,从而为以后实验项目选择其他更为深入的统计分析方法打下基础。

实验一要研究的问题:

某班级的数学成绩 A1 99 A2 88 A3 79 A4 59 A5 54 A6 89 A7 79 A8 56 A9 89 A10 99 A11 23 A12 89 A13 70 A14 50 A15 67 A16 78 A17 89 A18 56 将该班级学生的姓名和数学成绩定义为两个变量,并将数学成绩作为实验一的原始数据输入SPSS保存。

1. 均值(Mean)和均值标准误差(S.E.mean)

问题:求该班级在一次数学测验中的平均成绩和其标准差 ★ 实验步骤:

『步骤1』 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如图

1-1所示。

图1-1 选择Frequencies菜单

『步骤2』 弹出Frequencies对话框,如图1-2所示,在对话框左侧的便利列表中选择“数

学”,单击

按钮使之添加到Variable(s)框中。

3

图1-2 Frequencies对话框

『步骤3』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-3 所示对话框。选

择要统计的项目,在Central Tendency中选择Mean,在Dispersion中S.E.mean,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS开始计算

图1-3 Frequencies:Statistics对话框

实验结果:

4

由以上结果可以看出该班数学的平均成绩为72.9444分,均值的标准误差为4.75097。该结果可以在“File”菜单中选择Save as 命令,将该结果保存为Mean1文件。

2. 中位数(Median)

问题:求该班级数学成绩的中位数 ★ 实验步骤:

『步骤1』 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如

图1-4所示。

图1-4 选择Frequencies菜单

『步骤2』 弹出Frequencies对话框,如图1-5所示,在对话框左侧的变量列表中选择“数

学”,单击

按钮使之添加到Variable(s)框中。

图1-5 Frequencies对话框

5

『步骤3』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-6所示对话框。选

择要统计的项目,在Central Tendency中选择Median,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

图1-6 Frequencies:Statistics对话框

实验结果:

由上图可以看出该班数学成绩的中位数是78.5分。在结果输出窗口处选择“File”菜单中的Save as 命令,将该结果保存为Median1文件。

3. 众数(Mode)

问题:求该班数学成绩的众数 ★ 实验步骤:

『步骤1』 步骤一和步骤二同以上求均值和中位数的步骤一和步骤二

『步骤2』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-7所示对话框。选

择要统计的项目,在Central Tendency中选择Mode,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

6

图1-7 Frequencies:Statistics对话框

实验结果:

由以上结果可以看出该班级数学成绩中成绩为89分的人最多。将该结果保存为“Mode1”

4. 全距(Range)

问题:求该班学生数学成绩的全距 ★ 实验步骤:

『步骤1』 步骤一和步骤二同以上求均值和中位数的步骤一和步骤二

『步骤2』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-8所示对话框。选

择要统计的项目,在Dispersion中选择Range,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

7

图1-8 Frequencies:Statistics对话框

实验结果:

由以上结果可以看出该班学生成绩的全距为76分(即99—23=76)。将该结果保存为range1。

5. 方差(Variance)和标准差(Standard Deviation)

问题:求该班学生数学成绩的方差和标准差 ★ 实验步骤:

『步骤1』 单击“Analyze”菜单“Descriptive statistics”项中的“Descriptives”命令,如

图1-9所示

8

图1-9选择Frequencies菜单

『步骤2』 弹出Descriptives对话框,如图1-10所示,在对话框左侧的变量列表中选择“数

学”,单击

按钮使之添加到Variable(s)框中。

图1-10 Descriptives 对话框

『步骤3』 单击Descriptives对话框下方的Options 按钮,弹出如图1-11所示对话框。选

择要统计的项目,在此对话框中选择Mean、Std.deviation、和Variance三项统计量,选好后单击Continue按钮返回Descriptives对话框,单击OK按钮,SPSS即开始计算

9

图1-11 Descriptives:Options对话框

实验结果:

由以上结果可以看出,该班级学生数学成绩的方差为406.291,标准差为20.15666,平均成绩为72.9444。将该结果文件保存为variance1。

6. 四分位数(Quartiles)和十分位数(Deciles)

问题1:求该班级学生成绩的四分位数 ★ 实验步骤:

『步骤1』 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如

图1-1所示

『步骤2』 弹出Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的四分

位数,故在对话框左侧的便利列表中选择“数学”,单击

按钮使之添加到Variable

(s)框中。

『步骤3』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-12所示对话框。选

择要统计的项目,在Percentile Value中选择Quartiles,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

10

图1-12 Frequencies:Statistics对话框

实验结果1:

由以上结果可以看出,该班学生数学成绩的第一分位数Q1=56,第二分位数Q2=78.5,第三分位数Q3=89。四分位差Q=(89-56)/2=16.5。将该结果保存为quartiles1文件。

问题2:求该班学生成绩的D6 实验步骤:

『步骤1』 单击“Analyze”菜单“Descriptive statistics”项中的“Frequencies”命令,如

图1-1所示

『步骤2』 弹出Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的十分

位数,故在对话框左侧的便利列表中选择“数学”,单击

按钮使之添加到Variable

(s)框中。

『步骤3』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-13所示对话框。在

Percentile Value中选择Percentile(s)右方的小框中依次10,20,??100,每输完一个数据后单击下方的Add按钮,使这个数据依次添加到右下方的空白框内。之后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

11

图1-13 Frequencies:Statistics对话框

实验结果2:

由以上结果可以看出,该班学生数学成绩的D6=82,其余十分位数D1=47.3,D2=55.6,??D9=99。将该结果保存为Deciles1文件。

7. 频数(Frequency)

问题:求出该班学生数学成绩的频数分布 ★ 实验步骤:

『步骤1』 在“Analyze”菜单中“Descriptive Statistics”中选择Frequencies命令,弹出

Frequencies对话框,如图1-14所示

12

图1-14 Frequencies对话框

『步骤2』 在对话框左侧的变量列表中选择“数学成绩”,单击

按钮使之添加到

Variable(s)框中。

『步骤3』 选择对话框下方的Display frequency tables 复选框,表示显示频数分布表。单

击OK按钮,SPSS自动完成计算。

实验结果:

由以上结果可以看出各个分数的得分人数,如得89分的人最多为4个,得56分、79分和99分的人各有2个,其余的分数都为1人。

13

8. 峰度(Kurtosis)

问题: 数学分数 23 50 54 56 59 67 70 78 79 88 89 99 人数 1 1 1 2 1 1 1 1 2 1 4 2 求该班学生数学成绩的峰度

★ 实验步骤:

『步骤1』 在“Data”菜单中选择Weight Cases命令,如图1-15所示

图1-15 选择菜单

『步骤2』 在弹出如图1-16所示的Weight Cases 对话框中,左边的变量表中选择“人数”

变量,使其添加到Frequency Variable 框中。使人数成为权重变量。单击OK按钮,返回到SPSS数据编辑窗口。

14

图1-16 Weight Cases 对话框

『步骤3』 在“Analyze”菜单中“Descriptive Statistics”中选择Frequencies命令,弹出

Frequencies对话框,如图1-17所示

图1-17 Frequencies 对话框

在对话框左侧的变量列表中选择“数学成绩”,单击

按钮使之添加到Variable(s)

框中。

『步骤4』 单击Frequencies对话框下方的Statistics 按钮,弹出如图1-18所示对话框。选

择要统计的项目,在Distribution中选择Kurtosis,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算

15

根据所要分析的变量类型,选择不同的相似性测量方法。因此在实际的测量汇总,首先需要在Measure框中确定变量类型。在本例中选择Measure框中的Interval,并选择Euclidean distance项,不对变量进行标准化处理。

『步骤3』 单击Continue按钮返回Distance对话框,再单击OK按钮,即得到SPSS相关分析的结果。

★ 研究问题3----个案之间的相似性测量分析

某动物一次产下3个幼仔,分别对3个幼子的长、体重、四肢总长、头重进行测量,试就这几个测量而言,分析3个幼子的相似性,数据如表3-5所示。

表3-5 3个幼子情况

第一个 第二个 第三个 长 50 51 52 体重 215 220 220 四肢总长 100 110 112 头重 11 12 12 ★ 实现步骤

『步骤1』在SPSS的数据管理窗口中,定义4个变量,分别为“长”、“体重”、“四肢总长”、“头重”,输入3个幼子的相应数值。在“Analyze”菜单“Correlate”中选择Distance命令,如图3-18所示。

图3-18 选择菜单

『步骤2』在弹出的如图Distance对话框中左侧的变量列表中选变量,在对话框左侧的

46

变量列表中选择变量“长”、“体重”、“四肢总长”、“头重”,单击框中。

按钮使之添加到Variables

图3-19 Distance对话框

在Compute Distances框中选择Between cases项,表示作个案之间的距离相关分析。在Measure栏中选择Similarities项,作相似性测距。

『步骤3』单击Measures按钮,弹出Distance:Similarity Measures对话框,如图3-20所示。

图3-20 距离相关分析中相似性测量对话框

因为4个变量都是连续性变量,所以Interval中Pearson correlation项,不对变量进行标准化处理。

『步骤4』 单击Continue按钮返回Distance对话框,再单击OK按钮,即得到SPSS相关分析的结果。

47

★ 研究问题4----个案之间的不相似性测量分析

以问题3中的数据为例,求幼子的不相似程度(距离)。 ★ 实现步骤

『步骤1』在“Analyze”菜单“Correlate”中选择Distance命令,弹出的Distances对话框,在对话框左侧的变量列表中选择变量“长”、“体重”、“四肢总长”、“头重”,单击按钮使之添加到Variables框中。

在Compute Distances框中选择Between case项,表示作个案之间的距离相关分析。在Measure栏中选择Dissmilarities项,作不相似性测距。设置结果如图3-21所示。

图3-21 Distance对话框

『步骤2』单击Measures按钮,弹出Distance:Dissimilarity Measures对话框,如图3-22所示。

图3-22 距离相关中相似性距离测量对话框

48

在本例中选择Measure框中的Interval,并选择Euclidean distance项,不对变量进行标准化处理。

『步骤3』 单击Continue按钮返回Distance对话框,再单击OK按钮,即得到SPSS相关分析的结果。 ⑶ 结果和讨论

1) 研究问题1的SPSS运行结果如下:

Proximities

Case Processing SummaryCasesMissingNPercent0.0%NValidPercent6100.0%NTotalPercent6100.0% Proximity Matrix Correlation between Vectors ofValuesr1r2r3.000-.041-.564-.041.000-.263-.564-.263.000r1r2r3This is a similarity matrix 第一个表格是个案概述,表明6个个案数据全部都有效。第二个表格列出了变量之间的相似性分析结果。从表格中可以看出,第一次测量和第三次测量的结果较为一致,但一致不是很明显;第一次测量和第二次测量的结果最不一致;第二次测量和第三次测量的结果也不太一致。

2) 研究问题2的SPSS运行结果如下:

Proximities

Case Processing SummaryCasesMissingNPercent0.0%NValidPercent6100.0%NTotalPercent6100.0% 49

Proximity Matrix Euclidean Distancer1r2r3.000.010.010.010.000.010.010.010.000r1r2r3This is a dissimilarity matrix 第一个表格是个案概述。第二个表格列出了变量之间的不相似性分析结果。

3) 研究问题3的SPSS运行结果如下:

Proximities

Case Processing SummaryCasesMissingNPercent0.0%NValidPercent3100.0%NTotalPercent3100.0% Proximity Matrix Correlation between Vectors ofValues1231.000.999.999.9991.0001.000.9991.0001.000123This is a similarity matrix 研究问题3中的第一个表格是个案概述,表明3个个案数据全部都有效。第二个表格列出了3个个案之间的相似性分析结果。从表格中可以看出,3个个案的相似性非常高,分别为0.999和1。其中第二个和第三个幼子最相近。

4) 研究问题4的SPSS运行结果如下:

Proximities

Case Processing SummaryCasesMissingNPercent0.0%NValidPercent3100.0%NTotalPercent3100.0% 50

将全国数学高考的平均值70填入Test Value框,将要检验的变量“数学”从左侧框中添加到Test Variable框中。

『步骤3』 单击Options按钮,出现图2-6所示的对话框

图2-6 One-Sample T Test:Options对话框

『步骤4』 单击Continue按钮,返回到One-sample T Test对话框,单击OK按钮,SPSS

即完成所需要的计算

实验结果:

由以上结果可以看出:11个学生的数学成绩平均值为74分,标准差为23.44,均值误差为7.07。本例中的检验均值为70分,样本均值和检验均值的差为4,计算出的T值为0.566,相伴概率为0.584。95%的置信区间为[-11.75,19.75],表示95%的样本差值在该区间内。假设显著性水平a为0.05,由于相伴概率大于a,因此接受原假设,即认为该11名同学的均值和全国的数学均值相比,没有显著性差异。

3.两独立样本T检验

研究问题:分析清华、北大大一学生的高考数学成绩之间是否存在显著性差异

★ 实验步骤:

『步骤1』 首先到清华、北大校园中随机调查9位大一同学的高考数学成绩,进行记录。

虽然分析的是两个独立样本,但在数据组织时,SPSS要求两个独立样本数据放在一个SPSS变量中,再加上另外一个变量source01,对来自不同学校的学生进行区分。

21

学校 清华 北大 99 99 88 23 79 89 59 70 数学成绩 54 50 89 67 79 78 56 89 89 56 『步骤2』 在“Analyze”菜单“Compare Means”中选择Independent-Samples T Test命令,

如图2-7所示

图2-7 选择菜单

『步骤3』 在弹出如图2-8所示的Independent-Samples T Test对话框中,从对话框左侧的

变量列表中选择“数学”变量,并添加,到Test Variable(s)框中。选择“source01”变量,添加到Grouping Variable框中。

图2-8 Independent-Samples T Test对话框

『步骤4』 单击Define Groups按钮,弹出Define Groups对话框,如图2-9所示。在该对

22

话框中指定标识变量的区分方法。选择Use specified values选项,表示根据标识变量的取值进行区分。在Group1中输入0,在Group2中输入1。

图2-9 Define Groups 对话框

『步骤5』 单击Continue按钮,返回Independent-Sample T Test对话框,单击OK按钮,

SPSS即开始计算。

实验结果:

由以上结果可以看出:两个学校9个学生的数学平均分分别为76.89和69分,标准差分别为16.56和23.54,均值误差分别为5.52和7.85 。统计量F的相伴概率为0.461,大于显著性水平0.05,接受方差相等的假设,即认为两个学校学生的数学成绩无显著差异。方差相等时T检验结果,统计量T的相伴概率为0.423,大于显著性水平0.05,接受T检验的零假设,也就是说,两个学校18个学生高考数学成绩平均值不存在显著差异。

4.两配对样本T检验

问题:研究一个班同学在参加了暑期数学培训班之后,数学成绩是否有明显的变化? 姓名 A1 A2 A3 A4 A5 A6 数学1 99 88 79 59 54 89 数学2 98 89 80 78 78 89 23

A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 79 56 89 99 23 89 70 50 67 78 89 56 87 76 56 76 89 89 99 89 88 98 78 89 ★ 实验步骤:

『步骤1』 在“Analyze”菜单“Compare Means”中选择Pared-Samples T Test命令,如

图2-10所示

图2-10 选择菜单

『步骤2』 在弹出如入4-11所示的Pared-Samples T Test对话框中,从对话框左侧的变量

列表中选择“数学1”,这时“数学1”变量出现在图4-11种的Current Selections框的Variable1中。然后从对话框左侧的变量列表中选择“数学2”, “数学2”出现在Current Selections框的Variable2中,这时表示将这两个变量配对,然后使之添加到Pared Variable(s)框中。

24

图2-11 Pared-Samples T Test对话框

『步骤3』 单击OK,SPSS即开始自动计算。 实验结果:

由以上结果可以看出:参加培训前后,该班学生数学成绩分别为72.94和84.77分,培训前后数学成绩序列的均值相差-11.83。计算出的T统计量为-2.15,相伴概率为0.046,比显著性水平0.05小,因此拒绝原假设,即认为培训前后该班学生的数学成绩有显著的差异,培训后,该班学生数学成绩明显提高。

25

『步骤2』本例只需绘制出数学成绩和化学成绩两者的散布情况,因此选择“Simple”图,如图3-5所示。

图3-5 Scatterplot对话框

『步骤3』单击Define按钮,打开Simple Scatterplot对话框,如图3-6所示。在此对话框中,把左侧的“数学”、“化学”这个两个变量分别通过单击

按钮使之添加到右侧的

X Axis和Y Axis框中,表示散点图将分别把数学成绩和化学成绩绘制在X轴和Y轴上。其他悬想不变,然后单击OK,开始绘图。

图3-6 Simple Scatterplot对话框

结果和讨论

绘出的散点图如图3-7所示,从中明显看出这两个变量线形正相关,数学成绩好的学生其化学成绩也较好。

31

100.0090.00化80.00学70.0060.0050.0060.0070.0080.0090.00100.00数学 图3-7 散点图

▲ 练习题:

某工厂生产多种产品,分别对其进行两标准评分,评分结果如下表,现在要研究这两个标准之间是否具有相关性。

产品的标准1和标准2评分 产品名 产品1 产品2 产品3 产品4 产品5 产品6 产品7 产品8 产品9 产品10 产品11 产品12 产品13 产品14 产品15 产品16 32

标准1 65.00 78.00 88.00 45.00 94.00 90.00 79.00 73.00 74.00 80.00 67.00 68.00 65.00 56.00 81.00 89.00 标准2 43.00 50.00 70.00 60.00 78.00 68.00 55.00 88.00 70.00 75.00 80.00 68.00 74.00 76.00 88.00 91.00

3.二元定序变量的相关分析

⑴ 统计学上的定义和计算公式

定序变量又称为有序变量、顺序变量,它的取值的大小能够表示观测对象的某种顺序关系(等级、方位、或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。

Spearman和Kendall’s tua-b等级相关系数用以衡量定序变量间的线形相关关系,它们利用的是非参数检验的方法。

计算公式如下:

Spearman等级相关系数:

R?1?n6?Di2n(n?1)2In2

其中

?D??(Ui?1i?1i,可见,Spearman?Vi)2 (Ui 、Vi分别为两变量排序后的秩)

是利用秩得到的。

对Spearman等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Spearman等级相关系统计量表,SPSS将自动根据该表给出对应的相伴概率值。

但是当个案数n>30,则计算Z统计量:

Z?Rn?1

Z统计量近似服从正态分布,SPSS将依据正态分布表给出对应的相伴概率。

Kendall’s tua-b等级相关系数:

T?1?4V

n(n?1)V是利用变量的秩数据计算而得的非一致对数目。

对Kendall’s tua-b等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Kendall’s tua-b等级相关系统计量表,SPSS将自动根据该表给出对应的相伴概率值。

但是当个案数n>30,则计算Z统计量:

Z?3Tn(n?1)2(2n?5) Z统计量近似服从正态分布,SPSS将依据正态分布表给出对应的相伴概率。

⑵ SPSS中实现过程

★ 研究问题

某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,如表3-2所示。问两次评分的等级相关有多大,是否达到显著水平?

33

表3-2 学生作文两次的得分情况 人名 Yuli Yafe Ty Yu Zhang Wang Hai Bill Cfei Kake Jou Heyy Marry Mary Ming Chen Smith Jess

★ 实现步骤

『步骤1』在“Analyze”菜单“Correlate”中选择Bivariate命令,如3-8所示。

作文1 86.00 78.00 62.00 75.00 89.00 67.00 96.00 80.00 77.00 59.00 79.00 68.00 85.00 87.00 75.00 73.00 95.00 88.00 作文2 83.00 82.00 70.00 73.00 92.00 65.00 93.00 85.00 75.00 65.00 75.00 70.00 80.00 75.00 80.00 78.00 90.00 90.00

图3-8 选择Bivariate Correlate菜单

34

『步骤2』在弹出如图3-9所示的Bivariate Correlate对话框中,从对话框左侧的变量列表中分别选择“作文1”和“作文2”变量,单击

按钮使这两个变量添加到

Variables框。

在Correlation Coefficients框中选择Spearman和Kendall’s tua-b等级相关系数;在Test of significance框中选择相关系数的双侧(Two-tailed)检验,选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示。如图3-9。

图3-9 Bivariate Correlate对话框

『步骤3』单击OK按钮,SPSS开始计算Spearman和Kendall’s tua-b等级相关系数。

⑶ 结果和讨论

SPSS的运行结果如下:

Nonparametric Correlations

35

CorrelationsKendall's tau_b作文1Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N作文11.000.18.745**.000181.000.18.874**.00018作文2.745**.000181.000.18.874**.000181.000.18作文2Spearman's rho作文1作文2**. Correlation is significant at the 0.01 level (2-tailed).

从结果中可以看出,语文老师两次评分的Spearman和Kendall’s tua-b等级相关系数分别为0.745和0.874。在这个数据的旁边有两个星号,表示用户指定的显著性水平为0.01时,统计检验的相伴概率小于等于0.01,即两次评分显著相关,且为正相关。

▲练习题:

某专家先后对一个工程的多个项目加以评分,两次评分分别记为变量“分值1”和“分值2”,如下表所示。问两次评分的等级相关有多大,是否达到显著水平?

工程项目两次的得分情况 项目名 项目1 项目2 项目3 项目4 项目5 项目6 项目7 项目8 项目9 项目10 项目11 项目12 项目13 项目14 项目15

分值1 78.00 77.00 81.00 87.00 91.00 77.00 96.00 81.00 67.00 79.00 89.00 78.00 95.00 88.00 95.00 分值2 75.00 83.00 83.00 8300 92.00 74.00 93.00 87.00 65.00 73.00 85.00 70.00 90.00 81.00 85.00 4.偏相关分析

36

二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关关系数不能准确反映事物之间的相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。

⑴ 统计学上的定义和计算公式

定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。

偏相关分析的工具是计算偏相关系数r12,3 计算公式:

假定有3个变量:x1、x2、x3,求剔除变量x3的影响后,变量x1和x2之间的偏相关系数r12,3:

r12,3?r12?r13r23221?r131?r23 其中,r12表示变量x1与变量x2的简单相关系数; r13表示变量x1与变量x3的简单相关系数; r23表示变量x2与变量x3的简单相关系数。 显著性检验公式:

t?r12,31?rn?3212,3

其中,n为个案数,n-3为自由度。

⑵ SPSS中实现过程

★ 研究问题

某农场通过试验取得某农作物产量与春季降雨量和平均温度的数据,如表3-3所示。现求降雨量对产量的偏相关。

表3-3 早稻产量与降雨量和温度之间的关系 产量 150.00 230.00 300.00 450.00 降雨量 25.00 33.00 45.00 105.00 温度 6.00 8.00 10.00 13.00 37

480.00 500.00 550.00 580.00 600.00 600.00 111.00 115.00 120.00 120.00 125.00 130.00 14.00 16.00 17.00 18.00 18.00 20.00

★ 实现步骤

『步骤1』在“Analyze”菜单“Correlate”中选择Partial命令,如图3-10所示。

图3-10 选择Bivariate Partial 菜单

『步骤2』在弹出的如图2所示Bivariate Partial对话框中,从对话框左侧的变量列表中分别选择“产量”和“降雨量”变量,单击 在选择“温度”变量,单击

按钮使这两个变量进入Variables框中,

按钮使这个变量添加到Controlling For框中,表示现在所求

的是剔除“温度”变量影响后“产量”和“降雨量”变量之间偏相关系数。

38

图3-11 Partial Correlations对话框

在Test of significance框中选择相关系数的双侧(Two-tailed)检验。

本例选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示,星号的意义与计算简单相关系数中的相同。

『步骤3』单击Options按钮,出现Partial Correlations对话框,如图3-12所示。

图3-12 Partial Correlations对话框

在Statistics框中选择Zero-order correlations项,在输出偏相关系数的同时还输出变量间的简单相关系数。在Missing Values框中选择Exclude cases listwise项,剔除所有具有缺失值的个案后再计算。

『步骤4』单击Continue按钮,返回Partial Correlations对话框,单击OK按钮,即可得到SPSS相关分析的结果。

⑶ 结果和讨论

SPSS的运行结果如下。

39

Partial Corr

CorrelationsControl Variables-none-a产量CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df产量1.000.0.981.0008.986.00081.000.0.780.0137降雨量.981.00081.000.0.957.0008.780.01371.000.0温度.986.0008.957.00081.000.0降雨量温度温度产量降雨量a. Cells contain zero-order (Pearson) correlations. 从结果中可以看到,上半部分是变量两两之间的Partial简单相关系数,以“产量”和“降雨量”为例,它们之间的Partial简单相关系数为0.9811。

下半部分是偏相关分析的输出结果,其中,对每个变量都有三行输出结果:第一行为偏相关系数、第二行为统计检验的自由度,第三行为检验统计量的相伴概率。从中可知,在剔除“温度”变量的影响条件下,“产量”与“降雨量”二变量的影响条件下,“产量”与“降雨量”二变量的偏相关系数为0.7803,自由度为7,相伴概率为0.013。

可见,简单相关系数和偏相关系数相比,前者有夸大的成分,后者更符合实际。

▲练习题

某农业实验场通过试验取得小麦产量与单位虫害值和平均温度的数据,如下表所示。现求单位虫害值对产量的偏相关。

小麦产量与单位虫害值和温度之间的关系 产量 170.00 200.00 230.00 350.00 400.00 480.00 530.00 590.00 670.00 710.00 单位虫害值 15.00 23.00 35.00 38.00 41.00 44.00 47.00 50.00 55.00 59.00 温度 7.00 9.00 11.00 13.00 17.00 19.00 20.00 23.00 28.00 31.00 40

5.距离相关分析

⑴ 统计学上的定义和计算公式

距离相关分析是对观测量之间或变量之间相似或不相似的程度的一种测量,可以用于同一变量内部各个取侄间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。

距离相关分析根据统计量不同,可分为:不相似性预测和相似性预测。根据分析对象不同,可以分为:样本间分析和变量间分析。

在不相似性预测的距离分析中,根据不同类型的变量,采用不同的统计量进行计算。 1)对连续变量的样本(x、y)进行距离相关分析时,常用的统计量有以下几种。 ① 欧氏距离(Euclidean Distance) 计算公式为:

EUCLID??(x?y)iii?1k2

其中,k表示每个样本中有k个变量,xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。

② 欧氏距离平方(Squared Euclidean Distance) 计算公式为:

SEUCLID??(xi?yi)2

i?1k其中,k表示每个样本中有k个变量,xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。

③ Chebychev距离 计算公式为:

CHEBYCHEV(x,y)?maxxi?yi

其中,xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。

④ Block距离 计算公式为:

BLOCK(x,y)??xi?yi

i?1k其中,k表示每个样本中有k个变量,xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。

41

⑤ Minkowski距离 计算公式为:

MINKOWSKI(x,y)?q?x?yii?1kpi 其中,k表示每个样本中有k个变量,p、q是任意可指定的次方,xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。

2) 对顺序或名义变量的样本(x、y)进行距离相关分析时,常用的统计量如下。 ① Chi-square measure 这是X统计量,计算公式为:

2CHISQ(x,y)??(x?E(x))?(y2iii?1kk2?E(y))iiE(xi)?i?1E(yi)

② Phi-square measure 这是Φ2统计量,计算公式为:

?(x?E(x))?(y?E(y))2iiiii?1kk2PHISQ(x,y)?E(xi)?i?1E(yi)n

③ 对于二值变量,可以使用欧氏距离、欧氏距离平方、方差等方法进行计算。

⑵ SPSS中实现过程

距离相关分析分为相似性测量和不相似测量,也可以分为样本间分析和变量间分析。分别对这4种情况进行讲解。

★ 研究问题1----变量之间的相似性预测分析

对6个标准电子元件的电阻(欧姆)进行3次平行预测,测得结果如表3-4所示。问测试结果是否一致。

表3-4 3次测量情况

第一次 第二次 第三次

42

1 0.140 0.135 0.141 2 0.138 0.140 0.142 3 0.143 0.142 0.137 4 0.141 0.136 0.140 5 0.144 0.138 0.142 6 0.137 0.140 0.143 ★ 实现步骤

『步骤1』激活数据管理窗口,定义变量名:第一次测量值为r1,第二次测量值为r2,第三次测量值为r3,输入相应数值。在“Analyze”菜单“Correlate”中选择Distances命令,如图3-13所示。

图3-13 选择Distances Correlate菜单

『步骤2』在弹出的如图3-14所示Distances对话框中,在对话框左侧的变量列表中选择变量“r1”、“r2”、“r3”,单击关分析。

按钮使之添加到Variables框中。对3个变量进行距离相

43

图3-14 Distances对话框

因为在本例中3次平行测量结果分别置于3个变量中,因此在Compute Distances框中选择Between variables作变量之间的距离相关分析;又因本例研究的是一致性,所以在Measure栏中选择Similarties相似性测距。

『步骤3』单击Measures按钮,弹出Distance:Similarity Measure对话框,如图3-15所示。

图3-15 距离相关中相似性测量对话框

本例中选择Measures框中的Interval,并选择Pearson correlation项,以Pearson相关系数为度量,不对变量进行标准化处理。

『步骤3』单击Continue按钮返回Distances对话框,再单击OK按钮,即可得到SPSS相关分析的结果。

★ 研究问题2----变量之间的不相似性测量分析

以问题1中的数据为例,求测量结果的不相似程度(距离)。

44

★ 实现步骤

『步骤1』在“Analyze”菜单“Correlate”中选择Distance命令,弹出的Distances对话框,在对话框左侧的变量列表中选择变量“r1”、“r2”、“r3”,单击

按钮使之添加到

Variables框中。

在Compute Distances框中选择Between variables项,表示作变量之间的距离相关分析。在Measure栏中选择Dissmilarities项,作不相似性测距。设置结果如图3-16所示。

图3-16 Distances对话框

『步骤2』单击Measures按钮,弹出Distance:Dissimilarity Measures对话框,如图3-17所示。

图3-17 距离相关中不相似性距离测量对话框

45

本文来源:https://www.bwwdw.com/article/qd9d.html

Top