SPSS中文教材

更新时间:2024-01-23 09:17:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

常用统计分析方法——SPSS应用

郭显光 编

温州大学城市学院

2010年3月

1

目 录

TOC \\o \第一章 数据文件的建立及基本统计描述 .......................... 1

第一节 SPSS的启动及数据库的建立 .................................................................................................................... 1 第二节 数据的编辑与整理 ...................................................................................................................................... 3 第三节 基本描述统计 .............................................................................................................................................. 8 第四节 交叉表分析 ................................................................................................................................................ 16 第五节 多响应变量分析 ........................................................................................................................................ 19 练习一 ....................................................................................................................................................................... 24

第二章 均值比较检验与方差分析 ............................................................................................................. 26

第一节 比较均值 .................................................................................................................................................... 26 第二节 单个总体的t检验分析 ............................................................................................................................. 27 第三节 两个总体的t检验 ..................................................................................................................................... 28 第三节 单因素方差分析 ........................................................................................................................................ 31 第四节 双因素方差分析 ........................................................................................................................................ 34 练习二 ....................................................................................................................................................................... 39

第三章 相关分析与回归模型的建立与分析 ............................................................................................... 40

第一节 相关分析 .................................................................................................................................................... 40 第二节 线性回归分析 ............................................................................................................................................ 45 第三节 曲线估计 .................................................................................................................................................... 50 练习三 ....................................................................................................................................................................... 53

第四章 非参数检验 ..................................................................................................................................... 54

第一节 两个独立样本的检验 ................................................................................................................................ 55 第二节 两个有联系样本检验 ................................................................................................................................ 56 第三节 多个样本的非参数检验 ............................................................................................................................ 58 习题四 ....................................................................................................................................................................... 62

第五章 SPSS综合案例 ............................................................................................................................... 63

一、 高大图书公司问卷分析案例 .......................................................................................................................... 63 二、 啤酒市场调查案例 .......................................................................................................................................... 65 三、 其他案例 .......................................................................................................................................................... 66

附录 部分常用统计量公式 ......................................................................................................................... 70

2

第一章 数据文件的建立及基本统计描述

在社会各项经济活动和科学研究过程中,经常获得许多数据,而这些数据中包含着大量有用的信息。若要准确地、科学地提取这些信息,就要应用各种统计分析方法,其中最基本的方法是数据的基本统计描述。通过数据的基本统计描述,可以得到数据的分布状况,数据的主要特征值,时间序列的趋势性,是否存在异常值以及数据的大致图形等。当然,要实现对数据的统计分析和描述,首先要从建立数据文件开始。这一章主要介绍数据文件的建立和数据的基本统计描述方法。

第一节 SPSS的启动及数据库的建立

一、SPSS简介

SPSS(Statistics Package for Social Science )for Windows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS软件包集数据整理、分析过程、结果输出等功能为一体,采用窗口操作界面,统计分析方法涵盖面广,用户操作使用方便,输出数据表格图文并貌,并且随着它的功能不断完善,统计分析方法不断充实,大大提高了统计分析工作的效率。至今,已经拥有全球数以万计的用户,分布在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域,成为世界上应用最广泛的专业统计软件之一。

SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联表分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。SPSS设有专门的绘图系统,可以根据使用者的需要将给出的数据绘制各种图形,能够满足用户的不同需求。

二、启动SPSS软件包

当用户在操作系统下运行SPSS软件后,计算机屏幕上出现一个对话框,如图1.1所示:

图1.1 SPSS17启动后操作对话框

三、数据文件的建立

当对话框选择Type in data后,点击OK,系统将显示出SPSS软件包数据编辑主窗口,数据文件的建立就是在数据编辑窗口中完成的。数据编辑窗口可以显示两张表,分别是数据视图(见

1

图1.2)和变量视图(见图1.3),通过点击下端的2个同名窗口标签按钮实现相互切换。

图1.2 数据视图表

数据编辑区是SPSS的主要操作窗口,是一个二维平面表格,用于对数据进行各种编辑;标尺栏由纵向标尺栏和横向标尺栏,横向标尺栏显示数据变量,纵向标尺栏显示数据顺序(如时间顺序)。

数据视图表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。

变量表用来定义和修改变量的名称、类型及其他属性,如图1.3所示。

图1.3 变量视图表

在变量视图表中,每一行描述一个变量,依次是:

变量名。变量名必须以字母、汉字及@开头,英文字母不区别大小写,最后一个字符不能是句号。

变量类型。变量类型有8 种,最常用的是数值型变量。其它常用的类型有:字符型,日期型,逗号型(隔3位数加一个逗号)等。

宽度:变量所占的宽度。 小数:小数点后位数。

标签:变量标签。关于变量涵义的详细说明。 值:变量值标签。关于变量各个取值的涵义说明。 缺失:缺失值的处理方式。

列:变量在数据视图中所显示的列宽(默认列宽为8)。 对齐:数据对齐格式(默认为右对齐)。

度量测度:数据的测度方式。系统给出名义型、定序型和度量型三种(默认为度量型)。 如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量1,变量2等。

定义了变量的各种属性后,回到数据视图表中,就可以直接在表中录入数据。输入数据后可以点击保存或另存为作为数据文件保存。另外对于统计分析的结果也可以作为文件保存起来。

2

为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存.xls等类型的文件。

第二节 数据的编辑与整理

当录入数据之后,就可以对原始数据进行整理和分析,关于数据的整理和分析都是在数据窗口完成的。下面将介绍SPSS统计分析软件在数据窗口的主要操作方式和菜单相应的功能。

一、数据窗口菜单栏

数据编辑窗口的主菜单如图1.4所示,主菜单中的具体功能包括:

图1.4 SPSS主菜单

在统计分析过程中常用的功能主要集中在数据操作、数据转换、数据分析、统计图形的建立与编辑等操作。

二、数据功能

数据编辑窗口的数据菜单为用户创建和定义数据提供了方便的功能,如图1.5所示。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。

这些功能为各种统计分析要求提供极其灵活了数据整理功能,用户可以根据不同统计分析对数据的要求对数据进行整理。

三、转换功能

3

图1.5 数据菜单 图1.6 转换菜单

数据编辑窗口的转换菜单为用户创建和定义复杂的数据提供了方便的功能,如图1.6所示。它与数据菜单共同使用,可对基本的数据进行重新编辑,形成新的变量和观测量。这个菜单主要对变量进行操作,分为三部分的功能。这些功能也为各种统计分析要求提供极其灵活了数据处理功能。

四、数据的编辑

在Data View中,用鼠标左键单击数据表左边框的观测个体序号,这一行值就会被选中,用鼠标左键单击上边框的变量名,这个列就被选中,和其它Windows中的操作类似,也可以用鼠标对选中一部分单元格,选中的行、列、单元格后,单击鼠标右键,可以对它们进行复制、删除、剪切等操作。

如果需要对已经输入的数据进行修改,就要对已经存在的数据进行编辑,SPSS有许多数据编辑功能。下面介绍几种常用的数据编辑功能。

1.观测数据排序

给观测量数据排序的命令是“排序个案”。 打开“排序个案”对话框(见图1.7 )。

图1.7 排序个案对话框

从对话框左侧的变量列表中选择排序变量,点击右箭头按钮加入“排序依据”框中,然后在“排序顺序”栏中选择排序顺序:

注意:观测个体。排序变量可以是一个或多个,当选择多个排序变量时,首先按第一个变量值排序,然后在第一个变量取值相同的那些个体中再按第二个变量值排序,依次类推。

注意在排序的时候,观测个体整行的值一同变到新位置,而不是只有排序变量那一列变动。但数据表中左边框上的序号并不随着变动,因此,为了保留原始数据的信息,最好自己定义一个变量来记录观测个体的序号。

2.在数据中选取子集

如果需要从数据文件中选取一部分数据,可以在数据编辑窗口单击“数据” →“选择个案”,打开“选择个案”对话框,如图1.8所示:

4

图1.8 选择个案对话框 在该对话框中选择挑选数据子集的方式(单选):

如果要选择受教育年限超过12年的个案:选择“如果条件满足”,输入条件,见图1.9。 如果要选择个案序号为“31-40”的个案:选择“基于时间或个案全距”,输入范围,见图1.10。

图1.9 选择个案:条件对话框 图1.10 选择个案:个案范围

选择了挑选数据子集的方式后,在数据窗口可看到未选入的个案会打上×。

3.数据分类汇总

用户可以根据需要对数据按指定的变量的数值进行归类分组汇总。以数据库SY-2两个班的学生成绩为例,如果按照性别对数学成绩进行汇总,可以使用分类汇总命令实现。具体操作如下。 ⑴指定分类变量和汇总变量。

打开数据库SY-2,在数据窗口单击“数据”-“分类汇总”命令,打开“分类汇总”对话框。如图1.11所示:

图1.11 分类汇总对话框

5

⑵在变量名列表框中选择分类变量”性别”进入“分组变量”; ⑶在变量名列表框中选择汇总变量“数学”进入“汇总变量”;

⑷单击“函数”按钮,打开“函数”对话框,如图1.12所示。在此对话框中可以选择平均值、标准差等其中之一的方法进行分类汇总。选择分类汇总的函数形式后返回“分类汇总”对话框中。⑸单击“继续”-“确定”,平均数等以新的变量保存在数据文件中。

图1.12 汇总函数对话框

4.数据秩的确定

如果用户需要对已有的数据变量排秩(序),如对数据SY-1中两个班的数学成绩分别排出名次,可以在数据窗口采用以下操作。

⑴单击“转换”?“个案排秩”,打开“个案排秩”对话框,如图1.13所示:

图1.13 个案排秩对话框

⑵从左边变量名列表框中选择变量”数学”(也可选择多个变量)进入变量框中,选择变量”班级”进入“排序标准”框中,则系统排序时将按照“班级”进行分别排序。

⑶单击“结”按钮,(结是指两个或两个以上的数据相等的情况)的处理方式。由于秩与数据个数是一一对应的,当数据有相同的时,确定它们相应的秩有三种处理方式:对应秩的平均值、最小值和最大值。点击“确定”,就可以在数据窗口看到排序结果。

五、变量的编辑

1.插入一个新变量

只要在“变量视图”中就可以插入新变量,然后定义变量的格式。 2.已存在的变量生成新变量

对于已存在的数据变量,根据需要进行计算生成新变量的命令是“计算变量”。 在数据窗口单击“转换”- “计算变量”,打开对话框,如图1.14所示。

6

在对话框左上方“目标变量”栏中,键入即将生成的新变量的名称,在右边“数字表达式”中输入“数学+物理”,单击“确定”,即可生成总成绩。

图1.14 计算变量对话框 3.产生计数变量

如果用户需要对满足某项条件的数据进行计数,可以使用“计数”命令。以学生成绩数据SY-1为例,如果要对数学和物理优良的门数计数,具体操作步骤如下:

在数据窗口单击“转换”-“对个案内的值计数”,打开“计数”对话框,如图1.15所示:

图1.15 计算个案内值的出现次数对话框 单击“定义值”按钮,打开“要统计的值”对话框。如图1.16所示:

图1.16 统计个案内的值对话框

7

在上面的对话框中,在“范围,从值到最高”中输入“80”,单击“添加”。使选择结果进入“要统计的值” 框内。单击“继续”按钮,返回主对话框中。最后点“确定”可在数据窗口得到计数变量。

4.变量分组(编码)

“转换”菜单下有三条编码命令。“重新编码为相同变量”是指给每个变量值重新赋予一个码来描述他们的某些属性。编码也可以看做分组:一个组对应一个组号,新编码替代了原变量值。“重新编码为不同变量”是将编码后的变量用一个新变量保存。

“自动重新编码”是SPSS系统自动设定码为正整数,而重新编码可以根据用户的需要指定特别的码值。

如果要将数学成绩按“60分以下、60-70分、70-80分、80-90分、90分以上”分组,分组后的变量为“数学等级”,对应的得分分别为“1、2、3、4、5”,具体操作如下:

在数据窗口单击“转换”-“重新编码为不同变量”,打开对话框,如图1.17所示:

图1.17 重新编码为不同变量对话框

选择“数学”进入“数字变量-输出变量”框中,并在右边的“输出变量”框中定义新的变量名“数学等级”,单击“更改”按钮,单击“旧值和新值”按钮,打开对话框,“旧值和新值”对话框最左侧有六个选项,用来确定原变量的取值区间(或单个变量值),它们将被赋予一个相同的新码值,新的码值在右上方的“新值”栏中填入。填好后“添加”按钮就被激活了。在数学成绩分组中为了遵循“上限不在内”,要先定义“90分以上”组,新值为“5”,重复以上步骤,把所有的区间一个一个都输入后,点“继续”按钮回到“重新编码为不同变量”菜单,点“确定”按钮执行命令,即在数据窗口可得到需要的分组变量“数学等级”。

第三节 基本描述统计

在建立了数据文件之后,需要对数据作进一步的考察,如了解数据的基本特征,如数据的均值、标准差、四分位点,数据的分布形态等,这个过程称为对数据进行基本统计描述。所以说,数据的基本统计描述的目的是:了解数据的基本特征和基本分布形状,为进一步分析做好充分准备。

本节主要内容:数据的基本统计描述方法:频数分析、探索分析、交叉表分析及多多响

应变量分析等。

8

频数分析

频数分析适用名义型、有序型和度量型变量。

对于一组数据,考察不同的数据出现的频数,或者是数据所落入指定的区域内的频数,可以

了解数据的分布状况。

例1.1数据文件SY-3是一个公司职员表,其中有性别、年龄,受教育年限等五个变量。 1.对名义型变量“性别”进行描述 具体操作如下:

⑴打开数据文件SY-3后,单击“分析”?“描述统计”? “频数”,打开频数分析对话框如图1.18所示。

图1.18 频数分布主对话框 图1.19 图表对话框

⑵在左边的变量框中选中“性别”送入变量; ⑶选中“显示频率表格”,要求输出分布表;

⑷单击“图表”按钮,得到对话框图1.19,选择“条形图”-“继续”; 在“频数”对话框中单击“确定”,得到输出结果见图1.20。

图1.20 性别的输出结果

2.对度量型变量“年薪”进行描述

一般不能选择“显示频率表格”,而要单击“统计量”按钮,见图1.21。

9

图1.21 统计量对话框

⑴反映集中趋势的统计量有:均值、中位数、众数;

⑵反映离散趋势的统计量有:标准差、方差、范围(全距)等;

⑶反映分布的统计量有:偏度、峰度;偏度是描述分布曲线图是否对称的指标,偏度等于零时对称,小于零时左偏,大于零度时右偏。峰度是描述分布曲线图是否集中的指标,峰度等于零与标准正态分布集中程度相同,小于零时更分散,大于零度时更集中。

⑷百分位值中四分位数是将数据按照从小到大的顺序排列后分成四等分,四分之一处为第1四分位数,比该值小的数占四分之一;二分之一处为中位数;四分之三处为第3四分位数,比该值小的数有四分之三。

度量型变量的图表只能在“图表”对话框中选择“直方图”,不宜做“条形图”或“饼图”。

本例中均选择系统默认项。点击“确定”,输出结果见图1.22。

图1.22 年薪的描述性统计量和直方图

10

从上面的表和直方图中可以观察到该公司平均年薪44211元,20000-50000元的年薪居多,有一半的年薪在35550以下。

3.对有序型变量“受教育年限”进行描述

“受教育年限”的分类不多,既可以按名义型计算频率表,又可以计算统计量,当分类不多时可以作条形图或饼图,输出结果见图1.22。

图1.22 受教育年限的描述性统计量

二、描述性分析

描述统计分析是对数据进行基础性描述。可以得出数据的平均值、标准差、最大值、最小值、方差、极差、峰度、偏度等统计量。

例1.2 以2002年全国职工平均工资表为例(数据库SY-2),介绍描述统计分析的具体操作步骤如下:

首先打开数据表SY-2,按照“分析”-“描述统计”-“描述”打开“描述”对话框,选择有关变量,在“选项”中选择有关统计量,如图1.23所示;

图1.23 描述主对话框及选项对话框

如在此例中选择按平均值升序项,返回主对话框,单击OK,在输出窗口得描述统计分析输出表见表1.1。

在主对话框中还有“将标准化得分另存为变量”功能,可以对变量值进行标准化处理,标准化后的值一般在[-3,3]范围内,可以使得不可比的变量化为可比。

11

表1.1 描述统计基本描述统计表

城镇集体单位 股份合作 有限责任公司 港澳台商投资 股份有限公司 国有单位 外商投资 有效的 N (列表状态) N 31 31 31 30 31 31 29 29 极小值 5100 5396 7555 6814 8165 9368 7765 极大值 14851 15486 21450 27193 25046 25675 39428 均值 7926.03 9280.87 11549.87 11621.30 13510.06 13559.90 14395.07 标准差 2335.188 2887.924 3674.871 4061.963 4301.683 4809.971 6396.869

三、探索分析

探索分析适用于对度量型数据进行初步的观察分析,主要的分析功能有:

观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。

正态分布检验:检验数据是否服从正态分布。

方差齐性的检验:用Levene检验比较各组的方差是否相等。

以数据库SY-1提供的两个班的学习成绩数据为例,对两个班的数学成绩按照性别进行数据的分布、按照性别检验其数学成绩是否服从正态分布,方差是否相等。

例1.3 打开数据库SY-1,单击“分析”->“描述统计”->“探索”,打开探索主对话框:如图1.24所示:

图1.24 探索分析主对话框和统计量对话框

1.对不同性别的数学成绩进行比较

从左侧的变量列表中选出变量“数学”作为因变量;选择”性别”作为因子变量,选择 “班级”作为标注,当输出涉及到观测量时,使用该变量值标识各观测量。

单击“统计量”按钮,打开对话框,选择统计输出量。有四个选择项,分别是: 描述性,同时指定均值的置信区间的置信度,系统默认为95%;

12

M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化); 界外值:输出分析数据中五个最大值和五个最小值; 百分位数。

本例中选择“描述性”和“界外值”后,返回主对话框,确定,得到输出结果见表1.2。 表1.2 不同性别数学成绩描述性统计量和界外值

2.作出不同性别数学成绩的茎叶图和箱图

单击“绘制”按钮,打开图对话框,选择箱图和茎叶图,如图1.25所示。

图1.25 探索分析图对话框

作出箱图见图1.26。

箱图中,最底部的水平线段是数据的最小值(奇异点除外),顶部的水平线段是数据的最大值(奇异点除外),中间矩形箱子的底所在位置是数据的第一个四分位数(即P25),箱子顶部所在位置是数据的第三个四分位数据(即P75)。箱子中间的水平线段刻画的是数据的中位数(即P50)。

13

奇异值是指大于P75+1.5(P75-P25)或小于P25-1.5(P75-P25) 的数值,标记为●,而对于大于 P75+3(P75-P25)或小于P25-3(P75-P25)的数值称为极值,标记为*。

图1.26 数学成绩箱图

从上面的箱图中可以得出结论:女生的数学成绩的平均水平比男生低且分散程度小,但有一个极端值。作出茎叶图见图1.27。

图1.27 不同性别数学成绩的茎叶图

茎叶图左边第1列为频数,第2列为茎,每个茎为10分,第3列为叶,每个叶为1分。如女生第4行有3人,成绩分别为66、67、68分,第1行是极端值,成绩为46分。茎叶图具有直方图的优点,又弥补了其在各组内没有差异的不足。

3.对不同性别数学成绩进行正态性检验

如果在“绘制”中选择了“带检验的正态图”,则可以进行正态性检验,得到正态性检验表见表1.3。

14

表1.3 正态性检验表 数学 性别 男 女 Kolmogorov-Smirnov 统计量 .110 .097 df 47 33 Sig. .200 .200 **aShapiro-Wilk 统计量 .971 .963 df 47 33 Sig. .291 .324 从表1.3的检验结果可以看出,由于假设检验的P(Sig.)值均大于0.05,故可以认为男女生的数学成绩分布都近似地服从正态分布。

还可以作出标准Q-Q图,女生标准Q-Q图见图1.28。

图1.28 女生数学成绩的标准Q-Q图

上图中间的斜线是服从正态分布的标准线。从上面的分布图中看出,除个别极端点外,数据点都在斜线周围波动,故可以认为女生的数学成绩近似服从正态分布。

还可以作出离散正态分布图,女生离散正态分布图见图1.29。

图1.29 女生数学成绩的离散正态图

从上面的离散正态分布图中看出,除个别极端点外,离散点都在±2的周围波动,故可以认为女生的数学成绩近似服从正态分布。

15

第四节 交叉表分析

当观察的现象与两个因素有关时,如某种服装的销量受价格和居民收入影响;某种产品的生产成本受原材料价格和产量的影响等等,交叉表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。因此,数据交叉表分析主要包括两个基本任务:

根据收集的样本数据,产生二维或多维交叉表;

在交叉表的基础上,对两两变量间是否存在关联性进行检验。

例1.4 以数据SY-1学生成绩为例,将学生成绩按照五级制分等级后,按照班级形成数学等级和物理等级交叉分析表,并考察学生的物理和数学成绩间有无关联性。

一、交叉表的形成

制作交叉表的具体操作步骤。

⑴打开数据SY-1,单击“分析”-“描述统计”- “交叉表”对话框如图1.30 所示。 ⑵如果是二维列联表分析,可以将行变量选择进入行中,将列变量选择进入列框中。如进行三维以上的列联表,可以将其它变量作为控制变量选到层框中。多控制变量可以是同层次的也可以是逐层叠加的。此例中选择数学等级为行变量,物理等级为列变量,班级作为控制变量。

⑶显示复式条形图选择项,可以指定绘制各变量交叉频数分布柱形图。取消表格表示不输出列联表,只有在分析行列变量间关系时选择此项。此例中不选择这一项。

图1.30 交叉表对话框

⑷单击“单元格”按钮,打开“单元显示”对话框,如图1.31所示。从对话框中指定列联表单元格中的输出内容,如果选择“百分比”会计算出行、列或总计百分比。本列中选择默认项观察值。

16

图1.31 单元显示对话框

点击“确定”,就可得到交叉表如表1.4所示。 表1.4 数学等级* 物理等级* 班级 交叉制表 物理等级 班级 1 数学等级 不及格 及格 中等 良好 优秀 合计 2 数学等级 不及格 及格 中等 良好 优秀 合计 不及格 0 1 0 0 0 1 1 2 0 0 0 3 及格 2 3 1 0 0 6 0 3 2 0 0 5 中等 0 2 5 2 0 9 0 3 6 1 0 10 良好 0 0 5 10 1 16 0 0 5 12 1 18 优秀 0 0 0 3 4 7 0 0 0 1 4 5 合计 2 6 11 15 5 39 1 8 13 14 5 41 从上表中可以看出,1班中数学和物理成绩均为优秀者有4人,数学不及格的两人的物理成绩都是及格。

二、 两变量关联性检验(卡方检验)

卡方检验是一种非参数检验方法。可以用来检验两个变量因素之间是否有关联关系。如果要考察学生的数学成绩和物理成绩之间是否有关联,相当于检验假设:

H0:数学成绩和物理成绩之间是相互独立的(无关联关系); H1:数学成绩和物理成绩之间的关联关系显著。 实施卡方检验的具体操作步骤:

17

单击“精确”按钮,打开“精确检验”对话框如图1.32,此对话框提供检验方式,一般取默认值。单击“统计量”按钮,打开对话框如图1.32所示,从中选择检验统计量。

图1.32 精确检验对话框和统计量对话框

“卡方“检验复选项,主要检验是行与列变量的独立性检验,本例中只选择此项。 “相关“复选项,要求输出Pearson和Spearman相关系数。 “名义“栏,适用于名义变量统计量。 “有序“栏,适用于有序变量的统计量。

⑴Gamma 选择项,两有序变量之间的关联性的对称检验; ⑵Somer’s两有序变量之间的关联性的检验;

⑶Kendall’s tan-b 复选项,考虑有结的秩或等级变量关联性的非参数检验。 ⑷Kendall’s tan-c 复选项,忽略有结的秩或等级变量关联性的非参数检验。 选择完成后,单击“确定“,就可得到相应的检验结果如表1.5所示。

表1.5 卡方检验 班级 1 Pearson 卡方 似然比 线性和线性组合 有效案例中的 N 2 Pearson 卡方 似然比 线性和线性组合 有效案例中的 N 值 48.183 45.210 25.212 39 62.597 52.732 27.998 41 badf 渐进 Sig. (双侧) 16 16 1 .000 .000 .000 16 16 1 .000 .000 .000 从表1.5中, 两个班级的Pearson卡方检验的P值(Sig.)均小于0.05,所以认为数学成绩与物理成绩之间关联性是比较显著的。这个结论与实际情况是相符的。

18

第五节 多响应变量分析

一、多响应变量分类

多重响应分析,也称之为多重应答分析或多响应变量分析。多重应答又称多选题,即针对同一个问题被访者可能回答出多个有效的答案,它是市场调查研究中十分常见的数据形式。

多重响应的数据本质上属于分类数据,但由于各选项均是对同一个问题的回答,故而它们之间会存在一定的相关性,所以对各选项单独进行分析就会显得不恰当。首先,需要对多选题的结果进行数据转换,转换的方式有如下两种。

⑴多重二分法。把多项选择题的每一个选项当作一个单独的二元变量来定义,取值0代表没有被选中,取值1代表被选中。这样,多项选择题的答案有几个选项,就会转换为几个单选变量。

例1.5 晚饭后活动调查,见表1.6。

如果任意可以任意多选,则该多选题录入时应设置6个变量,每个变量的值为0或1。

表1.6 晚饭后活动调查

编号 1 2 3 4 5 6 调查内容 看电视 睡觉 做轻微活动 打牌 散步 其他 □ 是 □ 是 □ 是 □ 是 □ 是 □ 是 选 项 □ 否 □ 否 □ 否 □ 否 □ 否 □ 否 ⑵多重分类法。根据被访者可能提供的答案数量,设置相应个数的单选变量。假设被访者最多只能选择n个不同答案,就需要采用n个单选变量来记录本多选题的回答数据。每个单选变量的可能取值都和多项选择题的可选项相同,代表了被调查者的一次选择,记录的是反映被选中的多选题选项的代码。

如果该问题按下列方式提问:

您可以选择最喜欢的三种活动,在答案后的?中填写喜欢的顺序号(第1为?,第2为?、第3为?)

①看电视

②睡觉 ③做轻微活动 ④打牌

⑤散步 ⑥其他

这是一个次序性多选题,则该多选题录入时应设置3个变量,每个变量取值为1-6。

二、建立多响应变量集

要进行多响应变量分析,先建立多响应变量集,步骤如下: 单击“分析”-“多重响应”- “定义变量集”。见图1.33。

如果是任意型多选题,将变量V101-V106选入变量框,选择“二分法:计数值1”,在名称中输入V10,标签“晚饭后活动”,再选择“添加”,变量集$V10就生成了。

19

图1.33 定义多响应变量集对话框

如果是次序型多选题,将变量选入变量框后,要选择“类别:范围1到6”。

三、多响应变量集频数分析

以任意型多选题为例。单击“分析”-“多重响应”-“频率”。将“晚饭后活动”放入变量框,见图1.34。确定后可以得到表1.7。

图1.34 多响应变量频率对话框

总计 表1.7 多响应变量$v10 频率分析 晚饭后活动 a 看电视 睡觉 做轻微活动 打牌 散步 其他 N 响应 百分比 47.3% 7.2% 15.9% 2.2% 21.7% 5.6% 100.0% 个案百分比 71.6% 10.9% 24.1% 3.4% 32.9% 8.5% 151.3% 381 58 128 18 175 45 805 20

表1.7中,百分比是选择该选项的次数与总次数的百分比,个案百分比是选择该选项的次数与总人数的百分比。

四、多响应变量集交叉表分析

单击“分析”-“多重响应”-“交叉表”,还可以进行交叉表分析,如果要作“晚饭后活动”与“年龄段”的交叉表,将$v10与age放入行和列,在“选项”中还可以计算百分比。见图1.35。

图1.35 多响应交叉表主对话框与选项对话框 输出结果见表1.8。

表1.8 晚饭后活动与年龄交叉制表 晚饭后活动 a 看电视 睡觉 做轻微活动 打牌 散步 其他 计数 计数 计数 计数 计数 计数 计数 <=30 60 8 26 5 32 10 94 年龄段 31~40 127 19 42 5 51 21 180 41~50 147 21 51 7 64 11 195 >50 44 9 8 1 27 3 60 总计 378 57 127 18 174 45 529 总计 在“多重响应”菜单中没有相关性分析的功能,如果要分析“晚饭后活动”与“年龄”是否有关,要选择“分析”-“表”-“多响应集”,对话框见图1.36。

21

图1.36 在表中定义多响应集主对话框 然后选择“分析”-“表”-“设定表”,对话框见图1.37。

图1.37 设定表主对话框

在“检验统计量”中选择“独立性检验”,见图1.38。

图1.38 检验统计量对话框

输出结果见图1.39。

22

图1.39 年龄与晚饭后活动的分析结果

从卡方检验可以看出,Sig.=0.144>0.05,即年龄与晚饭后活动不相关。

第一章分析方法——描述性分析总结

问题 饮料品牌 数学成绩 数学成绩 性别与数学成绩 类别 定性 定量 定量 1定性 1定量 性别与数学等级 闲暇时间活动 问题 2定性 多响应 类别 交叉表 频数、交叉表 方法 描述-交叉表 多响应分析 SPSS功能 方法 频数、条形图、饼图 统计量、直方图 统计量、标准化统计量 分组统计量、箱图、茎叶图 SPSS功能 描述-频数 描述-频数 描述-描述 描述-探索

23

练习一

1.根据下面表中提供的2002年全国31个省、市、自治区的GDP数据,求出GDP的平均值、人均GDP的平均值、中位数、标准差、峰度、偏度、前五位及后五位的省份,并作出茎叶图、检验人均GDP的95%的置信区间。

省份 上海 北京 天津 浙江 江苏 广东 福建 山东 辽宁 新疆 湖北 GDP值(亿) 5400 3130 1900 7400 10000 11000 4100 10500 4600 1600 5000 人口(万) 1674 1382 1001 4677 7438 8642 3471 9079 4238 1925 6028 省份 山西 黑龙江 宁夏 安徽 重庆 青海 四川 西藏 陕西 云南 GDP值(亿) 2000 2200 330 3500 1800 300 4800 150 2000 2300 人口(万) 3297 3689 562 5986 3090 518 8329 262 3605 4288 省份 河北 吉林 海南 湖南 河南 广西 甘肃 内蒙古 贵州 江西 GDP值(亿) 5500 2100 600 4200 6000 2200 1100 950 1100 2200 人口(万) 6744 2728 787 6440 9256 4489 2562 2376 3525 4140 2.下面表中给出的是一组周岁儿童的身高,性别数据,1代表男,0 代表女。试根据表中的数据

建立数据文件,对数据进行基本统计描述,给出身高的平均值、标准差、四分位点、频数分布直方图、箱图,并检验这组数据是否服从正态分布。

周岁儿童的身高表(厘米) 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身高 64 66 67 68 68 69 70 70 71 72 72 73 73 73 73 性别 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 序号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 身高 74 74 74 74 74 74 75 75 75 75 75 75 75 75 76 性别 1 0 0 1 0 1 1 1 0 0 1 0 0 1 1 序号 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 身高 76 76 76 76 76 76 76 76 77 77 77 77 77 77 77 性别 0 0 0 0 1 1 0 0 1 0 0 1 1 0 1 序号 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 身高 78 78 78 78 78 78 79 79 79 79 80 80 80 81 82 性别 1 1 0 0 0 1 1 0 0 1 1 1 0 1 1 3.调查339名50岁吸烟习惯与慢性支气管炎病的关系,得下表。试问吸烟者与不吸烟者的慢性

24

气管炎患病率是否有所不同?(α=0.05)

是 否 患病 kh是 否 吸 烟 吸烟 43 162 205 21 不吸烟 13 121 134 9.5 ∑ 56 283 339 16.5 患慢性气炎 未患慢性气炎 ∑ 患病率%

4.为了调查男性、女性购车者的观点,调查了一百名购车人,检验性别对安全性能的偏好之间有无联系。

不同性别的汽车购买者认为最重要的安全措施 调查者 男 女 合计 ABS刹车 15 5 20 改良悬架 5 5 10 气袋 20 10 30 自动门锁 5 20 25 电路控制 5 10 15 合计 50 50 100 25

第二章 均值比较检验与方差分析

在经济社会问题的研究过程中,常常需要比较现象之间的某些指标有无显著差异,特别当考察的样本容量n比较大时,由随机变量的中心极限定理知,样本均值近似地服从正态分布。所以,均值的比较检验主要研究关于正态总体的均值有关的假设是否成立的问题。

本章主要内容:

1、单个总体均值的t 检验; 2、两个独立总体样本均值的t检验; 3、两个有联系总体均值均值的t检验; 4、单因素方差分析; 5、双因素方差分析。

假设条件:研究的数据服从正态分布或近似地服从正态分布。

在Analyze菜单中,均值比较检验可以从菜单“比较均值”,和“一般线性模型”得出。如图2.1所示。

图2.1 均值的比较菜单选择项

第一节 比较均值

在“比较均值”菜单中如果选择“均值”,可以对某变量按不同类型分组进行比较。 例2.1:根据2002年我国不同行业的工资数据(数据库SY-2),比较东、中、西部各类企业的工资水平。

打开数据库SY-2,按照下列步骤操作:

⑴单击“分析” -“比较均值” -“均值”,打开主对话框,如图2.1所示; ⑵将各类企业送入“因变量”,“分组号”送入“自变量”; ⑶在“选项”中选择“均值、标准差、最小值、最大值”等; ⑷在主对话框选择“确定”,得到分析结果见表2.1。

26

图2.1 均值主对话框和选项对话框

表2.1 不同地区不同类型企业工资表

第二节 单个总体的t检验分析

单个总体的t检验分析也称为单一样本的t检验分析,也就是检验单个变量的均值是否与假定的均数之间存在差异。如将单个变量的样本均值与假定的常数相比较,通过检验得出预先的假设是否正确的结论。

例2.2:根据2002年我国不同行业的工资水平(数据库SY-2),检验国有企业的职工平均年工资收入是否等于10000元,假设数据近似地服从正态分布。

首先建立假设:H0:国有企业工资为10000元;

H1:国有企业职工工资不等于10000元

打开数据库SY-2,检验过程的操作按照下列步骤:

27

⑴单击“分析” -“比较均值” -“单样本T检验”,打开主对话框,如图2.2所示。 ⑵从左边框中选中需要检验的变量(国有单位)进入检验框中。 ⑶在“检验变量”框中键入原假设的均值数10000。 ⑷单击“确定,得输出结果,”见表2.2。

图2.2 一个样本的t检验的主对话框

表2.2 单个样本检验 国有单位 t 4.121 df 30 检验值 = 10000 差分的 95% 置信区间 Sig.(双侧) .000 均值差值 3559.903 下限 1795.59 上限 5324.21 从表2.2中可知检验的结果。即相应的检验统计量t值为4.121,自由度为30,假设检验的P值(sig)小于0.05,故原假设不成立,检验结论是拒绝原假设H0,接受假设H1。即认为国有企业职工的平均工资与10000元的假设差异显著。

第三节 两个总体的t检验

一、两个独立样本的t检验

“两个独立样本的t检验”是检验两个没有联系的总体样本均值间是否存在显著的差异,两个没有联系的总体样本也称独立样本。如两个无联系的企业生产的同样产品之间的某项指标的均值的比较,不同地区的儿童身高、体重的比较等,都可以通过抽取样本检验两个总体的均值是否存在显著的差异。

例2.3.某医药研究所考察一种药品对男性和女性的治疗效果是否有显著差异,调查了10名男性服用者及7名女性服用者,对他们服药后的各项指标进行综合评分,服用的效果越好,分值就越高,每人所得的总分见表2.3,试根据表中的数据检验这种药品对男性和女性的治疗效果是否存在显著差异。

解:由于药品对男性或女性的影响是无联系的,因此这两个样本是相互独立的。可以应用两独立样本的假设检验。

首先,建立假设H0:该药品对男性和女性的治疗效果没有显著差异; H1:该药品对男性和女性的治疗效果有显著差异。

28

表2.2 男、女治疗效果的综合得分表

分 序 性 别 数 号 1 2 3 4 5 6 7 8 9 10 150 160 67 80 110 80 132 115 60 100 140 120 78 135 89 100 105 男 女 然后,根据表1的数据建立数据文件SY-4,并使用SPSS进行假设检验,具体操作步骤: ⑴单击“分析”-“比较均值”-“独立样本T检验”,打开主对话框,如图2.3所示。

图2.3 两个独立样本的t检验的主对话框和选项对话框

⑵选择要检验的变量“综合得分”进入检验框中;

⑶选择分组变量“性别”进入分组框中,然后单击“定义组”按钮,打开分组对话框确定分组值后返回主对话框;

⑷点击“确定”可得输出结果,见表2.4、表2.5统计分析检验结果。 表2.4分组统计量 综合得分 性别 男 女 N 10 7 均值 105.40 109.57 标准差 34.394 23.143 均值的标准误 10.876 8.747

29

表2.5 独立样本检验结果 综合得分 假设方差相等 假设方差不相等 方差方程的 Levene 检验 F 1.445 Sig. .248 均值方程的 t 检验 t -.278 -.299 df 15 14.997 Sig.(双侧) .784 .769 检验表2.5第三列和第四列是检验两样本数据的方差是否相等,从检验结果得知两样本的方差没有显著差异。从第五列开始是对两个样本的均值的是否相等进行检验。从假设检验的P值看出,它大于显著性水平0.05,所以说男女之间的机械能力之间并无显著差异,因此接受原假设H0。而第八列之后分别是均值差、均值差标准误、均值差的置信区间。

二、两个有联系总体间的均值比较

配对样本的 t 检验是检验两个有联系正态总体的均值是否存在显著的差异。经常用于生物、医药、农业、工业等多个行业。如检验某种药品使用的效果是否显著,需要对使用者使用前后进行比较;再如对某种粮食进行品种改良,也需要比较改良前后粮食产量有无显著差异等。

例2.4:某企业对生产线上的工人进行某种专业技术培训,要对培训效果进行检验,从参加培训的工人中抽取30人,将他们培训前后的数据每加工500个零件的不合格品数进行对比,得到数据表见表2.5。试根据表中数据检验培训前后工人的平均操作技术水平是否有显著提高,也就是检验培训效果是否显著。

表 2.5 工人培训前后不合格品数据表

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 培训前 2 3 3 4 4 4 培训后 0 1 2 1 1 2 序号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 培训前 6 6 6 6 6 6 6 6 6 6 7 7 7 7 8 培训后 4 2 2 2 4 3 3 3 3 3 3 3 4 4 3 4 4 5 5 5 5 5 5 5 2 3 2 2 3 3 2 3 3 解:这显然是配对样本均值的假设检验的问题。所以要建立假设:

H0:培训前后工人的技术水平没有显著差异; H1:培训前后工人的技术水平有显著差异;

根据表2.5建立数据文件SY-5,根据中心极限定理,在大样本的情况下,样本均值近似地服从正态分布。所以可以利用正态参数的检验方法进行均值的检验。其检验过程的具体操作步骤为:

30

⑴单击“分析” -“比较均值”-“配对样本T检验”,打开主对话框如图2.4。

⑵选择要检验的两变量进入检验框中,注意,一定要选择两个变量进入检验框内,否则将无法得到检验结果。

⑶点击OK得输出结果,见表2.6、表2.7。

图2.6 配对样本的t检验主对话框

表2.6 成对样本统计量分析 对 1 培训前 培训后 均值 5.30 2.53 N 30 30 标准差 1.368 .973 均值的标准误 .250 .178 表2.7 成对样本T检验结果 对 1 培训前 - 培训后 均值 2.767 标准差 .935 成对差分 均值的标准差分的 95% 置信区间 误 .171 下限 2.417 上限 t df 29 Sig.(双侧) .000 3.116 16.203 由上表2.7中的检验结果知,假设检验的P值小于0.05,因此可以得出培训前后的差异是显著的,故拒绝假设H0,接受假设H1,认为培训的效果是显著的。

第三节 单因素方差分析

单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个(大于两个)总体样本的均值是否存在显著差异的检验方法。其目的也是对不同的总体的数据的均值之间的差异是否显著进行检验。单因素方差分析的应用范围很广,涉及到工业、农业、商业、医学、社会学等多个方面。

单因素方差分析的应用条件:

在不同的水平(因素变量取不同值)下,各总体应当服从方差相等的正态分布。

例2.5:某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测试,其值如表2.8所示。假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著

31

差异。

解:首先建立假设H0:三个地区的零件强度无显著差异;

H1:三个地区的零件强度有显著差异。

然后根据表2.8中数据,建立数据文件SY-6并进行单因素方差分析。具体操作过程如下:

表2.8 样本零件强度值 单位:百公斤

强 样 度 本 1 2 3 4 5 6 地 区 1 116 98 100 115 83 105 2 110 103 118 106 107 116 3 89 85 99 73 97 102 ⑴单击“分析”-“比较均值”-“单因素方差分析”,打开主对话框。

图 2.7 单因素方差主对话框

⑵从左框中选择因变量”零件强度”进入“因变量”框内,选择因素变量“地区”进入“因子”框内。点击确定就可以得到方差分析表2.9。

表2.9 ANOVA 方差分析表 百公斤

组间 组内 总数 平方和 1125.444 1509.667 2635.111 df 2 15 17 均方 562.722 100.644 F 5.591 显著性 .015 表2.9是方差分析表,由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三个地区的零件强度有显著差异。

如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按钮“对比”、“两两比较”、“选项”去实现。

⑶单击“选项”按钮,打开选项对话框如图2.8所示:在选项中选择输出项。主要有不同水平下样本方差的齐性检验,缺失值的处理方式及均值的图形。

32

图2.8 单因素方差分析选项对话框 图2.9 均值图

本例中选择“描述性”和“均值图”,选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表2.10和图2.9均值图

表2.10 零件强度描述性统计量 百公斤 A1 A2 A3 总数 N 6 6 6 18 均值 102.83 110.00 90.83 101.22 标准差 12.254 5.899 10.815 12.450 标准误 5.003 2.408 4.415 2.935 均值的 95% 置信区间 下限 89.97 103.81 79.48 95.03 上限 115.69 116.19 102.18 107.41 极小值 83 103 73 73 极大值 116 118 102 118 ⑷如果需要将水平间两两比较,可以单击“两两比较”按钮,打开多重比较对话框。如图2.10 所示:

图2.10 两两比较对话框

在该对话框中列出了二十种多重比较检验,涉及到许多的数理统计方法,在实际中只选用其中常用的方法即可。

对话框下部的显著性水平,默认值是0.05,也可以根据需要重新输入其它值。

如果满足在水平间方差相等的条件,常用LSD最小显著性差异法),表示用 t 检验完成各组均

33

值间的配对比较。

当方差不等的情况下,可以选择Tamhane’s T2, 用t检验进行各组均值间的配对比较。 方差是否相等可以用“选项”中“方差同质性检验”检验等到。上例中,方差同质性检验的结果见表2.11,显著性P值=0.328>0.05,接受原假设,可以认为方差相等。所以在图2.10中选择LSD方法,得到输出结果表2.12。 表2.12 多重比较 百公斤 LSD (I) 地区 A1 (J) 地区 A2 A3 A2 A1 A3 A3 A1 A2 均值差 (I-J) -7.167 12.000 7.167 19.167 -12.000 -19.167 **95% 置信区间 标准误 5.792 5.792 5.792 5.792 5.792 5.792 显著性 .235 .056 .235 .005 .056 .005 下限 -19.51 -.35 -5.18 6.82 -24.35 -31.51 上限 5.18 24.35 19.51 31.51 .35 -6.82 *. 均值差的显著性水平为 0.05。 从表2.12中可以看出,地区2与地区3之间的差异是非常显著的,它们均值差的检验的尾概率为0.005,明显小于显著性水平0.05。

第四节 双因素方差分析

单因变量的双因素方差分析是对观察的现象(因变量)受两个因素或变量的影响进行分析,检验不同水平组合之间对因变量的影响是否显著。双因素方差分析的应用范围很广,如粮食产量受到气候、温度因素的影响;某生物产品的生产过程不仅受催化剂多少的影响、还受温度高低的影响等,甚至两因素变量之间的交互作用对因变量也有一定的影响。要分清楚哪个因素的影响作用比较大,就可以应用双因素方差分析的方法来解决。

双因素方差分析应用条件:

因变量和协变量必须是数值型变量,且因变量来自或近似来自正态总体。因素变量是分类变量,变量可以是数值型或字符型的。各水平下的总体假设服从正态分布,而且假设各水平下的方差是相等的。

双因素方差分析过程可以分析出每一个因素的作用;各因素之间的交互作用;检验各总体间方差是否相等;还能够对因素的各水平间均值差异进行比较等。

例2.6:表2.13是某商品在不同促销方式(0不促销、1被动促销、2主动促销)和不同服务(0不服务、1服务)和不同奖金的的销售量表。已知数据服从正态分布,则要检验促销方式、服务和奖金对销售额的影响是否显著。

34

表2.13 某商品销售额 促销方式 0 0 0 0 0 0 0 0 1 1 1 1 服务 0 0 0 0 1 1 1 1 0 0 0 0 销售额 23 19 17 26 28 23 24 30 26 22 20 30 奖金 2 1.5 2 2.1 1.5 1.2 1.6 1.8 1.8 1.1 0.9 2.1 (万元) (万元) 促销方式 1 1 1 1 2 2 2 2 2 2 2 2 服务 1 1 1 1 0 0 0 0 1 1 1 1 销售额 36 28 30 32 30 23 25 32 48 40 41 46 奖金 2.1 1.21 1.91 2.15 1.8 1.2 1.3 1.92 1.7 1.3 1.2 1.81 (万元) (万元) 先不考虑奖金因素,销售额量受促销和服务两个因素的影响,这是一个双因素方差分析的问题,根据上表建立数据文件“双因素方差分析销售.sav”,具体分析的步骤如下:

⑴单击“分析”-“一般线性模型”-“单变量”,打开主对话框。如图2.11所示:

图2.11 双因素方差分析对话框

⑵选择要分析的变量”销售量”进入“因变量”框中,选择 “促销方式”和“售后服务”进入“固定因子”框中。

⑶单击“模型”按钮选择分析模型,得到模型对话框。如图2.12所示:在指定模型框中,指定模型类型。

系统默认项为建立全模型,全模型中包括因素之间的交互作用。如果选择分析两个因素的交互作用,则必须在每种水平组合下,取得两个以上的实验数据,才能实现两个因素的交互作用的分析结果。如果不考虑因素间的交互作用时,应当选择自定义模型。本例选择此项并激活下面的各项操作。

35

图2.12 模型对话框

先从左边框中选择因素变量进入“模型”框中,然后选择效应类型。如果选择“全因子”,既考虑主效应又考虑交互效应,如果选择“设定”,可以自己定义主效应或交互效应。可以通过单击“构建项”下面的小菜单完成。本例中选择交互效应。还要把“促销方式”、“售后服务”以及“促销方式*售后服务”放到模型框中,最后在“平方和”中选择分解平方和的方法后返回在主对话框。一般选取默认项类型Ⅲ。单击确定就可以得到相应的双因素方差分析表2.14。

表2.14 主体间效应的检验 因变量:销售额 源 模型 售后服务 促销方式 售后服务 * 促销方式 误差 总计 III 型平方和 21613.750 532.042 579.250 144.083 273.250 21887.000 adf 6 1 2 2 18 24 均方 3602.292 532.042 289.625 72.042 15.181 F 237.296 35.048 19.079 4.746 Sig. .000 .000 .000 .022 从表2.14中数据可以看出,F值对应概率P值都小于显著性水平0.05,这说明售后服务、促销方式以及两者的交互用对销售额的影响都是显著的。

⑷如果需要进行图形展示,可单击“绘制”按钮,打开图形对话框如图2.13所示。选择作均值轮廓图的参数。

选择“促销方式”变量进入横坐标框内,选择“售后服务”变量进入纵坐标框内,然后单击“添加”按钮,可以得到该因素不同水平的因变量均值的分布。见图2.14。

36

图2.13 轮廓图对话框 图2.14两个变量对销售影响图 由图2.14可以看出,有售后服务的销售额高于无售后服务,主动促销的销售额最高。 ⑸如果要考虑“奖金”因素对销售额的影响,可以在图2.11中将“奖金”加入“协变量”框,同时在模型框中要加入“奖金”变量,见图2.15。

图2.15加入“奖金”的模型框

确定后得到分析结果见表2.15。

表2.15 加入“奖金”的主体间效应检验 因变量:销售额 源 模型 奖金 售后服务 促销方式 售后服务 * 促销方式 误差 总计

III 型平方和 21799.925 186.175 550.862 704.633 165.256 87.075 21887.000 37

adf 7 1 1 2 2 17 24 均方 3114.275 186.175 550.862 352.317 82.628 5.122 F 608.012 36.348 107.547 68.784 16.132 Sig. .000 .000 .000 .000 .000

从表2.15中数据可以看出,F值对应概率P值都小于显著性水平0.05,这说明售后服务、促销方式、两者的交互用及奖金对销售额的影响都是显著的。

加入奖金后的两个固定因子对销售的影响图见图2.16。

图2.16 加入奖金后的两个固定因子对销售的影响图

第二章分析方法——差异性分析总结

问题 性别与治疗效果 培训前与培训后 饮料颜色 销售量 促销、服务与销售额 2因素 多因素方差分析 一般线性模型-单变量 类别 单因素 2定量 单因素 方法 2分类——独立样本T检验 成对样本T检验 多分类——单因素方差分析 SPSS功能 均值比较-独立样本 均值比较-相关样本 均值比较-单因素方差分析

38

练习二

1.为了比较两种材料的质量,选择15台不同设备对这两种材料进行特别处理,假设未处理前两种材料的指标数据均为10,一星期后经测量得到两种材料的指标数据如下:试根据下面的数据检验两种材料的质量有无显著差异?

材料A 7.6 材料B 8.0 7.0 6.4 8.3 8.8 8.2 7.9 5.2 9.3 6.8 9.1 7.9 6.3 8.5 7.8 7.5 6.1 6.5 4.4 8.9 7.7 6.1 4.2 9.4 9.1 9.4 9.1 7.5 7.0

2.下面给出的是两个大文学家马克.吐温的8篇小品文及斯诺特格拉斯的10篇小品文中由3个字母组成的词的比例。

马克吐温 斯诺特格拉斯 0.225 0.209 0.262 0.205 0.217 0.196 0.240 0.210 0.230 0.229 0.202 0.207 0.235 0.217 0.224 0.223 0.220 0.201 设两组数据分别来自正态总体,试检验两位作家写的小品文稿中包含由3 个字母组成的词的比例是否有显著的差异?并且检验两组数据的方差是否相等?

3.现有甲、乙、丙3家企业生产同一种型号电池,为评比其质量,从每个生产企业各随机抽取12只进行寿命测试,数据如下表所示:

工厂 甲 乙 丙 寿 命 (h) 40 48 38 42 45 43 42 39 48 44 47 43 26 31 30 34 34 35 29 28 37 32 37 35 39 41 40 42 41 42 47 50 43 50 48 43 试在显著性水平0.05下,检验三企业生产的电池的平均寿命μ1、μ2、μ3有无显著差异,并求μ1-μ2,μ1-μ3,μ2-μ3的95%置信区间。

4.下表中给出了某种化工过程在三种浓度、四种温度水平下的得率。 浓度(%) 10 2 14 10 4 9 7 6 5 11 24 11 11 10 8 13 14 温度(℃) 38 13 9 7 11 12 13 52 10 12 6 10 14 10 假设在诸水平的搭配下的总体服从正态分布且方差相等,试在水平0.05下检验不同的浓度及不同的温度下的得率的差异是否显著?交互作用的效应是否显著?

39

第三章 相关分析与回归模型的建立与分析

相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关

分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。

本章主要内容:

对变量之间的相关关系进行分析。其中包括简单相关分析和偏相关分析。 建立因变量和自变量之间回归模型,其中包括线性回归分析和曲线估计。

数据条件:参与分析的变量数据是数值型变量或有序变量。

第一节 相关分析

在SPSS中,可以通过“分析”菜单进行相关分析,相关菜单如图3.1所示。

图3.1 相关分析菜单

一、简单相关分析

两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。

1.散点图

SPSS软件的绘图命令集中在图形菜单。下面通过例题来介绍具体操作方法。

例3.1:数据库SY-8中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。具体操作步骤如下:

首先打开数据SY-8,然后单击“图形”-“图表构建程序”,在“选择范围”中选择“散点图”,选择简单散点图拖到上面左边框中(见图3.2),在将“人均生产总值”拖到X轴,城镇居民消费额拖到Y轴,点击“确定”得到图3.3。

从下面输出的人均国内生产总值与城镇居民消费额的散点图3.3中可以粗略地看出,两个变量之间有强正相关的线性关系。

40

图3.2 图表构建程序对话框 图3.3 散点图 2.简单相关分析操作

简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出定量分析。仍然数据SY-8为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:

⑴打开数据库SY-8后,单击“分析”-“相关”-“双变量”, 打开“双变量”对话框,见图3.4所示。

图3.4 两变量相关分析对话框和选项对话框

⑵从左边的变量框中选择需要考察的两个变量进入“变量”框内,从“相关系数”栏内选择

41

相关系数的种类,有Pearson相关系数,Kendall′s一致性系数和Spearman等级相关系数。从检验栏内选择检验方式,有双尾检验和单尾检验两种。

⑶单击“选项”按钮,选择输出项和缺失值的处理方式。本例中选择输出基本统计描述。单击“确定”可以得到相关分析的结果。

从表3.1可以得到相关系数及对相关系数的检验结果,相关系数是0.996,相关程度非常高,且假设检验的P值远远地小于0.01,可以认为居民收入与某产品的销量存在显著的线性正相关关系。

表3.1 相关系数表 城镇居民消费额(元) 城镇居民消费额(元) Pearson 相关性 显著性(双侧) N 人均国内生产总值(元) Pearson 相关性 显著性(双侧) N **. 在 .01 水平(双侧)上显著相关。 26 .996 .000 26 26 **人均国内生产总值(元) 1 .996 .000 26 1 **Pearson相关系数适用于度量型的数据,Kendall′s一致性系数和Spearman等级相关系数适用于至少是有序型的数据。

二、偏相关分析

简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。

偏相关是两个变量真实的相关关系,当有第三个变量存在时,两个变量的相关关系有直接相关和间接相关,偏相关是直接相关关系。

例3.2:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表3.2。试求火柴销售量与煤气户数的偏相关系数.

表3.2 火柴销量及影响因素表

年份 68 69 70 71 72 73 74

火柴销售量 (万件) 23.69 24.1 22.74 17.84 18.27 20.29 22.61 煤气户数 (万户) 25.68 25.77 25.88 27.43 29.95 33.53 37.31 42

卷烟销量 (百箱) 23.6 23.42 22.09 21.43 24.96 28.37 42.57 蚊香销量 (十万盒) 10.1 13.31 9.49 11.09 14.48 16.97 20.16 打火石销量 (百万粒) 4.18 2.43 6.5 25.78 28.16 24.26 30.18

75 76 77 78 79 80 81 82 26.71 31.19 30.5 29.63 29.69 29.25 31.05 32.28 41.16 45.73 50.59 58.82 65.28 71.25 73.37 76.68 45.16 52.46 45.3 46.8 51.11 53.29 55.36 54 26.39 27.04 23.08 24.46 33.82 33.57 39.59 48.49 17.08 7.39 3.88 10.53 20.09 21.22 12.63 11.17 解:根据数据表建立数据文件SY-9,求解火柴销售量与煤气户数的偏相关系数具体操作如下: ⑴首先打开数据文件SY-9,单击“分析”-“相关”-“偏相关”,打开对话框,见图3.5所示。

图3.5 偏相关主对话框和选项对话框

⑵从左边框内选择要考察的煤气户数与火柴销量两个变量进入“变量”框内,其它客观存在的变量(除年份外)作为控制变量进入“控制”框内。

⑶单击“选项”按钮,从“统计”栏中选择输出项,有平均值及标准差,“零阶相关系数”表示在输出偏相关系数的同时输出变量间的简单相关系数。另外还有缺失值的处理方式。本例中选择简单相关系数。

⑷选择结束后,单击OK得输出结果,如表3.3所示。

表3.3 相关系数表 火柴销量煤气户数(万卷烟销量(万蚊香销量(十打火石销量(百控制变量 -无- a(万件) 火柴销量相关性 1.000 . 0 .826 .000 13 .879 .000 43

户) .826 .000 13 1.000 . 0 .903 .000 箱) .879 .000 13 .903 .000 13 1.000 . 万盒 ) .808 .000 13 .949 .000 13 .903 .000 万粒) -.490 .064 13 -.023 .935 13 -.029 .917 (万件) 显著性(双侧) df 煤气户数相关性 (万户) 显著性(双侧) df 卷烟销量相关性 (万箱) 显著性(双侧)

df 蚊香销量(十万盒 ) 打火石销量(百万粒) 卷烟销量(万火柴销量相关性 显著性(双侧) df 相关性 显著性(双侧) df 相关性 13 .808 .000 13 -.490 .064 13 1.000 . 0 .605 .037 10 13 .949 .000 13 -.023 .935 13 .605 .037 10 1.000 . 0 0 .903 .000 13 -.029 .917 13 13 1.000 . 0 -.007 .980 13 13 -.007 .980 13 1.000 . 0 箱) & 蚊香(万件) 显著性(双侧) 销量(十万df 盒 ) & 打火煤气户数相关性 石销量(百万(万户) 显著性(双侧) 粒) df a. 单元格包含零阶 (Pearson) 相关。 表中的上半部分是简单相关系数,下半部分是偏相关系数。从表中可以看出,火柴销量与煤气户数的简单相关系数为0.8260,自由度为13,检验的P值为0.000;而偏相关系数为0.605,自由度为10,检验的P值为0.037,表示煤气户数对火柴销量的真实影响是显著的。

三、品质相关分析

如果两个变量是名义型变量或有序型变量,称为品质变量,品质变量的相关分析可以用交叉表的卡方检验分析。

例3.3:数据:品质相关培训效果.sav

用A、B两套方案对170人进行培训,然后对培训后的业绩进行了统计,问:不同培训方案是否与业绩改进相关?

打开数据文件SY-9,单击“分析”-“描述”-“交叉表”,打开对话框,选择“培训方案”到“行”,选择“效果”到“列”,在“统计量”中选择“卡方”见图3.5所示。

图3.5 交叉表主对话框和统计量对话框

单击“确定”后得到计算结果见表3.4、表3.5。

44

表3.4 培训方案* 效果 交叉制表 培训方案 A B 合计

表3.5 卡方检验表 Pearson 卡方 连续校正 似然比 Fisher 的精确检验 有效案例中的 N b效果 业绩显著提高 业绩无明显变化 93 46 139 31 4 35 合计 124 50 174 值 6.408 5.394 7.357 174 adf 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) 1 1 1 .011 .020 .007 .012 .007 从表3.5可见,卡方的Sig.=0.11<0.05,所以培训方案与培训效果的相关性显著,即不同

培训方案的效果差异显著。

第二节 线性回归分析

线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍SPSS软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。

一、线性回归模型假设条件与模型的各种检验

1.线性回归的假设理论

⑴正态性假设:即所研究的变量均服从正态分布; ⑵等方差假设:即各变量总体的方差是相等的; ⑶独立性假设, 即各变量之间是相互独立的; ⑷残差项无自相关性,即误差项之间互不相关; 2.线性回归模型的检验项目 ⑴回归系数的检验(t检验)。 ⑵回归方程的检验(F检验)。 ⑶拟合程度判定(可决系数R)。

45

2

⑷D.W检验(残差项是否自相关)。 ⑸共线性检验(多元线性回归)。

⑹残差图示分析(判断异方差性和残差序列自相关)。

二、线性回归分析的具体步骤

SPSS软件中进行线性回归分析的选择项为“分析”→“回归”→“线性”。如图3.6所示。下面通过例题介绍线性回归分析的操作过程。

图3.6 回归分析功能菜单

例3.4 仍然用例3.2的数据,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。

解:建立线性回归模型的具体操作步骤如下:

⑴打开数据文件SY-9,单击“分析”-“回归”-“线性”,打开对话框如图3.7所示。 ⑵从左边框中选择因变量Y进入“因变量”框内,选择一个或多个自变量进入“自变量”框内。从“方法”框内下拉式菜单中选择回归分析方法,有进入法、删除法、向前法、向后法及逐步回归法五种。本例中选择逐步回归法。

图3.7 线性回归主对话框和统计量对话框

46

⑶单击“统计量”,打开对话框,可以选择输出的统计量。

回归系数选项栏。

估计(系统默认): 输出回归系数的相关统计量:包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。本例中只选择此项。

误差:输出每一个非标准化回归系数95%的置信区间。 协方差矩阵: 输出协方差矩阵。

与模型拟合及拟合效果有关的选择项。

模型拟合度是默认项。能够输出复相关系数R、R及R修正值,估计值的标准误,方差分析表。 R平方变化: 引入或剔除一个变量时,R的变化。 描述性: 基本统计描述。

部分相关和偏相关性:相关系数及偏相关系数。

共线性诊断。主要对于多元回归模型,分析各自变量的之间的共线性的统计量:包括容忍度和方差膨胀因子、特征值,条件指数等。

本例中选择模型拟合度和共线性诊断。

Residuals 残差栏

Durbin-Watson:D.W检验,D.W值接近2为好,不存在序列相关,D.W值接近0存在正自相关,D.W值接近4存在负自相关。

奇异值诊断,有两个选项:

离群值:奇异值判据,默认项标准差≥3。 所有个案:输出所有观测量的残差值。 本例中选择D.W检验。

⑷如果需要观察图形,可单击“绘制”按钮,打开图对话框如图3.8所示。在此对话框中可以选择所需要的图形。

选择“产生所有部分图”可以作出每个自变量和因变量的散点图。

2

2

2

图3.8 图对话框

⑸单击“选项”按钮,打开对话框,如图3.9所示。可以从中选择模型逐步回归法拟合判断准则、模型是否包括常量及缺失值的处理方式。

47

图3.9 选项和保存对话框

⑹如果要保存预测值等数据,可单击“保存”按钮打开保存对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。

⑺当所有选择完成后,单击OK得到分析结果。主要的分析结果见表3.6。 表3.6(a) 模型汇总 模型 1 2 3 R .879 .994 .997 cbaR 方 .772 .988 .994 调整 R 方 标准 估计的误差 Durbin-Watson .755 .986 .993 2.44047 .58304 .41783 2.066 a. 预测变量: (常量), 卷烟销量(万箱)。 b. 预测变量: (常量), 卷烟销量(万箱), 打火石销量(百万粒)。 c. 预测变量: (常量), 卷烟销量(万箱), 打火石销量(百万粒), 煤气户数(万户)。 d. 因变量: 火柴销量(万件) 表3.4(a)模型综合分析中有模型的复相关系数R,样本决定系数R,修正的可决系数R,

2

2估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。决定系数是检验模型拟合度的指标,决定系数越接近1越好。由上表中知模型3的修正的决定系数为0.993,其模型的拟合程度最好。 D.W值为2.066,显然通过D.W检验,说明残差项不存在一阶自相关。

表3.6(b) Anova 方差分析表 模型 1 回归 残差 总计 2 回归 残差 平方和 262.566 77.427 339.993 335.914 4.079 df 1 13 14 2 12 均方 262.566 5.956 F 44.085 Sig. .000 a 494.090 .000 b 167.957 .340 48

本文来源:https://www.bwwdw.com/article/dz6o.html

Top