SPPS使用指南

更新时间:2024-04-26 19:00:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实证研究 学习园地

国泰安信息技术有限公司

GTA Information Technology Company

第一部分 如何学习实证研究方法

第三章 掌握常用计量软件

对于实证研究初学者来说在掌握了基本知识和查阅了大量的文献之后,但是开始做实证研究不仅需要数据和方法,而且需要工具来检验实证研究的结果,如果工具不全,那么实证研究者也无法达到收发自如。另外,实证研究可能面对处理大量甚至海量的数据,这些对于实证研究初学者来说都是棘手的问题,随着计算机的发展,不同的处理软件的出现,帮助我们解决了这个问题。在实证金融会计领域中,目前常用的计量软件包括SAS、SPSS、Matlab、Eviews、Excel、Foxpro等。下面我们对于这几个常用的软件和实证研究的关系作简要的论述。

第一节 常见计量软件

一、SAS

SAS是美国SAS软件研究所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。尤其是创业产品统计分析系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。

详细内容请登陆:http://www.sas.com/offices/asiapacific/china/查询。

二、SPSS

SPSS(Statistical Package for the Social Science)--社会科学统计软件包是世界是著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时SPSS公司推行本土化策略,目前已推出9个语种版

本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。目前已经在国内逐渐流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。

详细内容请登陆:http://www.spss.com查询。

三、MatLab

Matlab软件是由美国Mathworks公司推出的用于数值计算和图形处理的科学计算系统,在MatLab环境下,用户可以集成地进行程序设计、数值计算、图形绘制、输入输出、文件管理等各项操作。它提供的是一个人机交互的数学系统环境,与利用c语言作数值计算的程序设计相比,利用Matlab可以节省大量的编程时间,且程序设计自由度大。最大的特点给用户带来的是最直观,最简洁的程序开发环境,语言简洁紧凑,使用方便灵活,库函数与运算符极其丰富,另外具有强大的图形功能。

在国际学术界,Matlab已经被确认为准确、可靠的科学计算标准软件,许多国际一流学术刊物上,都可以看到MATLAB的应用。

详细内容请登陆:http://www.mathworks.com查询。

四、EViews

EViews是美国GMS公司1981年发行第1版的Micro TSP的Windows版本,通常称为计量经济学软件包。EViews是Econometrics Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行\观察\。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews是完成上述任务得力的必不可少的工具。正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等。EViews。虽然 EViews是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也

能在 EViews中进行处理

详细内容请登陆:http://www.eviews.com/查询

五、Microsoft Excel

Microsoft Office是微软公司开发的办公自动化软件,Office 2000是第三代办公处理软件的代表产品,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力。Office 2000是一个庞大的办公软件和工具软件的集合体,为适应全球网络化需要,它融合了最先进的Internet技术,具有更强大的网络功能;Office 2000中文版针对汉语的特点,增加了许多中文方面的新功能,如中文断词、添加汉语拼音、中文校对、简繁体转换等。Office 2000不仅 是您日常工作的重要工具,也是日常生活中电脑作业不可缺少的得力助手。

Excel是微软公司出品的Office系列办公软件中的一个组件,确切地说,它是一个电子表格软件,使用 Microsoft Excel 执行计算、分析信息并管理电子表格或 Web 页中的列表。Excel 应用程序可以协助我们进行财务、预算、统计、各种清单、数据跟踪、数据汇总、函数运算等计算量大的工作。

详细内容请登陆:http://r.office.microsoft.com/r/rlidAppFolder?clid=2052&p1=excel查询

六、Visual FoxPro

Visual FoxPro是Microsoft公司Visual Studio 系列开发产品之一,简称VFP,是Xbase数据库家族的最新成员,可以运行于Windows 9X/2000和Windows NT平台的32位的数据库开发系统。Visual FoxPro 提供了一个功能强大的集成化开发环境.Visual FoxPro使得用户管理数据库更加方便,组织数据、创建应用程序等工作更加快捷,另外,面向对象的编程工具、OLE支持和WEB服务能力,使开发程序更加完备。采用可视化和面向对象的程序设计方法,使数据管理和应用程序的开发更加简便。

详细内容请登陆:http://www.microsoft.com/查询

第二节 常用实证分析方法介绍

一、统计描述

在进行实证研究过程中往往会收集到大量的资料数据,但从这些杂乱无章的资料中,很难对其总体水平与分布状况做出评价判断。因此,必须采用一些适当的方法对这些资料进行处理,使之简约化、分类化、系统化,从中发现它们的分布规律,掌握总体的特征,以便对其水平做出客观的评价。

统计描述方法就是研究简缩数据并描述这些数据的统计方法。将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。

统计描述常用的主要分两个方面的内容:(1)频数分布表分析(

Frequencies);

(2)统计描述分析(Descriptivesg);随着统计和计量软件的发展,目前已有许多软件块均可以完成描述性统计,如SPSS、SAS、 EVIEWS等等。下面以常用的SPSS软件为例介绍描述性统计的实现过程。

1.1.频数分布表分析( Frequencies)

频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。

1.1.1.界面说明

从SPSS的“Analyze”->“Descriptive Statistics”->“Frequencies”,进入频数分布表分析过程的主对话框,如图1.1所示:

图1.1频数分布表分析过程的主对话框

下面重点介绍一下各部分的功能如下:

【Display frequency tables复选框】:确定是否在结果中输出频数表。

【Statistics钮】:单击后弹出Statistics对话框如图1.2,用于定义需要计算的其他描述统计量。

图1.2频数分布表分析过程Statistics对话框

现将各部分解释如下:

(1) Percentile Values复选框组:定义需要输出的百分位数,可计算四分位数

(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。

(2)

Central tendency复选框组:用于定义描述集中趋势的一组指标:均数(Mean)、

中位数(Median)、众数(Mode)、总和(Sum)。

(3)

Dispersion复选框组:用于定义描述离散趋势的一组指标:标准差

(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。

(4)

Distribution复选框组:用于定义描述分布特征的两个指标:偏度系数

(Skewness)和峰度系数(Kurtosis)。

(5)

Values are group midpoints复选框:当你输出的数据是分组频数数据,并且

具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。

【Charts钮】:弹出Charts对话框,用于设定所做的统计图。

(1)Chart type单选钮组:定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。

(2)Chart Values单选钮组:定义是按照频数还是按百分比做图(即影响纵坐标刻度)。 【Format钮】:弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。

(1)Order by单选钮组:定义频数表的排列次序,有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。

(2)Multiple Variables单选钮组:如果选择了两个以上变量做频数表,则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organize output by variables则将结果在不同的频数表过程输出结果中显示。

(3)Suppress Tables more than...复选框: 当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。

1.1.2.分析实例

例: 某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。

4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05

解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:

1. Analyze==>Descriptive Statistics==>Frequencies 2. Variables框:选入X 3. 单击Statistics钮:

4. 选中Mean、Std.deviation、Median复选框

5. 单击Percentiles:输入2.5:单击Add:输入97.5:单击Add: 6. 单击Continue钮 7. 单击Charts钮: 8. 选中Bar charts 9. 单击Continue钮 10. 单击OK

得出结果后手工计算出CV。 1.1.3.结果解释

上例除直方图外的输出结果如表1.1和表1.2:

表1.1 统计特征值描述

最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。

表1.2频数分布表

系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。

1.2.统计描述分析过程(Descriptives)

Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。

1.2.1.界面说明

从SPSS的“Analyze”->“Descriptive Statistics”->“Descriptives”,进入统计描述分析过程的主对话框,如图1.3。

图1.3 统计描述分析过程的主对话框

【Save standardized values as variables复选框】:确定是否将原始数据的标准正态评分存为新变量。

【Options钮】:弹出Options对话框,大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的Display Order单选钮组是新的,可以选择为变量列表顺序、字母顺序、均数升序或均数降序。

1.2.2.结果解释

表1.3是一个典型的Descriptives过程结果统计表,一望可知,这里的大部分内容都在上一节见过,结果报告了X变量的样本数N、最小值、最大值、均值和标准差。

表1.3 Descriptives过程结果统计表

二、均值分析与T检验

T检验是检验差异性显著性的十分重要的统计工具,这种差异显著性的检验是样本均值间的比较,因此T检验也可以称为一种均值比较分析。具体包括:单样本T检验、独立样本T检验、配对样本T检验。下面仍然以SPSS为例介绍上述各种均值检验的实现过程。

2.1.独立样本T检验(One-Samples T Test)过程

One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。

2.1.1.界面说明

从SPSS的“Anallyze”->”Compare Means”->”One-Samples T Test”,进入单样本T检验的主对话框,如下图2.1:

图2.1 单样本T检验的主对话框

【Test Variables框】:用于选入需要分析的变量。

【Test Value框】:在此处输入已知的总体均数,默认值为0。 【Options钮】:弹出Options对话框,用于定义相关的选项,有:

(1)Confidence Interval框 输入需要计算的均数差值可信区间范围,默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。

(2)Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

2.1.2.结果解释

One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验某数据中血磷值的总体均数是否等于1,则输出见表2.1和表2.2。

表2.1 One-Samples T Test描述统计表

所分析变量的基本情况描述,有样本量、均数、标准差和标准误。

表2.2 单样本t检验表

表2.2为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于1。

2.2.独立样本T检验(Independent-Samples T Test)过程

Independent-Samples T Test过程用于进行两样本均数的比较,即常用的两样本t检验。进行独立样本T检验要求被比较的两个样本彼此独立,即没有配对关系。要求样本均来自正态总体,而且均值对于检验是有意义的描述统计量。

2.2.1.界面说明

从SPSS的“Anallyze”->”Compare Means”->“ Independent-Samples T Test”,进入独立样本T检验的主对话框,如图2.2所示。

图2.2 独立样本T检验的主对话框

【Test Variables框】:用于选入需要分析的变量。

【Grouping Variable框】:用于选入分组变量。注意选入变量后还要定义需比较的组别。

【Define Groups框】:用于定义需要相互比较的两组的分组变量值。

【Options钮】:和One-Samples T Test对话框的Options钮完全相同,此处不再重复。

2.2.2.结果解释

比如要检验某数据中病患者与健康人的血磷值是否相同,用Independent-Samples T Test过程的结果输出如表2.3和表2.4。

表2.3 独立样本T检验统计表

表2.3为两组需检验变量的基本情况描述。

表2.4 独立样本T检验表

从表2.4可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F = 0.032,P = 0.860,可见在本例中方差是齐性的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐性,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524,ν=22,P=0.019。从而最终的统计结论为按α=0.05水准,拒绝H0,认为病患者与

健康人的血磷值不同,从样本均数来看,可认为病患者的血磷值较高。最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。

2.3.配对样本T检验(Paired-Samples T Test)过程

该过程用于进行配对设计的差值均数与总体均数0比较的t检验,配对样本T检验与独立样本T检验均使用T Test 过程,但两者调用该过程的菜单不同,对数据文件结构的要求不同和使用的命令语句也有区别。在进行配对样本T检验的数据文件中一对数据必须作为同一观测值的两个变量。

2.3.1.界面说明

从SPSS的“Anallyze”->“Compare Means”->“Paired-Samples T Test”,进入配对样本T检验的主对话框,如下图2.3所示。

图2.3 配对样本T检验的主对话框

整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击不可用。

2.3.2.分析实例

某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别?

将其选入。如果只选中一个变量,则

按钮为灰色,

大白鼠对号 1 2 3 4 5 6 7 8

正常饲料组 3550 2000 3000 3950 3800 3750 3450 3050

维生素E缺乏 2450 2400 1800 3200 3250 2700 2500 1750

解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:

1. 同时选中G1、G2:选入Paired Variables框 2. 单击OK钮 2.3.3.结果解释

其输出结果如表2.5。表2.6和表2.7。

表2.5 配对样本统计表

Pair 1 G1 G2 Mean 3318.7500 2506.2500 N 8 8 Std. Deviation 632.42024 555.13029 Std. Error Mean 223.59432 196.26820 配对变量各自的统计描述,此处只有1对,故只有Pair 1。

表2.6 配对样本相关分析

此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。

表2.6 配对样本检验

Mean Std. Deviation Paired Differences Std. Error 95% Confidence Interval of the Difference Lower Upper t df Sig. (2-tailed)

Pair 1 G1 - G2 812.50 546.25 193.13 355.82 1269.18 4.21 7 .004 配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。

三、相关分析

实证研究中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用回归分析来实现,后者则需要用到相关分析实现。 同描述统计分析一样,相关分析可以通过许多不同的软件实现,下面同样用常用的SPSS软件介绍相关分析的实现过程。

SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:

?

Bivariate过程:此过程用于进行两个/多个变量间的参数/非参数相关分析,如果

是多个变量,则给出两两相关的分析结果,这是Correlate子菜单中最为常用的一个过程,实际上我们对它的使用可能占到相关分析的95%以上。计算指定的两个变量间的相关系数,可以选择Pearson相关、Spearman等级相关和Kendall相关。同时对相关系数进行假设检验,可选择进行单尾或双尾检验,给出相关系数为0的概率。当资料不服从双变量正态分布或总体分布未知,或原始数据是用等级表示时,宜用Spearman等级相关和Kendall相关。

?

Partial过程:如果需要进行相关分析的两个变量其取值均受到其他变量的影响,

就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。

?

Distances过程:调用此过程可对同一变量内部各观察单位间的数值或各个不同变

量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。

3.1.Bivariate过程 3.1.1.界面说明

从SPSS的“Analyze”->“Correlate”->“Bivariate”,进入二元变量相关分析过程的主对话框,如图3.1所示。

图3.1 二元变量相关分析过程的主对话框

【Variables框】:用于选入需要进行相关分析的变量,至少需要选入两个。

【Correlation Coefficients复选框组】:用于选择需要计算的相关分析指标,有:

? Pearson复选框:选择进行积距相关分析,即最常用的参数相关分析 ? Kendall's tau-b复选框:计算Kendall's等级相关系数

? Spearman复选框:计算Spearman相关系数,即最常用的非参数相关分析(秩相关)

【Test of Significance单选框组】:用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Flag significant correlations】:用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。

【Options钮】:弹出Options对话框,选择需要计算的描述统计量和统计分析:

? Statistics复选框组:可选的描述统计量。它们是:

(1)Means and standard deviations每个变量的均数和标准差

(2)Cross-product deviations and covariances各对变量的交叉积和以及协方差阵

?

Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到

的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

3.1.2.分析实例

请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。

解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:

1. Variables框:选入judge1、judge2 2. Pearson复选框:选中 3. Spearman复选框:选中 4. 单击OK钮 3.1.3.结果解释

上例的输出结果如表3.1和表3.2所示。

表3.1 变量间Pearson相关分析

在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。

表3.2 变量间Spearman相关分析

表3.2内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。

3.2.Partial过程 3.2.1.界面说明

从SPSS的“Analyze”->“Correlate”->“ Partial”,进入偏相关系数分析过程的主对话框,如图3.2所示。

图3.2 偏相关系数分析过程的主对话框

【Variables框】:用于选入需要进行偏相关分析的变量,至少需要选入两个。 【Controlling for框】:用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。

【Test of Significance单选框组】:意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Display actual significince level复选框】:用于确定是否在结果中给出确切的P值,一般选中。

【Options钮】:弹出Options对话框,选择需要计算的描述统计量和统计分析:

? Statistics复选框组 可选的描述统计量。它们是:

(1)Means and standard deviations每个变量的均数和标准差 (2)Zero-order correlations给出包括协变量在内所有变量的相关方阵

?

Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到

的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

3.2.2.结果解释

偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果表3.3。

表3.3 judge1和judge2偏相关分析结果(控制变量:JUDGE3)

JUDGE1 1.0000

JUDGE1

(0) P= . .5632

JUDGE2

(0) P= .000

(Coefficient / (D.F.) / 2-tailed Significance);

表3.3结果中,显示了偏相关系数、自由度和相关系数对应的显著性P值,结果表明在控制JUDGE3情况下,judge1和judge2的相关系数为0.5632,P=0.000,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义上的相关性。

3.3.Distances过程

JUDGE2 .5632 (297) P= .000 1.0000 (297) P= .

Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。

从SPSS的“Analyze”->“Correlate”-> “Distances”,进入距离分析的主对话框,如下图3.3所示。

图3.3距离分析的主对话框

【Variables框】:用于选入需要进行距离相关分析的变量,至少需要选入两个。 【Label cases by框】:选择一个变量用于给各个记录加上标签,可以不选。 【Compute Distances单选框组】:其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。

【Measure单选框组】:用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。

【Measure钮】:和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:

1、选择Dissimilarities时各种数据类型可用的测距方法有: (1)计量资料

? Euclidean distance:以两变量差值平方和的平方根为距离; ? Squared Euclidean distance:以两变量差值平方和为距离; ? Chebychev:以两变量绝对差值的最大值为距离;

? Block:以两变量绝对差值之和为距离;

? Minkowski:以两变量绝对差值p次幂之和的p次根为距离; ? Customized:以两变量绝对差值p次幂之和的r次根为距离。

(2)计数资料

? Chi-square measure:χ2值测距;

? Phi-square measure:ψ2值测距,即将χ2测距值除合计频数的平方根。

(3)二分类变量

? Euclidean distance:二分差平方和的平方根,最小为0,最大无限; ? Squared Euclidean distance:二分差平方和,最小为0,最大无限; ? Size difference:最小距离为0,最大无限; ? Pattern difference:从0至1的无级测距; ? Variance:以方差为距,最小为0,最大无限;

? Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。

2、选择Similarities时各种数据类型可用的测距方法有: (1)计量资料

? Pearson correlation:以Pearson相关系数为距离; ? Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。

(2)二分类变量

? Russell and Rao:以二分点乘积为配对系数;

? Simple matching:以配对数与总对数的比例为配对系数;

? Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; ? Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;

? Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非

配对数,非配对数给予加倍的权重;

? Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非

配对数,配对数给予加倍的权重;

? Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,

但分子给予加倍的权重;

? Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非

配对数,分子与分母的权重相同;

? Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配

对数,分子与分母的权重相同;

? Kulczynski 2:Kulczynski平均条件概率;

? Sokal and Sneath 4:Sokal and Sneath 条件概率; ? Hamann:Hamann概率;

? Lambda:Goodman-Kruskai相似测量的λ值;

? Anderberg's D:以一个变量状态预测另一个变量状态; ? Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数; ? Yule's Q:Goodman-Kruskal γ值,属于2×2四格表的列联比例函数。

(3)其他类型变量

? Ochiai:Ochiai二分余弦测量;

? Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; ? Phi 4 point correlation:Pearson相关系数的平方值; ? Dispersion:Dispersion相似测量。 ? 同时,还可以选择数据转换形式: ? None:不作数据转换; ? Z-Scores:作标准Z分值转换;

? Range -1 to 1:作-1至+1之间的标准化转换; ? Range 0 to 1:作0至1之间的标准化转换; ? Maximum magnitude of 1:作最大量值1的标准转换; ? Mean of 1:作均数单位转换;

? Standard deviation of 1:作标准差单位转换

四、回归分析

4.1.一元线性回归分析 4.1.1.线性回归分析概念

在数量分析中,我们经常会看到变量与变量之间存在着一定的联系,而不只是前面所讨论的单个变量的某些孤立的特性,如均值、方差的特性等。我们要了解的是变量之间是如何

发生相互影响的,这就是所谓回归分析。

为了具体说明,考虑家庭月可支配收入如何影响消费支出。如果把不同的可支配收入X (千元)对应的消费支出Y(千元)画在平面图上,那么可以得到如下的散点图4.1。

图4.1 家庭可支配收入与消费支出之间的散点图

从该图4.1似乎可以看到可支配收入确实对消费支出有影响。也应该可能通过拟合一条穿过这一散点图的直线或曲线来描述可支配收入X 是如何影响消费支出Y 的。这里的消费支出Y 取决于可支配收入,作为因变量(或被解释变量、响应变量),可支配收入X 不依赖于消费,作为自变量(或解释变量、独立变量、预测因子、回归子等)。

4.1.2.一元线性回归分析实现

下面以SPSS 为例介绍一元线性回归方程估计的实现过程。在SPSS中进行一元线性回归方程估计的操作步骤为:

(1)建立数据文件,定义“消费支出”变量为Y,定义“可支配收入”变量为X,并录入;

(2)选择主菜单[Analyze]=>[Regression]=>[Linear],打开[Linear Regression]主对话框,见图4.2。在左边列表框中选定变量Y,单击按钮,使之进入[Dependent]框,选定变量X,单击按钮使之进入[Independent(s)]框。

图4.2线性回归主对话框

(3)单击[OK]按钮,得到如下结果见表4.1。

输出结果中的[Unstandardized Coefficients]指未标准化的系数估计值(B)及其标准误(Std.Error)。可以看出,系数估计值分别为b0=0.607,b1 =0.542. b1 对应的T检验统计量的值为12.832,P值为0.00,拒绝可支配收入对消费支出没有影响的零假设,即认为可支配收入对消费支出有着显著的影响。F 检验是对回归总体线性关系是否显著的一种假设检验。本例中F值为164.655,对应的P值为0.00,结果拒绝回归总体线性关系不显著的零假设,即认为回归总体线性关系显著。

表4.1 线性回归分析结果

4.2.多元线性回归模型 4.2.1.多元线性回归模型介绍

一元线性回归分析所反映的是一个因变量与一个自变量之间的关系。但是,在实际的经济活动中,某一现象的变动常受多种现象变动的影响。例如,家庭消费支出除了受可支配收入水平的影响外,还会受以往消费和收入水平的影响;这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。

假定因变量Y 与p 个自变量X1,X2,?XP 之间的回归关系可以用线性函数来近似反映。

多元线性总体回归模型的一般形式如下:

Yi??1??2X1i??3X2i????pXpi?ui

其中,其中,Yi 是被解释变量,X1i 、X2i ,?Xpi是解释变量,ui是随机干扰项,i 指第i 项观测。?1,?2??p叫做偏回归参数。

4.2.2.多元线性回归模型实现

下面以SPSS为例介绍多元线性回归的实现过程。

例:某种商品的需求量Y、价格X1 和消费者收入X2 的统计资料如表4.2所示,试估计Y对X1 和X2 的线性回归方程。

表4.2某种商品的需求量、价格 和消费者收入 的统计资料

年份 1 2 3 4 5 6 7 8 9 10

年份需求量Y(吨) 59190 65450 62360 64700 67400 64440 68000 72400 75710 70680

价格X1(元) 23.56 24.44 32.07 32.46 31.15 34.14 35.3 38.7 39.63 46.68

收入X2(元) 76200 91200 106700 111600 119000 129200 143400 159600 180000 193000

用SPSS 估计参数步骤如下:

图4.3多元线性回归主对话框

1、在SPSS 中输入变量数据,设变量名分别为Y、X1、X2。

2、选择主菜单[Analyze]=>[Regression]=>[Linear…],显示如图4.3所示的对话框。 3、选择Y 进入[Dependent]因变量框,选择X1、X2 进入[Independent(s)]自变量列表框,单击[OK]。

4、回归结果输出如下:

输出结果说明:

(1)Unstandardized Coefficients B:参数估计值,有样本回归方程:

?Y?62650.928?979.057X1?0.286X2

(2) Unstandardized Coefficients Std. Error :参数估计值对应的标准误差, 分别为S(b0)=4013.010 ,S(b1)=319.784, S(b2)=0.058

(3)Std. Error of the Estimate:估计的标准误差S,本例中S=1738.9846。 (4) R 为复相关系数。R=0.950,说明Y 与自变量X1、X2 之间的相关程度为95.0%。 (5) R Square:R,即样本判定系数。R=0.902 说明Y 的变动中有90.2%可以由自变量X1 和X2 解释,其中Adjusted R Square,即调整的判定系数为0.874。

(6)t 就是t 统计量值,Sig 是实际显著性水平即p 值。所以t1=-3.062,p1=0.018。在α取5%的情况下,p<α,所以拒绝H0,认为X1 对Y 的线性作用显著。

4.3.逻辑回归分析 4.3.1.逻辑回归分析概念

2

2

线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic 回归分析根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和Multinomial Logistic 回归分析,Binary Logistic 回归模型中因变量只能取两个值1 和0(虚拟因变量),而Multinomial Logistic 回归模型中因变量可以取多个值,在此只讨论Binary Logistic 回归,并简称Logistic 回归。

4.3.2.逻辑回归分析实现

下面以SPSS为例介绍Logistic 回归的实现。

例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把Y=1 定义为拥有住房,Y=0 定义为其它情况。有无住房及收入情况的统计资料如表4.3所示。

表4.3 有无住房及收入情况的统计表

住房Y 0 1 1 0 0 1 1 0 0 1 0 0 1 1

收入X 10 17 18 14 12 9 20 13 9 19 12 4 14 20

住房Y 0 1 0 1 1 0 0 1 0 1 1 1 0 0

收入X 10 17 13 21 16 12 11 16 11 20 18 16 10 8

住房Y 0 0 1 1 0 1 1 1 1 0 0 1 0 1

收入X 11 8 17 16 7 17 15 10 25 15 12 17 17 16

0 1 0

6 19 11

0 1 1

18 22 20

1 0

18 11

在SPSS 中估计参数步骤如下:

(1)在SPSS 中录入上表中数据(变量为Y 和X),并保存数据文件;在主菜单中选择[Analyze]=>[Regression]=>[Binary Logistic]。

(2)在[Logistic Regression]对话框中,选择Y 进入[Dependent]框作为因变量,选择X 进入

[Covariates]作为自变量(如图4.4所示)。单击[Method]的下拉菜单,SPSS 提供了7 种方法:

[Enter]:所有自变量强制进入回归方程;

[Forward: Conditional]:以假定参数为基础作似然比检验,向前逐步选择自变量; [Forward: LR]:以最大局部似然为基础作似然比检验,向前逐步选择自变量; [Forward: Wald]:作Wald 概率统计法,向前逐步选择自变量;

[Backward: Conditional]:以假定参数为基础作似然比检验,向后逐步选择自变量; [Backward: LR]:以最大局部似然为基础作似然比检验,向后逐步选择自变量; [Backward: Wald]:作Wald 概率统计法,向后逐步选择自变量。 本例选默认项[Enter]方法。

图4.4 Logistic Regression主对话框

(3)单击[Logistic Regression]对话框中的[Options]按钮,显示子对话框如图4.5,在子

对话框中选择[Classification plots]和[Hosmer-Lemeshow等选项,并单击Continue]返回主对话框。

图4.5 Logistic Regression]对话框中的[Options]按钮子对话框

(4)单击主对话框中[OK]按钮,输出结果如下:

下面解释上面结果的一些常用的检验统计量: 1、-2 对数似然值(-2 log likelihood,-2LL)

似然(likelihood)即概率,特别是由自变量观测值预测因变量观测值的概率。与任何概率一样,似然的取值范围在0、1 之间。对数似然值(log likelihood,LL)是它的自然对数形式,由于取值范围在[0,1]之间的数的对数值负数,所以对数似然值的取值范围在0 至-∞之间。对数似然值通过最大似然估计的迭代算法计算而得。因为-2LL 近似服从卡方分布且在数学上更为方便,所以-2LL 可用于检验Logistic 回归的显著性。-2LL 反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,又称为拟合劣度卡方统计量(Badness-of-fit Chi-square)。当-2LL 的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度越好。-

2、Cox 和Snell 的R2(Cox & Snell’s R-Square)

Cox 和Snell 的R2试图在似然值基础上模仿线性回归模型的R2解释Logistic 回归模型,但它的最大值一般小于1,解释时有困难。

3、Nagelkerke 的R2(Nagelkerke’s R-Square)

为了对Cox 和Snell 的R2 进一步调整,使得取值范围在0 和1 之间,Nagelkerke 把Cox和Snell 的R2 除以它的最大值。

4、Hosmer 和Lemeshow 的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit

Test Statistic)

与一般拟合优度检验不同,Hosmer 和Lemeshow 的拟合优度检验通常把样本数据根据预测概率分为十组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer 和Lemeshow 的拟合优度检验统计量,简称H-L 拟合优度检验统计量),最后根据自由度为8的卡方分布计算其p 值并对Logistic 模型进行检验。如果该p 值小于给定的显著性水平α(如α=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果p 值大于α,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。

5、Wald 统计量

同线性回归方程的参数显著性检验似,Wald 统计量用于判断一个变量是否应该包含在模型中,Wald 统计量近似服从于自由度等于参数个数的卡方分布。判断变量是否显著类似于线性回归。

五、非参数检验

非参数检验,是不依赖总体分布的统计推断方法,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数而得名。这类方法的假定前提比参数检验方法少得多。也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。

下面以SPSS为例介绍非参数检验的具体应用。在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中,具体来讲有以下几种:

? Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望

的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,)。

?

Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,

也可以使连续性变量,然后按你给出的分界点一刀两断。

?

Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数

值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。

?

One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析

变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。

? ?

Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。 Tests for Several Independent Samples:成组设计的多个样本均数比较的非参

数检验,此处不提供两两比较方法。

5.1.卡方检验(Chi-square test) 5.1.1.卡方检验步骤

假设一个定性变量Y 具有k 个可能取值或有k 种分类(标为1,2,.,k),Y 的概率分布自然地由概率函数P(Y=i)(i=1,2,.,k)所确定。现在要考查已观察到的一组样本(容量为n)与某确定的分布G 拟合的程度,相当于研究P(Y=i)(i=1,2,.,k)与G 之间的差异,看这个差异是否属于偶然变异,根据原假设认为差异是偶然变异所致这样的原则,卡方检验的步骤如下:

1、提出假设

H0:P(Y=i)=Gi (i=1,2,.,k ,Gi 为G 分布) H1:P(Y=i)≠Gi 2、构造统计量

?Q?Ei???2?2??i?k?1?

ki?12Ei其中,Qi 为观测频数,期望频数i Ei?nk

3、作出判断

如果?2????2k?1?) 或p<α,则拒绝零假设。 5.1.2.卡方检验的实现

例:掷一颗六面体300 次,结果如表5.1所示,试问这颗六面体是否均匀?(α=0.05)

表5.1掷一颗六面体点数观测频数表

点数i 观测频数Qi 1 43

2 49

3 56

4 45

5 66

6 41

解:(1)定义变量名为Y,取值为1、2、3、4、5、6,分别代表六面体的六个点,在SPSS 中输入数据。

(2)选择主菜单[Analyze]=>[Nonparametric Tests]=>[Chi-square]

(3)在显示的[Chi-square Test(卡方检验)]主对话框中,把Y 选入[TestVariable]作为检验变量(如下图5.1):

图5.1卡方检验主对话框

(4)单击[OK]后,输出结果如下:

这里的Asymp. Sig. ( The significance level based on the asymptoticdistribution of a test statistic)是基于卡方统计量的渐近分布的实际显著性水平( 渐近p 值), 它以数据集为一个大样本的假设为基础。因为p=0.111>α=0.05,所以认为该六面体是均匀的。

5.2.二项分布检验(Binomial Test) 5.2.1.二项分布检验步骤

实际问题中,有许多总体是由二项式组成的。例如,是与非、男与女、正面与背面、正确与错误等等。这种总体通常就称为二项总体。对于一个二项总体,如果其中的一类所占所占比重为P,则另一类的比重一定是Q=1-P。在既定总体中,P 是一个定值。然而,从该总体中任意抽取一个随机样本,所得到的样本比率P,却是一个随机变量。因为样本仅是总体的一小部分,基于样本得到的信息P,不会刚好等于总体的P,二者之间难免出现误差,这种误差称为抽样误差。理论上已经证明,二者之间出现较小误差的概率比较大,而出现较大误差的概率相对来说就比较小,这就是通常所说的“小概率不可能出现”的原理。当研究对象属于二项总体时,可以用二项分布来检验假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下:

1.提出假设

H0:P=Pt (0≤Pt≤1) H1:P≠Pt 2、计算统计量值和p 值

3、根据p 值作出统计判断。 5.2.2.二项分布检验实现

例:掷一枚球类比赛用的挑边器40 次,出现A 面和B 面在上的次数如下表5.2所示,试问这枚挑边器是否均匀?

表5.2 掷挑边器A 面和B 面在上的次数表

1 0 1 1 0 1 1 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 0 1 1 1 0 1 1 0 1 1

其中:0 表示A 面向上,1 表示B 面向上。

解:(1)在SPSS 中输入上表中的数据(变量名为Y)。选择主菜单的[Analyze]=> [Nonparametric Tests]=> [Binomial Test]。

(2)显示如图5.2所示的[Binomial Test(二项检验)]主对话框,把Y选入[Test Variable],其它选项采用默认值。

图5.2二项检验主对话框

(3)单击主对话框中的[OK]按钮,输出结果如下:

5.3.游程检验(Run Test) 5.3.1.游程检验的原理与步骤

游程检验是一种利用游程的总个数来判断样本随机性的统计检验方法。所谓游程,就是

指在样本单位的抽取序列中,某一类型的单位被另一类型单位在其前后隔开所形成的一个连续串。例如,令X1、X2?Xn为样本容量n 的一个随机样本的观察值,假设它存在两种不同类型的单位,一类记为A,另一类记为B。这样,当将其按任何顺序排列时,可以得到一个由A和B两种元素组成的序列。形成的序列有如下几种可能的典型方式(假设A 的单位数为N1=8,B 的单位数为N2=7 ):

第一种情况:AAAAAAAABBBBBBB; 第二种情况:AAAABBBBAAAABBB; 第三种情况:ABBAAABABBBABAA; 第四种情况:ABABABABABABABA。

在第一种情况中,A 的游程数为 R1 =1,B 的游程数为 R2 =1; 在第二种情况中,A 的游程数为 R1 =2,B 的游程数为R2 =2; 在第三种情况中,A 的游程数为R1 =5,B 的游程数为 R2 =4; 在第四种情况中,A 的游程数为 R1=8,B 的游程数为 R2 =7。

设R 为总游程数,R=R1+R2 。在第一种情况中,R=1+1=2;第二种情况下,R=2+2=4;第三种情况中,R=5+4=9;第四种情况中,R=8+7=15。显然,R 的最小值为2,最大值在N1≠N2 时,为Min(N1,N2)+1, 在N1=N2 时,为N1+N2。

游程检验的基本原理是这样的:如果我们希望从总体的一个样本所包含的信息中得出关于该总体的某些结论,或是要判别两个样本是否来自同一个总体,那么所采用的样本必须是随机样本。游程检验法使得我们能够检验“样本是随机的”这一假设。在任一既定大小的样本中,游程总数标志着样本是否是随机样本。如果游程总数太少,例如上述的第一、第二两种情况,它意味着样本中包含着某种主观的带有倾向性的因素,缺乏独立性,因此,肯定不是随机的样本。同理,如果游程总数太多,达到最大值,例如上述的第四种情况,也同样有理由认为这是由于有系统的短周期波动影响着观察的结果。也就是说,游程总数太少或太多的样本序列绝对不是随机的序列。为了知道R 是否太少或太多,即检验样本序列的随机性,必须了解游程总数R 的概率分布。实际检验步骤如下:

(1)提出假设 H0:样本是随机的; H1:样本不是随机的。 (2)构造统计量并计算p 值

用于把样本数据分成两类(A 和B)的分割点可以是指定的某个具体数值,也可以是均

值、中位数、众数等。当Xi >分割点时设为A 类,否则为B 类,其相应的单位数分别为N1 和N2 。在大样本情况下,游程总数R的分布接近于正态分布。

(3)作出判断

5.3.2.游程检验检验实例分析

例:假设从总体中抽取一个样本,记录其先后出现的样本值如表5.3,试利用游程检验法来检验样本序列的随机性。(α=0.05)

表5.3从总体中抽取样本值统计表

31 23 36 43 51 44 12 26 43 75 2 15

18

78

24

13

27

86

61

13

7

6

解:(1) 在SPSS 中输入数据( 变量名为X), 然后选择主菜单[Analyze]=>[Nonparametric Tests]=>[Runs];

(2)在显示的[Runs Test(游程检验)]主对话框中,把变量X 选择入[TestVariable(检验变量)]列表框中,并采用默认的分割点(Cut point):中位数(Median)。

图5.3游程检验主对话框

(3)单击主对话框中[OK]按钮,输出结果如下:

3 8

根据输出结果,p=0.297>α=0.05,所以接受零假设,即样本是随机的。 5.4.单样本柯尔莫哥诺夫—斯米尔诺夫检验(One-sample K-S test) 5.4.1.样本柯尔莫哥诺夫—斯米尔诺夫检验步骤

柯尔莫哥诺夫—斯米尔诺夫检验(Kolmogorov-Smirnov Test,简称K-S检验)用于检验一组样本观测结果的经验分布同某一指定的理论分布(如正态分布、均匀分布、泊松分布、指数分布)之间是否一致。K-S 检验的基本思路为:将顺序分类数据的理论累积频率分布同观测的经验累积频率分布加以比较,求出它们最大的偏离值,然后在给定的显著性水平上检验这种偏离值是否的偶然出现的。

设理论累积频数分布为F(x),n 次观测的随机样本的经验分布函数 Fn(x) ,K-S 检验的步骤如下:

(1)零假设H0:经验分布与理论分布没有显著差别。

(2)把样本观测值从小到大排列为: X(1)、X(2)?, X( n),并计算经验累积分布函数。 (3)作出判断。

5.4.2.样本柯尔莫哥诺夫—斯米尔诺夫检验案例分析 例:检验游程检验案例中的样本数据是否来自正态总体。 解:(1)在SPSS 中输入数据(变量名为X),选择[Analyze]=>[NonparametricTests]=>[1-Sample K-S]。

(2)在[One-Sample Kolmogorov-Smirnov Test(单样本K-S 检验)]主对放大框中,把变量X 选入[Test Variable]列表框中,并选择[Test Distribution(检验分布)]中的[Normal(正态分布)]。

图5.4 样本柯尔莫哥诺夫—斯米尔诺夫检验主对话框

(3)单击主对话框中的[OK]按钮,输出结果如下:

由结果:p=0.664>α,所以认为样本来自正态分布总体。 5.5.两个独立样本检验

5.5.1.两个独立样本检验的步骤

虽然有时样本所属的总体的分布类型往往是不明的,但我们还是想知道在这种情况下两个独立样本是否来自相同分布的总体,Mann-Whitney U检验、Kolmogorov-Smirnov Z 检验、Moses Extreme Reactions 检验和Wald-Wolfowitz 游程检验等就是用于处理此类问题的有效方法。其中Mann-Whitney U 检验是处理该问题中最常用的方法。这些方法的基本假设有:(1)随机抽样;(2)两个样本是独立的;(3)数据变量为定序变量或更高层次的变量。

Mann-Whitney U 检验又称为秩和U 检验,用于检验两个独立样本是否来自相同的总体

(与t 检验类似);Kolmogorov-Smirnov Z 检验,用于推测两个样本是否来自具有相同分布的总体;Moses extreme reactions 检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;Wald-Wolfowitz 游程检验考察两个独立样本是否来自具有相同分布的总体。这些方法的检验步骤为:

(1)提出假设:

H0:两个独立样本来自相同的总体 H1:两个独立样本来自不同的总体 (2)计算相应检验统计量值或p 值

若p>α,接受H0,认为两个样本自来相同的总体;否则,拒绝H0,认为两个样本来自不同的总体。

5.5.2.两个独立样本检验实例分析

例:设有甲、乙两种安眠药,要比较它们的治疗效果。现独立观察20 个失眠者(其中10 人服用甲药,另10 人服用乙药),服用安眠药后睡眠时间延长的时数如表5.4所示。现延长的睡眠时数的分布情况不明,试问这两种药物的疗效有无显著性差异?

表5.4 服用甲、乙两种安眠药延长的睡眠时数表

序号 A B

1 1.9 0.7

2 0.8 -1.6

3 1.1 -0.2

4 0.1 -1.2

5 0.1 -0.1

6 4.4 3.4

7 5.5 3.7

8 1.6 0.8

9 4.6 0.0

10 3.4 2.0

操作步骤:

(1)录入数据。服用安眠药后时间延长的变量为Y,用变量G 表示所对应的实验组,G=1 表示失眠者服用甲药组别,G=2 表示失眠者服用乙药组别。

(2) 选择主菜单[Analyze]=>[Nonparametric Tests]=>[2 IndependentSamples]。在[Test Type(检验类型)]中选择四种检验方法。把Y 选入[TestVariable]列表框,把G 选入[Grouping Variable]并单击[Define Groups(定义组)]按钮。在定义组对话框中[Group 1]的右框中输入1,在[Group 2]的右框中输入2,并单击[Continue]返回主对话框。

图5.5 两个独立样本检验主对话框

(3)单击主对话框中的[OK]按钮,输出结果如下:

Two-Sample Kolmogorov-Smirnov Test

因四种方法计算出来的p 值均大于0.05,所以可以认为这两种药物的疗效无显著性的差异。

5.6.多个独立样本检验

多个独立样本检验方法主要有:Kruskal-Wallis H 检验、中位数(Median)检验和Jonckheere-Terpstra 检验。Kruskal-Wallis H 检验为单向方差分析,检验多个样本在中位数上是否有差异;中位数检验法用于检验多个样本是否来自具有相同中位数的总体;Jonckheere-Terpstra 检验法用于检验多个独立样本是否来自相同总体,它适用于定量数据和定序分类数据,当要检验的多个总体是定序变量时,Jonckheere-Terpstra 检验法比Kruskal-Wallis H 检验法更为有效。

例:消费者协会采用1 到20 分来评价四家冷藏食品公司的油炸鸡。他们相求出这些公司的鸡在质量上是否有所不同。表5.5给出了四家公司的评价。(α=0.05)

表5.5 四家冷藏食品公司的油炸鸡评分表

公司 A B C D

评分Y 2 2 5 6 10 18 19 16 20 12 18 18 15 17 12 14 12 11 4 1 3 8 7 8 9

G 1 2 3 4

解:(1)变量Y 表示评分,G 表示相应的公司。在SPSS 中录入数据

(2)选择[Analyze]=>[Nonparametric Tests]=>[K Independent Samples]。在对话框中,在[Test Type]中选择[Kruskal-Wallis H]和[Median];把Y 选入[Test Variable];把G 选入

[Grouping Variable(分类变量)]并单击[Define Range(定义范围)],在定义范围对话框的[Minimum]的右框中输入1,在[Maximum]的右框中输入4,单击[Continue]返回主对话框。

图5.6 多个独立样本检验主对话框

(3)单击[OK],输出结果如下:

从结果可以看出,两种检验方法的p 值均小于0.05,所以拒绝零假设,认为四家公司的产品之间有显著性的差异。

5.7.两个相关样本检验

两个相关样本检验的方法主要有:Wilcoxon 检验、Sign(符号)检验、McNemar 检验和Marginal Homogeneity 检验等。Wilcoxon 检验用于检验两个相关样本是否来自相同的总体,但对总体分布形式没有限制;Sign 检验通过计算两个样本的正负符号的个数来检验两个样本是否来自相同总体;McNemar 检验用于两个相关二分变量的检验;Marginal Homogeneity 检验用于两个相关定序变量的检验,是McNemar 检验的扩展。

例:为研究长跑运动对增强普通高校学生的心功能效果,对某院15名男生进行实验,经过5 个月的长跑锻炼后看其晨脉是否减少。锻炼前后的晨脉数据如下表5.6所示。

表5.6 锻炼前后的晨脉数据表

锻炼前

70

76

56

63

63

56

58

60

65

65

75

66

56

59

70

锻炼后 48 54 60 64 48 55 54 45 51 48 56 48 64 50 54

SPSS 操作步骤如下:

(1)输入数据,变量X1 表示锻炼前晨脉数据,变量X2 表示锻炼后晨脉数据。 (2)选择[Analyze]=>[Nonparametric Tests]=>[2 Related Samples]。在显示的

[Two-Related-Samples Test] 先后单击变量X1 和X2,在[Current Selections]框中的[Variable 1]和[Variable 2]中依次出现所选择的两个相关变量,然后单击右边一个右箭头按钮,变量名被选入[Test Variable List]列表框中;选择[Test Type]框中的[Wilcoxon]、[Sign]、[McNemar]和[Marginal Homogeneity]检验方法。

图5.7 两个相关样本检验主对话框

(3)单击[OK]按钮,输出结果如下:

从输出结果可以看出,p<0.05,说明经过5 个月的长跑锻炼后学生的晨脉减少了。

5.8.多个相关样本检验

多个相关样本的检验方法有:Friedman 检验、Kendall W 检验和CochranQ 检验等。Friedman 检验为双向方差分析,考察多个相关样本是否来自同一总体;Cochran Q 检验作为两相关样本McNemar 检验的多样本推广,特别适用于定性变量和二分字符变量;Kendall W 检验,通过计算Kendall 和谐系数W,以检验多个相关样本是否来自同一分布的总体。

例:某商店想了解顾客对几种款式不同的衬衣的喜爱程度。某日询问了9 名顾客,请它们对3 种款式的衬衣按喜爱程度排次序(最喜爱的给秩1,其次的给秩2,再次的给秩3,结果如下表5.7所示,试问顾客对3 种款式的衬衣的喜爱程度是否相同?

表5.7 顾客对不同款式的衬衣的喜爱程度数据表

顾客号 款式1 款式2 款式3

1 1 3 2

2 2 1 3

3 2 3 1

4 1 3 2

5 3 2 1

6 1 2 3

7 2 3 1

8 1 3 2

9 1 3 2

解:(1)在SPSS 按左图方式输入数据(变量名分别为X1、X2、X3。)

(2)选择[Analyze]=>[Nonparametric Tests]=>[K Related Samples]。在显示的主对话框中, 选择[Test Type] 栏中的[Friedman] 、[Kendall’s W] 和Cochran’s Q]。单击[OK]按钮。

(3)输出结果如所示:

本文来源:https://www.bwwdw.com/article/74up.html

Top