生物统计学

更新时间:2024-04-21 15:12:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章

科学研究是人类认识自然、改造自然、服务社会的原动力。 自然科学:

1理论科学:主要用推理的方法(演绎、归纳)进行研究 2实验科学:主要通过周密设计的试验进行探索 生物学领域中所涉及的学科大多属于实验科学。 常用的研究方法:1科学试验 2抽样调查 一、科学研究的基本过程

1.对研究的命题形成一种认识或假说

2.根据假说涉及的内容安排相斥的试验或抽样调查

3.根据试验或调查资料进行推理,肯定或否定或修改假说,从而形成结论。 二、科学研究的基本方法 1、选题

课题的选择决定了研究创新的潜在可能性。 选题时必须明确其意义与重要性。

理论性研究注重在未来学科发展上的重要性。 应用性研究注重对未来生产发展的作用和潜力。 2、文献

科学的发展是累积性的,通过对文献的了解可以把研究者推到研究的顶层,避免少走弯路。 选题要有文献的依据,设计研究内容和方法更需文献的启示。 3、假说

假说的概念:假说是根据已知的科学事实和科学原理,对所研究的问题及其规律性提出的一种假定性的推测和说明。

构成假说的基本要素:事实基础,背景理论对现象、规律的猜测,推导出的预言和预见。 例如大陆飘移,是一个著名的假说。人们发现,非洲西部的海岸线和南美东部的海岸线彼此形状相吻合。1910年,德国地球物理学家魏根纳依据已知的力学原理、海岸形状、地质和古气候方面的有限数量的科学材料,提出了大陆不是固定的,而是可以飘移的假定。 4、假说的检验

假说的检验方法:逻辑分析和实践检验两个步骤。 逻辑分析:判断假说的可检验性。 实践检验:分为直接检验和间接检验。

直接检验:即用观察和实验直接观测科学假说的实质内容,以证实或否证科学假说。 间接检验:即用观察和实验观测来检验假说基本命题所推演出来的结论或预言。通常用逻辑推演与实践证明相结合的方式。 5、试验的规划与设计

围绕检验假说而开展的试验,需要全面、仔细地规划与设计。试验所涉及的范围要覆盖假说涉及的各个方面,以便对待检验的假说作出无遗漏的判断。

注意:生物学试验中结果的“1重演性”及比较试验中的“2唯一差异性原则”。 1在试验条件相当的情况下,重复试验应得到相同的试验结果。 2除需要比较的因素以外,其余的因素必须保持在同一水平。

观察值(observation):将每次所取样品测定的结果称为一个观察值,记为yi。 例如:测定绵农4号小麦品种的株高,得到以下数值(单位:cm): 90、91.5、93、89、90.8 其中的每一个数值就是一个观察值。

如果没有误差,上述观察值就不会出现差异,并始终保持一个恒定的值,这个值称为理论值或真值,以μ表示。

由于误差是客观存在的,所以:观察值=真值+误差 用代数式表示为: yi= μ+εi

式中εi代表误差,故:εi= yi- μ 误差(error):观察值与真值之间的差异。 误差的分类:

随机误差:完全是偶然的,找不出确切原因引起的误差,也称偶然性误差。 系统误差:有一定原因引起的误差,也称偏差。

准确性:观察值与理论值之间的符合程度。精确性:指观察值之间的符合程度。 下面用例子说明误差与准确性和精确性之间的关系。 系统误差使数据偏离了其理论值,影响数据的准确性。 随机误差使数据相互分散,影响了数据的精确性。

系统误差 来源于各种研究领域中,可能产生的、有一定原因的系统偏差。

随机误差 来源于试验过程中各种偶然因素的影响,试验的环节愈多,时间愈长,随机误差发生的可能性及波动性便愈大。

系统误差源自某种系统性原因,它的规律性比较明显。

随机误差就个体而言,很难寻找它的规律性;但对一个比较大的群体,也有规律可循。如数量性状的随机误差在理论上服从正态分布。 1.2.4 试验误差的层次性

这里用一个例子说明误差的层次性问题:

取100个30g大豆种子的样品测定蛋白质含量。 第一层次的误差:来源于抽样引起的误差。

第二层次的误差:从30g种子中取2g进行分析,要求测定两次,两次测定结果若相差太大还需进行第三次测定。可见第二层次的误差来源于测定过程的误差。 1.3 生物统计学的概念

定义:生物统计学是以概率理论为基础,研究生命科学中随机现象规律性的方法论科学。 生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。

1.4 生物统计学的主要内容

1、提供整理和描述数据的科学方法

我们用教材P20的例子来说明这个问题。 2、提供由样本推论总体的科学方法

所谓总体(Population)就是由性质相同的个体所组成的集团。统计学上所涉及的总体,其中的个体数(总体容量)N一般情况下趋于无穷大。因此无法对总体进行研究。

N例如:计算总体平均数

yi

??1 N这个公式十分简单,把总体中所有观察值相加,再除以观察值个数就行了,但由于N→∞,我们无法完成计算。

?

样本(Sample):是总体的一部分。其容量用n表示,样本容量n一般都不是很大,因而,可

n以计算出样本的平均数:

yi

y?1 n因此统计学的重要任务之一,就是用样本的结果去推断总体的结果。 3、提供通过误差分析以鉴定处理效应的科学方法

例如有两个小麦品种A和B,A品种每公顷产量为5000kg,B品种每公顷产量为4500kg,两个品种之间相差500kg。

是否可以下结论说:A品种比B品种产量高? 答案是:否!

因为: yA= μA+εi yB= μB+εi yA与yB之间的差异有两种可能:

其一: μA与μB之间存在差异(但我们无法计算) 其二:误差的影响。

4、提供探索事物间互相联系的科学方法。

5、提供进行科学试验设计的一般方法和重要原则。 1.5.1 生物统计学的发展

17世纪Pascal和Fermat的概率论

18世纪De Moiver、Laplace和Gauss的正态分布理论

19世纪达尔文研究生物界的连续变异;孟德尔发现性状分离、独立分配遗传规律;Karl Pearson研究进化问题,创建了Biometrika杂志;Glaton研究了亲子身高的回归问题。 20世纪以来, Gosset发现了t分布

Fisher提出了方差分析、建立了试验设计的三大原理、并提出了随机区组、拉丁方等试验设计,尤其是1925年出版的“Statistical Methods for Reasarch Workers”形成了试验统计学较为完整的体系。

Yates、Yule等发展了一系列的试验设计。

Neyman和E.S.Pearson建立了统计推断的理论。 Snedecor建立了统计试验室并出版了“Statistical Methods Applied to Experiment in Agriculture and Biology”。

Wald建立了序贯分析和统计决策函数的理论。

Cochran和Cox系统地归纳了试验设计和抽样方法研究的进展,出版了“Experimental Design”和“Sampling Technique”。

第二章

次数分布和平均数、变异数 2.1 总体及其样本

总体(population):具有相同性质的个体组成的集团。

无限总体(infinite population):总体中包含的个体数目有无穷多个,这种总体称为无限总体。 有限总体(finite population):总体中包含的个体数目有限,这种总体称为有限总体。 观察值(observation):每一个体的某一个性状、特性的测定数值叫做观察值。 变数(variable):观察值集合起来,称为变数。 例如:测定8个人的身高,得到以下数据: 160、167、175、180、158、169、173、170、

参数(parameter):由总体的全部观察值而算得的总体特征数,如总体平均数,称为参数。 样本(sample):从总体中抽出的一部分个体的集合。

?

统计数(statistic):测定样本中的各个体而得到的样本特征数,如平均数。 估计值(estimate):统计数是总体相应参数的估计值。 随机样本(random sample):从总体中随机抽取的样本。 样本容量(sample size):样本中包含的个体数,用n表示。 一、数量性状资料

数量性状(quantitative trait):的度量有计数与量测两种方式。

1、不连续或间断性变数(discontinuous or discrete variable):指用计数方法获得的数据。 2、连续性变数(continuous variable):指称量、度量或测量方法得到的数据。 二、质量性状资料

质量性状(qualitative trait):指能观察而不能量测的性状。 1、统计次数法

2、给予每类性状以相对数量的方法。 一、间断性变数资料的整理 二、连续性变数资料的整理 以140行水稻试验的产量为例 1、数据排序(sort)

2、求极差(range) R=Max(1?n)-Min (1?n) 本例中:R=254-75=179g

3、确定组数和组距(class interval) 组距=R/组数

因而必须先确定组数。组数的确定,可参照以下的因素: (1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反应出资料的真实面貌。样本大小与组数多少的关系可参照教材表3.5(P38)

本例,观察值的个数为140,可分8-16组,假定分为12组,则组距=179/12=14.9,为方便起见,组距定为15g。

4、选定组限(class limit)和组中点值(组值,class value)

首先选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也随之确定。第一组的中点值以最接近最小观察值为好,这样可以避免第一组内次数过多,能正确地反映资料的规律性。

例中,选定第一组的中点值为75g,则第二点的中点值为75+15=90g,余类推。 每组有两个组限,数值小的为下限(lower limit),数值大的为上限(upper limit)。

第一组的下限为该组中点值减1/2组距,即75-(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为76.5-82.5。按照此法计算出其余各组的组限,就可写出分组数列。

5、观察值按分组数列的各组组限归组。 140行水稻产量的次数分布

三、属性变数(质量性状)资料的整理 把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况:

2.2.3 次数分布图 一、方柱形图

方柱形图(histogram)适用于表示连续性变数的次数分布。

横轴为分组数列,纵轴为分布次数。横坐标与纵坐标的长度要有合适的比例(一般为5:4或6:5为好),绘成的图形才能明显表明次数分布情况。 140行水稻产量次数分布方柱形图 二、多边形图

多边形图(polygon),以每组中点值为横坐标,以次数为纵坐标。 三、条形图

条形图(bar diagram)适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状,纵坐标表示次数。 四、饼图

饼图(pie diagram)适用于间断性和属性资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。 一、平均数的意义

平均数(average)是数据的代表性,表示资料中观察值的中心位置,并且可以资料的代表而于另一组资料相比较,借以明确两者之间相差的情况。 二、平均数的种类

1、算术平均数(arithmetic mean):一个数量资料中各个观察值的总和除以观察值的个数所得的商,记作

2、中数(median):将资料内所有观察值从大到小排列,居中间位置的观察值称为中数,记作Md

例如: 1、2、3、4、5 中数是3

1、2、3、4、5、6 中数是: (3+4)/2=3.5

3、众数(mode):资料中最常见的一数,或次数最多一组的中点值,称为众数,记为Mo。 例如:在资料23、24、23、22、23、25、20、23、中 Mo=23

4、几何平均数(geometric mean):n个观察值,其乘积开n次方,即为几何平均数,用G代

n表。 G?nyyy...y??yyy...y?1/n123123nnyi2.3.2 算术平均数的计算方法 _y?y2?y3?...yni?1y?1?1、直接以观察值进行计算 nn2、若样本较大,且已分组,可采用加权法计算算术平均数,即以组中值代表该组出现的观察值以计算平均数。 _?fiyi??fyy?n ?fi利用140行水稻产量资料计算每行平均产量 _fy2?75?7?90?...?1?25522110 y????157.93(g)n140140

若采用直接法进行计算,平均数等于157.47。因此,两者的结果十分接近。 2.3.3 算术平均数的重要特性

1、样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和为0。即:

n__

???(y?y)??(y?y)?0iii?1

2、样本各观察值与其平均数的差数平方总和,较各个观察值与任意其它数值的差数平方的 nn_2总和为小,亦即离均差平方的总和最小。 (yi?y)<(yi?a)2i?1i?12.3.4 总体平均数 N yi总体平均数用μ来表示,其计算公式为: ??i?1N

从公式中可以看出,除非是有限总体,否则总体平均数是无法通过计算得到的。 代表值只是反映了数值资料的一个方面—集中程度的特征,资料的另一方面和的特征是变异程度。请看下面的例子:

A组资料:3、4、5、6、7 平均数为:5 B组资料:1、3、5、7、9 平均数仍为:5

这里的平均数5对于A组资料的代表性好?还是对于B组资料的代表性好? 答案是十分清楚的。

可见,只表明了数据的集中程度是远远不够的,还需要进一步说明数据的变异程度。只有通过变异程度的描述,才知道代表值的代表性。

表示数据变异特征的数值叫变异数。常用的变异数有:极差、方差、标准差、变异系数等。 2.4.1 极差

极差(range),又称全距,记为R,是资料中最大值与最小值之差。 例如:A组资料的极差 RA=7-3=4 B组资料的极差 RB=9-1=8

极差的计算简单,但是它只是两个极端数据决定的,没有地方充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。 2.4.2 方差

由于算术平均数的可信度比较高,我们设想用观察值与算术平均数之间的差异来度量一组观

???察值的变异性,但是这又遇到再相加就不再为0。从这个式子知道

的困难。为了解决这一矛盾,将离均差平方后

愈大,则资料的变异程度也就愈大。

称为离均差的平方和(简称平方和),记为SS(Sum Of Square)。

样本的平方和为总体的平方和为

由于各个样本所包含的观察值数目不同,为便于比较,用观察值数目除平方和,得到平均平方和,简称均方(mean square)或方差(variance)。

样本均方用s2表示,定义为:

它是总体方差(σ2)无偏估计值。

2.3.3 标准差 一、标准差的定义

标准差是方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。

样本标准差的计算公式为:

总体标准差用σ表示:

二、自由度的意义

自由度(degree of freedom)最早是一个物理学上的名词,它表示一个质点在空间运动的自由程度。统计学借此来反映一批变量的约束条件。

例如一个有5个观察值的样本,因为受到统计数 的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足

这一限制条件。

自由度记作DF,具体数值用ν表示

一般,样本自由度等于观察值个数(n)减去约束条件的个数(k),即ν= n- k。 2.3.4 变异系数

若比较两个样本的变异度,则因单位不同或平均数不同,不能用标准差直接比较。

这时要构造一个不带单位,不受平均数大小影响的变异数,这就是变异系数(coefficient of

variation),用CV表示。两个小麦品种株高变异的比较

第三章

理论分布与抽样分布 事件:在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件。 概率(probability):每一事件出现的可能性,称为该事件的概率。

随机事件(random event):若某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件。

要认识随机事件的规律性,个别的试验或观察是不适用的,必须在大量的实验中才能观察到。 下面用棉田发生盲椿象为害的情况来说明这一问题。

统计学上通过大量实验而估计的概率称为实验概率或统计概率,用公式表示为:

式中P代表概率,P(A)代表事件A的概率。 P(A)的取集范围为:0≤ P(A) ≤1。

随机事件的概率表现了事件的客观统计规律性,它反映了事件在一次试验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事件发生的可能性小。

小概率原理:若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率实际不可能性原理,简称小概率原理。

必然事件:对于一类事件来说,如在同一组条件的实现之下必然要发生的事件。 不可能事件:如果在同一组条件下必然不发生的事件。 3.1.2 事件间的关系 一、和事件

事件A和事件B至少有一个发生构成的新事件称为事件A和事件B的和事件,记为A+B,读作“或A发生,或B发生”。

例如测定棉花的纤维长度,以<28毫米为事件A,28至30毫米为事件B,则抽取一根≤30毫米的这一新事件为A+B。 二、积事件

事件A和B同时发生而构成的新事件,称为事件A和B的积事件,记为AB,读作“A和B同时发生或相续发生”。

例如某小麦品种,以发生锈病为事件A,发生白粉病为事件B,则锈病和白粉病同时发生这一新事件为AB。 三、互斥事件

如果事件A和B不能同时发生,即A和B是不可能事件,则称事件A和B互斥。例如棉花纤维长度“<28毫米”和“等于28毫米”不可能同时发生,为互斥事件。 四、对立事件

事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为 例如,有一袋种子,按种皮分黄色和白色,事件A为“取到黄色”,事件B为“取到白色”,A与B不能同时发生,但是,任意取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此A和B互为对立事件。 五、完全事件系 若事件A1、A2、···An两两互斥,且每次试验结果必发生其一,则称A1、A2、···An为

完全事件系。

例如对于棉花纤维长度,<28毫米、≥28毫米和<30毫米、≥30毫米均构成了完全事件系。 六、事件的独立性

若事件A发生与否不影响B发生的可能性,则称事件A和事件B相互独立。 例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A和B相互独立。 3.1.3 计算事件概率的法则 一、互斥事件的加法

假定两互斥事件A和B的概率分别为P(A)和P(B),则 P(A+B)=P(A)+P(B)

例如:荣昌猪的每胎产仔数≤9头的概率P(A)=0.65,为10头的概率P(B)=0.18,则每胎产仔≤10头的概率为:

P(A+B)=P(A)+P(B)=0.65+0.18=0.83 二、独立事件的乘法

假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则: P(AB)=P(A)P(B)

例:现有4粒种子,其中3粒是黄色、1粒是白色,采用复置抽样。试求下列两事件的概率(1)第一次抽到黄色,第二次抽到白色;(2)两次都抽到黄色。

先求出抽到黄色种子的概率为3/4=0.75,抽到白色种子的概率为1/4=0.25. P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子)=0.75×0.25=0.1875 P(B)= P(第一次抽到黄色种子) P(第二次抽到黄色种子)=0.75×0.75=0.5625 三、对立事件的概率

若事件A的概率为P(A),那么其对立事件的概率为: P(

)=1-P(A)

四、完全事件系的概率

例如上例,黄色种子和白色种子构成完全事件系,其概率为1。 五、非独立事件的乘法

P(AB)=P(A)P(B|A) 3.1.4 随机变量

定义:随机变量是指随机变数所取的某一个实数值。

例如:在抛硬币试验中,币值面向上的用数“1”表示,国徽面向上的用“0”表示。把0,1作为变量y 的取值。

P(y=1)=0.5 P(y=0)=0.5 一、离散型随机变量

变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。

将这种变量的所有可能取值及其对应的概率一一列出所形成的分布,称为离散型随机变量的概率分布:

变量yi y1 y2 y3 ? yn 概率P(y=yi) P1 P2 P3 ?Pn 二、连续型随机变量

变量y的取值仅为一范围,且y在该范围内取值时,其概率是确定的,这种类型的变量称为

连续型随机变量(continuous random variate)。

式中,f(y)称为y的概率密度函数(probability density function)或分布密度(distribution density) 随机变量可能取得的每一个实数值或某一范围的实数值是有一个相应概率于其对应的,这就是所要研究和掌握的规律,这个规律称为随机变量的概率分布。 有些总体的各个个体的某些性状,只能发生非此即彼的两种结果,“此”和“彼”是对立事件。例如种子的发芽与不发芽,施药后害虫的死或活,产品的合格与不合格。这种由非此及彼事件构成的总体,称之为二项总体(binomial population)。 为便于研究,通常给“此”事件以变量“1”,具概率p;给“彼”事件以变量“0”,具概率q其概率关系为: p+q=1 q-1=p

如果我们每次抽取0、1总体的n个个体,则所得变量y将可能有0,1,?n,共n+1种。这n+1变量有它各自的概率而组成一个分布。这个分布叫做二项概率分布,简称二项分布(binomial distribution)。

例如,观察施用某种农药后蚜虫的死亡数,记“死”为0,“活”为1。如果每次观察5只,则观察的结果将有0(5只全死)、1(4死1活)、2(3死2活)、3(2死3活)、4(1死4活)、5(5只全活),共6种变量。由这6种变量的相应概率组成的分布,就是n=5时活虫数的二项分布。

3.2.2 二项式分布的概率计算方法 下面用一个例子来讲解这一问题。

红花豌豆和白花豌豆杂交,F2代出现红花的概率为p=3/4,出现白花的概率为q=1/4。如果将F1代种子成行种植,每行种4粒。问一行全是红花、三株红花、二株红花、一株红花、0红花的概率各是多少。

这实际上是以n=4,从p=3/4, q=1/4的二项总体中抽样构成二项分布的问题。 为方便,以“1”代表出现红花的事件,“0”代表出现白花的事件。

上例各项的概率相当于(p+q)4的展开: (p+q)4=p4+4p3q+6p2q2+4pq3+q4

同理,以样本容量为n进行的抽样,得到的概率分布为(p+q)n的展开。

每一项的系数为: 计

例4.2 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少? 7头愈好,3头死去的概率为:8头愈好,2头死去的概率为:

9头愈好,1头死去的概率为:10头全部愈好的概率为:

若计算10头中不超过2头死去的概率为多少?则应该应用累积概率,即:

3.2.3 二项式分布的形状和参数 一、形状

(p=0.5,n=5)的概率分布图

当p=q时。二项分布呈对称形状,如p≠q,则表现偏斜形状。但从理论和实践检验,当n很大时即使p≠q,它也接近对称形状。所以这一理论分布是由n和p两个参数决定的。 二、参数

凡描述一个总体,平均数和方差(或标准差)两个参数是重要的。二项总体,其平均数μ、方差σ2和标准差σ为:

3.2.4 多项式分布

若总体内包含几种特性或分类标志,可以将总体中的个体分为几类,例如在给某一人群使用一种新药,可能有好的疗效,有的没有疗效,而另有疗效为副作用的,象这种将变数资料分为3类或多类的总体称为多项总体,研究其随机变量的概率分布可使用多项式分布。 设总体中共包含k项事件,它们的概率分别为:p1、p2、p3、?、pk,显然 p1+p2+p3+?+pk=1。若从这个总体随机抽取n个个体,那么可能得到这k项的个数分别为 y1、y2、y3、?、yk,而y1 + y2 + y3 +?+ yk =n。其事件的概率为:

这一概率分布称为多项式分布。

例4.3 某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该药的病人,那么我们的结果可能包括这样几种事件:2个病人有副作用;一个无效、一个有副作用;两个无效;一个有效、一个有副作用;一个有效、一个无效;两个均有效。试计算出现这些事件的概率。 解:

分别用y1、y2、y3分别代表用药有效的个体数、用药无效的个体数和用药有副作用的个体数。这些事件的概率的计算见下表:

3.2.5 泊松分布—二项分布的一种极限分布

应用二项分布时,有时会遇到一个概率p或q很小的值,例如小于0.1,另一方面n又相当大,这样二项分布必将为另一分布所接近,或者为一极限分布。这种分布称为泊松概率分布,简称泊松分布(Poisson distribution)。

如将np=m,则接近分布如下式:

凡在观察次数n (n相当大)中,某一事件出现的平均次数m(m是一个定值)很小,那么,这一事件出现的次数将符合泊松分布。泊松分布在生物学研究中是经常遇到的,例如,昆虫与植物种类在一定面积的分布,病菌侵害作物的分布,一个显微镜视野内的细菌计数以及原子衰变的规律等随机变数。

泊松分布的平均数、方差和标准差为:3.3 正态分布

3.3.1 二项分布的极限—正态分布

P=0.5,n=5的二项分布 p=0.5,n=20的二项分布

从图中看出,若n→∞,每个组的直方形都一一变为纵轴线,连接的直线也一一变成点了。这时多边形折线应表现为一个光滑的曲线,在数学意义上它是一个二项分布的极限曲线。这一曲线称

之为正态分布曲线或正态概率曲线。其概率密度函数为:

3.3.2 正态分布曲线的特性

1、以y=μ为对称轴,向左右两侧作对称分布,其算术平均数、中数、众数相等,均在μ点上。 2、正态分布曲线由参数μ和σ决定,所以它是曲线簇而不是单一的曲线。

3、正态分布资料的分布表现为多数次数位于算术平均数μ附近,在|y-μ|≥3σ以上其次数极少,在实际应用中,y通常在± 3σ范围之内取值,这就是3σ法则。

4、正态曲线在|y- μ|=1 σ处有拐点,并以横轴为渐进线,因此曲线全距从-∞到+∞。

5、正态曲线与横轴之间的面积等于1,因此曲线下横轴的任何定值,等于介于这两个面积占总面积的成数。下面是几组常用值:

μ±1σ 概率=0.6827 μ±2σ 概率=0.9545 μ±3σ 概率=0.9973 μ±1.960σ 概率=0.9500 μ±2.576σ 概率=0.9900 3.3.3 计算正态分布曲线区间概率的方法

在正态分布曲线下,y的定值从y=a到y=b间的概率可用曲线区间的面积表示:

计算曲线下从-∞到y0的面积,公式如下: FN(y)称为正态分布的累积函数。

为了便于使用,通常是将正态分布±3σ 分成很小的距离单位,比如0.01,进行积分,然后制成概率分布表。使用者只需查表,而无需进行复杂的积分运算。

一个首先需要解决的问题是,正态分布是一个曲线簇,而非单一的曲线,用曲线簇进行制表几乎是无法完成的事情。因此要设法将其转化为一条曲线。

由于正态曲线受μ和σ的制约,曲线随这两个参数的变化而改变。

构造一个新变数,这个变数要消去μ和σ的影响。假定新变数用u来表示,则:

u称为正态离差,由之可将正态方程标准化为:

上式为标准化正态分布方程,它是参数μ=0 ,σ2=1时的正态分布,记作N(0,1)。 有了标准曲线之后,就可以将y值从-3到3范围内的FN(y)的值,以0.01的间隔列于附表2(P357)。计算一定区间的概率值,只要查表就可以了。

例4.4 假定y是一随机变数具有正态分布,平均数μ=30,标准差σ=5,试计算小于26,小于40的概率,介于26和40区间的概率以及大于40的概率。 首先计算:P(y≤26)=FN(26)

先将y转换成u值:u=(y- μ)/ σ=(26-30)/5=-0.8 查附表2,当u=-0.8时 FN(26)=0.2119

同样计算:P(y≤40)=FN(40) u=(y- μ)/ σ=(40-30)/5=2.0 查附表2,当u=2.0时 FN(40)=0.9773

计算:P(2640)=1-P(y≤40)=1-0.973=0.0227

例4.6(P64) 计算正态分布曲线的中间概率为0.99时,其y或u值应为多少?

因为正态分布是对称的,故在曲线左边从-∞到-u的概率和曲线右边从u到∞的概率应等于1/2(1-0.99)=0.005。查附表3,u= -2.58σ时,FN(y)=0.00494≈0.005。 故当y=μ±2.58σ时,在其范围内包括99%的变量。 3.4 抽样分布

3.4.1 统计数的抽样分布及其分布参数

前面我们谈到总体的参数是无法得到的,需要用样本的统计数进行估计。用统计数估计总体的相应参数,首先必须知道统计数与参数的关系,即要弄清楚总体和样本的关系。

通过本节抽样分布的讨论,目的就是要搞清楚从总体中抽出所有可能的样本统计量的分布与原总体之间的关系。

一、样本平均数的抽样及其分布

如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。 每个样本可以计算一个平均数,这样就得到许多 平均数,如果将这些平均数集合起来便构成一个新总体。由于每次随机抽样所得的平均数可能会存在差异,所以由平均数构成的新总体也应该有其分布,这种分布称为平均数的抽样分布。

下面用一个抽样实验进一步说明样本平均数的抽样分布及其分布的参数。

假定用一个很小的总体N=3,其观察值为2、4、6以样本容量n=2从中进行抽样。 首先计算出总体参数: μ=(2+4+6)/3=4

σ2=〔(2-4)2+(4-4)2+(6-4)2〕/3=8/3 所有可能的样本数=Nn=32=9

总体N=3,样本容量n=2时所有样本的总和数、平均数和方差表

从表中我们可以算出 样本平均数

的平均数: _y???n?yN_36?4??9以自由度为除数的样本方差的平均数:

以样本容量为除数的样本方差的平均数:

样本标准差s的平均数:

在统计上,如果所有可能样本的某一统计数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值(unbiased estimate) 1、

是μ的无偏估计值。

2、s2是σ2的无偏估计值

23、以n为除数的样本方差 s 0 不是σ2的无偏估计值。 4、s不是σ的无偏估计值。

再以样本容量n=4,n=8从上述总体中抽样,并将抽出的全部样本列入表4.6(P67)

根据表4.6,可算得n=2时样本平均数分布的平均数为:

样本平均数分布的方差为:同

n=4

当n=8时:抽样误差的概念:

抽样误差的度量:

二、样本总和数的抽样及其分布参数

样本总和数(用Σy代表)的抽样分布参数与母总体间存在如下关系: 1、该抽样分布的平均数μΣy与母总体平均数间的关系为: μΣy=nμ。

2、该抽样分布的方差μΣy与母总体方差间的关系为:

三、两个独立随机样本平均数差数的抽样分布及其分布参数 我们用一个例子来阐述这一问题。

假定第一个总体包括3个观察值,2、4、6(N1=3,n1=2)所有样本数为Nn=32=9,总体的平均数和方差μ1=4, σ21=8/3。

第二个总体包括2 个观察值,3和6(N2=2),抽出的样本容量为3(n2=3),所有样本的个数为23=8,总体平均数和方差μ2=4.5, σ22=2.25

从两个总体抽出的样本平均数的次数分布表

样本平均数差数的次数分布表

样本平均数差数分布的平均数和方差计算表

由上表可算得:

而:

3.4.2 正态总体抽样的分布规律 一、样本平均数的分布 _1、从正态总体抽取的样本,无论样本容量多大,其样本平均数 y 的抽样分布必做成正态分布,2?_???具有平均数 和方差 ?记作N(μ,σ2/n)。 y? _2yn 分布不一定属于正态分布,但当样本容量n增大时,2、若母总体不是正态分布,从中抽出的 _y从这总体抽出样本平均数 的抽样分布趋于正态分布,具有平均数μ和方差σ2/n。这称之为

中心极限定理。

二、两个独立样本平均数差数的分布

1、如果两个总体各作正态分布,则其样本平均数差数

准确地遵循正态分布,无论

样本容量大小都有。

2、两个样本平均数差数的平均数等于两个总体平均数的差数。

3、两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和。 3.4.3 二项总体的抽样分布 一、二项总体的分布参数

以一个含有5个个体的总体为例进行说明,设这5个观察值为:0,1,0,1,1,则总体平均数和方差为:

μ =(0+1+0+1+1)/5=3/5=0.6

σ2=[(0-0.6)2+(1-0.6)2+(0-0.6)2+(1-0.6)2+(1-0.6)2]/5=0.24

σ=0.49

在这个二项总体中1事件的概率 p=3/5=0.6,0事件的概率 q=2/5=0.4 由此可见:

二项总体的平均数为μ =0.6=p, 方差为σ2=0.24=0.6×0.4=pq。

第四章

统计推断

上章主要讨论了从总体到样本的关系,本章将讨论逆命题—从样本到总体的问题,即统计推断问题。

所谓统计推断(statistical inference),就是根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数)。

统计推断的基本内容,包括统计假设测验和参数估计两个方面。

统计假设测验是指根据于某种实际需要,对未知的或不完全知道的统计总体提出一些假设;然后由样本的实际结果,经过一定的计算,作出在概率意义上应当接受那种假设的测验。 参数估计是指由样本结果对总体参数作出点估计或者区间估计。 4.1 统计假设测验的基本原理 4.1.1 统计假设

由于总体多是无限的(尤其是自然科学),往往需要用样本推断总体,因此首先需要提出一个有关其总体参数的假设。例如假设某小麦新品种的产量和原地方品种的产量一样,或者比旧地方品种好。这种假设称为统计假设。下面是一些统计假设的例子: 一、单个平均数的假设

一个样本是从具有平均数μ0的总体中随机抽出的,记作H0: μ= μ0。例如: 1、某一小麦品种的产量具有原地方品种的产量,这指新品种的产量表现乃原地方品种产量表现的一个随机样本,其平均产量μ等于某一指定值μ0,故记为 H0: μ= μ0

2、某一棉花品种的纤维长度(μ)具有工业上某一指定标准(C ),可记为H0: μ= C 二、两个样本平均数比较的假设

两个样本乃从两个具有相同参数的总体中随机抽出的,记为H0: μ1= μ2或H0:μ1- μ2=0 例如:(1)两个小麦品种的产量是相同的。(2)两种杀虫剂对于某种害虫的药效是相等的。 上述假设称为无效假设(null hypothesis)。因为假设总体参数(平均数)与某一指定值相等或假设两个总体参数相等,即假设没有效应差异,或者说实得差异是由抽样误差造成的。 备择假设(alternative hypothesis),和无效假设相对应的一个假设,也称为对应假设。记作HA: μ≠ μ0

或HA:μ1 ≠ μ2。意思是说,如果否定了无效假设,则必须接受备择假设,反之亦然。 这些统计假设构成了完全事件系。 三、统计假设测验的基本思想

设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数为μ0=300(kg),并从多年种植结果获得其方差σ2=(75)2kg。若从这一总体中随机抽取n个个体构成样本,则样本观察值可表示为:

yi= μ0 +εi (i=1,2,?,n)

现有某新品种通过25个小区的试验,计算其样本平均产量为每667 m2330kg。新品种的样本观察值可表示为:

yi= μ +εi (i=1,2,…,n)

式中μ为新品种的总体平均数。新品种与地方品种的差异(品种效应)用τ表示,则

τ = μ- μ0

代入上式得:yi= μ0 + τ + εi (i=1,2,…,n) 对yi求平均数,并将式子稍作变形得:

(1)处理效应与误差效应; (2)全为试验误差。

由于处理效应τ = μ- μ0 无法计算,统计推断只能从第(2)种可能性出发,即假设处理效应不存在,试验表型效应全为试验误差。

然后再计算该假设出现的概率,最后依概率的大小判断假设是否成立,从而推断处理效应是否存在(反证法)。这就是统计假设测验的基本思想。 4.1.2 统计假设测验的基本方法

设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数μ0=300(kg),并从多年种植结果获得其标准差=75(kg),而现有某新品种通过25个小区的试验,计算其样本平均产

_量为每667m2产330kg,即 =330,那么新品种样本所属总体与μ0=300的当地品种这个总体是

y否有显著差异呢?

一、对所研究的总体首先提出一个无效假设 H0: μ= μ0 或: H0: μ= 300 _y 与μ0 之间的差数:330-300=30(kg)属随即新品种与老品种之间不存在真实的差异,样本平均数

机误差。对应假设为: HA:μ≠ μ0

二、在承认上述无效假设的前提下,获得平均数的抽样分布,计算假设正确的概率

在H0: μ= μ0 前提下,就可以得到从已知总体(原地方品种),以样本容量n=25抽样的样本平均数的抽样分布服从N(300,752/25)。知道了概率分布,就可以计算出330-300=30(kg)属于随机_y??330?300误差造成的概率值有多大。

u???2 ?_15y查附表3,当u=2时,P(概率)界于0.04和0.05之间,即这一试验结果:

三、根据“小概率事件实际上不可能发生”原理接受或否定无效假设

用来测验假设的概率标准5%或1%等,称为显著水平(significance level),一般以α表示。 α= 0.05为显著,α =0.01为极显著

当一事件的概率很小时,可认为该事件在一次试验中几乎是不可能发生的事件。故当 -μ由随机误差造成的概率小于5%或1%时,我们就可认为它不可能属于抽样误差,从而否定假设。用来测验假设的概率标准5%或1%等,称为显著水平(significance level),一般以α表示。α= 0.05为显著,α =0.01为极显著

综合上述,统计假设测验的步骤为:

对样本所属的总体提出统计假设,包括无效和备择假设。 规定测验的显著水平α值 。

在H0为正确的前提下,根据平均数或其它统计数的抽样分布,计算误差出现的概率。

将规定的α值与算得的概率值相比,从而作出接受或否定无效假设的推断。 4.1.3 两尾测验与一尾测验

在提出一个统计假设时,必有一个相对应的备择假设。例如上述单个平均数测验,若H0:μ= μ则备择假设为HA:μ≠μ0 。后者即指该新品种的总体平均产量不是300kg,这包括大于300kg0 ,

和小于300kg两种可能性。

因而在假设测验时所考虑的概率为正态曲线左边一尾概率(小于300kg)和右边一尾概率(大于300kg)的总和。这类测验称为两尾测验(two-tailed test),它具有两个否定区域。

但在某些情况一下,两尾测验不一定符合实际需要。例如,某型计算机的寿命(使用时数)规定为≥ μ0 。如果进行抽样

即可能是一批不合格产品。因此,测验的假设应为H0:μ≥ μ0(产品合格)对 HA:μ<μ0 (产品

__不合格)。这样否定区在左尾。反之,如果 < yμ0 是不需要否定H0的

(如农产品中有毒物质的含量),而 y < μ0却可能有严重后果,则所作假设应为: H0:μ≤ μ0 对 HA:μ>μ0 。 这时否定区就只有右尾。 4.1.4 统计假设的两类错误

统计假设测验是根据一定的概率标准对总体特征作出推断。否定了H0,并不等于已证明H0不真实;接受了H0 ,也不等于已证明H0是真实的。

如果H0是的,我们通过测验却否定了它,就犯了一个否定真实假设的错误。这叫第一类错误(first kind error)或I型错误。由于规定了显著水平α值 ,就注定要犯错误,故I型错误又称为α错误。

如果H0是错误的,我们通过测验没有发现其不真实而接受了它,即犯了一个接受不真实的H0的错误。这叫第二类错误(second kind error)或II型错误。由于犯这类错误的概率通常用β表示,故又称其为β错误。

270.6?315329.4?315 现以P79上的例子说明β值的计算。u1 ???2.96u2??0.961515

??P(u?0.96)?P(u??2.96)?0.8315?0.0015?0.83两类错误的要点:

1、在样本容量n固定的条件下,提高显著水平α的值,将增大犯β错误的概率。

2、在n和显著水平α相同的条件下,真总体平均数μ和假设平均数μ0 相差愈大,则犯第二类错误的概率β愈小。

3、为了降低犯两类错误的概率,需要采用一个较低的显著水平,如α=0.05;同时适当增加样本容量,或适当减小总体方差,或两者兼有之。

4、如果显著水平α已经确定,则改进试验技术和增加样本容量,可以有效地降低犯第二类错误的概率。

4.2 平均数的假设测验 4.2.1 t 分布

2

在第四章已述及,从一个N(μ,σ_)中抽样,或者在一个非正态总体里抽样只要样本容量足够大,

y则所得一系列样本平均数 的分布必趋向正态分布,具有N(μ,σ2/n)。

_当样本容量不太大(n<30)而σ2为未知时,

(y??)22

如以样本均方s估计σ,则其标准化离差 的分布不呈正态分布,而作t分布: _s_ys y ? ?

s_?t?y年W.S.Gossett-分布(t-distribution)是1908s_n首先提出的,又叫学生氏分布(student t distribution)。它

y是一组对称密度函数曲线,具有一个单独参数ν以确定某一特定分布。 ν 是自由度。当ν增大时, t-分布趋向于正态分布。 t-分布的密度函数为: ?(??1)/2?!t2?(??1)f?(t)????(??2)/2?!(1??)2

正态分布 t分布(ν=4)

标准化正态分布与自由度为4的t分布曲线

和正态概率累积函数一样,t分布的概率累积函数也分一尾和两尾表。一尾表为t到∞的面积,两尾表为﹣∞到-t 和t到∞两个相等尾部的和。附表4(P360)是两尾表。 按t 分布进行的假设测验称t 测验。在t表中,若ν相同,则P 越大,t 越小;P 越小,t 越大。

4.2.2 单个样本平均数的假设测验

这是测验某一样本所属的总体平均数是否和某一指定的总体平均数相同。

[例5.1]某春小麦良种的千粒重μ0 =34g,现自外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6,37.6,33.4,35.1,32.7,36.8,35.9,34.6,问新引入品种的千粒重与当地良种有无显著差异? 测验步骤为:

H0:新引入品种千粒重与当地良种千粒重指定值相同,即μ =μ0 =34g;对HA: μ ≠34g 显著水平α=0.05

_测验计算: (35.6+37.6+…+34.6)/8=35.2(g) y = _2(y)2281.72??2222?35.6?37.6?...?34.6??18.83?y?y??y? SS?n8??_

s1.64y??35.2?34s_???0.58(g)t???2.069 s?SS?18.831.64(g)ys_0.58n8n?18?1 y查附表4,ν=7时,t 0.05=2.365。现实得|t|<tα=2.365,故P>0.05。

推断:接受H0: μ=34g,即新引入品种千粒重与当地良种千粒重指定值无显著差异。 4.2.3 两个样本平均数的假设测验

这是由两个样本平均数的相差,以测验这两个样本所属的总体平均数有无显著差异。测验的方法因试验设计的不同而分为成组数据的平均数比较和成对数据的比较两种。 一、成组数据的平均数比较

如果两个处理为完全随机设计,各供试单位彼此独立,不论两个处理的样本容量是否相同,

__所得数据皆称为成组数据,以组平均数作为相互比较的标准。 22(y1?y2)?(?1??2)??12u?1、 在两个样本的总体方差已知时,用u 测验。 ?__???__y1?y2nn2 1y1?y22

[例5.2] 据以往资料,已知某小麦品种每平方米产量的σ_=0.4(kg)2。今在该品种的一块地上用A、_y2 B两法取样,A法取了12个样点,得每平方米 y 1 =1.2(kg);B法取得8个样点,得

=1.4(kg)。试比较A、B两法的每平方米产量是否有显著差异?

???假设H0:A、B两法的产量相同,即H0:系随机误差;

对HA:μ1≠μ2,α=0.05

测验计算: ?2??2??2?0.4,n?12,n?8,?__?0.4?0.4?0.2887(kg)1212y1?y21281.2?1.4

u???0.69 0.2887因为实得|u|<u0.05=1.96,故P>0.05。

推断:接受H0: μ1=μ2,即A、B两种取样方法所得每平方米产量没有显著差异。

的加权平均值,即: (y1?y1)?(y2?y2)s__?SS1?SS22s??y1?y2e ?1??2(n1?1)?(n2?1)当n1=n2=n 时,则上式变为:

__ 2se2__(y1?y2)?(?1??2)s?__ y ? y t ? ( y 1? y2)n12t?s__由于假设H0: μ1=μ2,故上式为:s__y1?y2

y1?y2[例5.4]研究矮壮素使玉米矮化的效果,在抽穗期测定喷矮壮素小区8株、对照区玉米9株,其观察值如下表:

?_2?_2

22sese?n1n2

从理论上判断,喷施矮壮素只可能矮化无效而不可能促进植物长高,因此假设H0:喷施矮壮素的株高与未喷的相同或更高,,即H0: μ1≥μ2对HA: μ1<μ2,即喷施矮壮素的株高较未喷的为矮。显著水平α=0.05。 __测验计算: y1?176.3cm,y2?233.3cmSS1?3787.5SS2?18400 218400?3787.5?1479.17176.3?233.3 se?7?8t???3.05 18.68811 s1479.17(?)?18.688(cm)__?y?y89 12按ν=7+8=15,查t 表得一尾t0.05=1.753(一尾测验t0.05等于两尾测验的t0.10),现实得t=-3.05<- t0.05=-1.753,故P<0.05。

推断:否定H0: μ1≥μ2,接受HA: μ1<μ2,即认为玉米喷施矮壮素后,其株高显著地矮于对照。

二、成对数据的比较

若试验设计是将性质相同的两个供试单位配成对,并设有多个配对,然后对每一配对的两个供试单位分别随机地给予不同处理,则所得观察值为成对数据。

成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。

设两个样本的观察值分别为y1和y2,共配成n对,各个对的差数为d=y1-y2,差数的平均数为

d它具有ν=n-1。若假设H0:μd=0,则上式改成: t?s_即可测验H0:μd=0。

[例5.6] 选生长期、发育进度、植株大小和其它方面皆比较一致的两株番茄构成一组,共得7组,每组中一株接种A处理病毒,另

_

s_?d?(d?d)n(n?1)_2t?d??ds_d_d一株接种B处理病毒,以研究不同处理方法的纯化的病毒效果,表中结果为

病毒在番茄上产生的病痕数目,试测验两种处理方法的差异显著性。 假设:两种处理对纯化病毒无不同效果,即: H0:μd=0 _;对HA:μd≠0。显著水平α=0.01。

d ?测验计算: ?(?15)?1?...?(?12)?/7??58/7??8.3 SSd?(?15)2?12?...?(?12)2?(?58)2/7?167.43 167.43?8.3s?1.997t???4.16_? d7?61.997查附表4, ν=7-1=6时,t0.01=3.707。实得|t|> t0.01,故P<0.01。

推断:否定H0:μd=0,接受HA:μd≠0,即A、B两法对纯化病毒的效应有极显著差异。 4.3 二项资料的百分数假设测验

许多生物学试验的结果是用百分数或成数表示的,如结实率、发芽率、杀虫率等等。在理论上,这类百分数的假设测验就应按二项分布进行,即从二项式(p+q)n的展开式求出某项属性个体百分数 的概率。但是,如果样本容量n 较大,p不过小,而np 和nq 均不小于5时,(p+q)n的分布趋于正态分布。因而可以将百分数资料作正态分布处理,从而作出近似的测验,以简化测验工作。

4.3.1 单个样本百分数的假设测验 这是测验某一样本百分数 ? 所属总体的百分数与某一理论值或期望值p0的差异显著性

p??p0p p0(1?p0)u??? ?p?p?n即可测验H0:p=p0。

[例5.8]以紫花和白花的大豆品种杂交,在F2代共得289株,其中紫花208株,白花81株。如果花色受一对基因控制,根据遗传学原理,F2代紫花株与白花株的分离比例应为3:1,即紫花理论百分数p=0.75,白花理论百分数q=0.25。问该试验结果是否符合一对基因的遗传规律?

假设大豆花色遗传符合一对基因的遗传规律,紫花植株的百分数是75%,即H0:p=0.75;对HA:p≠0.75。显著水平α=0.05 。 测验计算: 2080.75?0.250.7197?0.75?p??0.7197,???0.0255?pu???1.19 2892890.0255因为实得|u|<u0.05,故P>0.05。 推断:接受H0。

4.3.2 两个样本百分数相比较的假设测验

一、两个总体该种属性的百分数已知为p1和p2 则两样本的差数标准误为:

p1q1p2q2 ?p??1?p?2?n1n2

二、在两总体的百分数p1和p2未知时,则在两总体方差

11y1?y2 ??pq(?)?1?p?2pp?q?1?pnn 12n1?n2?1?p?2pu?故由

?p?1?p?2

即可对H0:p1=p2作出假设测验。 作为p1和p2的估计。

? 1 );调[例5.9]调查低洼地小麦378株(n1),其中有锈病株355株(y1),锈病率为93.92%( p? 2 )。试测验两块麦田的锈查高坡地小麦396株(n2),其中锈病346株(y2),锈病率87.31%( p

病率有无显著差异?

假设H0:p1=p2,对HA:p1≠p2。显著水平α=0.05 。

355?346测验计算: p?1?0.9061,q?1?p?1?0.906?0.094 ?2378?396(?)?0.0210?1?p?2?0.906?0.094p378396

0.9394?0.8731

u??3.16 0.0210实得|u|>u0.05,故P<0.05。

推断:接受HA:p1≠p2,即两块麦田的锈病发生率有显著差异。 4.3.3 二项样本假设测验的连续性矫正

二项总体的百分数在性质上属于间断性变异,其分布是间断的二项分布。把它当作连续性的正态分布或t分布处理,结果会有些出入,一般容易犯I类错误。补救的办法是在假设测验时进行连续性矫正。这种矫正在n<30,而n p ?<5时是必须进行的。

??np|?0.5|np一、单个样本百分数假设测验的连续性矫正

tc? snp??np它具有ν=n-1。式中

s??q?np

[例5.11]用基因型纯合的糯玉米和非糯玉米杂交,按遗传学原理,预期F1植株上糯性花粉粒

的p0=0.5,现在一视野中检视20粒花粉,得糯性花粉8粒,试问此结果和理论百分数p0=0.5

是否相符?

?假设 p =8/20=0.4系 p=p0=0.5的一个随机样本,即H0:p=0.5对HA:p≠0.5,显著水平α=0.05 。

? ?1?p??1?0.4?0.6,测验计算:qnp?nq?20?0.5?10??20?0.4?8,??20?8?12s??20?0.4?0.6?2.19 npnqnp|8?10|?0.5

tc??0.68 2.19查附表4,ν=20-1=19,t0.05=2.093,现实得|t|< t0.05,故P>0.05,推断认为实得百分数0.4与理论百分数0.5没有显著差异。

二、两个样本百分数相比较的假设测验的连续性矫正

?? 1 具有y1和n1,取较小值的 p设两个样本百分数中,取较大值的 p 2 具有y2和n2,则经

矫正的tc公式为: y1?0.5y2?0.5? n1n2tc? s?1?p?2p

[例5.12] 用配方农药处理25头棉铃虫,结果死亡15头,存活10头;用乐果处理24头,结果死亡9头,存活15头。问两种处理的杀虫效果是否有显著差异? 假设H0:p1=p2;对HA:p1≠p2。显著水平α=0.05 测验计算: p?15?9?0.49,q?1?0.49?0.5125?24

11 sp0.49?0.51(?)?0.143??p??2425

15?0.59?0.5?

2524?1.29tc? 0.143查附表, ν=24+25-2=47时,t0.05=2.014。现实得|tc|< t0.05,故P>0.05。 推断:接受H0:p1=p2。即承认两种杀虫剂的杀虫效果没有显著差异。 本例若不作连续性矫正,t=(0.60-0.375)/0.143=1.573 大于1.29,增加了否定H0发生第一类错误的可能性。 4.4 参数的区间估计

在一定概率保证下,估计出一个区间以能够覆盖参数μ。这个区间称置信区间,区间的上、下限称为置信限,区间的长度称为置信距。

一般以L1和L2分别表示置信下限和上限。保证该区间能覆盖参数的概率以P=(1-α)表示,称为置信系数或置信度。 4.4.5 区间估计与假设测验

因为置信区间是一定置信度下总体参数的所在范围,故对参数所作假设若恰好落在该范围之内,则这个假设与参数就没有真实的不同,因而接受H0;反之,如果对参数所作的假设落在置信区间之外,则说明假设与参数不同,所以应否定H0,接受HA。 [例5.21]例5.1已算得新引入春小麦品种的千粒重 y ? 35 .2 0 . 58 , 故其95%置信区间的两个置信限为: g , s y ?L1=35.2-(2.365×0.58)=33.8(g) L2=35.2+(2.365×0.58)=36.6(g)

12

曾经假设H0:μ=34g,正好落入上述置信区间,接受H0:μ=34g的假设,即新引入品种与当地品种的千粒重没有显著差异。

第五章

方 差 分 析

5.1 方差分析的基本原理

上章介绍了一个或两个样本平均数的假设测验方法。本章将介绍k(k≥3)个样本平均数的假设测验方法,即方差分析(analysis of variance)。这种方法的基本特点是:将所有k个样本的观察值和平均数作为一个整体加以考虑,把观察值总变异的自由度和平方和分解为不同变异来源的自由度和平方和,进而获得不同变异来源的总体方差估计值。 其中,扣除了各种试验原因所引起的变异后的剩余变异提供了试验误差的无偏估计,作为假设测验的依据。

5.1.1 自由度和平方和的分解

方差是平方和除以自由度的商。要将一个试验资料的总变异分解为各个变异来源的相应变异,首先必须将总自由度和总平方和分解为各个变异来源的相应部分。因此,自由度和平方和的分解是方差分析的第一步。

下面我们首先用一个例子来说明这一问题。

[例5.1]以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理各得4个苗高观察值(cm),试分解其自由度和平方和。

1、总变异

把表中的全部观察值作为一个组看待[即把4个处理(4组、每组有4个观察值)合并成一组,共有16个观察值],根据前面讲过的计算平方和的公式 ,可以计算出总变异的平方和

2和自由度 (y)336222222SST?(yi?y)?y??18?21???32??602 nk4?4

(y)2T2其中: ? 称为矫正数,用C表示。

nknk

自由度DFT=nk-1=4×4-1=15。

表中的每一个观察值,即包括有处理的效应(不同药剂对苗高的影响)又受到误差的影响。 2、误差效应

表中处理内(组内)各观察值之间,若不存在误差,则各观察值应该相等,由于误差是客观存在的,因而处理内(组内)各观察值之间必然是有差异的,因此,可以用组内(处理内)的差异度量误差效应:

????

从理论上讲,这4个误差平方和除以相应的自由度得的误差均方都可以作为总体误差方差的无偏估计值。但是,用它们的加权平均值来估计总体误差方差,则效果更佳。所以:

kn

SSe?(yij?yi)2?38?20?26?14?98 11每个组内(处理内)的自由度为:n -1=4-1=3, 所以误差的自由度为:DFe=k(n-1)=4(4-1)=12 3、处理效应

如果没有处理效应,表中各个处理(组)平均数

??来度量处理效应。 SSt?

2(y?y),?i1k

DFt?(k?1)

为了进行正确的F 测验,必须使它们都是估

2k应为: Ti2SSt?nSSt?n(yi?y)??C n1k

SSt?n(yi?y)2?4?[(18?21)2?(23?21)2 1

?(14?21)2?(29?21)2]?504 2T722?922?562?1162i SS??C??7056?504tn4

SST?SSt?SSe,DFT?DFt?DFe

本例中 平方和: 602=504+98

????

自由度: 15=3+12

因此误差平方和可以采用简单的办法计算 SSe=SST-SSt=602-504=98。

SSt504进而可得均方: MSt?st2???168.00df3t

SS98

MSe?se2?e??8.17dfe12

将上述例子推广到一般,设有k组数据,每组皆具n个观察值,则资料共有nk个观察值,其数据分组如表6.1(P99)。

平方和与自由度的分解归纳为下表

5.1.2 F分布与F测验 一、F 分布

在一个平均数为μ、方差为σ2的正态总体中随机抽取两个独立样本,分别求得

按上述方法从正态总体中进行一系列抽样,就可得到一系列的F值而作成一个F分布。它是具平均数μF=1和取值区间为[0, ∞]的一组曲线; 而某一特定曲线的形状仅决定于参数ν1和ν2。

F分布下一定区间的概率可从已制成的统计表中查出。附表5给出了各种ν1和ν2下右尾概率α=0.05和α=0.01

二、F 测验

在方差分析的体系中,F测验可用于检测某项变异因素的效应或方差是否存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异(如误差项)作分母。

F测验需具备的条件:(1)变数y遵循N(μ,σ2);

是否显著大于药剂内变异?

测验计算:

将例6.1和例6.3的分析结果归纳在一起,列出方差分析表如下: 水稻药剂处理苗高方差分析表

5.2.4 多重比较方法的选择

1、试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法;

2、根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。 方差分析的基本步骤:

(1)分解平方和与自由度;(2)F测验;(3)平均数的多重比较。

第八章

直线回归与相关

8.1 回归与相关的概念 1、函数关系与统计关系

函数关系是一种确定的关系。例如圆面积与半径的关系为:

统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间有关系,但又不存在完全确定的函数关系。 2、自变数与依变数

对据有统计关系的两个变数,分别用变数符号Y 和X 表示。根据两个变数的作用特点,统计关系又可分为因果关系和相关关系两种。

两个变数间的关系若有原因和反应(结果)的性质,则称这两个变数间存在因果关系,并定义原因变数为自变数(independent variable),以X 表示; 定义结果变数为依变数(dependent variable),以Y 表示。 如果两个变数并不是原因和结果的关系,而呈现一种共同变化的特点,则称这两个变数间存在相关关系。

相关关系中没有自变数和依变数之分。 3、回归分析和相关分析

(1)对具有因果关系的两个变数,统计分析的任务是由实验数据推算出一个表示Y 随X 的

?改变而改变的方程 y ? f ( x ) ,称之为回归方程(regression equation of Y on X ),这一过程

称为回归分析。

(2)对具有相关关系的两个变数,统计分析的目标是计算表示Y和X相关密切程度的统计数,并测验其显著性。这一过程称为相关分析。 4、两个变数资料的散点图

将两个变数的n对观察值(x1,y1)、(x2,y2)、?、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上得到的图,

称为散点图(scatter diagram)。 8.2直线回归

??a?bx8.2.1 直线回归方程 y?称为直线回归方程(linear regression equation)。其中a 是x=0时的 y 值,即回归直线在y 轴

上的截距,叫回归截距(regression intercept);b 是x 每增加一个单位数时,y ?平均地将要增加(b>0时)或减少(b<0时)的单位数,叫回归系数(regression coefficeint)。 式中 ( x ? x )( y ? y ) 是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP。

二、直线回归方程的计算

[例9.1P160]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4 月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于下表。试计算其直线回归方程。

?

由观察值计算一级数据

由一级数据计算二级数据

因而有:

??48.5845?1.0996x从而得到回归方程: y四、直线回归的估计标准误 满足 Q ? ( y ? y ) 2 为最小的直线回归方程和实测的观察点并不重合,表明该回归?方程仍然存在随机误差。

Q 就是误差的一种度量,称之为离回归平方和或剩余平方和。

?

由一级数据计算二级数据

因而有:

??48.5845?1.0996x从而得到回归方程: y四、直线回归的估计标准误 满足 Q ? ( y ? y ) 2 为最小的直线回归方程和实测的观察点并不重合,表明该回归?方程仍然存在随机误差。

Q 就是误差的一种度量,称之为离回归平方和或剩余平方和。

?

本文来源:https://www.bwwdw.com/article/n8xp.html

Top