生物统计学(杜荣骞第三版)课后习题答案与解答过程

更新时间:2024-04-24 00:46:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 统计数据的收集与整理

1.1 算术平均数是怎样计算的?为什么要计算平均数?

n,含义为将全部观测值相加再被观测值的个数除,所得之商答:算数平均数由下式计算:

称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。 1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?

答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。

1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?

答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。 1.4 完整地描述一组数据需要哪几个特征数?

答:平均数、标准差、偏斜度和峭度。 1.5 下表是我国青年男子体重(kg)。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。

66 70 60 67 64 59 66 62 66 62 64 59 38 66 69

69 64 66 68 66 66 68 69 65 67 67 67 62 63 70

64 58 65 62 68 65 64 70 67 71 66 61 67 65 63

65 67 61 63 64 63 65 68 66 69 64 68 65 63 64

64 66 61 70 63 56 71 65 74 65 60 69 65 67 65

66 66 66 65 60 66 61 63 64 65 61 66 69 68 64

68 67 67 64 64 63 63 65 69 75 68 64 65 66 67

65 66 62 65 69 63 61 66 65 62 67 69 67 62 67

62 66 65 62 65 66 64 64 64 69 63 65 65 63 65

64 62 65 66 66 67 64 68 65 68 59 68 72 61 66

69 66 61 62 67 63 67 69 65 68 65 67 66 66 62

61 66 64 63 67 70 69 65 68 65 60 64 67 61 61

61 64 62 68 67 67 70 63 67 63 64 64 64 63 65

68 62 64 65 65 70 66 67 65 66 63 66 61 68 65

66 62 65 68 67 62 64 63 65 66 69 69 64 65 60

57 65 62 57 67 64 65 70 66 65 62 73 66 66 63

66 64 65 67 66 72 64 65 67 62 71 68 63 69 65

69 65 68 66 68 69 63 68 72 61 69 60 63 64 62

66 66 68 68 64 67 70 67 65 68 60 60 66 66 66

65 72 65 63 67 67 64 69 67 65 63 63 66 70 64

y??yi?1ni答:首先建立一个外部数据文件,名称和路径为:E:\\data\\exer1-5e.dat。所用的SAS程序和计算结果如下:

proc format; value hfmt

56-57='56-57' 58-59='58-59' 60-61='60-61' 62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;

data weight;

infile 'E:\\data\\exer1-5e.dat'; input bw @@; run;

proc freq; table bw;

format bw hfmt.; run;

The SAS System

Cumulative Cumulative

BW Frequency Percent Frequency Percent -----------------------------------------------------

56-57 3 1.0 3 1.0 58-59 4 1.3 7 2.3 60-61 22 7.3 29 9.7 62-63 46 15.3 75 25.0 64-65 83 27.7 158 52.7 66-67 77 25.7 235 78.3 68-69 45 15.0 280 93.3 70-71 13 4.3 293 97.7 72-73 5 1.7 298 99.3 74-75 2 0.7 300 100.0

1.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?

答:用means过程计算,两个样本分别称为y1和y2,结果见下表:

The SAS System

Variable N Mean Std Dev ----------------------------------------

Y1 10 64.5000000 3.5039660 Y2 10 63.9000000 3.1780497 ----------------------------------------

随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。 1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?

答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。 1.8 证明然相等?

??yi??y??i?1n2???yi?y?,2i?1n其中yi??yi?C。若用

yi??yiC或yi??Cyi编码时,前式是否仍

?答:(1)令 yi?yi?C

则 y??y?C 平均数特性之③。

2????y?y?ii?1nn????yi?C???y?C??i?1n2

???yi?y?i?12

(2) 令 则

yi??yiC

y??yC 平均数特性之②。

2????y?y?ii?1nny??y???i??C?i?1?C?2??yi?1ni?y?22C

用第二种编码方式编码结果,两式不再相等。

1.9 有一个样本:y1,y2,?,yn,设B为其中任意一个数值。证明只有当B?y时,

2??y?B?i?1n最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。

2???y?B?2?0??p?y?B??B答:令 , 为求使p达最小之B,令

?y?y2??y?B??0B?n则 。

1.10 检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:

10.0 7.0 10.0 10.0 8.3

9.3 6.7 7.5 9.9

7.2 9.5 7.2 7.5

9.1 7.8 5.0 4.5 4.8 9.5 8.3 6.0 8.0 6.2 8.5 10.5 7.3 7.6 4.9 8.5 7.4

8.10.5 10.6 9.6 10.1 0 7.8.1 9.6 7.6 9.4 9 8.7.1 6.1 5.2 6.8 7 7.9.7 6.2 8.0 6.9 0 7.8.3 8.4 7.8 7.5 0

11.0 9.7 6.6 10.0 5.0

8.1 6.7 5.2 5.8

7.7 6.3 6.7 6.4

7.5

7.1

8.6 10.0

6.5 8.4 8.6 5.0 3.5

6.6 10.0 6.5 7.8 10.5 4.6

8.0 7.6 7.8 6.9

7.4 7.0 6.

4 7.0 7.

4 9.7 6.

4 6.4 11.0 9.0 9.3

8.6 6.4

编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。

答:首先建立一个外部数据文件,名称和路径为:E:\\data\\exr1-10e.dat。SAS程序及结果如下:

options nodate;

proc format;

value hfmt 3.5-4.4='3.5-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4' 6.5-7.4='6.5-7.4' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4' 9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4'; run; data wheat;

infile 'E:\\data\\exr1-10e.dat'; input height @@; run; proc freq;

table height;

format height hfmt.; run;

proc capability graphics noprint; var height;

histogram/vscale=count;

inset mean var skewness kurtosis; run;

The SAS System The FREQ Procedure

Cumulative Cumulative

height Frequency Percent Frequency Percent ---------------------------------------------------------------------

3.5-4.4 1 1.00 1 1.00 4.5-5.4 9 9.00 10 10.00 5.5-6.4 11 11.00 21 21.00 6.5-7.4 23 23.00 44 44.00 7.5-8.4 24 24.00 68 68.00 8.5-9.4 11 11.00 79 79.00 9.5-10.4 15 15.00 94 94.00 10.5-11.4 6 6.00 100 100.00

1.11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据的接收范围频数表[2]如下:(略作调整)

HDBH数据的接收范围

频 数

/(U ·L-1) <214

<245.909 1 <277.818 2 <309.727 3 <341.636 4 <373.545 5 <405.454 5 <437.363 6 <469.272 7 <501.181 8 <533.090 9

根据上表中的数据作出直方图。

答:以表中第一列所给出的数值为组界,直方图如下:

1 3 11 19 26 22 11 13 6 3 2

1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数(finger ridge count, FRC)。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(total finger ridge count, TFRC)。下表给出了大理白族人群总纹嵴数的频数分布[3]:

TFRC分组 11~30

31~50 51~70 71~90 91~110 111~130 131~150 151~170 171~190 191~210

中值 20 40 60 80 100 120 140 160 180 200

频 数 2 1 8 29 54 63 68 51 18 6

首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。

答:总纹脊数属计数数据。

计数数据的频数分布图为柱状图,频数分布图如下:

样本特征数(以TFRC的中值计算)SAS程序:

options nodate; data tfrc;

do i=1 to 10; input y @@; input n @@; do j=1 to n; output; end; end; cards; 20 2 40 1 60 8 80 29 100 54 120 63 140 68 160 51 180 18 200 6 ; run;

proc means mean std skewness kurtosis; var y; run;

结果见下表:

The SAS System

Analysis Variable : Y

Mean Std Dev Skewness Kurtosis ------------------------------------------------------

126.5333333 32.8366112 -0.2056527 -0.0325058 ------------------------------------------------------

从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。分布不对称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对称的,峭度几乎为零。

1.13 海南粗榧叶长度的频数分布[4]:

叶长度/mm 2.0~2.2 2.2~2.4 2.4~2.6 2.6~2.8

中值 2.1 2.3 2.5 2.7

频 数 390 1 434 2 643 3 546

2.8~3.0 3.0~3.2 3.2~3.4 3.4~3.6 3.6~3.8 3.8~4.0 4.0~4.2 4.2~4.4 4.4~4.6 2.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 5 692 5 187 4 333 2 767 1 677 1 137 667 346 181

绘出频数分布图,并计算偏斜度和峭度。

答:表中第一列所给出的数值为组限,下图为海南粗榧叶长度的频数分布图。

计算偏斜度和峭度的SAS程序和计算结果如下:

options nodate; data length;

do i=1 to 13; input y @@; input n @@; do j=1 to n; output; end; end; cards; 2.1 390 2.3 1434 2.5 2643 2.7 3546 2.9 5692 3.1 5187 3.3 4333 3.5 2767 3.7 1677 3.9 1137 4.1 667 4.3 346 4.5 181 ; run;

proc means n skewness kurtosis; var y; run;

The SAS System

Analysis Variable : Y

n Skewness Kurtosis

---------------------------------

30000 0.4106458 0.0587006 ---------------------------------

样本含量n=30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有一个明显的正偏。

1.14 马边河贝氏高原鳅繁殖群体体重分布如下[5]:

体质量/g 2.00~3.00 3.00~4.00 4.00~5.00 5.00~6.00 6.00~7.00 7.00~8.00 8.00~9.00 9.00~10.00 10.00~11.00 11.00~12.00 12.00~13.00

中值 2.50 3.50 4.50 5.50 6.50 7.50 8.50 9.50 10.50 11.50 12.50

雌 鱼 1 6 13 30 25 16 21 18 12 3 2

雄 鱼 4 7 11 25 25 23 17 16 4

首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。

答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上,以不同的颜色表示。

计算统计量的SAS程序与前面的例题类似,这里不再给出,只给出结果。

雌鱼:

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis -----------------------------------------------------------

147 7.2414966 2.1456820 0.2318337 -0.6758677 -----------------------------------------------------------

雄鱼:

The SAS System

Analysis Variable : Y

N Mean Std Dev Skewness Kurtosis -----------------------------------------------------------

132 6.7803030 1.9233971 -0.1322816 -0.5510332 -----------------------------------------------------------

直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。

1.15 黄胸鼠体重的频数分布[6]:

组 界/g 0

答:下面是频数分布图:

从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者的数量。另外,似乎峭度也有些低。

1.16 25名患者入院后最初的白细胞数量(×103)[7] 如下表:

8

7 10

5 3 14

12 11 4

4 14 5

11 11 5

6 9

8 6

7 6

7 5

12 6

计算白细胞数量的平均数、方差和标准差。

答:用means过程计算,程序不再给出,只给出运行结果。

The SAS System

Analysis Variable : Y

N Mean Variance Std Dev -------------------------------------------

25 7.8400000 10.3066667 3.2103998 --------------------------------------------

1.17 细胞珠蛋白基因(CYGB)可能是非小细胞肺癌(NSCLC)的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtIT-MtIN)[8]:

样本号 357 370 367 316 369 358 303 314 308 310 341 348 323 360 336

T/N 0.014 0.019 0.035 0.044 0.054 0.084 0.111 0.135 0.236 0.253 0.264 0.315 0.359 0.422 0.442

MtIT-MtIN 0.419 0.017 0.105 0.333 0.170 0.246 0.242 0.364 0.051 0.520 0.200 0.103 0.167 0.176 0.037

计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?

答:记 T/N为y1,MtIT-MtIN为y2,用means过程计算,SAS运行的结果见下表:

The SAS System

Variable N Mean Std Dev CV ------------------------------------------------------

Y1 15 0.1858000 0.1505624 81.0346471 Y2 15 0.2100000 0.1465274 69.7749634 ------------------------------------------------------

两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同 单位的影响了。

第二章 概率和概率分布

2.1 做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。上抛硬币,观察落下后是A向上还是B向上。重复10次为一组,记下A向上的次数,共做10组。再以100次为一组,1 000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。

答:在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。

options nodate; data value; n=10; m=10; phi=1/2; do i=1 to m;

retain seed 3053177; do j=1 to n;

y=ranbin(seed,n,phi); output; end; end; data disv; set value; by i;

if first.i then sumy=0; sumy+y;

meany=sumy/n; py=meany/n; if last.i then output; keep n m phi meany py; run;

proc print;

title 'binomial distribution: n=10 m=10'; run;

proc means mean; var meany py;

title 'binomial distribution: n=10 m=10'; run; 以下的三个表是程序运行的结果。表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。表的第二部分为10组数据的平均数。从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。

binomial distribution: n=10 m=10

OBS N M PHI MEANY PY 1 10 10 0.5 5.7 0.57 2 10 10 0.5 4.5 0.45 3 10 10 0.5 5.1 0.51 4 10 10 0.5 6.1 0.61 5 10 10 0.5 6.1 0.61 6 10 10 0.5 4.3 0.43 7 10 10 0.5 5.6 0.56 8 10 10 0.5 4.7 0.47

9 10 10 0.5 5.2 0.52 10 10 10 0.5 5.6 0.56

binomial distribution: n=10 m=10

Variable Mean

----------------------

MEANY 5.2900000 PY 0.5290000

----------------------

binomial distribution: n=100 m=10

OBS N M PHI MEANY PY

1 100 10 0.5 49.71 0.4971 2 100 10 0.5 49.58 0.4958 3 100 10 0.5 50.37 0.5037 4 100 10 0.5 50.11 0.5011 5 100 10 0.5 49.70 0.4970 6 100 10 0.5 50.04 0.5004 7 100 10 0.5 49.20 0.4920 8 100 10 0.5 49.74 0.4974 9 100 10 0.5 49.37 0.4937 10 100 10 0.5 49.86 0.4986

binomial distribution: n=100 m=10

Variable Mean

----------------------

MEANY 49.7680000 PY 0.4976800

----------------------

binomial distribution: n=1000 m=10

OBS N M PHI MEANY PY

1 1000 10 0.5 499.278 0.49928 2 1000 10 0.5 499.679 0.49968 3 1000 10 0.5 499.108 0.49911 4 1000 10 0.5 500.046 0.50005 5 1000 10 0.5 499.817 0.49982 6 1000 10 0.5 499.236 0.49924

7 1000 10 0.5 499.531 0.49953 8 1000 10 0.5 499.936 0.49994 9 1000 10 0.5 500.011 0.50001 10 1000 10 0.5 500.304 0.50030

binomial distribution: n=1000 m=10

Variable Mean

----------------------

MEANY 499.6946000 PY 0.4996946

----------------------

2.2 每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X染色体来自外祖父的概率是多少?来自祖父的概率呢?

答: (1)设A为一对第1号染色体分别来自祖母和外祖母的事件,则

111P?A??1??1??224

(2)设B为男性的X染色体来自外祖父的事件,则

(3)设C为男性的X染色体来自祖父的事件,则

2.3 假如父母的基因型分别为IAi和IBi 。他们的两个孩子都是A型血的概率是多少?他们生两个O型血女孩的概率是多少?

1PI?配子?P?i配子??2 答:父:

1PI?配子?P?i配子??2 母:

?1?P?两名?型血子女??P??型血?P??型血? P?C??0

P?B??1?11?22

?????????P?I?P?i?P?I?P?i??PI?iPI?i?4?

?2??1?????2?1?16 11P?两名?型血女儿??P??型血?P??型血?2211?P?ii?P?ii?2211?P?i?P?i?P?i?P?i?22

?1?????2?1?646

2.4 白化病是一种隐性遗传病,当隐性基因纯合时(aa)即发病。已知杂合子(Aa)在群体中的频率为1 / 70,问一对夫妻生出一名白化病患儿的概率是多少?假如妻子是白化病患者,她生出白化病患儿的概率又是多少?

答:(1)已知 所以

P?Aa??170P?aaAa?Aa??14

P?Aa?Aa且生一名aa??P?Aa?Aa?P?aaAa?Aa??P?Aa?P?Aa?P?aaAa?Aa??1??1??1?????????70??70??4?1? 19600

11P?Aa??P?aaaa?Aa??702 (2)已知

所以

?P?aa?Aa?P?aaaa?Aa??P?aa?P?Aa?P?aaaa?Aa??1??1???1??????70??2?1? 140P?aa?Aa且生一名aa?

2.5 在图2-3中,III1为Aa个体,a在群体中的频率极低,可排除a多于一次进入该系谱的可能性,问III2亦为a的携带者的概率是多少?

图 2-3

答:设:事件A:III1含a, 事件B:II2含a, 事件C:I3含a, 事件D:II2含a, 事件E:III2含a, 事件C’:I4含a,

P?A??1?1?1P?AB??P?A?P?BA???1?????2?2

?1??1?1P?ABC??P?AB?P?CAB????????2??2?4?1??1??1?1P?ABCD??P?ABC?P?DABC??????????2??2??2?8?1??1??1??1?1P?ABCDE??P?ABCD?P?EABCD????????????2??2??2??2?16

同理可得:

?1??1??1??1?1P?ABC'DE??P?ABC'D?P?EABC'D????????????2??2??2??2?16

故III2含a总的概率为:

2.6 一个杂合子AaBb自交,子代基因型中有哪些基本事件?可举出哪些事件?各事件的概率是多少?

答:1.共有16种基因型,为16个基本事件。

AABB AAbB aABB aAbB AABb AAbb aABb aAbb AaBB AabB aaBB aabB AaBb Aabb aaBb aabb

2.可举出的事件及其概率:

A1: 包含四个显性基因 = {AABB}

A2: 包含三个显性基因 = {AABb, AAbB, AaBB, aABB}

4P?A2??16

A3: 至少包含三个显性基因 = { AABb, AAbB, AaBB, aABB, AABB}

A4: 包含两个显性基因 = {AaBb, AabB, aABb, aAbB, AAbb, aaBB}

A5: 至少包含两个显性基因 = {AaBb, AabB, aABb, aAbB, AAbb, aaBB AABb, AAbB, AaBB, aABB, AABB}

A6: 包含两个不同的显性基因 = {AaBb, AabB, aABb, aAbB}

A7: 包含两个相同的显性基因 = {AAbb, aaBB}

2.7 一对表型正常的夫妻共有四名子女,其中第一个是隐性遗传病患者。问其余三名表型正常的子女是隐性基因携带者的概率是多少?

答:样本空间W = {AA, Aa, aA}

P?111??16168

P?A1??116

P?A3??516 616

P?A4??P?A5??1116 416 216

P?A6??P?A7??

2.8 自毁容貌综合征是一种X连锁隐性遗传病,图2-4是一个自毁容貌综合征患者的家系图。该家系中III2的两位舅父患有该病,III2想知道她的儿子患该病的概率是多少?(提示:用Bayes定理计算II5在已生四名正常男孩的条件下是携带者的条件概率)

P?隐性基因携带者??23

图 2-4

答:若IV1是患者,III2必定是携带者,II5亦必定是携带者。已知II2和II3为患者,说明I2为杂合子,这时II5可能是显性纯合子也可能是杂合子。称II5是杂合子这一事件为A1,II5是显性纯合子这一事件为A2,则:

11P?A1??P?A2??22

设II5生4名正常男孩的事件为事件B,则II5为杂合子的条件下,生4名正常男孩 (III3至III6)的概率为:

1?1?P?BA1??????2?16

4II5为显性纯合子的条件下,生4名正常男孩的概率为:

2

将以上各概率代入Bayes公式,可以得出在已生4名正常男孩条件下,II5为杂合子的概率:

P?BA??1P?A1B??P?A1?P?BA1??P?A2?P?BA2?P?A1?P?BA1?

由此得出III2为杂合子的概率:

?1??1??????2??16???1??1??1?????????1??2??16??2?1?17

?1??1?1?????? P(III2为杂合子)?17??2?34 以及III2的儿子(IV1)为受累者的概率:

?1??1?1???????1.474268???? P(IV1为患者)

2.9 Huntington舞蹈病是一种由显性基因引起的遗传病,发病年龄较迟,图2-5为一Huntington舞蹈病的家系图。III1的外祖父I1患有该病,III1现已25岁,其母II2已43岁,均无发病迹象。已知43岁以前发病的占64%,25岁以前发病的占8%,问III1将发病的概率是多少?(提示:用Bayes定理先求出II2尚未

发病但为杂合子的条件概率)

图 2-5

答:根据以上资料可以得出:

1P?A1??2 II2为杂合子的概率 II2为正常纯合子的概率

P?A2??12

II2为杂合子,但尚未发病的概率 PBA1?1?0.64 = 0.36 II2为正常纯合子,但尚未发病的概率 PBA2?1 因此,II2尚未发病但为杂合子的概率

????P?A1B??P?A1?P?BA1??P?A2?P?BA2?P?A1?P?BA1??0.5?0.36?0.260.5?0.36?0.5?1.0

0.26?0.132III1为杂合子的概率

III1为正常纯合子的概率 P?A4??1?0.13?0.87

III为杂合子,但尚未发病的概率 P?BA3??1?0.08?0.92

P?A3??1

III1为正常纯合子,但尚未发病的概率 PBA4?1 因此,III1尚未发病,但为杂合子的概率

??P?A3B??P?A3?P?BA3??P?A4?P?BA4?P?A3?P?BA3??所以,III1为该病患者的概率为12%。

0.13?0.92?0.120.13?0.92?0.87?1.0

2.10 一实验动物养殖中心,将每30只动物装在一个笼子中,已知其中有6只动物体重不合格。购买者从每一笼子中随机抽出2只称重,若都合格则接受这批动物,否则拒绝。问:

(1)检查第一只时就不合格的概率? (2)第一只合格,第二只不合格的概率? (3)接受这批动物的概率?

630 答:(1)设A为第一只不合格的事件,则

6PBA?29 (2)设B为第二只不合格的事件,则

P?A?????24??23?P?A?PBA??????30??29? (3)接受这批动物的概率

2.11 一名精神科医生听取6名研究对象对近期所做梦的叙述,得知其中有3名为忧郁症患者,3名是健康者,现从6名研究对象中选出3名,问:

(1)一共有多少种配合?

??(2)每一种配合的概率?

(3)选出3名忧郁症患者的概率? (4)至少选出两名忧郁症患者的概率? 答:(1)

3C6?6!?203!3!

1(2)20

3211???(3)65420

130C32C3?C3C31?32 C6(4)

2.12 图2-6为包含两个平行亚系统的一个组合系统。每一个亚系统有两个连续控制单元,只要有一

个亚系统可正常工作,则整个系统即可正常运行。每一单元失灵的概率为0.1,且各单元之间都是独立的。问:

(1)全系统可正常运行的概率? (2)只有一个亚系统失灵的概率? (3)系统不能正常运转的概率?

图 2-6

答:(1)P(全系统可正常运行)= 0.94 + 0.93 × 0.1 × 4 + 0.92 × 0.12 × 2 = 0.963 9 (2)P(只有一个亚系统失灵) = 0.92 × 0.12 ×2 + 0.93 × 0.1 × 4 = 0.307 8 (3)P(系统不能正常运转) = 0.14 + 0.13 × 0.9 × 4 + 0.12 × 0.92 × 4 = 0.036 1 或 = 1 – 0.963 9 = 0.036 1

2.13 做医学研究需购买大鼠,根据研究的不同需要,可能购买A,B,C,D四个品系中的任何品系。实验室需预算下一年度在购买大鼠上的开支,下表给出每一品系50只大鼠的售价及其被利用的概率:

品系 A B C D

每50只的售价 /元

500.00 750.00 875.00 100.00

被利用的概率

0.1 0.4 0.3 0.2

问:(1)设Y为每50只大鼠的售价,期望售价是多少? (2)方差是多少?

答:(1)

E?Y???p?y?y?500?x222????????EY?EY(2)

1432?750??875??100??632.510101010

1432????5002??7502??8752??1002???632.5210101010?? ?81631.25

2.14 Y为垂钓者在一小时内钓上的鱼数,其概率分布如下表:

y p(y)

0 0.001

1 0.010

2 0.060

3 0.185

4 0.324

5 0.302

6 0.118

问:(1)期望一小时内钓到的鱼数? (2)它们的方差?

答:E?Y??0 × 0.001 + 1 × 0.010 + 2 × 0.060 + 3 × 0.185 + 4 × 0.324 + 5 × 0.302 + 6 × 0.118= 4.2 222222222σ = 0 ×0.001 + 1 ×0.010 + 2 ×0.060 + 3 ×0.185 + 4 ×0.324 + 5 ×0.302 + 6 ×0.118 – 4.2 = 1.257

2.15 一农场主租用一块河滩地,若无洪水,年终可望获利20 000元。若出现洪灾,他将赔掉12 000元(租地费、种子、肥料、人工费等)。根据常年经验,出现洪灾的概率为0.4。问:(1)农场主期望赢利? (2)保险公司应允若投保1 000元,将补偿因洪灾所造成的损失,农场主是否买这一保险? (3)你认为保险公司收取的保险金是太多还是太少?

答:(1)未投保的期望赢利:E(X)= 20 000 × 0.6 + (12 000) × 0.4 = 7 200(元)

(2)投保后的期望赢利:E(X)= (20 000 – 1 000) × 0.6 + (?1 000) × 0.4 = 11 000(元)。 当然要买这一保险。

(3)保险公司期望获利:E(X)= 1000 × 0.6 + (?12000 + 1000) × 0.4 = ?3800(元) 收取保险金太少。

第三章 几种常见的概率分布律

3.1 有4对相互独立的等位基因自由组合,问有3个显性基因和5个隐性基因的组合有多少种?每种的概率是多少?这一类型总的概率是多少?

答:代入二项分布概率函数,这里φ=1/2。

8!?1?p?3????3!5!?2?

5结论:共有56种,每种的概率为0.003 906 25(1/256),这一类型总的概率为0.21875。

56?1??1??0.21875???56???22256????

38

3.2 5对相互独立的等位基因间自由组合,表型共有多少种?它们的比如何?

答:(1)

?31?????44?55?3??3??1??3??1??3??1??3??1??1?????5?????10?????10?????5????????4??4??4??4??4??4??4??4??4? ?4?表型共有1+5+10+10+5+1 = 32种。

(2)

4322345243?3?P?5显??????0.2373?4?1024?3??1?5?81P?4显1隐??5??????0.3955?4??4?1024?3??1?10?27P?3显2隐??10??????0.26371024?4??4??3??1?10?9P?2显3隐??10??????0.08789?4??4?10245?3?3??1?P?1显4隐??5??????0.01465?4??4?10241?1?P?5隐??????0.000976641024??

它们的比为:243∶81(×5)∶27(×10)∶9(×10)∶3(×5)∶1 。

3.3 在辐射育种实验中,已知经过处理的单株至少发生一个有利突变的概率是φ,群体中至少出现一株有利突变单株的概率为Pa,问为了至少得到一株有利突变的单株,群体n应多大?

答: 已知φ为单株至少发生一个有利突变的概率,则1―φ为单株不发生一个有利突变的概率为:

54233245

3.4 根据以往的经验,用一般的方法治疗某疾病,其死亡率为40%,治愈率为60%。今用一种新药治疗染上该病的5名患者,这5人均治愈了,问该项新药是否显著地优于一般疗法?(提示:计算一般疗法5人均治愈的概率,习惯上当P(5人均治愈)> 0.05时,则认为差异不显著;当P(5人均治愈)< 0.05时,则认为差异显著)。

答:设P(治愈)=φ= 0.60,则5人均治愈的概率为:

?1???n?1?Panlg?1????lg?1?Pa?lg?1?Pa?n?lg?1???

P = p5 = (0.60)5 = 0.077 76 P>0.05

所以该药物并不优于一般疗法。

3.5 给一组雌雄等量的实验动物服用一种药物,然后对存活的动物分成5只为一组,进行抽样试验。试验结果表明,5只均为雄性的频率为1 / 243,问该药物对雌雄的致死作用是否一致?

答:设p为处理后雄性动物存活的概率,则

因此,对雄性动物的致死率高于对雌性动物的致死率。

3.6 把成年椿象放在?8.5℃下冷冻15分钟,然后在100个各含10只椿象的样本中计算死虫数,得到以下结果:

死虫数 样本数

0 4

1 21

2 28

3 22

4 14

5 8

6 2

7 1

8 0

9 0

10 0

合计 100

p5?11?52433p?13

计算理论频数,并与实际频数做一比较。

答:先计算死虫数C: C = 0×4+1×21+2×28+3×22+4×14+5×8+6×2+7×1 = 258 死虫率 φ= 258 / 1 000 = 0.258 活虫率 1 –φ= 0.742

展开二项式(0.742 + 0.258)10 得到以下结果:

0.050 59+0.175 90+0.275 22+0.255 19+0.155 28+0.064 79+0.018 774 +3.730 2×10-3+4.863 8×10-4+3.758 2×10-5+1.307×10-6

将以上各频率乘以100得到理论频数,并将实际数与理论数列成下表。

死虫数 0 1 2 3 4 5 6 7 8 9 10

3.7 人类染色体一半来自父亲,一半来自母亲。在减数分裂时,46条染色体随机分配到两极,若不考虑染色体内重组,父亲的22条常染色体重新聚集在一极的概率是多少?12条父亲染色体和11条母亲染色体被分配到同一极的概率又是多少?常染色体的组合共有多少种?从上述的计算可以看出变异的广泛性,若再考虑染色体内重组,新组合染色体的数目就更惊人了。

实际数 4 21 28 22 14 8 2 1 0 0 0

理论数 5.1 17.2 27.5 25.5 15.5 6.5 1.9 0.4 0 0 0

偏差 -1.1 3.8 0.5 -3.5 -1.5 1.5 0.1 0.6 0 0 0

?1??7???2.38?10答:(1)P(父亲22条常染色体重新聚集于同一极) = ?2?

(2)P(12条父亲染色体和11条母亲染色体被分配到同一极)

2223!?1??1?1352078?0.1612?????!12!?2??2?8388608 = 11

(3)共有222 = 4 194 304种。

11123.8 生男生女的概率各为1/2,问在一个医院中,连续出生30名男孩及30名性别交错的新生儿的概率各为多少?

1?1???9.3132?10?10??1073741824答:P(连续出生30名男孩)=?2? 1?1?2????1.8626?10?9536870912 P(30名性别交错不同者)=?2?

3.9 在显性基因频率很低时,出现显性性状的个体一般为杂合子。一名女子是蓬发者(显性性状),在她的全部六名孩子中,(1)其中第一名孩子,(2)其中第一和第二名孩子,(3)全部六名孩子,(4)任何一名曾孙(或曾孙女)中,发生蓬发的概率是多少?

答: 设:P(子女蓬发)= φ= 1/2

P(子女非蓬发)= 1 – φ= 1/2

则(1)P(其中第一名子女蓬发)=(1/2)(1/2)5 = 0.015 625

(2)P(只有第一和第二名孩子蓬发)= (1/2)2(1/2)4 = 0.015 625 (3)P(全部六名子女)= (1/2)6 = 0.015 625

(4)P(任何一名曾孙蓬发)= P(任何一名儿子蓬发)P(任何一名孙子蓬发|蓬发的儿子)P(任何一名曾孙蓬发|蓬发的孙子)

=(1/2×1/2) (1/2×1/2) (1/2×1/2) = 0.015 625

3.10 在数量性状遗传中,F1的性状介于双亲之间,F2的性状向双亲方向分离。这是一个二项分布问题,根据二项展开式,计算控制某性状的基因个数,假设出现亲本性状的频率为a。

答:设:P(正效应基因频率)= p

p n ?a nlgp?lga

lga n?lgp

3.11 计算μ = 0.1,0.2,1,2,5时,泊松分布的γ1和γ2,绘制概率分布图并做比较。

3030y!E 答:泊松分布的概率函数:

将μ = 0.1,0.2,1,2,5分别代入上式。

(1) μ =0.1时

y p(y)

0 1 2 3 4 ?p?y???y?

0.904 8 0.090 48 0.004 524 0.000 150 8 0.000 003 77 ?1??2?

1?11?3.16230.1??1?100.1

(2)μ =0.2时

y 0 1 2 3 4

1p(y)

?0.818 7 0.163 7 0.016 39 0.001 092 0.000 054 58 1?2.23610.2?1??2??1??1?50.2

(3)μ = 1时

y 0 1 2 3 4 5 6 7 ?1??2?11p(y)

1 0.367 9 0.367 9 0.183 9 0.061 31 0.015 33 0.003 066 0.000 510 9 0.000 072 99

1???1?11

1??1?1

(4)μ = 2时

p(y)

y y 6 7 8 9 10

p(y) 0.012 03 0.003 437 0.000 859 3 0.000 190 9 0.000 038 19

0 0.135 3 1 0.270 7 2 0.270 7 3 0.180 4 4 0.090 22 5 0.036 09 111?1????0.7071?21.414211?2???0.5?2

(5)μ = 5时 y 0 1 2 3 4 5 6 7 8

11p(y)

0.006 738 0.033 69 0.084 22 0.140 4 0.175 5 0.175 5 0.146 2 0.104 4 0.065 28

y 9 10 11 12 13 14 15 16

p(y) 0.036 27 0.018 13 0.008 424 0.003 434 0.001 321 0.000 471 7 0.000 157 2 0.000 049 14

?1??2?11???0.4427?52.2361?

1?0.2?5

可见,随着μ的增大泊松分布越来越接近于“正态”的。

3.12 随机变量Y服从正态分布N(5,42),求P(Y≤0),P(Y≤10),P(0≤Y≤15),P(Y≥5),P(Y≥15)的值。

答:

?10?5?P?Y?10????????1.25??0.89435?4??0?5?P?Y?0?????????1.25??0.105654???15?5??0?5?P?0?Y?15????????????2.5?????1.25??0.99379?0.10565?0.88814?4??4??5?5?P?Y?5??1?????1???0??1?0.5?0.5?4??15?5?P?Y?15??????????2.5??0.006214??

或者使用SAS程序计算,结果见下表:

OBS MU SIGMA Y1 LOWERP Y2 UPPERP MIDP

1 5 4 10 0.89435 . . . 2 5 4 0 0.10565 . . .

3 5 4 0 0.10565 15 0.00621 0.88814 4 5 4 . . 5 0.50000 . 5 5 4 . . 15 0.00621 .

3.13 已知随机变量Y服从正态分布N(0,52),求y0 分别使得P(Y≤y0)=0.025, P(Y≤y0)=0.01, P(Y≤y0)=0.95及 P(Y≥y0)=0.90。

答:

3.14 细菌突变率是指单位时间(细菌分裂次数)内,突变事件出现的频率。然而根据以上定义直接计算突变率是很困难的。例如,向一试管中接种一定量的细菌,振荡培养后铺平板。在平板上发现8个突变菌落。这8个突变细菌究竟是8个独立的突变事件呢,还是一个突变细胞的8个子细胞是很难确定的。但是有一点是可以肯定的,即,没有发现突变细胞的平皿一定没有突变事件出现。

向20支试管中分别接种2×107 个大肠杆菌,振荡培养后铺平板,同时接种T1噬菌体。结果在9个平皿中出现数量不等的抗T1噬菌体菌落。11个平皿上没有出现。已知平皿上突变菌落数服从泊松分布并且细胞分裂次数近似等于铺平板时的细胞数。利用泊松分布概率函数计算抗T1突变率。

答:已知接种细胞数为n,n即可认为是细胞分裂次数。若每一次细胞分裂的突变率为u,那么每一试管中平均有un次突变事件发生(μ)。从泊松分布概率函数可知,无突变发生的概率f(0)=E-un。实验结果无突变的平皿数为11个,即f(0)=11/20=0.55。解下式

?un E?0.55

即可求出突变率u。已知n=0.2×108,代入上式得到u=3×10-8。

3.15 一种新的血栓溶解药t-pA,据说它能消除心脏病发作。在一次检测中的7名检测对象,年龄都在50岁以上,并有心脏病发作史。他们以这种新药治疗后,6人的血栓得到溶解,1人血栓没有溶解。

假设t-pA溶解血栓是无效的,并假设,不用药物在短时间内心脏患者血栓自己溶解的概率φ是很小的,如φ=0.1。设y为7名心脏患者中血栓在短时间内可以自动溶解的患者数。问:(1)若药物是无效的,7名心脏患者中的6名血栓自动溶解的概率是多少?

(2)Y≥6是否为一稀有事件,你认为药物是否有效? 答:(1) ф= 0.1 1-ф=0.9 n=7 y=6,

y0?0?y?0?P?Y?y0??0.025??0??1.96y0??9.8??0.02555??y0?0?y?0?P?Y?y0??0.01??0??2.326y0??11.63??0.0155??y0?0?y?0?P?Y?y0??0.95??0?1.645y0?8.225??0.9555??y0?0?y?0?P?Y?y0??0.901???0??1.283y0??6.415??0.9055??

6?0.1??0.9??p?6??C76177???0.1??0.0000001 p7?C7(2)

P (Y≥6) = 0.000 006 3+0.000 000 1 = 6.4×10-6。

结论:在不用药的情况下,7名病人中6名患者的血栓自动溶解的事件是一个小概率事件,因此药物有效。

3.16 一农药商声称,用他的农药喷洒玉米后,90%的玉米植株中不再有活的玉米螟。为了验证这种说法,喷药后随机抽出25株玉米,发现7株中仍有活的玉米螟。

(1)若农药商的说法是正确的,在25株玉米中包含7株和7株以上有活玉米螟的概率是多少? (2)在25株玉米中有7株有活玉米螟,你是否认为农药有效率达不到90%? 答:(1)

P?Y?7??1?P?Y?6?7!?0.1?6?0.9?1?0.00000636!1!

(2) 是

025242233220123?C25????0.1??0.9??C250.1??0.9??C250.1??0.9??C250.1??0.9????1????C4?0.1?4?0.9?21?C5?0.1?5?0.9?20?C6?0.1?6?0.9?19?2525?25??0.009

3.17 设计一实验用来检验号称心灵感应者是否有特异功能(ESP)。将5张卡片洗匀随机抽出一张,不准心灵感应者看,让他判断是哪一张。实验共重复20次,记录正确判断次数(假设20次重复间是随机的)。

假设心灵感应者是猜的,没有ESP,那么

(1)每次得到正确结果的概率是什么?

(2)在20次重复中,期望正确判断数是多少? (3)正确判断6次和6次上的概率是多少?

(4)假设心灵感应者在20次重复中判断正确6次,是否可以证明心灵感应者不是猜的,而是真正的ESP?

答:(1)p = 1/5。 (2)E(Y) = np = 20×1/5 = 4。

?1??4?20?1??4?P?Y?6??C?????????C20?????0.196?5??5??5??5?(3)

620614020(4)不能。因为在猜想的情况下,20次重复中判断正确6次的概率为0.196,将近20%,已不是小概率事件,非心灵感应者有可能得到这样的结果。

3.18 据一个生化制药厂报告,在流水线上每8小时的一个班中,破碎的安瓿瓶数服从泊松分布,μ=1.5。问:

(1)夜班破碎2个瓶子的概率是多少 ? (2)在夜班打碎2个以下的概率是多少? (3)在早班破碎2个以上的概率是多少?

(4)在一天连续三班都没有破碎的概率(假设三班间是独立的)?

1.52p?2???0.2512!?1.5答:(1)

1.501.51p?0??p?1????0.223?0.335?0.5580!?1.51!?1.5(2)

(3)P?x?2??1?p?2??p?1??p?0??0.191

(4)记A为每个班没有破碎的事件,则

3 P?AAA???p?0???0.223?0.011

3

第五章 统计推断

5.1 统计假设有哪几种?它们的含义是什么?

答:有零假设和备择假设。零假设:假设抽出样本的那个总体之某个参数(如平均数)等于某一给定的值。备择假设:在拒绝零假设后可供选择的假设。

5.2 小概率原理的含义是什么?它在统计假设检验中起什么作用?

答:小概率的事件,在一次试验中,几乎是不会发生的。若根据一定的假设条件,计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而否定假设。

小概率原理是显著性检验的基础,或者说显著性检验是在小概率原理的基础上建立起来的。

5.3 什么情况下用双侧检验?什么情况下可用单侧检验?两种检验比较,哪一种检验的效率更高?为什么?

答:以总体平均数为例,在已知μ不可能小于μ0时,则备择假设为HA:μ>μ0,这时为上尾单侧检验。在已知μ不可能大于μ0时,则备择假设为HA:μ<μ0,这时为下尾单侧检验。在没有关于μ不可能小于μ0或μ不可能大于μ0的任何信息的情况下,其备择假设为HA:μ≠μ0,这时为双侧检验。

两种检验比较,单侧检验效率更高,因为在单侧检验时,有一侧的信息是已知的,信息量大于双侧检验,因此效率高于双侧检验。

5.4 显著性水平是一个指数还是一个特定的概率值?它与小概率原理有什么关系?常用的显著水平有哪几个?

答:显著性水平是一个特定的概率值。在小概率原理的叙述中提到“若根据一定的假设条件,计算出来该事件发生的概率很小”,概率很小要有一个标准,这个标准就是显著水平。常用的显著水平有两个,5%和1%。

5.5 为什么会产生I型错误?为什么会产生II型错误?两者的关系是什么?为了同时减少犯两种错误的概率,应采取什么措施?

答:在H0是真实的情况下,由于随机性,仍有一部分样本落在拒绝域内,这时将拒绝H0,但这样的拒绝是错误的。即,如果假设是正确的,却错误地据绝了它,这时所犯的错误称为I型错误。

当μ≠μ0,而等于其它的值(μ1)时,样本也有可能落在接受域内。当事实上μ≠μ0,但错误地接受了μ=μ0的假设,这时所犯的错误称为II型错误。

为了同时减少犯两种错误的概率,应当增加样本含量。

5.6 统计推断的结论是接受H0,接受零假设是不是表明零假设一定是正确的?为什么?“接受零假设”的正确表述应当是什么?

答:统计推断是由样本统计量推断总体参数,推断的正确性是与样本的含量有关的。以对平均数的推断为例,当样本含量较少时,标准化的样本平均数u值较小,很容易落在接受域内,一旦落在接受域内,所得结论将是接受H0。如果抽出样本的总体参数μ确实不等于μ0,当增加样本含量之后,这种差异总能被检验出来。因此接受H0并不表明H0一定是正确的。

接受H0的正确表述应当是:尚无足够的理由拒绝H0。尚无足够的理由拒绝H0并不等于接受H0。

5.7 配对比较法与成组比较法有何不同?在什么情况下使用配对法?如果按成组法设计的实验,能不能把实验材料随机配对,而按配对法计算,为什么?

答:配对比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。成组比较法:将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。如果按成组比较法设计的实验,不能把实验材料进行随机配对而按配对法计算。因为这种配对是无依据的,不同配对方式所得结果不同,其结果不能说明任何问题。

5.8 如果一个配对实验设计,在处理数据时使用了成组法计算,后果是什么?

答:对于一个配对设计,在处理数据时按成组法计算,虽然不能认为是处理错误,但会明显降低处理的敏感性,降低了检验的效率。

5.9 已知我国14岁的女学生,平均体重为43.38 kg。从该年龄的女学生中抽取10名运动员,其体重 (kg) 分别为:39、36、43、43、40、46、45、45、42、41。问这些运动员的平均体重与14岁的女学生平均体重差异是否显著?

答: H0:μ=μ0(43.38 kg) HA:μ≠μ0 正态性检验:

从正态概率图看,抽出样本的总体近似服从正态分布。

SAS程序为:

options linesize=76 nodate; data girl;

input weight @@; diff=weight-43.38; cards;

39 36 43 43 40 46 45 45 42 41 ; run;

proc means n t prt ;

var diff;

title 'T-Test for Single Mean'; run; 结果见下表:

T-Test for Single Mean

Analysis Variable : DIFF

N T Prob>|T| --------------------------

10 -1.4117283 0.1917 --------------------------

P>0.05,尚无足够的理由拒绝H0。 5.10 以每天每千克体重-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:

对照组

5-羟色胺处理组

y/

· L-1) 4.20 8.49

s/(

· L-1) 1.21 1.11

n 12 9

检验5-羟色胺对血液中血清素含量的影响是否显著?

答:首先,假定总体近似服从正态分布(文献中没有给出)。

方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2程序如下:

HA:?1??2

options nodate; data common;

input n1 m1 s1 n2 m2 s2; dfa=n1-1; dfb=n2-1; vara=s1**2; varb=s2**2;

if vara>varb then F=vara/varb; else F=varb/vara;

if vara>varb then Futailp=1-probf(F,dfa,dfb); else Futailp=1-probf(F,dfb,dfa); df=n1+n2-2;

t=abs(m1-m2)/sqrt(((dfa*vara+dfb*varb)*(1/n1+1/n2))/df); utailp=1-probt(t,df);

k=vara/n1/(vara/n1+varb/n2); df0=1/(k**2/dfa+(1-K)**2/dfb);

t0=abs(m1-m2)/sqrt(vara/n1+varb/n2); utailp0=1-probt(t0,df0);

f=f; Futailp=Futailp; df=df; t=t; tutailp=utailp; output; df=df0; t=t0; tutailp=utailp0; output; cards;

12 4.20 1.21 9 8.49 1.11 ;

proc print; id f;

var Futailp t df tutailp;

title 'T-Test for Non-Primal Data'; run;

结果如下:

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP 1.18830 0.41320 8.32277 19.0000 4.6339E-8 1.18830 0.41320 8.43110 18.1369 5.4346E-8

首先看F检验,方差齐性检验是双侧检验,当显著性概率P <0.025时拒绝H0,在这里P=0.41,因此方差具齐性。方差具齐性时的t检验,看第一行的结果,其上侧尾区的显著性概率P是一个非常小的值,远远小于0.005。因此拒绝H0,5-羟色胺对血液中血清素的含量有极显著的影响。

5.11 以每天每千克体重

对照组

5-羟色胺处理组

检验5-羟色胺对动物体重的影响是否显著?

答:首先,假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

-羟色胺处理家兔 14天后,体重变化如下表[9]:

y/kg

0.26 0.21

s /kg 0.22 0.18

n 20 20

H0:?1??2HA:?1??2

根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2程序不再给出,结果如下:

HA:?1??2

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP 1.49383 0.19477 0.78665 38.0000 0.21818 1.49383 0.19477 0.78665 36.5662 0.21828

方差齐性检验:P >0.025,方差具齐性。t 检验:上侧尾区显著性概率P >0.025,因此,尚无足够的理由拒绝H0,5-羟色胺对动物体重的影响不显著。

5.12 18岁汉族男青年与18岁维族男青年50米跑成绩(s)如下表[10]: 汉族:n=150 y=7.48 s=0.48

维族:n=100 y=7.41 s=0.69 问:(1)检验两者平均成绩差异是否显著?

(2)检验两个民族个体间成绩的整齐程度差异是否显著? 答:首先,假定总体近似服从正态分布(文献中没有给出),则方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

结果如下:

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP 2.06641 .000029498 0.94606 248.000 0.17252 2.06641 .000029498 0.88213 161.981 0.18951

从结果中可以看出:(1)方差齐性检验表明,两者方差不具齐性。这也就回答了第二问,两个民族个体间成绩的整齐程度差异显著。(2)由于方差不具齐性,应看结果的第二行。检验统计量t的显著性概率P=0.189 51,P >0.025,结论是汉族和维族18岁男青年50米跑平均成绩差异不显著。

5.13 一种内生真菌(Piriformospora indica) 侵染大麦后,可以提高其产量。为此,做了以下试验对该假设进行检验,所得结果如下表[11]:

侵染组 未侵染组

y( pot-1) /g · pot-1) s /(g ·

59.9

53.9

1.73 3.61

n 6 6

检验侵染组与未侵染组的产量差异是否显著?

答:首先,假定总体近似服从正态分布(文献中没有给出),则方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2结果如下:

HA:?1??2

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP

4.35434 0.066115 3.67137 10.0000 .0021537 4.35434 0.066115 3.67137 7.1815 .0038003

统计量F的显著性概率P=0.066 115,P>0.025,结论是方差具齐性。在方差具齐性时,t检验使用第一行的结果。统计量t的显著性概率P=0.002 153 7,P <0.005。因此,侵染组与未侵染组的产量差异极显著。

5.14 在一项关于乳房X线照片计算机协助诊断(computer-aided diagnosis,CAD)的研究中,得到下表中的结果[12]:

由10名放射学医生对乳房X线照片采用三种读片方式所得到的AZ医生编号 1 2 3 4 5 6 7 8 9 10

独立阅读 0.13 0.41 0.17 0.46 0.20 0.48 0.52 0.54 0.15 0.22

(0.90)的值

不用CAD连续阅读 借助CAD连续阅读

0.22 0.35 0.30 0.45 0.24 0.22 0.43 0.49 0.06 0.17

0.63 0.52 0.30 0.73 0.48 0.31 0.56 0.46 0.18 0.21

这是一项配对设计,在三种读片方式中两两比较它们的差异显著性。

答:

H0:?d?0?d?0 HA:(1)独立阅读与不用CAD连续阅读间的差异显著性检验。

所用程序如下:

data sorty;

input y1 y2 @@; y=y1-y2; cards;

0.13 0.22 0.41 0.35 0.17 0.30 0.46 0.45 0.20 0.24 0.48 0.22 0.52 0.43 0.54 0.49 0.15 0.06 0.22 0.17 ;

proc sort; by y; data norm; n=10;

do i=1 to n by 1;

p=(i-1/3)/(n+1/3); u=probit(p); output ; end;

data combine;

merge sorty norm ; symbol v=star; proc gplot; plot y*u; run;

proc means n mean stderr t prt; var y;

title1 'Paired T-Test';

title2 'Read Independently - Read without CAD'; run;

在该程序中,第一个PROC语句是排序过程,第二个PROC语句是制图过程,第三个PROC语句是MEANS过程。GPLOT过程用来检验总体的正态性,MEANS过程用来做t检验。结果如下:

Paired T-Test

Read Independently - Read without CAD

Analysis Variable : Y

N Mean Std Error T Prob>|T| ------------------------------------------------------

10 0.0350000 0.0344561 1.0157856 0.3363 ------------------------------------------------------

正态概率图中的散点虽然不甚集中,但趋势仍然是一条直线,可以认为是近似正态分布的。统计量t的显著性概率P=0.336 3,P >0.05。因此,独立读片和不用CAD连续读片的结果差异不显著。

(2)独立阅读与借助CAD连续阅读间的差异显著性检验。

所用程序与(1)基本上是一样的,这里不再给出,只给出结果:

Paired T-Test

Read Independently - Read with CAD

Analysis Variable : Y

N Mean Std Error T Prob>|T| ------------------------------------------------------

10 -0.1100000 0.0621110 -1.7710225 0.1103 ------------------------------------------------------

差数的正态性检验表明,差数近似服从正态分布。统计量t的显著性概率P=0.110 3,P >0.05。结论是尚无足够的理由拒绝H0。因此,独立读片与借助CAD连续读片间的差异不显著。 (3)不用CAD连续阅读与借助CAD连续阅读间的差异显著性检验。

Paired T-Test

Read without CAD - Read with CAD

Analysis Variable : Y

N Mean Std Error T Prob>|T| ------------------------------------------------------

10 -0.1450000 0.0427720 -3.3900678 0.0080 ------------------------------------------------------

正态性的条件基本可以满足,t的显著性概率P=0.008 0,P <0.01。结论是不用CAD读片与借助CAD读片间的差异极显著。

5.15 用内生真菌(Piriformospora indica) 侵染大麦,播种三周后在植株的根和叶中谷胱甘肽的含量(nmol/g)如下表[11]:

对 照 处 理

对 照 处 理 在 叶 中 在 根 中

y 223 309

s 46 49

n 3 3

y 510 798

s 54 113

n 3 3

分别比较在根中和在叶中谷胱甘肽含量的提高是否显著。

答:对照组命名为“1”,处理组命名为“2”,并假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本例平均数差的显著性检验是单侧检验,统计假设为:

H0:?1??2HA:?1??2

所用程序与5.10题基本一致,这里不再给出。程序运行结果如下:

(1)在根中:

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP

1.13469 0.46845 2.21633 4.00000 0.045492 1.13469 0.46845 2.21633 3.98414 0.045626

统计量F的显著性概率P=0.468 45,P >0.025,方差具齐性。统计量t的显著性概率P=0.045 492,P<0.05。结论是拒绝H0。在根中,谷胱甘肽含量的提高是显著的。

(2)在叶中:

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP

4.37894 0.18591 3.98301 4.00000 0.008180 4.37894 0.18591 3.98301 2.86819 0.015382

统计量F的显著性概率P=0.185 91,P >0.025,方差具齐性。统计量t的显著性概率P=0.008 180,P<0.01。结论是拒绝H0。在根中,谷胱甘肽含量的提高是极显著的。

5.16 在SARS常规治疗的基础上,附加两种中草药配方,研究它们对治疗的辅助作用。一种是汤剂(NHM A),另一种是在台湾常用的保健品(NHM B)。将患者分成3组,A组接受NHM A,B组接受NHM B,C组接受安慰剂。记录病程改善的天数,结果如下表[13]:

A 组 B 组 对照组

y/d

6.7 9.2 11.2

s /d 1.8 5.9 4.9

n 9 9 10

推断两种中草药对SARS症状的改善是否有辅助作用?

答:处理组命名为 “1”,对照组命名为 “2”。并假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本例平均数差的显著性检验是单侧检验,统计假设为:

H0:?1??2HA:?1??2

所用程序与5.10题基本一致,这里不再给出。程序运行结果如下: (1)A组与对照组比较:

T-Test for Non-Primal Data

Group A - Control

F FUTAILP T DF TUTAILP 7.41049 .0048427 2.59576 17.0000 .0094223 7.41049 .0048427 2.70819 11.6076 .0097563

方差齐性检验的结果表明,两者的方差不具齐性,应使用上表中的第二行结果,方差不具齐性时的t检验。t=2.708 19,df=11.607 6,t的显著性概率P=0.009 756 3,P <0.01,结论是拒绝H0,A组药物对改善病程有极显著的作用。 (2)B组与对照组比较:

T-Test for Non-Primal Data

Group B - Control

F FUTAILP T DF TUTAILP 1.44981 0.29496 0.80702 17.0000 0.21540 1.44981 0.29496 0.79880 15.6533 0.21818

方差齐性检验指出,方差具齐性。t=0.807 02,df=17,t的显著性概率P=0.215 40,P >0.05。结论是尚无足够的理由拒绝H0。因此,B组药物对改善病程的效果不显著。

5.17 一项为促进肺癌筛查的非专业健康顾问培训项目,共有79名不同背景的人员参加。培训结束后,她(他)们对培训手册中的各项内容进行了评价,有46人认为手册中所提供的信息非常有用,34人认为手册中的家庭作业非常有用[14]。请检验培训人员对这两项内容的评价差异是否显著?

答:

H0:φ1=φ2 HA:φ1≠φ2 所用程序如下:

options nodate; data binomial;

input n1 y1 n2 y2;

mp=(y1+y2)/(n1+n2);

u=(abs(y1-y2)-0.5-mp*abs(n1-n2))/sqrt(mp*(1-mp)*(n1+n2)); utailp=1-probnorm(u); keep u utailp; cards;

79 46 79 34 ;

proc print; id u;

var utailp;

title 'Significance Test for Binomial Data'; run;

结果见下表:

Significance Test for Binomial Data

U UTAILP 1.82993 0.033630

本例为双侧检验,当显著性概率P <0.025时拒绝H0,统计量u的显著性概率P=0.033 63,P >0.025。因此,尚无足够的理由拒绝H0,培训人员对这两项的评价无显著性差异。

5.18 加入抗生素后的几个小时内,多形核白细胞迅速地提高了对Borrelia螺旋体的吞噬速度,在此期间血浆中螺旋体的总数明显减少。设计一实验:将被Borrelia螺旋体感染的血液,放在37℃培养两小时。在此期间,吞噬细胞不断地增加。如果在被感染的血液中添加青霉素G和四环素可促进吞噬细胞进一步地增加。以下是在感染的血液中分别添加青霉素G、四环素和不添加抗生素的三个处理,在培育两小时后多形核白细胞的个数[15]:

处 理 添加青霉素G组 添加四环素组 不添加抗生素组

y 31.7 26.7 12.7

s 0.7 4.1 2.9

n 100 100 100

检验添加抗生素是否显著提高多形核白细胞的数量?

答:首先,假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是单侧检验,统计假设为:

H0:?1??2HA:?1??2 (1)添加青霉素G组(组1)与对照组(组2)间的比较:

T-Test for Non-Primal Data Penicillin G - Control

F FUTAILP T DF TUTAILP 17.1633 0 63.6881 198.000 0 17.1633 0 63.6881 110.497 0

从结果中可以看出,显然方差不具齐性。此时的df=110.497,P值为0,结论是添加青霉素G后,极显著地提高了多形核白细胞的数量。

(2)添加四环素组(组1)与对照组(组2)间的比较:

T-Test for Non-Primal Data Tetracycline - Control

F FUTAILP T DF TUTAILP 1.99881 .00033282 27.8776 198.000 0 1.99881 .00033282 27.8776 178.228 0

方差不具齐性,应使用方差不具齐性的t检验。统计量t的显著性概率P=0,拒绝H0。说明添加四环素后,极显著地提高了多形核白细胞地数量。

5.19 用免疫抑制药物单独或配伍处理被单纯疱疹病毒感染的小鼠,以下是用免疫抑制药物CTS和CTS+ATS处理小鼠,其红斑持续的天数[16]:

处 理 单独使用CTS

混合使用CTS+ATS

y/d

4.66 9.04

s/d 3.56 6.87

n 72 53

注:CTS:cellophane tape stripping,透明胶带剥离。

推断两种不同处理,在红斑持续天数上的效应差异是否显著? 答:首先,假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

程序前面已经给过,这里不再给出,只给出结果。

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP 3.72403 .00000018902 4.63436 123.000 .000004492 3.72403 .00000018902 4.24119 72.514 .000032349

首先,可以判断出方差不具齐性。这时的t=4.241 99,df=72.514,检验统计量t的显著性概率P=0.000 032 349,远远小于0.005,拒绝H0。结论是:CTS单独使用与CTS+ATS混合使用,在红斑持续天数上的差异极显著。

5.20 一项关于手术后患者药物直接从小肠吸收的研究,得到下表中的结果[17](节录的一部分):

药物代谢动力学参数:口服庆大霉素80 mg后的Cmax和MRT

受试者 01 02 03 04 05 06 07 08 09 10 11 12

Cmax / (手术前 3.8 11.6 4.8 4.9 5.9 6.7 3.3 7.8 3.3 5.5 7.6 6.3

-1*

MRT** / min 手术前 137 110 172 98 144 122 138 101 244 121 93 119

手术后 108 91 455 85 132 126 122 94 85 133 112 150

手术后 4.3 9.4 2.7 5.2 4.8 4.1 3.7 6.0 6.6 4.6 4.8 4.0

注:*Cmax:maximum plasma concentration achieved(达到的最大血浆浓度)。 **MRT:mean residence time (平均残留时间)。

答:

H0:?d?0Ad

(1)检验Cmax:

因数据无法进行正态性变换,需用非参数统计。这里从略。 (2)检验MRT:

数据严重偏离正态性,无法进行正态性变换,需用非参数统计。这里从略。

(注:遇到这种情况应分析造成严重偏离正态性的原因。是整个趋势?还是个别数据?如果是个别数据,还要从生物学角度分析出现这种情况的原因。)

5.21 根据IKDC(international knee documentation committee)膝盖损伤客观评分标准,评价了外科手术前和手术24个月后膝盖退行性变异的得分。共有32名患者接受手术,术前评分属于近似正常者6人,术后为15人[18];推断手术效果是否显著?

H:??0答:H0:φ1=φ2

HA:φ1≠φ2

程序与17题相似,不再给出过程。以下是计算的结果:

Significance Test for Binomial Data

U UTAILP 2.26290 0.011821

P <0.05,手术效果是显著的。

5.22 一项旨在研究夜间血液透析,在肉毒碱代谢上短期效果的工作。给出了采用常规透析方法和在夜间透析方法,患者的一些生化指标[19]。以下仅摘录了其中的白蛋白。

病人序号

1 2 3 4 5 6 7 8 9 白蛋白/(g · L-1) CHD* 41 35 41 39 38 35 36 37 42 NHD** 39 40 39 37 35 37 39 37 39 注:*CHD:常规的血透析。 **NHD:在夜间血透析。 对于白蛋白,采用不同的透析方式,所得结果差异是否显著?

答:

H0:?d?0?d?0 HA: SAS程序为:

options nodate; data sorty;

input y1 y2 @@; y=y1-y2; cards;

41 39 35 40 41 39 39 37 38 35 35 37 36 39 37 37 42 39 ;

proc sort; by y; data norm; n=9;

do i=1 to n by 1;

p=(i-1/3)/(n+1/3); u=probit(p); output ; end; data combine;

merge sorty norm ; symbol v=star; proc gplot; plot y*u; run;

proc means n mean stderr t prt; var y;

title1 'Paired T-Test: Albumin' ; run;

从正态概率图可以看出,分布稍有负偏和负的峭度,但还可以认为是近似服从正态分布的。计算结果如下:

Paired T-Test: Albumin

Analysis Variable : Y

N Mean Std Error T Prob>|T|

-----------------------------------------------------

9 0.2222222 0.9686442 0.2294157 0.8243

-----------------------------------------------------

t的双侧显著性概率P=0.824 3,显然两种透析方法之间的差异是不显著的。

5.23 女性在绝经前后很多生理指标都发生了改变,下面摘录了体重指数(BMI),血清瘦素(Lep)和血清雌二醇(E2)含量。其中的Lep和E2的原始数据不符合正态分布,因此做了对数变换,下面给出的数据是经对数变换后的结果[20](平均数±标准差):

样本含量 (n)

22 70

BMI

Lep E2

/(mg · L-1) /(pmmol · L-1) 0.91±0.18 0.87±0.25

2.27±0.16 2.05±0.18

绝经前

绝经后 23.40±3.08 24.90±3.18

请推断,上述指标在绝经前和绝经后个体之间变差的差异是否显著?

答:可以使用本章第10题的程序,只利用其中方差齐性检验部分,不考虑对平均数的检验。统计假设为:

H0:?1??2HA:?1??2

(1)“体重指数”结果见下表:

F-Test for Non-Primal Data: BMI

F FUTAILP T DF TUTAILP 1.06599 0.45375 1.94397 90.0000 0.027511 1.06599 0.45375 1.97700 36.1918 0.027849

(2)“Lep”结果见下表:

F-Test for Non-Primal Data: Lep

F FUTAILP T DF TUTAILP 1.92901 0.046688 0.69482 90.0000 0.24448 1.92901 0.046688 0.82241 48.7304 0.20742

(3)“E2”结果见下表:

F-Test for Non-Primal Data: E2

F FUTAILP T DF TUTAILP 1.26563 0.27859 5.12767 90.0000 .0000008347 1.26563 0.27859 5.45502 39.1439 .0000014622

从备择假设可以看出,本题的F检验为双侧检验。当F的显著性概率P <0.025时拒绝H0。以上三项指标的F显著性概率都大于0.025。因此,在绝经前后,这三项指标在个体间的波动都未达到显著。

5.24 对人体面部的若干特征进行了测量,下面列举出其中三个特征的测量结果[21](cm):

项目

n

s

n

y y s

额最小宽 186 11.70 0.86 185 11.59 0.98

186 12.67 0.99 185 12.01 0.70 面宽

容貌面高 186 18.10 1.08 185 17.81 1.73

分别推断以上三个特征在男女两性中的整齐程度是否一致?

答:可以使用本章第10题的程序。首先,假定总体近似服从正态分布(文献中没有给出)。 F检验的统计假设为:

H0:?1??2HA:?1??2 程序不再给出,下面只给出结果。 (1)额最小宽:

F-Test for Non-Primal Data: WFH

F FUTAILP T DF TUTAILP 1.29854 0.038393 1.14925 369.000 0.12560 1.29854 0.038393 1.14885 362.372 0.12569

(2)面宽:

F-Test for Non-Primal Data: WOF

F FUTAILP T DF

TUTAILP

2.00020 .0000016238 7.41045 369.000 4.3332E-13 2.00020 .0000016238 7.41713 333.104 5.0082E-13

(3)容貌面高:

F-Test for Non-Primal Data: HOF

F FUTAILP T DF TUTAILP

2.56593 .00000000016790 1.93784 369.000 0.026703 2.56593 .00000000016790 1.93554 308.231 0.026919

以上3个特征,除额最小宽外,面高和容貌面高在男女两性中的整齐度极不一致。

5.25 广西壮族404名男性和汉族700名男性手掌的一些特征比较?y?s?,摘录部分数据如下表[22]:

项目

壮族/mm

汉族/mm

0.42 103.90±4.38 掌正中长 101.55±

0.46 95.56±4.55 掌最大宽 95.00±

0.29 42.70±2.95 大鱼际厚 39.00±

比较壮族男子和汉族男子上述手掌三个特征平均数的差异显著性。 答:首先,假定总体近似服从正态分布(文献中没有给出)。

方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

下面就以上3个特征分别检验: (1)掌正中长:

T-Test for Non-Primal Data: LOP

F FUTAILP T DF TUTAILP 108.755 0 10.7536 1102.00 0 108.755 0 14.0835 721.13 0

(2)掌最大宽:

T-Test for Non-Primal Data: WOP

F FUTAILP T DF TUTAILP 97.8379 0 2.46609 1102.00 .0069056 97.8379 0 3.22785 723.58 .0006517

(3)大鱼际厚:

T-Test for Non-Primal Data: THP

F FUTAILP T DF TUTAILP 103.478 0 25.1351 1102.00 0 103.478 0 32.9096 722.25 0

从以上结果可以看出,三个特征的方差均不具齐性。用不具齐性的t检验方法,检验的结果表明:三个特征的平均值在壮族和汉族男子间,差异都是极显著的。

另外,我们还可以分析一下,为什么壮族的标准差那么小?而汉族的标准差那么大?以至于F的显著性概率等于0。

5.26 盆栽试验中,对菌肥采用灭菌和不灭菌两种处理,每一处理各种植50株小麦,测量小麦的株高,结果如下表[1]:

灭 菌

7.5 7.0

4.6 4.4

5.2 5.7

5.4 5.2

7.2 6.6

6.8 7.1

5.8 6.5

5.0 5.0

4.6 7.0

7.9 4.0

7.5 7.5 5.5

5.1 7.7 6.0

7.2 5.1 6.3 7.2 9.5 7.2 7.5

6.7 5.5 6.1 9.1 7.8 5.0 4.5

4.6 1.7 3.4 8.5 7.3 7.6 4.9

5.1 7.2 5.6

5.6 7.2 5.6

4.7 7.5 6.6

4.5 7.5 8.3

8.0 4.8 6.3

10.0 9.3

不 灭 菌

7.0

6.7 10.0 7.5 10.0 9.9 8.3

8.0 10.5 10.6 9.6 10.1

8.1 7.1 9.7 8.3

9.6 6.1 6.2 8.4

7.6 5.2 8.0 7.8

9.4 6.8 6.9 7.5

8.7 7.0 7.0

10.5 7.9

8.6 10.0 4.8

先分别检验数据的正态性,然后检验两种处理之小麦平均苗高的差异显著性。

答:数据近似服从正态分布,检验过程这里不再给出。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

所用程序如下:

options linesize=76 nodate; data wheat;

infile 'E:\\data\\exr5-26e.dat'; input disinf height @@; proc ttest;

class disinf; var height;

title 'T-Test for Pooled Data'; run;

程序运行结果见下表:

T-Test for Pooled Data

TTEST PROCEDURE Variable: HEIGHT

DISINF N Mean Std Dev Std Error --------------------------------------------------------------------------

1 50 5.97800000 1.34411643 0.19008677 2 50 8.01600000 1.60806132 0.22741421 Variances T DF Prob>|T| ---------------------------------------

Unequal -6.8760 95.0 0.0001 Equal -6.8760 98.0 0.0000

For H0: Variances are equal, F' = 1.43 DF = (49,49) Prob>F' = 0.2130

表的最后一行给出方差齐性检验的结果,统计量F的显著性概率(双侧)大于0.05,因此方差具齐性。表的倒数第二行是方差具齐性时的t检验结果,t的显著性概率为0,因此灭菌与不灭菌处理,株高平均数的差异极显著。

5.27 接触稀土的人群(处理组)与不接触稀土的人群(对照组),他们的肝功能指标分别为[23]:

组别 对照 处理

样本含量

58 102

GTP*/(U · L-1) GOT**/ (U · L-1) 18.66±15.78 19.26±18.39

16.45±11.29

20.57±15.50

注:* GTP:丙氨酸氨基转移酶。 **GOT:谷草转氨酶。 数据为y?s。

分别比较两项肝功能指标在对照组和处理组之间的差异显著性。 答:首先,假定总体近似服从正态分布(文献中没有给出)。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

(1)GTP:

T-Test for Non-Primal Data: GTP

F FUTAILP T DF TUTAILP 1.35816 0.10381 0.20856 158.000 0.41753 1.35816 0.10381 0.21752 133.950 0.41407

首先,方差是具齐性的。t的显著性概率P=0.417 53,P >0.025。因此接触与不接触稀土的人群其肝GTP活性差异不显著。 (2)GOT:

T-Test for Non-Primal Data: GOT

F FUTAILP T DF TUTAILP 1.88484 .0049455 1.77343 158.000 0.039042 1.88484 .0049455 1.93084 148.433 0.027705

从表中可以得出,方差是不具齐性的。这时t的显著性概率P=0.027705,比0.025稍大。结果是尚无足够的理由拒绝H0。因此接触与不接触稀土的人群其肝GOT活性差异不显著。

5.28 雌性大腹园(蜘)蛛和百额巨蟹(蜘)蛛的性腺宽、头胸宽和腹宽如下[24]:

毒 腺 宽/cm 头 胸 宽/cm 腹 宽/cm

大腹园蛛 白额巨蟹蛛 大腹园蛛 白额巨蟹蛛 大腹园蛛 白额巨蟹蛛 0.06 0.07 0.10 0.05

0.18 0.29 0.27 0.31

0.36 0.34 0.30 0.40

0.90 0.55 0.51 0.42

0.64 0.59 0.61 0.31

0.63 0.49 0.38 1.13

检验两种蜘蛛平均毒腺宽、头胸宽和腹宽的差异显著性。 答:方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2(1)毒腺宽:

HA:?1??2

T-Test for Pooled Data TTEST PROCEDURE Variable: WIDTH

DISINF N Mean Std Dev Std Error --------------------------------------------------------------------------

1 4 0.07000000 0.02160247 0.01080123 2 4 0.26250000 0.05737305 0.02868652 Variances T DF Prob>|T| ---------------------------------------

Unequal -6.2800 3.8 0.0041 Equal -6.2800 6.0 0.0008

For H0: Variances are equal, F' = 7.05 DF = (3,3) Prob>F' = 0.1429

方差是具齐性的,t的显著性概率P=0.000 8,P <0.01。因此,毒腺宽在两种蜘蛛间差异极显著。

(2)头胸宽:

T-Test for Pooled Data TTEST PROCEDURE Variable: WIDTH

DISINF N Mean Std Dev Std Error --------------------------------------------------------------------------

1 4 0.35000000 0.04163332 0.02081666 2 4 0.59500000 0.21047565 0.10523783 Variances T DF Prob>|T| ---------------------------------------

Unequal -2.2838 3.2 0.1014 Equal -2.2838 6.0 0.0625

For H0: Variances are equal, F' = 25.56 DF = (3,3) Prob>F' = 0.0245

F的显著性概率P=0.024 5,小于0.05,因此方差不具齐性。在不具齐性时,t的显著性概率P=0.104 1,大于0.05。因此,头胸宽差异不显著。

(3)腹宽:

T-Test for Pooled Data TTEST PROCEDURE Variable: WIDTH

DISINF N Mean Std Dev Std Error --------------------------------------------------------------------------

1 4 0.53750000 0.15305228 0.07652614 2 4 0.65750000 0.33119732 0.16559866 Variances T DF Prob>|T| ---------------------------------------

Unequal -0.6578 4.2 0.5451 Equal -0.6578 6.0 0.5351

For H0: Variances are equal, F' = 4.68 DF = (3,3) Prob>F' = 0.2370

结果指出,方差具齐性,此时t的显著性概率P=0.535 1。结论是腹宽的差异不显著。

5.29 用两种不同方法回收污水中病毒的比较,结果如下表[25]:

检测号

病毒回收方法和吸收条件

/PFU** · L-1污水

1

2 3 4 5 6 7 8 9 10

Millipore 烟 煤

(pH 3.5+MgCl2*) (pH 3.5+MgCl2*)

70 73 56 78 629 120 342 157 114 418

64 37 146 168 554 206 219 289 149 454

注:* MgCl2浓度为0.05 mol/L。

**PFU:plaque-forming unit(空斑形成单位)。

检验两种过滤方法回收病毒效率上的差异,如果两种方法差异不显著,则可以用烟煤代替昂贵的millipore过滤器。

答: 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

首先检验分布的正态性。用正态概率图检验,发现分布是正偏的。对数据做了对数变换,变换后的数据近似服从正态分布,以下是用变换后的数据所进行的分析。程序和运行结果如下:

options linesize=76 nodate; data virus;

input adsorb y @@; PFU=log10(y); cards;

1 70 1 73 1 56 1 78 1 629 1 120 1 342 1 157 1 114 1 418 2 64 2 37 2 146 2 168 2 554 2 206 2 219 2 289 2 149 2 454 ;

proc ttest;

class adsorb; var PFU;

title 'T-Test for Pooled Data'; run;

T-Test for Pooled Data TTEST PROCEDURE Variable: PFU

ADSORB N Mean Std Dev Std Error --------------------------------------------------------------------------

1 10 2.16345423 0.36626136 0.11582201 2 10 2.24530049 0.35612624 0.11261700 Variances T DF Prob>|T| ---------------------------------------

Unequal -0.5066 18.0 0.6186 Equal -0.5066 18.0 0.6186

For H0: Variances are equal, F' = 1.06 DF = (9,9) Prob>F' = 0.9347

结果显示,方差是具齐性的。检验统计量t的显著性概率P=0.618 6,大于0.05,没有足够的理由拒绝H0。因此,用烟煤和Millipore回收病毒的效率没有显著不同。

5.30 对胎儿臂丛神经上干做拉伸实验,其中“最大应力”(MPa)的结果如下[26]:

男性 8个月 女性 8个月 男性 6.5-7个 女性 6.5-7个 以上胎龄组 以上胎龄组 月以上胎龄组 月以上胎龄组 3.751 3.021 4.138 3.574 3.875 4.012 2.996 3.687

3.156 3.673 3.082 4.269 3.842 3.946 3.741 3.472

3.175 2.541 2.473 2.714 2.928 2.636 2.444 2.873

2.368 2.694 2.572 3.045 2.214 2.717 2.462 2.831

分别检验相同胎龄、不同性别组之间,相同性别、不同胎龄组之间的最大应力差异是否显著?个体间的变异程度是否一致?

答:方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

首先检验分布的正态性。四组数据的正态分布图如下:

总的来看正态性近似的都比较好。下面是t检验的结果。 (1)男婴8个月/女婴8个月:

T-Test for Pooled Data TTEST PROCEDURE Variable: NERVE

SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------

1 8 3.63175000 0.42390220 0.14987206 2 8 3.64762500 0.39906138 0.14108950 Variances T DF Prob>|T| ---------------------------------------

Unequal -0.0771 13.9 0.9396 Equal -0.0771 14.0 0.9396

For H0: Variances are equal, F' = 1.13 DF = (7,7) Prob>F' = 0.8775

(2)男婴6.5~7个月/女婴6.5~7个月

T-Test for Pooled Data TTEST PROCEDURE Variable: NERVE

SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------

3 8 2.72300000 0.25353050 0.08963657 4 8 2.61287500 0.26598412 0.09403959 Variances T DF Prob>|T| ---------------------------------------

Unequal 0.8477 14.0 0.4109 Equal 0.8477 14.0 0.4109

For H0: Variances are equal, F' = 1.10 DF = (7,7) Prob>F' = 0.9026

(3)男婴8个月/男婴6.5~7个月

T-Test for Pooled Data TTEST PROCEDURE Variable: NERVE

SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------

1 8 3.63175000 0.42390220 0.14987206 3 8 2.72300000 0.25353050 0.08963657 Variances T DF Prob>|T| ---------------------------------------

Unequal 5.2038 11.4 0.0003 Equal 5.2038 14.0 0.0001

For H0: Variances are equal, F' = 2.80 DF = (7,7) Prob>F' = 0.1984

(4)女婴8个月/女婴6.5~7个月

T-Test for Pooled Data TTEST PROCEDURE Variable: NERVE

SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------

2 8 3.64762500 0.39906138 0.14108950

4 8 2.61287500 0.26598412 0.09403959 Variances T DF Prob>|T| ---------------------------------------

Unequal 6.1027 12.2 0.0001 Equal 6.1027 14.0 0.0000

For H0: Variances are equal, F' = 2.25 DF = (7,7) Prob>F' = 0.3065

从以上结果可以得出:不同性别、相同月龄的婴儿间,臂丛神经上干的最大平均应力差异不显著;相同性别、不同月龄的婴儿间,臂丛神经上干的最大平均应力差异极显著。如何得到这样的结论,请读者自行判断。

5.31 CYGB(细胞珠蛋白)基因可能是非小细胞肺癌(NSCLC)的抑制基因之一,研究CYGB启动子甲基化程度与肿瘤发病间的关系,以推断CYGB抑制肿瘤的作用。下面给出了受检的52名患者甲基化指数与能够与之配对的52名正常对照甲基化指数的差(MtIT?MtIN)[8]:

0.419 0.200 0.064 0.196 0.046 0.072

0.017 0.103 0.057 0.377 0.077 0.146

0.105 0.167 0.033 0.019 0.000

0.333 0.176 0.067 0.017 0.062

0.170 0.037 0.242 0.593 0.052

0.246 0.467 0.006 0.059 0.011

0.242 0.166 0.117 0.342 0.002

0.364 0.210 0.080 0.060 0.338

0.051 0.050 0.088 0.021 0.002

0.520 0.063 0.086 0.035 0.064

推断病人的CYGB启动子甲基化程度是否显著高于正常人群,由此你可以得到什么推论? 答:统计假设:

H0:?d?0使用的程序和结果如下:

data sorty;

infile 'E:\\data\\exr5-31e.dat'; input x @@; y=sqrt(x); proc sort; by y; data norm; n=52;

do i=1 to n by 1;

p=(i-1/3)/(n+1/3); u=probit(p); output ; end; data combine;

merge sorty norm ; symbol v=star; proc gplot; plot y*u; run;

proc means n mean stderr t prt; var y;

title1 'Paired T-Test'; title2 'MtIT-MtIN'; run;

HA:?d?0

原始数据有明显的负偏,因此做了平方根变换,变换后的数据,已经近似服从正态分布了,如上图所示。

Paired T-Test MtIT-MtIN

Analysis Variable : Y

N Mean Std Error T Prob>|T|

------------------------------------------------------

52 0.3328044 0.0258895 12.8548165 0.0001

------------------------------------------------------

检验统计量t的显著性概率P=0.000 1,P <0.01,拒绝H0。说明患者细胞珠蛋白基因启动子的甲基化程度极显著地高于正常人。由于非小细胞肺癌的抑制基因启动子活性降低,有可能提高非小细胞肺癌的发病率。

5.32 羊毛在处理前后的含脂率如下表:

处理前 0.19 0.18 0.21 0.30 0.66 0.42 0.08 0.12 0.30 0.27

处理后 0.15 0.13 0.07 0.24 0.19 0.08 0.20

问处理后的含脂率是否显著低于处理前?

答:方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是单侧检验,统计假设为:

H0:?1??2HA:?1??2

首先检验数据的正态性,利用正态概率图发现分布有些正偏,经对数变换后,得到了较好的正态性。程序和结果如下:

options linesize=76 nodate; data wool;

input treat y @@; fat=log(y); cards;

1 0.19 1 0.18 1 0.21 1 0.30 1 0.66 1 0.42 1 0.08 1 0.12 1 0.30 1 0.27 2 0.15 2 0.13 2 0.07 2 0.24 2 0.19 2 0.08 2 0.20 ;

proc ttest;

class treat; var fat;

title 'T-Test for Pooled Data'; run;

T-Test for Pooled Data TTEST PROCEDURE

Variable: FAT

TREAT N Mean Std Dev Std Error ----------------------------------------------------------------------------

1 10 -1.45824645 0.60395399 0.19098702 2 7 -1.97423071 0.46804661 0.17690499 Variances T DF Prob>|T| ---------------------------------------

Unequal 1.9820 14.8 0.0664 Equal 1.8913 15.0 0.0781

For H0: Variances are equal, F' = 1.67 DF = (9,6) Prob>F' = 0.5506

方差齐性检验的结果,方差具齐性。在方差具齐性时得到的t=1.891 3,其单侧显著性概率P=0.039 1,小于0.05,拒绝H0。因此,羊毛在处理前后的含脂率有显著性差异。

5.33 为了检验正常成人男、女性血液红细胞平均数之间的差异,随机抽取60对健康青年夫妻进行检测,得到以下结果:

夫/(104· mm-3)

妻/(104· mm-3)

d /(104· mm-3)(夫-妻)

y1?465

s12?2040

n1= 60

y2?423

2s2?1800

d?42

2sd?6000

n2= 60 nd= 60

使用适当的检验方法,检验其差异显著性。

答:夫妻之间是不能配成对子的,因此只能按成组数据处理。假定数据是从正态总体中获得的。 方差齐性检验的统计假设为:

H0:?1??2HA:?1??2

根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:

H0:?1??2HA:?1??2

结果如下:

T-Test for Non-Primal Data

F FUTAILP T DF TUTAILP 1.13332 0.31615 5.24957 118.000 .00000034122 1.13332 0.31615 5.24957 117.541 .00000034296

方差是具齐性的。t=5.249 57,t的显著性概率P=0.000 000 341 22,远远小于0.005,因此拒绝H0。结论是男女两性血红细胞平均含量差异极显著。

5.34 随机选择11名25岁健康男性,抽取静脉血并制成血滤液。随机抽取其中1人作为对照,制成血滤液后马上测定血糖浓度,结果为102(10-2mg/mL)。另外10份滤液放置2小时后再测定,结果为:83、84、90、90、88、94、88、80、81、87(10-2mg/mL)。问酵解作用对血糖浓度是否有影响?

答:对照组无重复,无法计算s2,故不能进行统计推断。

本文来源:https://www.bwwdw.com/article/fsrp.html

Top