统计案例分析

更新时间:2023-03-08 05:26:09 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

哺乳动物大脑发育水平相关因素回归分析

小组成员:

目录

一、 数据来源及背景 ............................................................................................................... 1

1. 数据来源 ....................................................................................................................... 1 2. 数据背景及研究目的 ................................................................................................... 1 3. 数据说明 ....................................................................................................................... 1 二、 统计分析 ........................................................................................................................... 1

1. 数据描述性分析 ........................................................................................................... 1

1.1 数据基本描述 ............................................................................................................ 1 1.2 置信区间分析 ............................................................................................................ 2 1.3 brain weight与body weight的数据相关性 .............................................................. 2 1.4 所有参数的相关性 .................................................................................................... 3 2. 数据图形化分析 ........................................................................................................... 3 3. 多元回归分析 ............................................................................................................... 5

3.1 原始数据直接多元回归分析 .................................................................................... 5 3.2 对多元回归原始数据处理和调整 ............................................................................ 8 3.3 数据模型的确定 ...................................................................................................... 12 3.4 对Cook距离的分析 ............................................................................................... 17

三、总结......................................................................................................................................... 18 附录:研究数据 ............................................................................................................................. 19

统计案例分析

一、数据来源及背景 1. 数据来源

数据来源于American Naturalist (1974)杂志 p.593-613.

2. 数据背景及研究目的

达尔文在他的《进化论》一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简单到复杂,种类由少到多地进化着、发展着。”从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的能力,这是一种内在的属性。有一种观点认为,具备更大大脑容量的动物,比如哺乳动物在生存和繁衍方面一般会表现得更好。虽然,哺乳动物的自然选择有一些限制,比如他们通常需要更长的怀孕期并且一次孕育后代的数量更少。这些负面因素在一定程度上削弱了哺乳动物的优势。但是总体来说,哺乳动物的优势要大于它们的劣势。通常情况下,较大的大脑意味着躯体也更加的硕大。我们尝试用统计的方法,研究和分析一下具备更大大脑容量的哺乳动物之间具有什么样相同和不同的特征,在这些特征中是否会存在某些特别突出的因素。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最密切的一个类群。我们希望通过此次的论证和研究,能够得到关于一些哺乳动物大脑重量的信息,并找到与之相关联的因素,为促进哺乳动物大脑重量的研究提供可以参考的依据。 3. 数据说明

我们小组分析的案例,是研究哺乳动物大脑重量和其他几种因素的关系。这些因素主要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种不同哺乳动物的信息。当模型具有显著的统计意义并且样本足够大(n=96)时,可以获得比较准确的估计值。 Excel列示如下: Problem: Correlates of brain size Nature of data : A B C D E Name of the species Gestation period (days) Brain weight (gms) Body weight (kg) Litter size 物种名称 妊娠期天数 大脑重量 身体重量 平均每窝产仔数量

二、统计分析

1. 数据描述性分析 1.1 数据基本描述

我们对所采用的数据首先进行了简单的描述性分析,具体信息见下图。

描述性统计: gestation period, brain weight, body weight, av. Litter size 均值标 下四分 变量 N N* 均值 准误 标准差 最小值 位数 中位数 gestation period (days) 96 0 151.3 11.0 108.1 16.0 63.0 133.5 brain weight (gms) 96 0 219.0 51.7 507.0 0.5 12.2 74.0 -1-

body weight (kg) 96 0 108.3 33.6 329.4 0.0 2.0 8.9 av. Litter size 96 0 2.310 0.178 1.747 1.000 1.000 1.200 上四分 变量 位数 最大值 gestation period (days) 228.8 655.0 brain weight (gms) 260.0 4480.0 body weight (kg) 98.3 2800.0 av. Litter size 3.400 8.000 从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。

1.2 置信区间分析 单样本 T: gestation period, brain weight (gm, body weight (kg), av. Litter size 均值标 变量 N 均值 标准差 准误 95% 置信区间 gestation period (days) 96 151.3 108.1 11.0 (129.4, 173.2) brain weight (gms) 96 219.0 507.0 51.7 (116.3, 321.7) body weight (kg) 96 108.3 329.4 33.6 ( 41.6, 175.1) av. Litter size 96 2.310 1.747 0.178 (1.956, 2.664) 对数据置信区间的分析使我们得知了:

对数据gestation period,样本均值为151.3,标准误11.0,由此构造的区间(129.4, 173.2)有95%包括gestation period总体均值。

对数据brain weight,样本均值为219.0,标准误51.7,由此构造的区间(116.3, 321.7)有95%包括brain weight总体均值。

对数据body weight,样本均值为108.3,标准误33.6,由此构造的区间(41.6, 175.1)有95%包括body weight总体均值。

对数据av. Litter size,样本均值为2.310,标准误0.178,由此构造的区间(1.956, 2.664)有95%包括av. Litter size总体均值。

1.3 brain weight与body weight的数据相关性 相关: brain weight (gms), body weight (kg) brain weight (gms) 和 body weight (kg) 的 Pearson 相关系数 = 0.864 P 值 = 0.000 根据结果显示,哺乳动物的大脑重量和躯体重量是有非常强的相关性的。但是对brain weight取对数后,ln brain weight和body weight之间的相关性减弱。而ln brain weight和ln body weight之间的相关性最强。这也为后面进行回归分析提供了一个思路。 相关: ln brain weight, body weight (kg) -2-

ln brain weight 和 body weight (kg) 的 Pearson 相关系数 = 0.422 P 值 = 0.000 相关: ln brain weight, ln body weight ln brain weight 和 ln body weight 的 Pearson 相关系数 = 0.964 P 值 = 0.000

1.4 所有参数的相关性 相关: gestation period, brain weight (gm), body weight (kg), av. Litter size gestation period brain weight (gm) body weight (kg) brain weight (gm) 0.728 0.000 body weight (kg) 0.625 0.864 0.000 0.000 av. Litter size -0.604 -0.255 -0.183 0.000 0.012 0.075 单元格内容: Pearson 相关系数 P 值 对brain weight和body weight取对数以后的整体相关性分析,可以粗略的看到,数据之间的相关性更加紧密,整体感觉好于之前的分析。

相关: gestation period (days), av. Litter size, ln brain weight, ln body weight gestation period av. Litter size ln brain weight av. Litter size -0.604 0.000 ln brain weight 0.806 -0.612 0.000 0.000 ln body weight 0.772 -0.513 0.964 0.000 0.000 0.000 单元格内容: Pearson 相关系数 P 值

2. 数据图形化分析

这里,我们分别观察了brain weight和body weight的散点图,以及ln brain weight和ln body weight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体重小于500公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大的,下图中最大的体重是非洲象,体重2800公斤同时其大脑重量也达到了4480毫克,其次

-3-

是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量达到了1600毫克。 brain weight (gms) 与 body weight (kg) 的散点图50004000brain weight (gms)30002000100000500100015002000body weight (kg)25003000 ln brain weight 与 ln body weight 的散点图8ln brain weight6420-5.0-2.50.02.5ln body weight5.07.5 我们还尝试使用箱线图的方式对四种变量进行简单的探索性数据分析,以便更直观的看到几种数据的分布概况。

-4-

gestation pe, body weight , av. Litter s, brain weight 的箱线图gestation period (days)60045030010001500av. Litter size84000642030002000100000brain weight (gms)20003000body weight (kg) 3. 多元回归分析

3.1 原始数据直接多元回归分析

我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归结果如下: 回归分析:brain weight 与 gestation period, body weight, av. Litter size 回归方程为 brain weight (gms) = - 225 + 1.81 gestation period (days) + 0.986 body weight(kg) + 27.6 av. Litter size 自变量 系数 系数标准误 T P 常量 -225.29 83.06 -2.71 0.008 gestation period (days) 1.8087 0.3544 5.10 0.000 body weight(kg) 0.98588 0.09428 10.46 0.000 av. Litter size 27.65 17.41 1.59 0.116 S = 224.561 R-Sq = 81.0% R-Sq(调整) = 80.4% 方差分析 来源 自由度 SS MS F P 回归 3 19777225 6592408 130.73 0.000 残差误差 92 4639349 50428 合计 95 24416574 -5-

来源 自由度 Seq SS gestation period (days) 1 12947201 body weight(kg) 1 6702907 av. Litter size 1 127117 异常观测值 gestation brain period weight 拟合值 标准化 观测值 (days) (gms) 拟合值 标准误 残差 残差 24 270 1300.0 354.8 42.1 945.2 4.29R 40 21 2.4 34.2 82.2 -31.8 -0.15 X 52 360 1600.0 611.2 63.1 988.8 4.59R 72 655 4480.0 3747.5 190.5 732.5 6.16RX 75 390 250.0 734.5 69.0 -484.5 -2.27R 77 115 180.0 391.2 92.7 -211.2 -1.03 X 78 240 590.0 1616.7 112.5 -1026.7 -5.28RX R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。

数据分析:

?H0:??0根据假设检验的定义来初步分析一下回归结果,假设检验:?

H:??0?a从回归方程上分析,常数项,gestation period和body weight的P-值很小,说明可以明显

拒绝原假设H0。但是av. litter size的P-值为0.116,不能拒绝原假设。因此,对数据的回归分析还需要进一步的分析和验证。

Brain weight残差正态图和残差与拟合值图如下:

-6-

正态概率图(响应为 brain weight (gms))99.99995908070605040302010510.1百分比-1000-5000残差5001000 与拟合值(响应为 brain weight (gms))1000500残差0-500-1000010002000拟合值30004000

数据分析:

从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差的特性,是非常数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。考虑采用其他模型来重新进行回归分析。

-7-

3.2 对多元回归原始数据处理和调整

考虑到残差图的形状,为了消除异方差的影响,我们对brain weight取对数,并再一次进行回归分析: 回归分析:ln brain wei 与 gestation pe, body weight , av. Litter s 回归方程为 ln brain weight = 2.13 + 0.0151 gestation period (days) - 0.000519 body weight (kg) - 0.215 av. Litter size 自变量 系数 系数标准误 T P 常量 2.1350 0.4630 4.61 0.000 gestation period (days) 0.015089 0.001976 7.64 0.000 body weight (kg) -0.0005191 0.0005255 -0.99 0.326 av. Litter size -0.21492 0.09706 -2.21 0.029 S = 1.25167 R-Sq = 67.8% R-Sq(调整) = 66.8% 方差分析 来源 自由度 SS MS F P 回归 3 303.68 101.23 64.61 0.000 残差误差 92 144.14 1.57 合计 95 447.81 来源 自由度 Seq SS gestation period (days) 1 291.10 body weight (kg) 1 4.90 av. Litter size 1 7.68 异常观测值 gestation period ln brain 拟合值 标准化 观测值 (days) weight 拟合值 标准误 残差 残差 4 51 0.131 2.582 0.259 -2.451 -2.00R 40 21 0.867 0.732 0.458 0.135 0.12 X 66 108 5.561 3.026 0.158 2.534 2.04R 67 104 5.710 2.950 0.169 2.760 2.23R 72 655 8.407 10.350 1.062 -1.943 -2.93RX 77 115 5.193 2.052 0.517 3.141 2.75RX 78 240 6.380 4.815 0.627 1.565 1.45 X -8-

R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。 ln brain weight 残差正态图 和 残差与拟合值 正态概率图(响应为 ln brain weight)99.99995908070605040302010510.1百分比-4-3-2-10残差1234 与拟合值(响应为 ln brain weight)321残差0-1-2-3024拟合值6810 数据分析:

-9-

从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果仍然不是很好。并且,从上面的结果可以明显看到,对brain weight取对数进行回归以后,body weight参数的P-值明显变大。考虑到哺乳动物的brain weight和body weight还是应该有比较直接的联系的。因此我们对数据进行了进一步的调整,对body weight也取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔相同的情况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在控制其他因素的情况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。

下图是对body weight取对数后再一次回归的结果: 回归分析:ln brain weight 与 gestation period, av. Litter size, ln body weight 回归方程为 ln brain weight = 2.68 + 0.00171 gestation period (days) - 0.167 av. Litter size + 0.619 ln body weight 自变量 系数 系数标准误 T P 常量 2.6756 0.1622 16.50 0.000 gestation period (days) 0.0017055 0.0007898 2.16 0.033 av. Litter size -0.16749 0.03622 -4.62 0.000 ln body weight 0.61868 0.02724 22.71 0.000 S = 0.489498 R-Sq = 95.1% R-Sq(调整) = 94.9% 方差分析 来源 自由度 SS MS F P 回归 3 425.77 141.92 592.31 0.000 残差误差 92 22.04 0.24 合计 95 447.81 来源 自由度 Seq SS gestation period (days) 1 291.10 av. Litter size 1 11.05 ln body weight 1 123.62 异常观测值 gestation period ln brain 拟合值 标准化 观测值 (days) weight 拟合值 标准误 残差 残差 24 270 7.1701 5.5512 0.0756 1.6190 3.35R 40 21 0.8671 0.7040 0.1776 0.1631 0.36 X 52 360 7.3778 6.2620 0.1177 1.1158 2.35R -10-

72 655 8.4074 8.5358 0.2956 -0.1285 -0.33 X 75 390 5.5215 6.5376 0.1337 -1.0162 -2.16R 77 115 5.1930 4.7780 0.2347 0.4150 0.97 X 78 240 6.3801 7.3992 0.1101 -1.0191 -2.14R R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。 ln brain weight残差正态图 残差与拟合值 正态概率图(响应为 ln brain weight)99.99995908070605040302010510.1百分比-1.5-1.0-0.50.0残差0.51.01.52.0 -11-

与拟合值(响应为 ln brain weight)1.51.00.5残差0.0-0.5-1.0024拟合值68 数据分析:

对body weight取对数以后的回归结果,明显好于之前。三个自变量的P-值<0.05,说明可以拒绝自变量的系数为0的假设。因此,可以认为哺乳动物大脑容量和其他几种因素是具有一定联系的。根据回归的结果,异常数据有3个数据点残差大,这表明这些数据点与方程拟合程度一般。其中残存最大的两种哺乳动物是人类和海豚,如上图上方2个数据点所示。人类作为一种高智商的哺乳动物,在统计数据分析过程中,体现出一个比较大的残差值还是可以理解的。同样,我们从统计分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我们日常生活常识是吻合的。

3.3 数据模型的确定

Minitab提供了自动选择最优的回归模型的功能,为了确定最后的数据统计分析模型,我们尝试让Minitab自动得出一个结论。回归的汇总报告如图所示:

-12-

ln brain weight 与 ln body weight 的回归汇总报告Y: ln brain weightX: ln body weightY 和 X 之间存在关系吗?00.050.1> 0.57.5线性模型的拟合线图Y = 2.333 + 0.7191 XP = 0.000ln brain weight 和 ln body weight 之间的关系具有显著的统计意义 (p < 0.05)。ln brain weight是否5.02.5模型所解释的变异 %00%0.0-50ln body weight注释用于描述 Y 和 X 之间的关系的线性模型的拟合方程是: Y = 2.333 + 0.7191 X如果此模型与数据拟合得很好,可使用此方程预测 ln bodyweight 的值为 ln brain weight,或查找对应于 ln brainweight 的所需值或值范围的 ln body weight 的设置。 具有显著统计意义的关系并不表示 X 导致 Y。5 R-sq(调整)= 92.90%ln brain weight 中 92.90% 的变异可能是由回归模型导致的。Y 和 X 之间相关负 非相关 正-1010.96正相关 (r = 0.96) 表示当 ln body weight 增加时,lnbrain weight 也趋于增加。 ln brain weight 与 ln body weight 的回归模型选择报告Y: ln brain weightX: ln body weight线性模型的拟合线图Y = 2.333 + 0.7191 X8残差大ln brain weight6420二次模型-5.0-2.50.02.5ln body weight5.07.5您选择了 线性模型,但 二次模型 具有显著的二次项 以及较高的调整的 R 平方。请考虑改用二次模型。统计量 R 平方(已调整)P 值,模型P 值,线性项P 值,二次项P 值,立方项残差标准差* 具有显著的统计意义 (p < 0.05) 选定的模型线性92.90%0.000*0.000*--0.579备择模型二次立方93.40?.41%0.000*0.000*0.000*0.000*0.005*0.580-0.2800.5580.557 从上面的分析中,看到ln brain weight和ln body weight之间用线性模型进行拟合的效果要

-13-

稍逊于使用二次模型。二次模型具有显著的二次项以及较高的调整的R平方。因此改用二次模型再次进行拟合。 ln brain weight 与 ln body weight 的回归汇总报告Y: ln brain weightX: ln body weight二次模型的拟合线图Y = 2.449 + 0.7715 X - 0.01766 X**2Y 和 X 之间存在关系吗?7.5是P = 0.000ln brain weight 和 ln body weight 之间的关系具有显著的统计意义 (p < 0.05)。否ln brain weight00.050.1> 0.55.02.50.0-50ln body weight注释模型所解释的变异 %00%用于描述 Y 和 X 之间关系的二次模型的拟合方程是: Y = 2.449 + 0.7715 X - 0.01766 X**2如果此模型与数据拟合得很好,可使用此方程预测 ln bodyweight 的值为 ln brain weight,或查找对应于 ln brainweight 的所需值或值范围的 ln body weight 的设置。 关系具有显著的统计意义并不表示 X 导致 Y。5 R-sq(调整)= 93.40%ln brain weight 中 93.40% 的变异可能是由回归模型导致的。 ln brain weight 与 ln body weight 的回归模型选择报告Y: ln brain weightX: ln body weight二次模型的拟合线图Y = 2.449 + 0.7715 X - 0.01766 X**28残差大异常 Xln brain weight6420-5.0统计量-2.50.02.5ln body weight5.07.5 R 平方(已调整)P 值,模型P 值,线性项P 值,二次项P 值,立方项残差标准差* 具有显著的统计意义 (p < 0.05) 选定的模型二次93.40%0.000*0.000*0.005*-0.558备择模型线性立方92.90?.41%0.000*0.000*0.000*0.000*-0.580-0.2800.5790.557 -14-

尝试添加ln body weight的二次项,重新对数据集进行回归分析。 回归分析:ln brain wei 与 gestation pe, av. Litter s, ln body weig, ln bw sq 回归方程为 ln brain weight = 2.52 + 0.00338 gestation period (days) - 0.112 av. Litter size + 0.659 ln body weight - 0.0239 ln bw sq 自变量 系数 系数标准误 T P 常量 2.5162 0.1551 16.23 0.000 gestation period (days) 0.0033810 0.0008390 4.03 0.000 av. Litter size -0.11154 0.03623 -3.08 0.003 ln body weight 0.65875 0.02706 24.35 0.000 ln bw sq -0.023883 0.005878 -4.06 0.000 S = 0.452819 R-Sq = 95.8% R-Sq(调整) = 95.7% 方差分析 来源 自由度 SS MS F P 回归 4 429.15 107.29 523.24 0.000 残差误差 91 18.66 0.21 合计 95 447.81 来源 自由度 Seq SS gestation period (days) 1 291.10 av. Litter size 1 11.05 ln body weight 1 123.62 ln bw sq 1 3.38 异常观测值 gestation period ln brain 拟合值 标准化 观测值 (days) weight 拟合值 标准误 残差 残差 24 270 7.1701 5.6512 0.0741 1.5189 3.40R 46 67 1.4540 2.4326 0.0669 -0.9786 -2.19R 52 360 7.3778 6.3499 0.1110 1.0279 2.34R 72 655 8.4074 8.3432 0.2775 0.0642 0.18 X 75 390 5.5215 6.5993 0.1246 -1.0778 -2.48R 77 115 5.1930 4.8116 0.2173 0.3814 0.96 X 78 240 6.3801 6.7348 0.1926 -0.3547 -0.87 X R 表示此观测值含有大的标准化残差 -15-

X 表示受 X 值影响很大的观测值。 ln brain weight 残差正态图和残差与拟合值图 正态概率图(响应为 ln brain weight)99.99995908070605040302010510.1百分比-1.5-1.0-0.50.0残差0.51.01.5 与拟合值(响应为 ln brain weight)1.51.00.5残差0.0-0.5-1.0024拟合值68

数据分析:

受Minitab拟合建议的启发,尝试添加了一个二次项后,我们可以看到新增加的二次项的

-16-

P-值为0.000。这说明,二次项在回归模型里还是有一定意义的。从上图中可以看到调整的R平方进一步提高到95.7%。也就是说模型对变异的解释能力进一步提高。在进行回归分析的最后,我们在Minitab中加入了计算数据Cook距离的步骤。希望通过考察目前模型的观测值的Cook距离,判断是否存在对模型有强烈影响但是不太合理的点。目前,含有大的标准化残差的观测值数量是4个,影响点的数量是3个。

3.4 对Cook距离的分析

当前观测值的Cook距离的统计如下,可以看到最大Cook距离为0.1。此Cook距离为数据第75个观测值造成的,对应的哺乳动物是貘。其次是人类和海豚,Cook距离在0.06到0.07之间。但是根据Cook距离>1的经验准则,并不需要关注有影响观测值的存在问题。所以,目前的数据基本上是合理的,满足分析要求的,不需要对数据进行额外的调整。

Cook 距离1 的时间序列图0.100.08Cook 距离10.060.040.020.0011020304050指数60708090 -17-

三、总结

通过以上的统计分析,我们发现哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝产仔数量存在着一定的关系。而生物学界通常认为,动物的大脑是否发达和脑重量也存在一定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观察,来进一步分析动物的大脑发达程度。在此基础上,我们可以更好的认识动物的认知与活动规律。

在经济生活中,此研究也具有重大的意义,例如马戏团可以利用此研究结果来选取大脑发达的动物进行驯化,以获得更好的效果。虽然此研究是建立在生物学研究的基础之上,但其结论对于马戏团、动物园等商业场所如何提高经济效益,也很具有指导性,具有可观的商业价值。

此外,随着科学技术的发达,通过改变基因来改变物种特性,创造新的物种,也具有现实可能性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的控制,改良培育出实验所需要的大脑发达水平的物种。

-18-

本文来源:https://www.bwwdw.com/article/ceo.html

Top