数据分析大作业

更新时间:2023-12-23 07:12:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 数据描述分析

(一)目的与要求:

掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。 理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。 (二)重点与难点:

掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。 掌握多元数据的数字特征及相关性的判断,并会应用程序结果。 1.1 某小学60名11岁学生的身高(单位:cm)数据如下: (1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、下和上四分位数、四分位极差、三均值; (3) 作出直方图; (4) 作出茎叶图; (5) 进行正态W检验(??0.05);

(6) 进行经验分布函数的?2检验。

126 149 143 141 127 123 137 132 135 134 146 142 135 141 150 137 144 137 134 139 148 144 142 137 147 138 140 132 149 131 139 142 138 145 147 137 135 142 151 146 129 120 143 145 142 136 147 128 142 132 138 139 147 128 139 146 139 131 138 149

1.2 1949-1980年全国历年人口(单位:亿人)如下: (1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、下、上四分位数、四分位极差、三均值; (3) 作出直方图; (4) 作出茎叶图; (5) 找出异常值。

(6) 进行正态W检验(??0.05);

(7) 进行经验分布函数的?2检验。 5.4167 5.5196 5.6300 5.7482 5.8796 6.0266 6.1465 6.2828 6.4653 6.5994 6.7207 6.6207 6.5859 6.7295 6.9172 7.0499 7.2538 7.4542 7.6368 7.8534 8.0671 8.2992 8.5229 8.7177 8.9211 9.0859 9.2420 9.3717 9.4974 9.6259 9.7542 9.8705 10.0072 10.1541 10.2495

10.3475 10.4532

1.3 1978年至1999年我国居民消费数据如表1.3所示 (1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、下、上四分位数、四分位极差、三均值; (3) 作出直方图; (4) 作出茎叶图; (5) 找出异常值。

1978 184 138 405 1979 207 158 434 1980 236 178 496 1981 262 199 562 1982 284 221 576 1983 311 246 603 1984 354 283 662 1985 437 347 802 1986 485 376 920 1987 550 417 1089 1988 693 508 1431 1989 762 553 1568 1990 803 571 1686 1991 896 621 1925 1992 1070 718 2356 1993 1331 855 3027 1994 1746 1118 3891 1995 2336 1434 4874 1996 2641 1768 5430

1997 2834 1876 5796 1998 2972 1895 6217 1999 3180 1973 6651

1.4 2002年11月以及1至11月全国各省、市、区财政预算收入数据如下: (1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、下、上四分位数、四分位极差; (3) 作出直方图;

(4) 作出经验分布函数图;

(5) X1和X2的观测值的pearson相关系数与spearman相关系数。 北京 35.22 499.80 天津 10.41 161.37 河北 17.22 273.29 山西 10.70 134.79 内蒙古 10.29 90.92 辽宁 18.66 348.99 吉林 4.41 106.89 黑龙江 6.24 196.44

上海 49.72 656.95 江苏 浙江 安徽 福建

47.70 36.55 14.85 19.46

580.70 518.10 179.41 250.16

江西 10.93 122.06 山东 40.26 552.74 河南 19.82 268.20 湖北 19.49 221.43 湖南 16.01 197.68 广东 99.32 1080.26 广西 14.77 160.60 海南 3.96 39.51 重庆 10.49 111.76 四川 21.71 250.09 贵州 13.06 95.87 云南 20.34 183.62 西藏 0.77 6.08 陜西 11.38 133.50 甘肃 3.66 64.86 青海 1.21 18.30

宁夏 2.31 23.81 新疆 3.24 103.81

1.5 对某民族的21人测量其血液4种成分的含量,观测数据如下: 求总体均值向量?及总体协方差矩阵?的估计。

18.8 28.1 5.1 35.1 17.4 25.6 4.9 33.9 16.0 27.4 5.0 32.2 19.3 29.5 1.7 29.1 17.4 27.4 4.5 35.6 15.3 25.3 3.6 32.2 16.7 25.8 4.4 33.0 17.4 26.7 4.4 33.0 16.2 25.7 2.3 33.9 16.7 26.7 6.4 35.0 18.2 28.0 3.2 29.7 16.7 26.7 2.1 34.9 18.1 26.7 4.3 31.5 16.7 26.0 3.0 32.7 18.1 30.2 7.0 34.9 20.2 30.5 4.8 34.4 20.2 29.5 5.5 36.2 21.5 31.5 5.8 36.5

18.8 30.6 5.4 35.4

21.6 27.8 5.4 34.1 21.3 29.5 5.8 35.8

1.7 一组人体的胸部、腹部、手臂部分皮肤的有关数据如下: (1) 计算观测数据均值向量和中位数向量;

(2) 计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。

9.0 12.0 3.0 8.5 15.0 3.0 13.0 19.0 3.0 10.0 7.0 4.0 7.0 13.0 2.5 15.5 28.5 5.0 22.5 20.0 4.5 5.5 8.5 3.0 25.0 35.0 6.5 15.0 19.0 4.0 12.5 20.0 3.0 17.0 19.5 5.0 16.0 17.5 6.0 20.0 20.0 7.5 12.0 17.0 4.0 22.0 20.0 6.0 17.0 28.0 5.5 16.0 18.0 3.0 21.0 27.5 6.0 13.0 14.0 4.0 21.0 13.0 9.0 21.0 6.0 3.5 13.5 6.5 3.5 5.0 7.5 3.5 16.0 20.0 5.5 14.5 14.5 4.0 10.0 23.0 6.0 11.0 13.0 6.0 10.5 12.0 3.5 15.0 15.5 3.0 9.0 12.5 5.0 23.0 24.0 6.5 14.0 21.0 6.5 16.0 11.0 3.0 16.5 17.0 4.0 16.0 15.0 3.0

12.0 15.5 3.5 9.0 4.0 2.0 12.0 6.0 5.0 5.0 14.0 3.0 17.0 15.0 4.5 16.0 11.0 3.0 17.5 18.0 3.0 11.5 15.0 3.0 4.0 3.0 2.0 17.5 15.0 4.5 9.5 11.5 2.5 26.0 38.0 4.0 15.0 13.0 4.5 19.0 12.0 3.0

第二章 线性回归分析

(一)目的与要求:

掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。 (二)重点与难点:

会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。

2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数X1(单位:千人)以及他们人均月收入X2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:

(1) 求回归系数?0,?1,?2的最小二乘估计和误差方差?2的估计,写出回归方程并对回归系数作解释;

(2) 求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方R2的值并解释其意义;

(3) 分别求?1和?2的置信度为95%的置信区间; (4) 对??0.05,分别检验人数

X1及收入X2对销量Y的影响是否显著,利用与回归系数有

关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著; (5) 该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;

(6) 求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性。 162 274 2450 120 180 3254 223 375 3802 131 205 2838

a1 b2 3.49 a1 b2 a1 b2 a1 b2 a1 b2

4.11 4.95 5.16 5.54

a1 b2 5.68 a1 b2 6.25 a1 b2 7.25 a1 b2 7.90 a1 b2 8.85 a1 b2 11.96 a1 b2 15.54 a1 b2 15.89 a1 b2 18.30 a1 b2 18.59 a1 b3 2.25 a1 b3 3.93 a1 b3 5.08 a1 b3 5.82 a1 b3 5.84 a1 b3 6.89 a1 b3 8.50 a1 b3 8.56 a1 b3 9.44 a1 b3 10.52 a1 b3 13.46 a1 b3 13.57 a1 b3 14.76 a1 b3 16.41 a1 b3 16.96 a1 b3 17.56 a1 b3 22.82 a1 b3 29.13 a2 b1 2.20 a2 b1 2.69 a2 b1 3.54 a2 b1 3.75 a2 b1 3.83 a2 b1 4.08 a2 b1 4.27 a2 b1 4.53 a2 b1 5.32 a2 b1 6.18 a2 b1 6.22

a2 b1 6.33 a2 b1 a2 b1 a2 b1 a2 b1

6.97 6.97 7.52 8.36

a2 b1 11.65 a2 b1 12.45 a2 b2 4.04 a2 b2 4.16 a2 b2 4.42 a2 b2 4.93 a2 b2 5.49 a2 b2 5.77 a2 b2 5.86 a2 b2 6.28 a2 b2 6.97 a2 b2 7.06 a2 b2 7.78 a2 b2 9.23 a2 b2 9.34 a2 b2 9.91 a2 b2 13.46 a2 b2 18.40 a2 b2 23.89 a2 b2 26.39 a2 b3 2.71 a2 b3 5.43 a2 b3 6.38 a2 b3 6.38 a2 b3 8.32 a2 b3 9.04 a2 b3 9.56 a2 b3 10.01 a2 b3 10.08 a2 b3 10.62 a2 b3 13.80 a2 b3 15.99 a2 b3 17.90 a2 b3 18.25 a2 b3 19.32 a2 b3 19.87 a2 b3 21.60 a2 b3 22.25

3.7 为研制一种治疗枯草热病的药物,将两种成分(A和B)各按三种不同剂量(高、中、低)混合,将36位自愿受试患者随机分成9组,每组4人服用各种剂量混合下的药物,记录其病情缓解的时间(单位:小时)如下:

(1) 计算每个水平组合(Ai,Bj)上的均值?ij的估计值yij?(i,j?1,2,3),做出形如图3.2的图形,

判断A与B的交互效应是否显著?

(2) 假设所给数据服从方差分析模型,建立方差分析表,A与B的交互效应在??0.05是否

显著?

(3) A与B的交互效应显著,分别就A的各水平Ai(i=1,2,3),给出在B的各水平Bj上的均值

?ij的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区

间。固定B的各水平Bj,关于因素A作类似分析,你能选出最佳是水平组合?

a1 b1 2.4 a1 b1 2.7 a1 b1 2.3 a1 b1 2.5 a1 b2 4.6 a1 b2 4.2 a1 b2 4.9 a1 b2 a1 b3 a1 b3 a1 b3

4.7 4.8 4.5 4.4

a1 b3 4.6 a2 b1 5.8 a2 b1 5.2 a2 b1 5.5 a2 b1 5.3 a2 b2 8.9 a2 b2 9.1 a2 b2 8.7 a2 b2 9.0 a2 b3 9.1 a2 b3 9.3 a2 b3 8.7 a2 b3 9.4 a3 b1 6.1 a3 b1 5.7 a3 b1 5.9 a3 b1 6.2 a3 b2 9.9 a3 b2 10.5

a3 b2 10.6 a3 b2 10.1 a3 b3 13.5 a3 b3 13.0 a3 b3 13.3

a3 b3 13.2

3.8 有四名工人Wi,i=1,…,4,分别操作机床A1,A2,A3各一天,生产同样产品,其日产量(单位:件)如下: (1) 建立方差分析表,在?有无显著差异?

(2) 分别求各工人的平均日产量的两两之差以及机床平均日产量的两两均值之差的置信度不小于90%的Bonferroni置信区间,并对结果作解释。 a1 w1 50 a1 w2 47 a1 w3 47 a1 w4 53 a2 w1 63 a2 w2 54 a2 w3 57 a2 w4 58 a3 w1 52 a3 w2 42 a3 w3 41 a3 w4 48

?0.05下,四名工人的日产量有无显著差异?各台机床对日产量

第四章 主成分分析与典型相关分析

(一)目的与要求:

能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据SAS输出结果选出满足要求的几个主成分。 能利用原始数据作典型相关分析,能根据SAS输出结果分析典型相关对。 (二)重点与难点:

理解标准化主成分与原始数据主成分的区别,会求主成分和典型相关对,能解释主成分和典型相关对的含义,即会综合解释指标。

4.4 从1975年1月至1976年12月,对纽约政券交易所的三种化工股票和两种石油股票的周反弹率进行连续100周的观测,

周反弹率=(本周五收盘价-上周五收盘价)/上周五收盘价

求得其样本相关系数矩阵为

(1) 从R出发做主成分分析,求各主成分及其贡献率。

(2) 前两个主成分的累计贡献率为多少?你能否给出这两个主成分的合理解释。

x1 1.000 0.577 0.509 0.387 0.462 x2 0.577 1.000 0.599 0.389 0.322 x3 0.509 0.599 1.000 0.436 0.426 x4 0.387 0.389 0.436 1.000 0.523 x5 0.462 0.322 0.426 0.523 1.000

4.5 下面给出了1991年我国30个省、区、市城镇居民的月平均消费数据(单位:元/人) X1:人均粮食支出; X2:人均副食品支出;X3:人均烟酒茶支出;X4:人均其它副食品支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出;

(1) 求样本相关系数矩阵R。

(2) 从R出发做主成分分析,求各主成分及其贡献率。

(3) 求出前两个主成分并解释其意义。按第一主成分得分将30个省、区、市排序,结果如何?

山西 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21 内蒙古 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51 吉林 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32 黑龙江 7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00 河南 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76 甘肃 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35

青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 河北 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65 陕西 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17 宁夏 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96

新疆 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61 湖北 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88 云南 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67 湖南 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23 安徽 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28 贵州 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25 辽宁 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29 四川 7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.80 山东 8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.10 江西 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39 福建 10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.69 广西 7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57 海南 13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.30 天津 10.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57 江苏 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69 浙江 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87 北京 7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.61 西藏 7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.90 上海 8.28 64.34 8.00 22.22 20.06 15.12 0.72 22.89

阿尔及利亚 50 16 安哥拉 阿根廷 澳大利亚 奥地利

47 23 22 10 16 8 12 13

孟加拉国 47 19 比利时 12 12 巴西 36 10 保加利亚 17 10 缅甸 38 15 喀麦隆 42 22 加拿大 16 7 智利 22 7 中国 31 11 台湾 26 5 哥伦比亚 34 10 古巴 20 6 捷克斯洛伐克 19 11 厄瓜多尔 42 11 埃及 39 13 埃塞俄比亚 48 23 法国 前东德 前西德 加纳

14 11 12 14 10 12 46 14

希腊 16 9 危地马拉 40 14 匈牙利 18 12 印度 36 15 印度尼西亚 38 16 伊朗 42 12 伊拉克 48 14 意大利 14 10 象牙海岸 48 23 日本 16 6 肯尼亚 50 14 朝鲜 43 12 韩国 26 6 马达加斯加 47 22 马来西亚 30 6 墨西哥 40 7 摩洛哥 47 16 莫桑比克 45 18 尼泊尔 46 20

荷兰 13 8 尼日利亚 巴基斯坦 秘鲁 菲律宾

49 22 44 14 40 13 34 10

波兰 20 9 葡萄牙 19 10 罗德西亚 48 14 罗马尼亚 19 10 沙特阿拉伯 49 19 南非 36 12 西班牙 18 8 斯里兰卡 26 9 苏丹 49 17 瑞典 12 11 瑞士 12 9 叙利亚 47 14 坦桑尼亚 47 17 泰国 34 10 土耳其 34 12 前苏联 18 9 乌干达 英国 美国 上伏塔

48 17 12 12 15 9 50 28

委内瑞拉 36 6 越南 42 17 南斯拉夫 18 8 扎伊尔 45 18

6.4 下面为1978年至1999年我国居民消费水平数据进行快速聚类分析,全国居民、农村居民、城镇居民的消费水平分别为X1,X2,X3

(1) 给出聚3类的结果,并画出(X1,X2)与(X1,X3)图,它们是否反映了各类的集聚性? (2) 用绝对距离(L1距离)快速聚类聚为3的结果如何? (3) 给出的相应于(1)(2)的结果。

1978 184 138 405 1979 207 158 434 1980 236 178 496 1981 262 199 562 1982 284 221 576 1983 311 246 603 1984 354 283 662 1985 437 347 802

1986 485 376 920 1987 1988 1989 1990

550 693 762 803

417 1089 508 1431 553 1568 571 1686

1991 896 621 1925 1992 1070 718 2356 1993 1331 855 3027 1994 1746 1118 3891 1995 2336 1434 4874 1996 2641 1768 5430 1997 2834 1876 5796 1998 2972 1895 6217 1999 3180 1973 6651

6.5 下面为鸢尾属植物花的形状数据的150个样品,利用欧氏距离作快速聚类分析。 (1) 用X(2) 用X(3) 用X?(x2,x4)T聚类;

T?(x1,x2,x3)聚类;

T?(x1,x2,x3,x4)聚类;

(4) 将聚类结果与数据集中的实际分类情况比较,是否所用变量越多,聚类效果越好?

1 50 33 14 2 1 46 34 14 3 1 46 36 10 2 1 51 33 17 5 1 55 35 13 2 1 48 31 16 2 1 52 34 14 2 1 49 36 14 1 1 44 32 13 2 1 50 35 16 6 1 44 30 13 2 1 47 32 16 2 1 48 30 14 3 1 51 38 16 2 1 48 34 19 2 1 50 30 16 2 1 50 32 12 2 1 43 30 11 1 1 58 40 12 2

1 51 38 19 4 1 1 1 1

49 51 50 46

30 35 34 32

14 14 16 14

2 2 4 2

1 57 44 15 4 1 50 36 14 2 1 54 34 15 4 1 52 42 15 1 1 55 1 49 1 54 1 50 1 44 1 47 1 46 1 51 1 50 1 49 1 54 1 54 1 51 1 48 1 48 1

45 1 57 1 51 1 54 1 51 1 52 1 53 2 65 2 62 2 59 2 61 2 60 2 56 2 57 2 63 2 70 2 64 2 61 2 55 2 54 42 14 31 15 39 17 34 15 29 14 32 13 31 15 34 15 35 13 31 15 37 15 39 13 35 14 34 16 30 14 23

13 38 17 38 15 34 17 37 15 35 15 37 15 28 46 22 45 32 48 30 46 27 51 25 39 28 45 33 47 32 47 32 45 28 40 24 38 30 45 2 2 4 2 2 2 2 2 3 1 2 4 3 2 1

3

3 3 2 4 2 2 15

15

18 14 16 11 13 16 14 15 13 11 15

2 58 26 40 12 2 2 2 2

55 50 67 56

26 23 31 30

44 33 44 45

12 10 14 15

2 58 27 41 10 2 60 29 45 15 2 57 26 35 10 2 57 19 42 13 2 49 2 56 2 57 2 66 2 52 2 60 2 50 2 55 2 58 2 62 2 59 2 60 2 67 2 63 2 56 2

63 2 61 2 64 2 51 2 57 2 61 2 56 2 69 2 55 2 55 2 66 2 68 2 67 3 64 3 67 3 63 3 69 3 65 3 65 3 58 24 33 27 42 30 42 29 46 27 39 34 45 20 35 24 37 27 39 29 43 30 42 22 40 31 47 23 44 30 41 25

49 28 47 29 43 25 30 28 41 29 47 29 36 31 49 25 40 23 40 30 44 28 48 30 50 28 56 31 56 28 51 31 51 30 52 30 55 27 51 10 13 12 13 14 16 10 10 12 13 15 10 15 13 13 15

12 13 11 13 14 13 15 13 13 14 14 17 22 24 15 23 20 18 19

本文来源:https://www.bwwdw.com/article/qy75.html

Top