统计学课后习题部分题目答案

更新时间:2024-06-09 04:40:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学部分题答案(源于互联网,仅供参考)

1.解释描述统计和推断统计:

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。

推断统计:推断统计是研究如何利用样本数据来推断总体特征的统计方法。

2.举例说明总体、样本、参数、统计量、变量这几个概念。

总体:包含所研究的全部个体的集合。如由多个企业构成的集合,多个居民构成的集合,多个人构成的集合。

样本:是从总体中抽取的一部分元素的集合。如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。

参数:是用来描述总体特征的概括性数字度量。如总体平均数,总体方差,总体比例, 统计量:是用来描述样本特征的概括性数字度量。如样本均数、样本标准差、样本比例。 变量:说明现像的概念。如商品销售额,受教育程度,产品的质量等级。 3什么叫二手资料?使用二手资料需要注意些什么?

所谓二手资料,是指特定的调查者按照原来的目的收集、整理的各种现成的资料,又称次级资料

使用二手资料需要注意数据的定义、含义、计算品径和计算方法。

4.比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

非概率抽样的缺点恰是概率抽样的优势: -不能估计出抽样误差;

-不知道抽中的单位所具有代表性的程度; -非概率抽样的结果不能也不应该推算总体。

在实际操作过程中,非概率抽样经常被市场调研人员使用,其原因与本身固有的优势有关: -非概率抽样比概率抽样费用低。非概率抽样的这一特点对那些精确性要求补不严格的调查有相当大的吸引力。试探性调查就是其中的一例。

-一般来讲,非概率抽样实施起来要比概率抽样用的时间少

5数据的预处理包括哪些内容? 包括审核、筛选、排序。 6,四分位数的计算方法

首先确定四分位数的位置: Q1的位置=(n+1)/4 Q2的位置=(n+1)/2 Q3的位置=3(n+1)/4 n表示项数

实例1 数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 一共11项 Q1 的位置=(11+1)/4=3 Q2 的位置=(11+1)/2=6 Q3的位置=3(11+1)/4=9 Q1 = 15, Q2 = 40, Q3 = 43 实例2 数据总量: 7, 15, 36, 39, 40, 41 一共6项 Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)

/2=3.5 Q3的位置=3(6+1)/4=5.25 Q1 = 7+(15-7)×(1.75-1)=13, Q2 = 36+(39-36)×(3.5-3)=37.5, Q3 = 40+(41-40)×(5.25-5)=40.25

7.异众比率、四分位差、方差或标准差的适用场合。 异众比率:,适合测度分类数据的离散程度,适用于衡量众数对一组数据的代表程度

四分位差:主要用于测量顺序数据的离散程度,不适合分类数据。 方差或标准差:主要用于数值型数据离散程度的方法。 8,为什么要计算离散系数?

为消除变量水平高低和计量单位不同对离散程度测度值的影响。

9,简述样本量与置信水平、总体方差、边际误差的关系。

从样本容量的公式可以看出,样本容量与置信概率成正比,在其他条件不变的情况下,置信概率越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与边际误差的平方成反比,我们可以接受的边际误差越大,所需的从样本容量的公式可以看出,样本容量与置信概率成正比,在其他条件不变的情况下,置信概率越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与边际误差的平方成反比,我们可以接受的边际误差越大,所需的样本容量就越小。样本容量就越小。

10,什么是假设检验中的显著性水平?统计显著是什么意思? 显著性水平:通常以

a表示,是一个临界概率值,它表示假设检验中

用样本资料推断总体时,犯拒绝假设错误的可能性大小,a越小,犯拒绝假设的错误性越小。

统计显著:通过对数据的整理,分析得出一个结论,并检验这个结论中的参数是不是在一定范围内符合条件。

11.什么是假设检验中的两类错误?

指在假设检验中,由于样本信息的局限性,势必会产生错误,错误无非只有两种情况。 A错误:指原假设H0正确,而拒绝H0所犯的错误。 B错误:指原假设H0不正确,而不拒绝H0报犯的错误。

12,什么是方差分析?它研究的是什么?

方差分析指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

它研究的是分类型自变量对数值型因变量的影响。

13.要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法? 14.方差分析包括哪些类型?它们有何区别?

方差分析是处理多个平均数是否相等的一种假设检验方法。根据研究所涉及的因素的多少,方差分析可以分为单因素方差分析和多因素方差分析(包括双因素分析)。

使用条件:??单因素:要求因变量服从正态分布;方差要齐性;适合完全随机试验设计。??多因素:因变量服从正态分布,且总体个单元方差相同(单元就是个因素水平之间的每个组合);因变量是连续变量,自变量是分类变量 15.解释相关关系的含义,说明相关关系的特点。

相关关系:指根据样本数据计算的度量两个变量之间线性关系强度的统计量。 相关关系的特点:

正相关:两种变量变化的方向相同。??2、负相关:两种变量变化的方向相反。??3、零相关:一种变量变化时,不能引起另一变量的变化。??、正相关:两种变量变化的方向相同。??2、负相关:两种变量变化的方向相反。??3、零相关:一种变量变化时,不能引起另一变量的变化。??

16,简述时间序列的预测程序。

1)确定时间序列所包含的成分,即确定时间序列的类型。 2)找出适合此类时间序列的预测方法

3)对可能的预测方法进行评估,以确定时间序列的类型 4)利用最佳预测方案进行预测。

第三章,数据的图表展示

3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下: B D A B C D B B A C

E A D A B A E A D B

C C B C C C C C B C

C B C D E B C E C E

A C C E D C A E C D

D D A A B D D A A B

C E E B C E C B E C

B C D D C C B D D C

A E C D B E A D C B

E E B C C B E C B C

要求:

(1)指出上面的数据属于什么类型。 顺序数据

(2)用Excel制作一张频数分布表。 用数据分析——直方图制作:

接收 频率

E 16

D 17

C 32 B 21

A 14

(3)绘制一张条形图,反映评价等级的分布。 用数据分析——直方图制作:

直方图40频率200EDC接收BA频率

(4)绘制评价等级的帕累托图。

逆序排序后,制作累计频数分布表:

接收 频数 频率(%) 累计频率(%) C B D E A

35302520151050CDBAE120100806040200频数累计频率(%)32 21 17 16 14

32 21 17 16 14

32 53 70 86 100

3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 105

124 119 129 114 116 115 100 87 103 103 92 118 95 142 127 135 104 125

117 97 108 88 105 123 110 115 107 119 137 138 120 112 136 146 117 113 108 126

要求:

(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数: K?1?lg?4?0lgn()1.60206,取?1??1??6.32k=6

lg(2)lg20.301032、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3、分组频数表 销售收入 80.00 - 89.00 90.00 - 99.00 100.00 - 109.00 110.00 - 119.00 120.00 - 129.00 130.00 - 139.00 140.00 - 149.00 150.00+ 总和 频数 频率% 累计频数 2 3 9 12 7 4 2 1 40 5.0 7.5 22.5 30.0 17.5 10.0 5.0 2.5 100.0 2 5 14 26 33 37 39 40 累计频率% 5.0 12.5 35.0 65.0 82.5 92.5 97.5 100.0

(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 先进企业 良好企业 一般企业 落后企业 总和 频数 10 12 9 9 40 频率% 25.0 30.0 22.5 22.5 100.0 累计频数 10 22 31 40 累计频率% 25.0 55.0 77.5 100.0 3.3 某百货公司连续40天的商品销售额如下:

单位:万元

41 46 35 42

25 36 28 36

29 45 46 37

47 37 34 37

38 37 30 49

34 36 37 39

30 45 44 42

38 43 26 32

43 33 38 36

40 44 44 35

要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 1、确定组数: K?1?lg?4?0lgn()1.60206?1??1??6.32k=6 ,取

lg(2)lg20.30103

2、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5 3、分组频数表 销售收入(万元) <= 25 26 - 30 31 - 35 36 - 40 41 - 45 46+ 总和 频数 1 5 6 14 10 4 40 频率% 2.5 12.5 15.0 35.0 25.0 10.0 100.0 累计频数 1 6 12 26 36 40 累计频率% 2.5 15.0 30.0 65.0 90.0 100.0 频数1614121086420<= 2526 - 3031 - 3536 - 4041 - 4546+频数频数销售收入

3.4 利用下面的数据构建茎叶图和箱线图。

57 23 35 18 21 21

29 47 51 26 46 43

29 23 39 50 41 19

36 28 18 29 52 42

31 28 46 33 28 20

605040302010data

data Stem-and-Leaf Plot

Frequency Stem & Leaf

3.00 1 . 889 5.00 2 . 01133 7.00 2 . 6888999 2.00 3 . 13 3.00 3 . 569 3.00 4 . 123 3.00 4 . 667 3.00 5 . 012 1.00 5 . 7

Stem width: 10 Each leaf: 1 case(s)

3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据如下:

单位:g

57 46 49 54 55 58 49 61 51 49 51 60 52 54 51 55 60 56 47 47

53 51 48 53 50 52 40 45 57 53 52 51 46 48 47 53 47 53 44 47 50 52 53 47 45 48 54 52 48 46 49 52 59 53 50 43 53 46 57 49 49 44 57 52 42 49 43 47 46 48 51 59 45 45 46 52 55 47 49 50 54 47 48 44 57 47 53 58 52 48 55 53 57 49 56 56 57 53 41 48 要求:

(1)构建这些数据的频数分布表。 (2)绘制频数分布的直方图。 (3)说明数据分布的特征。

解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数:

lg?10?0lgn()2?1??1??6.64k=6或7 K?1?,取

lg(2)lg20.301032、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(61-40)÷6=3.5,取3或者4、5 组距=( 最大值 - 最小值)÷ 组数=(61-40)÷7=3, 3、分组频数表

组距3,上限为小于

有效 40.00 - 42.00 43.00 - 45.00 46.00 - 48.00 49.00 - 51.00 52.00 - 54.00 55.00 - 57.00 58.00+ 合计 频数 3 9 24 19 24 14 7 100 百分比 3.0 9.0 24.0 19.0 24.0 14.0 7.0 100.0 累计频数 3 12 36 55 79 93 100 累积百分比 3.0 12.0 36.0 55.0 79.0 93.0 100.0 直方图:

组距3,小于3020Frequency10Mean =5.22Std. Dev. =1.508N =10000246810组距3,小于

组距4,上限为小于等于

有效 <= 40.00 41.00 - 44.00 45.00 - 48.00 49.00 - 52.00 53.00 - 56.00 57.00 - 60.00 61.00+ 合计 频数 1 7 28 28 22 13 1 100 百分比 1.0 7.0 28.0 28.0 22.0 13.0 1.0 100.0 累计频数 1 8 36 64 86 99 100 累积百分比 1.0 8.0 36.0 64.0 86.0 99.0 100.0 直方图:

组距4,小于等于4030Frequency2010Mean =4.06Std. Dev. =1.221N =100002468组距4,小于等于

组距5,上限为小于等于

有效 <= 45.00 46.00 - 50.00 51.00 - 55.00 56.00 - 60.00 61.00+ 合计 频数 12 37 34 16 1 100 百分比 12.0 37.0 34.0 16.0 1.0 100.0 累计频数 12.0 49.0 83.0 99.0 100.0 累积百分比 12.0 49.0 83.0 99.0 100.0 直方图:

国内生产总值20768.07,15C721, 32%第一产业第二产业第三产业72387, 53%

第四章 统计数据的概括性描述

4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:

2 4 7 10 10 10 12 12 14 15 要求:

(1)计算汽车销售量的众数、中位数和平均数。 (2)根据定义公式计算四分位数。 (3)计算销售量的标准差。

(4)说明汽车销售量分布的特征。 解:

Statistics

汽车销售数量 N

Valid Missing

Mean(平均数) Median(中位数) Mode(众数) Std. Deviation(方差) Percentiles

25 50 75

10 0 9.60 10.00 10 4.169 6.25 10.00 12.50

Histogram32Frequency1Mean =9.6Std. Dev. =4.169N =1002.557.51012.515 汽车销售数量 4.2 随机抽取25个网络用户,得到他们的年龄数据如下: 单位:周岁

19 23 30 23 41

15 21 20 27 20

29 38 19 22 31

25 22 19 34 17

24 18 16 24 23

要求;

(1)计算众数、中位数:

1、排序形成单变量分值的频数分布和累计频数分布:

网络用户的年龄 15 16 17 Valid 18 19 20 21 Frequency 1 1 1 1 3 2 1 Percent 4.0 4.0 4.0 4.0 12.0 8.0 4.0 Cumulative Frequency 1 2 3 4 7 9 10 Cumulative Percent 4.0 8.0 12.0 16.0 28.0 36.0 40.0

22 23 24 25 27 29 30 31 34 38 41 Total 2 3 2 1 1 1 1 1 1 1 1 25 8.0 12.0 8.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 100.0 12 15 17 18 19 20 21 22 23 24 25 48.0 60.0 68.0 72.0 76.0 80.0 84.0 88.0 92.0 96.0 100.0

从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。 (2)根据定义公式计算四分位数。

QL位置=25/4=6.25,因此Q1=19,QU位置=3×25/4=18.75,因此QU=27,或者,由于25和27都只有一个,因此QU也可等于25+0.75×2=26.5。

(3)计算平均数和标准差;

Mean=24.00;Std. Deviation=6.652

(4)计算偏态系数和峰态系数:

Skewness=1.080;Kurtosis=0.773

(5)对网民年龄的分布特征进行综合分析:

分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。

为分组情况下的直方图:

32Count10151617181920212223242527293031343841网络用户的年龄 为分组情况下的概率密度曲线:

3.02.5Count2.01.51.0151617181920212223242527293031343841网络用户的年龄 分组:

1、确定组数:

(1)样本均值x=3.32,样本标准差s=1.61; (2)抽样平均误差: 重复抽样:?x=?n?s=1.61/6=0.268 n?N?nsN?n1.617500?36???= N?1N?17500?1n36 不重复抽样:?x=?n=0.268×0.995=0.268×0.998=0.267

(3)置信水平下的概率度: 1??=0.9,t=z?2=z0.05=1.645 1??=0.95,t=z?2=z0.025=1.96 1??=0.99,t=z?2=z0.005=2.576 (4)边际误差(极限误差): ?x?t??x?z?2??x

1??=0.9,?x?t??x?z?2??x=z0.05??x

重复抽样:?x?z?2??x=z0.05??x=1.645×0.268=0.441 不重复抽样:?x?z?2??x=z0.05??x=1.645×0.267=0.439

1??=0.95,?x?t??x?z?2??x=z0.025??x

重复抽样:?x?z?2??x=z0.025??x=1.96×0.268=0.525 不重复抽样:?x?z?2??x=z0.025??x=1.96×0.267=0.523

1??=0.99,?x?t??x?z?2??x=z0.005??x

重复抽样:?x?z?2??x=z0.005??x=2.576×0.268=0.69 不重复抽样:?x?z?2??x=z0.005??x=2.576×0.267=0.688

(5)置信区间:

?x??x,x??x?

1??=0.9,

重复抽样:?x??x,x??x?=?3.32?0.441,3.32?0.441?=(2.88,3.76)

不重复抽样:?x??x,x??x?=?3.32?0.439,3.32?0.439?=(2.88,3.76)

1??=0.95,

重复抽样:?x??x,x??x?=?3.32?0.525,3.32?0.525?=(2.79,3.85) 不重复抽样:?x??x,x??x?=?3.32?0.441,3.32?0.441?=(2.80,3.84)

1??=0.99,

重复抽样:?x??x,x??x?=?3.32?0.69,3.32?0.69?=(2.63,4.01) 不重复抽样:?x??x,x??x?=?3.32?0.688,3.32?0.688?=(2.63,4.01)

7.9 某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样

本,他们到单位的距离(单位:km)分别是:

10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2

假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。 解:小样本,总体方差未知,用t统计量

t?x???t?n?1? sn均值=9.375,样本标准差s=4.11 置信区间:

ss??x?tn?1?,x?tn?1??????2?2??

nn??1??=0.95,n=16,t?2?n?1?=t0.025?15?=2.13 ss??x?tn?1?,x?tn?1????2??2???

nn??=?9.375?2.13???4.114.11?,9.375?2.13??=(7.18,11.57) 1616?

7.11 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产

的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(单位:g)如下: 每包重量(g) 96~98 98~100 100~102 102~104 104~106 合计

包数 2 3 34 7 4 50

已知食品包重量服从正态分布,要求:

(1)确定该种食品平均重量的95%的置信区间。 解:大样本,总体方差未知,用z统计量

z?x???N?0,1? sn样本均值=101.4,样本标准差s=1.829 置信区间:

ss??x?z?,x?z??2?2??

nn??1??=0.95,z?2=z0.025=1.96 ss??x?z?,x?z??2?2??

nn??=?101.4?1.96???1.8291.829?,101.4?1.96??=(100.89,101.91) 5050?(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。

解:总体比率的估计

大样本,总体方差未知,用z统计量

z?p??p?1?p?n?N?0,1?

样本比率=(50-5)/50=0.9 置信区间:

?p?1?p?p?1?p???p?z?2?? ,p?z?2???nn??1??=0.95,z?2=z0.025=1.96

?p?1?p?p?1?p???p?z?2?? ,p?z?2???nn???0.9?1?0.9?0.9?1?0.9???=(0.8168,0.9832) =?0.9?1.96?,0.9?1.96???5050??

7.13 一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了

18个员工。得到他们每周加班的时间数据如下(单位:小时): 6 3

21 8 17 12 20 11 7 9 0 21 8 25 16 15 29 16

假定员工每周加班的时间服从正态分布。估计网络公司员工平均每周加班时间的90%的置信区间。

解:小样本,总体方差未知,用t统计量

t?x???t?n?1? sn均值=13.56,样本标准差s=7.801 置信区间:

ss??x?tn?1?,x?tn?1????2??2???

nn??1??=0.90,n=18,t?2?n?1?=t0.05?17?=1.7369 ss??x?tn?1?,x?tn?1??????2?2??

nn??=?13.56?1.7369???7.8017.801?,13.56?1.7369??=(10.36,16.75) 1818?

7.15 在一项家电市场调查中.随机抽取了200个居民户,调查他们是否拥有某一品牌的

电视机。其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。

解:总体比率的估计

大样本,总体方差未知,用z统计量

z?p??p?1?p?n?N?0,1?

样本比率=0.23 置信区间:

?p?1?p?p?1?p???p?z?2?? ,p?z?2???nn??1??=0.90,z?2=z0.025=1.645

?p?1?p?p?1?p???p?z?2?? ,p?z?2???nn???0.23?1?0.23?0.23?1?0.23??? =?0.23?1.645?,0.23?1.645???200200??=(0.1811,0.2789)

1??=0.95,z?2=z0.025=1.96

?p?1?p?p?1?p???p?z?2?? ,p?z?2???nn???0.23?1?0.23?0.23?1?0.23???=(0.1717,=?0.23?1.96?,0.23?1.96???200200??0.2883)

7.20 顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,

比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时间(单位:分钟)如下:

方式1 方式2 6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10 要求: (1)构建第一种排队方式等待时间标准差的95%的置信区间。 解:估计统计量

?n?1?S2~?2n?1

??2?经计算得样本标准差s2=3.318 置信区间:

2?n?1?S2??2??n?1?S2 22??n?1?n?1????21??222221??=0.95,n=10,??2?n?1?=?0.025?9?=19.02,?1??2?n?1?=?0.975?9?=2.7

??n?1?S2n?1?S2??9?0.22729?0.2272??,=?,2???=(0.1075,0.7574) 2????2.7??2?n?1??1??2?n?1???19.02因此,标准差的置信区间为(0.3279,0.8703)

(2)构建第二种排队方式等待时间标准差的95%的置信区间。 解:估计统计量

?n?1?S2~?2n?1

??2?经计算得样本标准差s1=0.2272 置信区间:

2?n?1?S2??2??n?1?S2 22??n?1?n?1??2?1??2?

本文来源:https://www.bwwdw.com/article/57x6.html

Top