1.1《回归分析的基本思想及其初步应用》

更新时间:2024-01-20 07:52:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1.1 回归分析的基本思想及其初步应用

基础梳理

1.相关关系是一种非确定性关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,函数关系是一种确定性关系.

2.在线性回归模型y=bx+a+e中,最小二乘法估计^a和^b就是未知参数a和b的最好估计,其计算公式如下:

^b=

,^a=

1n1n--,其中,x=?xi,y=?yi.

ni=1ni=1

另外,称为样本点的中心,回归直线一定过样本点中心.

3.衡量模型拟合效果.

(1)残差:对于样本点(x1,y1),(x2,y2),?,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,3,?,n,其估计值为^ei=yi-^yi=yi-^bxi-^a,i=1,2,?,n,^ei称为相应于点(xi,yi)的残差.

(2)残差图:我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号、身高数据或体重估计值等,这样作出的图形称为残差图.

残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高.

(3)残差分析:可以通过残差发现原始数据中的可疑数据,判断

所建立模型的拟合效果.

(4)相关指数:计算公式是R2=和为

总偏差平方和为

.其中残差平方R2的值越大说明残

差平方和越小,也就是说模型的拟合效果越好,R2的值表示解释变量对预报变量变化的贡献率,R2的值越接近于1,表示回归的效果越好.,基础自测

1.下列结论正确的是(C)

①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.

A.①② B.①②③ C.①②④ D.①②③④ 解析:根据函数关系、相关关系、回归分析的概念可知选C. 2.下列有关回归直线方程^y=^bx+^a的叙述:

①反映^y与x之间的函数关系;②反映y与x之间的函数关系;③表示^y与x之间不确定关系;④表示最接近y与x之间真实关系的一条直线.

其中正确的是(D)

A.①② B.②③ C.③④ D.①④

解析:^y=bx+^a表示^y与x之间的函数关系,而不是y与x之间

的函数关系,但它反映的关系最接近y与x之间的真实关系.故选D.

3.已知回归方程^y=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是(C)

A.0.01 B.0.02 C.0.03 D.0.04

解析:(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.故选C. 4.有下列数据:

x y 1 3 2 5.99 3 12.01 下列四个函数中,模拟效果最好的为(A) A.y=3×2x-1 B.y=log2x C.y=3x D.y=x2

解析:当x=1,2,3时,分别代入求y值,离y最近的值模拟效果最好,知A模拟效果最好.故选A.

(一)重点

通过实际操作进一步理解建立两相关变量的线性回归模型的思想,求线性回归方程,判断回归模型拟合的好坏.

(二)难点

残差变量的解释与分析及指标R2的理解. (三)知识结构图

(四)思维总结

(1)求回归直线方程的一般方法.

①作出散点图,将问题所给的数据在平面直角坐标系中描点,这样表示出的具有相关关系的两个变量的一组数据的图形就是散点图,从散点图中我们可以看出样本点是否呈条状分布,从而判断两个变量是否线性相关.

②求回归系数^a,^b,其中

称为残差平方和,

残差平方和在一定程度上反映了所选回归模型的拟合效果.残差平方和越小,说明模型的拟合效果越好;残差平方和越大,说明拟合效果越差.

③通过残差分析判断模型拟合效果:先计算出残差^ei=yi-^yi=yi-^bxi-^a,i=1,2,?,n,然后横坐标选取为样本编号、解释变

量或预报变量,纵坐标为残差,作出残差图.通过图形分析,如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄说明模型拟合效果,反映回归方程的预报精度.带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高.

(3)相关指数R2.

①相关指数的计算公式是R2=

其中

为残差平方和.相关指数用来刻画回归模型拟合的效

果,R2的值越大,说明模型的拟合效果越好;R2的值越小,说明拟合效果越差.

②如果某组样本数据可以采取几种不同的回归模型进行回归分析,则可以通过比较R2的值来作出选择,即选择R2值大的模型作为这组数据的回归模型.

③在线性回归模型中R2是刻画回归效果的量,即表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系.R2表示解释变量对预报变量变化的贡献率.

1.建立回归模型的基本步骤为:

(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.

(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).

(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).

(4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.

2.分析两个变量相关关系的常用方法有:

(1)利用散点图进行判断:把样本数据表示的点在平面直角坐标系中作出,从而得到散点图,如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.

(2)利用相关指数R2进行判断.

3.对具有相关关系的两个变量进行统计分析时,首先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.

对于非线性回归问题,可以转化为线性回归问题去解决.

1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是(B)

A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R2 2.下列说法正确的有(C)

①回归方程适用于一切样本和总体;②回归方程一般都有时间性;③样本取值的范围会影响回归方程的使用范围;④回归方程得到的预报值是预报变量的精确值.

A.①② B.①③ C.②③ D.③④

解析:①回归方程只适用于我们研究的样本和总体.②我们所建立的回归方程一般都有时间性.③样本取值的范围会影响回归方程的适用范围.④回归方程得到的预报值是预报变量的可能取值的平均值,并非准确值,故②③正确.

3.已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为(A)

A.^y=1.23x+0.08 B.^y=0.08x+1.23 C.^y=1.23x+4 D.^y=1.23x+5

解析:回归直线方程过样本点的中心,把点(4,5)代入A项成立. 4.某调查者从调查中获知某公司近年来科研费用支出(xi)万元与公司所获得利润(yi)万元的统计资料如下表:

序号 1 2 3 4 5 6 合计 科研费用支出xi 5 11 4 5 3 2 30 利润yi 31 40 30 34 25 20 180 xiyi 155 440 120 170 75 40 xi2 25 121 16 25 9 4 1 000 200 则利润(yi)对科研费用支出(xi)的线性回归方程为________.

解析:把表中数据代入公式求解得线性回归方程为^y=2x+20.

1.一项研究要确定是否能够根据施肥量预测作物的产量,这里的解释变量是(B)

A.作物的产量 B.施肥量 C.试验者

D.降雨量或其他解释产量的变量

解析:作物的产量为预报变量,故施肥量为解释变量. 2.对两个变量x和y进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),?,(xn,yn),则下列说法中不正确的是(C)

A.由样本数据得到的回归方程^y=^bx+^a必过样本点的中心(-x,-y)

B.残差平方和越小的模型,拟合的效果越好

C.用R2来刻画回归效果,R2的值越小,说明模型拟合的效果越好

D.在研究身高和体重关系时,求得R2=0.64,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%,”所以身高对体重的效应比随机误差的效应大

解析:R2的值越大,说明残差平方和越小,也就是说模型的拟合程度效果越好.

3.下表是某工厂6~9月份电量(单位:万度)的一组数据:

月份x 用电量y 6 6 7 5 8 3 9 2 由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是^y=-1.4x+a,则a等于(D)

A.10.5 B.5.25 C.5.2 D.14.5

解析:由题知-x=7.5,-y=4,代入方程解得a=14.5,故选D. 4.已知回归直线方程中斜率的估计值为5.43,样本点的中心(1,2),则回归直线在y轴上截距为(A)

A.-3,43 B.3,43 C.1 D.2

解析:回归直线方程过样本点的中心,把点(1,2)代入求得y轴上截距为-3.43.

5.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程为^y=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为(A)

A.83% B.72% C.67% D.66%

解析:将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.

6.设(x1,y1),(x2,y2),?,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小乘法得到的线性回归直线(如右图),以下结论正确的是(A)

A.直线l过点(-x,-y)

B.x和y的相关系数为直线l的斜率 C.x和y的相关系数在0到1之间

D.当n为偶数时,分布在l两侧的样本点的个数一定相同 7.下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系;⑤学生与他(她)的学号之间的关系,其中有相关关系的是________.(填序号)

答案:①③④

8.若施肥量x与水稻产量y的回归直线方程为^y=5x+250,当施肥量为80 kg时,预报水稻产量为________.

解析:当x=80 kg时,^y=5×80+250=650 kg. 答案:650 kg

9.已知方程^y=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,^y的单位是kg,那么针对某个体(160,53)的残差是________.

解析:将x=160代入^y=0.85x-82.71,得^y=0.85×160-82.71=53.29,所以残差^e=y-^y=53-53.29=-0.29.

答案:-0.29

10.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.

x 3 4 5 6 y 2.5 3 (1)请画出上表数据的散点图. 4 4.5 (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程^y=^bx+^a.

(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.

(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析:(1)所求散点图如下图所示:

(2)?xiyi=3×2.5+4×3+5×4+6×4.5=66.5,

i=14

3+4+5+6-x==4.5,

42.5+3+4+4.5-y==3.5,

4

故所求线性回归方程为^y=0.7x+0.35.

(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65吨标准煤.

?品味高考

1.(2013·湖北卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:

①y与x负相关且^y=2.347x-6.423;②y与x负相关且^y=-3.476x+5.648;③y与x正相关且^y=5.347x+8.493;④y与x正相关且^y=-4.326x-4.578.

其中一定不正确的结论的序号是(D) A.①② B.②③ C.③④ D.①④

解析:由回归直线方程^y=^bx+^a,知当^b>0时,y与x正相关;当^b<0时,y与x负相关.∴①④一定错误.故选D.

2.(2013·福建卷)已知x与y之间的几组数据如下表:

x y 1 0 2 2 3 1 4 3 5 3 6 4 假设根据上表数据所得线性回归直线方程为^y=^bx+^a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x

+a′,则以下结论正确的是(C)

A.^b>b′,^a>a′ B.^b>b′,^a<a′ C.^b<b′,^a>a′ D.^b<b′,^a<a′

713

58-6××

26521713

解析:-x==,-y=,代入公式求得^b==,62627?7?

91-6×?2???13571^-^--a=y-bx-y=-×=-,而b′=2,a′=-2,∴^b<b′,^a6723>a′,故选C.

3.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据表如下表:

年份 年份代号t 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 2007 2008 2009 2010 2011 2012 2013 1 2 3 4 5 6 7 (1)求y关于t线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭纯收入.

附:回归直线的斜率和截距的最小二乘法估计公式分别为: ^b=错误!,错误!=错误!-错误!错误!. 解析:

(2)由(1)知,^b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.

将2015年的年份代号t=9代入(1)中的回归方程,得^y=0.5×9+2.3=6.8,

故预测该地区2015年农村居民家庭人均纯收入为6.8千元.

本文来源:https://www.bwwdw.com/article/4qbo.html

Top