统计学(第九章相关与回归分析)

更新时间:2023-09-12 04:28:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第九章 相关与回归分析

? 基本要求:

相关与回归分析是处理变量之间关系的一种统计分析方法。通过本章的学习,要求理解相关关系的概念和种类、相关分析的概念和内容;了解相关表与相关图;重点掌握简单相关系数的计算方法以及判断相关关系的密切程度;理解回归分析的概念,熟练掌握建立一元线性回归方程的方法;了解多元线性回归分析和非线性回归分析及假设检验的方法。

第一节 相关分析概述

一、相关关系的概念

变量之间的相互依存关系有两中不同类型:函数关系和相关关系。 (一)函数关系

反映在一定条件下,现象之间存在着严格的依存关系。如出租汽车费用与行驶里程 (二)相关关系

对于某一变量的每个数值,可以有另一个变量的若干数值与之相对应,在这些数值之间表现出一定的波动性,但又总是围绕其平均值并遵循一定的规律而变动。这种依存关系就是非确定性关系,亦称相关关系。如施肥量与作物亩产量的关系。

在相关关系中的变量有两种情况:一种是自变量:起影响作用的变量,另一种是因变量:受自变量变动影响而发生变动的变量。如在施肥两与亩产量之间,施肥量是“因”是自变量,亩产量是“果”,是因变量。有时,两者之间有是互为因果关系,如身高与体重。

必须指出,在研究现象的相关关系时,必须是真实、具有内在联系的关系,而不是主观臆造的,或只是形式上的偶然巧合。 (三)两者之间的关系

区别:函数关系是变量之间数量上严格的依存关系,现象中的变量关系不是对等的;相关关系是变量之间数量上不严格的依存关系,现象中的变量关系是完全对等的。

联系:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。 二、相关关系的种类

(一)按涉及的变量的多少:单相关、复相关和偏相关 单相关又叫简单相关,只有一个自变量和一个因变量,如家庭收入水平与消费支出之间的关系。复相关是涉及到三个或三个以上变量之间的关系,很多现象均受到三个以上因素的影响。偏相关是在一个变量和多个变量相关时,假定其他变量不变,只研究其中两个变量之间的相关关系,如研究商品销售量与其价格水平、人均收入等之间关系时,假定人均收入不变,而只研究起与价格水平的关系。

(二)表现形式分:直线相关与曲线相关。 (三)按方向不同分:正相关与负相关。

正相关是指一个变量增加(减少)时,另一个变量也相应增加(减少),即两个变量是同方向变化。负相关是指两个变量反方向变化。

(四)按相关程度来分:完全相关、不完全相关和不相关。

完全相关是两个变量之间有确定的函数关系。不相关是指两个变量之间各自独立、不存在依存关系。不完全相关是指两个变量有联系,但不存在严格的依存关系。 (五)按相关关系性质分,有真实相关和虚假相关

真实相关是两个变量之间的相关关系确实并具有内在的联系,如居民消费与收入;虚假相关是变量之间的相关只是表面存在,并没有内在联系,如学生学号与学习成绩的关系。 三、相关分析的概念及内容

相关关系是研究两个或两个以上变量之间的相关方向和相关密切程度的统计分析方法。

? 所涉及的变量是随机变量,是对等关系 主要内容:

1.确定变量之间有无相关关系以及相关关系表现形式

? 通过定性分析,确定相关关系,这是相关分析的前提

《统计学》第九章- 1 -

2.确定变量之间相关的密切程度

? 通过编制相关表、绘制相关图或计算相关系数 3.建立合适的数学模型

? 建立线性方程或曲线方程 4.测定变量估计值的可靠程度

? 计算估计值,测定估计标准误差

第二节 线性相关的测定

? 通过编制相关表、绘制相关图或计算相关系数 一、相关表与相关图

相关表:用表格形式反映变量之间相关关系的统计表,有简单相关表和分组相关表。 相关图:又叫散点图,将两个变量间对应的数值在直角坐标系中描绘出来,用于反映两变量之间相关关系的图形。

1.简单相关表:适用于所观察的样本单位数较少,不需要分组的情况

八个同类工业企业的月产量与生产费用 企业编号 月产量(千吨)X 生产费用(万元)Y 1 2 3 4 5 6 7 8 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0 62 86 80 110 115 132 135 160

2.分组相关表:适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,有单变量分组相关表和双变量分组相关表

20个同类工业企业固定资产原值与平均每昼夜产量 平均每昼夜固定资产原值(百万元) 产量(吨) 35~40 40~45 45~50 50~55 55~60 60~65 65~70 合计 600~650 550~600 500~550 450~500 400~450 350~400 300~350 合 计 2 2 2 2 1 2 3 5 5 1 2 1 4 2 1 3 1 1 1 3 3 7 4 0 2 20 二、相关系数

? 概念:反映变量之间相关关系密切程度的统计分析指标。 ? 类型:简单相关系数、偏相关系数、复相关系数 ? 本章主要介绍的是简单相关系数

《统计学》第九章- 2 -

2x?xy?yn ?xy? r?22?x?y

x?xn?y?yn

nxy?xy

?2222 nx?xny?(y)

2 ?xy表示协方差,?x与?y分别为x、y的标准差

[例]10个学徒工的技术操作训练时间和月产量资料如下,计算其相关系数

XY X2 Y2 时间(月)X 月产量(件)Y 3 57 171 9 3249 4 78 312 16 6084 4 72 288 16 5184 2 58 116 4 3364 5 89 445 25 7921 3 63 189 9 3969 4 73 292 16 5329 5 84 420 25 7156 3 75 225 9 5625 2 48 96 4 2304 35 697 2554 133 50085 ????????????????????

nxy?xy r?2 222nx?xny?(y)

10?2554?35?6971145

???0.91 22105?1504110?133?3510?50085?697

计算结果r=0.91,且为正值,说明学徒工的技术操作训练时间和月产量之间呈正相关关系,且高度正相关。

? 分组相关表相关系数的计算

(x?x)(y?y)f ? r?22 (x?x)f?(y?y)f?? f?xy??xf?yf? ?2222 ??fxf?xff?yf?(?yf)????

(二)相关系数的密切程度

相关系数r的取值范围:-1≤r≤1

? r>0 为正相关,r < 0 为负相关;|r|=0 表示不存在线性关系;|r|=1 表示完全线性相关; ? 0<|r|<1表示存在不同程度线性相关:

0 <|r| < 0.3为弱相 0.3 ≤|r| < 0.5为低度相关;

0.5≤ |r| <0.8为显著相关; 0.8≤|r| <1.0为高度相关

?????????《统计学》第九章- 3 -

第三节 一元线性回归分析

一、回归分析的概念

? 回归:泛指变量之间的一般数量关系。

? 回归分析:对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个合适 的回归方程,据以进行估计或预测的统计分析方法

? 类型:

1.按回归方程的形式:线性回归分析和非线性回归分析 2.按变量的多少:一元回归分析和多元回归分析 ? 回归分析与相关分析的关系 联系:

理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。 区别

? 相关分析中x与y对等,回归分析中x与y要确定自变量和因变量; ? 相关分析中x、y均为随机变量,回归分析中只有因变量为随机变量; ? 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。 二、一元线性回归模型 1.一元线性回归模型

yt????xi??i

模型中,yt 是 xt 的线性函数(部分)加上误差项。线性部分反映了由于 xt 的变化而引起的 yt 的变化;误差项 ?i是随机变量,反映了除 xt 和yt 之间的线性关系之外的随机因素对yt 的影响,是不能由 xt 和 yt 之间的线性关系所解释的变异性;α和β称为模型的参数。

根据最小二乘法的基本原理,得到一条最佳的回归直线:

??a?bxy ?表示因变量的估计值, a 表示回归直线的截距, b回归直线的斜率,又叫回归系数,表y示当变量x 变动一个单位时, y 的平均变动量. 相应的条件是: ?(y?y?)?0

?(y??)y2?最小值根据微分的极值原理,对上述条件求偏导,并令其等于零,整理后得到由两个关于a、b的二

元一次方程组成的方程组:

?y?na?b?x

?xy?a?x?b?x2进一步整理,有: ? ?b?n?xy??x?yn?x2? ? ?a?? ??(?x)?b?xn2?ny?y?bx[例],以前面的资料为例

《统计学》第九章- 4 -

??a?bx设自变量x为:操作训练时间,因变量y:月产量,则相应的回归方程为: y

n?xy??x?y1145???10.9?b?22n?x?(?x)105 ? ?a?y?bx?697/10?10.9?35/10?31.55?

??31.55?10.9x则回归方程为: y表明学徒工操作训练时间每增加一个月,月产量平均增加10.9件 ? b与r的关系:

r?b??xy? 说明:当两个变量互为因果关系时,可以建立两个不同的线性方程:即y=a+bx或x=c+dy 三、一元回归方程的检验 (一)离差平方和的分解

?)?(y??y)(y?y)?(y?y(y?y)2?)?(y??y)]?[(y?y2对每个观察点都进行同样的分解,然后求和

?(y?y)2????(yy)?2?(y??)y2?)(y??y)?0)(?(y?y? 总离差平方和SST:

?(y?y)22? 回归平方和,以SSR表示: (y???y) 表示估计值与平均值的离差平方和,它说明各个估计值的变动是由于x的变动而引起的变动程度,说明SSR是由x与y的直线回归关系引起的; ? 剩余平方和,以SSE表示

?(y??)y2? ? a ? 表示各观察值与估计值的离差平方和,表示各观察值y围绕回归直线 y bx 的变

动程度,它是除了x对y的线性影响之外的一切随机因素所引起的y的变动。

? 所以,总离差平方和=回归平方和+剩余平方和 SST=SSR+SSE (二)可决系数r检验

因为: SST ? SSR ? SSE 所以: 1?

SSRSST?SSESST 回归平方和SSR反映x对y产生的线性影响,因此,回归平方和SSR与总离差平方和SST的比值可用于表示x与y之间的线性关系. 用以衡量x与y之间相关关系的密切程度以及回归直线拟合的优劣程度,称为可决系数,用r2表示。

《统计学》第九章- 5 -

本文来源:https://www.bwwdw.com/article/44mh.html

Top