独立性检验的基本思想及其初步应用(1)
更新时间:2023-06-06 12:31:01 阅读量: 实用文档 文档下载
问题: 问题 数学家庞加莱每天都从一家面包店买一块1000g 的面包 , 并记 的面包, 面包店买一块 录下买回的面包的实际质量。 录下买回的面包的实际质量 。 一年 后 , 这位数学家发现, 所记录数据 这位数学家发现 , 的均值为950g。 于是庞加莱推断这 的均值为 。 家面包店的面包分量不足。 家面包店的面包分量不足。 假设 “ 面包分量足 ” , 则一年购买面包的质量 假设“面包分量足” 数据的平均值应该不少于1000g ; 数据的平均值应该不少于 “这个平均值不大于 这个平均值不大于950g”是一个与假设“面包 是一个与假设“ 是一个与假设 分量足”矛盾的小概率事件; 分量足”矛盾的小概率事件; 这个小概率事件的发生使庞加莱得出推断结果 。 这个小概率事件的发生使庞加莱得出推断结果。
一:假设检验问题的原理假设检验问题由两个互斥的假设构成, 假设检验问题由两个互斥的假设构成,其中一个 叫做原假设, 表示; 另一个叫做备择假设, 叫做原假设 , 用 H0 表示 ; 另一个叫做备择假设 , 表示。 用H1表示。 例如,在前面的例子中, 例如,在前面的例子中, 原假设为 面包分量足, 原假设为: H0:面包分量足, 备择假设为 面包分量不足。 备择假设为 H1:面包分量不足。 这个假设检验问题可以表达为: 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足
二:求解假设检验问题考虑假设检验问题: 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路: 求解思路: 1. 在H0成立的条件下,构造与 0矛盾的小概 成立的条件下,构造与H 率事件; 率事件; 2. 如果样本使得这个小概率事件发生,就能 如果样本使得这个小概率事件发生, 一定把握断言 成立;否则, 断言H 以一定把握断言 1成立;否则,断言没有 发现样本数据与H 相矛盾的证据。 发现样本数据与 0相矛盾的证据。
三:二个概念 二个概念1.分类变量 1.分类变量 对于性别变量,取值为: 对于性别变量,取值为:男、女 这种变量的不同取“ 这种变量的不同取“值”表示个体所属的不 同类别,这类变量称为分类变量 同类别,这类变量称为分类变量 分类变量在现实生活中是大量存在的, 分类变量在现实生活中是大量存在的,如是 在现实生活中是大量存在的 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。 出生月份等等。
利用随机变量K 来确定在多大程度上可以认为” 利用随机变量K2来确定在多大程度上可以认为” 两个分类变量有关系”的方法称为两
个分类变 两个分类变量有关系”的方法称为两个分类变 量的独立性检验.(为假设检验的特例) .(为假设检验的特例 量的独立性检验.(为假设检验的特例)
列联表为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
不吸烟 吸烟 总计
吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 9874 49 91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54% 2.28% 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大
1)通过图形直观判断两个分类变量是否相关: 通过图形直观判断两个分类变量是否相关: 通过图形直观判断两个分类变量是否相关三维柱 状图8000 7000 6000 5000 4000 3000 2000 1000 0 不患肺癌 患肺癌
不吸烟 吸烟 吸烟 不吸烟
2) 通过图形直观判断两个分类变量是否相关: 通过图形直观判断两个分类变量是否相关:9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
二维条 形图
3)通过图形直观判断两个分类变量是否相关: 通过图形直观判断两个分类变量是否相关: 通过图形直观判断两个分类变量是否相关
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
患肺癌 比例
患肺癌 不患肺癌
不患肺癌 比例
独立性检验a c ∴ ≈ , a+b c+d
通过数据和图表分析, 通过数据和图表分析,得到 结论是: 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间没有关系 患肺癌之间没有关系结论的可靠 程度如何? 程度如何?
∴ a ( c + d ) ≈c ( a + b ) , ad ≈ bc 即:ad bc ≈ 0不吸烟 吸烟 总计 吸烟与肺癌列联表 不患肺癌 患肺癌 a b c d a+c b+d
总计 a+b c+d a+b+c+d
独立性检验 ad bc ≈ 0.越小,说明吸烟与患肺癌之间的关系越弱, ad - bc 越小,说明吸烟与患肺癌之间的关系越弱, 越大, ad - bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量2
n(ad- bc) ad - bc) K = (a+b)(c+d)(a+c)(b+d)2
作为检验在多大程度上可以认为“ 作为检验在多大程度上可以认为“两个变量 有关系”的标准 。 有关系”
设有两个分类变量X 设有两个分类变量X和Y它们的值域分别为{x1,x2}和 它们的值域分别为{x 其样本频数列表(称为2 列联表) 为 {y1,y2}其样本频数列表(称为2×2列联表)
2×2列联表2 (ad bc) n K2 = (a +b)(c + d)(a + c)(b + d) P(k 2 ≥ m)
y1 x1 x2总计 a c a+c
y2b d b+d
总计 a+b c+d a+b+c+d
1)如果P(m>10.828)= 0.001表示有99.9%的把握认为”X与Y”有关 表示有99.9
%的把握认为” 1)如果P( >10.828)= 0.001表示有99.9%的把握认为 如果P( 有关 适用观测数据a 适用观测数据a、 系; 2)如果 如果P(m>7.879)= 0.005表示有99.5%的把握认为 表示有99.5%的把握认为” 有关系; 2)如果P(m>7.879)= 0.005表示有99.5%的把握认为”X与Y”有关系; 有关系 不小于5 b、c、d不小于5 3)如果 如果P(m>6.635)= 0.01表示有99%的把握认为 表示有99%的把握认为” 有关系; 3)如果P(m>6.635)= 0.01表示有99%的把握认为”X与Y”有关系; 有关系 4)如果P(m>5.024)= 0.025表示有97.5%的把握认为 表示有97.5%的把握认为” 有关系; 4)如果P(m>5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系; 如果 有关系 5)如果P(m>3.841)= 0.05表示有95%的把握认为 表示有95%的把握认为” 有关系; 5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系; 如果 有关系 6)如果P(m>2.706)= 0.010表示有90%的把握认为 表示有90%的把握认为” 有关系; 6)如果P(m>2.706)= 0.010表示有90%的把握认为”X与Y”有关系; 如果 有关系 7)如果m 2.706),就认为没有充分的证据显示 就认为没有充分的证据显示” 有关系; 7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系; 如果 有关系
独立性检验不吸烟 吸烟 总计 通过公式计算 吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 49 9874 91 总计 7817 2148 9965
9965(7775× 49 42× 2099) K = ≈ 56.632 7817× 2148×9874×912 2
独立性检验成立的情况下, 已知在 H 0 成立的情况下,
P ( K ≥ 6.635) ≈ 0.012
成立的情况下, 大于6.635 6.635概率非常 即在 H 0 成立的情况下,K2 大于6.635概率非常 近似为0.01 小,近似为0.01 现在的K =56.632的观测值远大于 的观测值远大于6.635 现在的K2=56.632的观测值远大于6.635
背景分析
条形图
柱形图
列联表
分类变量之间关系
独立性检验
在某医院, 因为患心脏病而住院的665 例 1. 在某医院 , 因为患心脏病而住院的 665 名男性病人中, 214人秃顶 而另外772 人秃顶, 772名 名男性病人中 , 有 214 人秃顶 , 而另外 772 名 不是因为患心脏病而住院的男性病人中有 175人秃顶 人秃顶. 175 人秃顶 . 分别利用图形和独立性检验方 法判断是否有关? 法判断是否有关?你所得的结论在什么范围 内有效? 内有效?600 500 400 300 200 100 0 秃顶 不秃顶 患心脏病 患其他病 患其他病 患心脏病
例 2. 为考察高中生性别与是否喜欢数学课程之间的关系, 课程之间的关系 , 在某城市的某校高中生 中随机抽取300名学生,得到如下列联表: 300名学生 中随机抽取300名学生,得到如下列联表:性别与喜欢数学课程列联表 喜欢数学课程 男 女 总计 37 35 72 a c 不喜欢数学课程 b d 85 143 228 总计 122 178 300
由表中数据计算得 K 2 ≈4.513 ,高中生的 性别
与是否喜欢数学课程之间是否有关系? 性别与是否喜欢数学课程之间是否有关系? 为什么? 为什么? 解:P111
独立性检验基本的思想类似反证法 独立性检验基本的思想类似反证法1)假设结论不成立 假设结论不成立, (1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量 应该很能小, (2)在此假设下随机变量 K2 应该很能小,如果由观测数据
的观测值k很大, 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. 不合理. (3)根据随机变量K 的含义, (3)根据随机变量K2的含义,可以通过 根据随机变量 评价该假设不合理的程度,由实际计算出的, 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即 说明假设合理的程度为99.9%,即“两个分类变量有关 99.9%, 这一结论成立的可信度为约为99.9%. 系”这一结论成立的可信度为约为99.9%.
正在阅读:
独立性检验的基本思想及其初步应用(1)06-06
全国小学11-12
临时用电规范08-16
天津港的发展史03-08
色织布生产流程介绍03-12
销售人员年度工作总结参考范文08-03
个人收受红包自查报告07-31
初阳工作简报01-10
预制场直立护岸施工组织设计05-19
商务礼仪试卷及答案(三套)文件01-02
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 独立性
- 初步
- 检验
- 及其
- 思想
- 基本
- 应用
- 江门市发展低碳城市战略规划
- 浙江大学大学物理期中考试
- 陶行知的教育思想
- 锡恩团队执行力公开课
- 医院护理不良事件报告表
- 考研数学:一元函数微分学考点和常考题型分析
- 八年级物理压强和浮力单元测试题
- 砖混结构住宅楼设计
- 2012年7月日语能力考二级真题文法部分01
- 触电人身伤亡事故应急响应预案
- 桥梁工程试题2答案
- 《我是特种兵之利刃出鞘》经典台词
- 应用方丝片段弓T形曲矫治替牙期切牙反的临床观察
- PEP小学英语三年级下册第四单元测试题(含听力材料)
- 党在我心中——红色记忆
- 牛顿定律经典练习题1
- 城市高架桥大跨度钢箱梁整体吊装施工技术
- 心理学实验及实验设计
- 2015年上半年教师资格考试_中学《教育知识与能力》真题及答案解析
- 第07章 家庭局域网的组建