9299.net
大学生考试网 让学习变简单
赞助商链接
当前位置:首页 >> 其它课程 >>

第二课时独立性检验的基本思想及其初步应用

第二课时独立性检验的基本思想及其初步应用


1.分类变量 不同类别 变量的不同“值”表示个体所属的_____,像这样的变量 称为分类变量. 2.列联表 频数表 (1)定义:列出的两个分类变量的____,称为列联表.

独立性检验
1.2×2列联表:假设有两个分类变量X和Y,它们的值域分 别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联 表)为: x1 y1 a y2 b 总计 a+b

x2
总计 K2= 样本容量).

c
a+c

d
b+d

c+d
a+b+c+d (其中n=a+b+c+d为

通过等高条形图直观判断

不患病 比例

患病 比例

3.独立性检验 (1)定义:利用随机变量K2来判断“两个分类变量有关系”的 方法称为两个分类变量的独立性检验. (2)公式:K2= __________
n(ad ? bc) 2 a+b+c+d .其中n=_____. (a ? b)(c ? d)(a ? c)(b ? d)

临界值
P( K 2 ? k ) 0.50

0.40

0.5

0.15

0.10

0.05 0.025 0.010 0.005 0.001

k

0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系” (2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”;
(3)如果k>6.635,就有99%的把握认为“X与Y有关系”; (5)如果k>3.841,就有95%的把握认为“X与Y有关系”; (6)如果k>2.706,就有90%的把握认为“X与Y有关系”;

(4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”;

(7)如果k<=2.706,就认为没有充分的证据显示 “X与Y有关系”.

2. 独立性检验的一般步骤: (1)根据样本数据制成2×2列联表; (2)根据公式K2= 计算K2 的值; (3)查表比较K2与临界值的大小关系,作统计判断.

在吸烟与患肺病这两个分类变量的计算中,下列说法正确
的是(

c



A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患 肺病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病 C、若从统计量中求出有95%的把握认为吸烟与患肺病有关

系,是指有5%的可能性使得推理出现错误
D、以上三种说法都不对

【典例训练】 1.(2012·武汉高二检测)在独立性检验中,若随机变量K2的观 测值k≥6.635,则( )

(A)X与Y有关系,犯错的概率不超过1% (B)X与Y有关系,犯错的概率超过1% (C)X与Y没有关系,犯错的概率不超过1% (D)X与Y没有关系,犯错的概率超过1%

例题解析: 例1 在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶;而另外772名不是因为患心脏病而住 院的男性病人中,有175人秃顶. 利用图形判断秃顶与 患心脏病是否有关系。能否在犯错误的概率不超过 0.010的前提下认为秃顶与患心脏病有关系? 解:根据题目所得数据得到列联表:
秃顶与患心脏病列联表 患心脏病 214 451 665 患其他病 175 597 772 总计 389 1048 1437

秃顶 不秃顶 总计

(1)等高条形图
100% 80% 60% 40% 20% 0% 秃顶 不秃顶 患其他病 患心脏病

从图中可以看出,秃顶样本中患心脏病的频率明显高于 不秃顶样本中患心脏病的频率,因此可直观地认为秃顶 与患心脏病有关系。

(2)独立性检验法
秃顶 不秃顶 总计
患心脏病 214 451 665 患其他病 175 597 772 总计 389 1048 1437

根据列联表中的数据, 得K 2的观测值为 1437 ? ? 214 ? 597 ? 175 ? 451? k? ? 16.373 ? 6.635 389 ?1048 ? 665 ? 772
2

因此,在犯错误的概率不超过0.010的前提下认为 “秃顶与患心脏病有关”,即有99%的把握认为“秃 顶与患心脏病有关”。

例2 为考察高中生的性别与是否喜欢数学课程之 间的关系,在西华三高的学生中随机抽取300名学 生,得到如下列联表:
喜欢数学课 不喜欢数学 程 课程
男 女 总计 37 35 72 85 143 228

总计
122 178 300

由表中数据计算 K2 的观测值k≈4.513。 在多大程度上可以认为高中生的性别与是否 喜欢数学课程之间有关系?为什么?

解:在假设“性别与是否喜欢数学之间没有关系” 的前提下,K 2应该很小,并且 P( K 2 ? 3.841) ? 0.05 而K 2的观测值k ? 4.514超过了3.841,这就意味着 “性别与是否喜欢数学课程之间有关系”这一结论 是错误的可能性约为0.05,即有95%的把握 认为“性别与是否喜欢数学课程之间有关系”

这一结论只适用于被调查的学校

练习 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕

机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8
人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程 中,男乘客是否比女乘客更容易晕机?

【解】

根据题意,列出 2×2 列联表如下: 晕 机 不晕机 总 计 男乘客 24 31 55 女乘客 8 26 34 总 计 32 57 89 假设在天气恶劣的飞行航程中, 男乘客不比女乘客更容 易晕机. 89×?24×26-31×8? 2 由 公 式 可 得 K2 的 观 测 值 k= 55×34×32×57 ≈3.689>2.706,故有 90%的把握认为“在天气恶劣的 飞行航程中,男乘客比女乘客更容易晕机”.

变式训练

西华三高东院餐厅的固定餐椅经常有损坏,于是该

单位领导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后 餐椅的损坏情况作了一个统计,具体数据如下: 损坏餐 椅数 39 29 68 未损坏餐 椅数 157 167 324 总计

文明标语张贴前
文明标语张贴后 总计

196
196 392

解:根据题中的数据计算: 2 392×? 39×167-157×29? k= ≈1.78. 196×196×68×324 因为 1.78<2.706,所以我们没有理由说:在餐厅墙壁 上张贴文明标语对减少餐椅损坏数有效果,即效果不 明显.

例2:为研究不同的给药方式(口服与注射)和 药的效果(有效和无效)是否有关,进行了相 应的抽样调查,调查的结果列在下表中,根据 所选择的193个病人的数据,能否作出药的效果 与给药方式有关的结论?
有效 无效 合计

口服
注射

58
64

40
31

98
95

合计

122

71

193

解:提出假设
H0:药的效果与给药方式无关系。

根据列联表中的数据可以求出:
193 ? (58 ? 31 ? 40 ? 64) 2 ?2 ? ? 1.3896 ? 2.706 122 ? 71? 98 ? 95

当H0成立时, ? ? 1.3896 的概率大于10%, 这个概率比较大,所以根据目前的调查数 据,不能否定假设H0,即不能作出药的效 果与给药方式有关的结论。
2

2.(2012·厦门高二检测)在对人们休闲方式的一次调查中,共 调查120人,其中女性70人、男性50人.女性中有40人主要的休 闲方式是看电视,另外30人主要的休闲方式是运动;男性中有

20人主要的休闲方式是看电视,另外30人主要的休闲方式是运
动.

(1)根据以上数据建立一个2×2的列联表;
(2)休闲方式与性别是否有关?

解:(1)2×2的列联表为







性 别
女性 男性



看电视 40 20

运动 30 30

总计 70 50

总计

60

60

120

(2)计算K2的观测值为
120 ? (40 ? 30 ? 20 ? 30) 2 24 k? ? ? 3.429. 70 ? 50 ? 60 ? 60 7

而2.706<3.429<3.841, 因为P(K2>2.706)≈0.10,P(K2>3.841)≈0.05, 所以,在犯错误的概率不超过0.10的前提下,认为休闲方式与 性别有关.

1.在研究两个分类变量之间是否有关时,可以很直观的判断两
个分类变量是否有关的是( )

(A)散点图
(C)2×2列联表

(B)等高条形图
(D)以上均不对

【解析】选B.等高条形图可以判断两个分类变量之间是否有关.

2.分类变量X和Y的列联表如下,则下列说法中正确的是(
Y1 X1 X2 a c Y2 b d 总计 a+b c+d

)

总计

a+c

b+d

a+b+c+d

(A)ad-bc越小,说明X与Y关系越弱
(B)ad-bc越大,说明X与Y关系越强 (C)(ad-bc)2越大,说明X与Y关系越强 (D)(ad-bc)2越接近于0,说明X与Y关系越强

(a ? b ? c ? d)(ad ? bc) 2 【解析】选C.∵ K ? , (a ? b)(c ? d)(a ? c)(b ? d)
2

∴(ad-bc)2越大,则K2越大,X与Y关系越强,故选C.

3.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确 的是( )

(A)若随机变量K2的观测值k>6.635,我们说吸烟与患肺病有关 的概率为0.99,则某人吸烟,那么他可能患有肺病的概率为

0.99
(B)若从统计量中求出吸烟与患肺病有关的概率为0.99,则在 100个吸烟者中必有99人患有肺病

(C)若从统计量中求出吸烟与患肺病有关的概率为0.95,是指 推断错误的概率为0.05 (D)以上说法均错误 【解析】选C.根据随机变量K2的意义可知,A与B均错误,C正 确.

4.某班主任对全班50名学生进行了一次调查,所得数据如表: 按时完成作业 男 女 18 8 不按时完成作业 9 15 总计 27 23

总计

26

24

50

由表中数据计算得到K2的观测值k≈5.059,于是_______(填
“能”或“不能”)在犯错误的概率不超过0.01的前提下认为

性别与按时完成作业有关.

【解析】查表知若要在犯错误的概率不超过0.01的前提下认为 性别与按时完成作业有关,则临界值k0=6.635.本题中,k≈ 5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下 认为性别与按时完成作业有关. 答案:不能

5.在对人们饮食习惯的一次调查中,共调查了124人,其中六

十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43
人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的 人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据 以上数据作出饮食习惯与年龄的列联表.

【解析】2×2列联表如下:
年龄 年龄在六 十岁以上 年龄在六 十岁以下

饮食习惯 饮食以蔬菜为主
饮食以肉类为主 总计

总计

43
27 70

21
33 54

64
60 124

小结:
y1 y2 总计

x1
x2 总计

a
c a+c

b
d b+d

a+b
c+d a+b+c+d

判断两分类变 量是否有关的 方法:

? 1、通过频率比较法,图 ? 2、利用独立性检验判 断两个分类变量是否有 形分析法判断两个分类 关系。 变量是否有关系。(不 精准) (1)假设无关 (1) ︱ad -bc︱ (2)求k值 (3)下结论 (2) a/a+b≈c/c+d

复习回顾:
1.回归直线的方程: y ? b x ? a
? ? ?

? ?a = y - bx ? ? n ? ? ?(xi - x)(yi - y) 2. ? ? b ? i=1 n = ? 2 ? ?(xi - x) ? ? i=1

?x y
i=1 n

n

i i 2 i

- nxy
2

?x
i=1

- nx

我们又引入相关指数R2来刻画回归的效果:
? ( yi ? y ) 2 ? ( yi ? y ) 2 ?
i ?1 i ?1 n n

残差平方和

R2 ? 1?

总体偏差平方和

当R2越接近于1,说明解释变量和预报变量 之间的相关性越强,如果同一个问题,采用 不同的回归方法分析,我们可以通过选择
2

如何描述两个变量之间线性相关关系的强弱? 相关系数
r=

?(x
i=1 n i=1

n

i

- x)(yi - y)
n

(xi - x)2 ?(yi - y)2 ?

相关系数的性质: (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. 问题:达到怎样程度,x、y线性相关呢? 它们的相关程度怎样呢?

i=1

当r ? [0.75, 表明两个变量正线性相关很强; 1], 当r ? [?1, ?0.75], 表明两个变量负线性相关很强; 当r ? [?0. 0.25], 表明两个变量线性相关性较弱。 25,

基本步骤
抽取样本,采集数据 作出散点图 确定类型,求回归方程 残差分析 相关指数 判定拟合程度

理论迁移

例 1993年到2002年中国的国内生产总 值(GDP)的数据(单位:亿元)如下:
年份 1993 GDP 34634.4 年份 1998 GDP 78345.2

1994 1995
1996 1997

46759.4 58478.1
67884.6 74462.6

1999 2000
2001 2002

82067.5 89468.1
97314.8 104790.6

(1)作GDP和年份的散点图,根据该图 猜想它们之间的关系应是什么? (2)建立年份为解释变量GDP为预报变 量的回归模型,并计算残差. (3)根据你得到的模型,预报2003年的 GDP,看看你的预报与实际的GDP (117251.9亿元)的误差是多少? (4)你认为这个模型能较好地刻画GDP 和年份的关系吗?请说明理由.

120000 100000 80000 60000 40000 20000 0 1992 1994 1996 1998 2000 2002 2004

GDP与年份近似地呈线性关系.

? ? 7191.969t ? 14292537.729 y

年份 1993

残差 -6422.269

年份 1998

残差 1328.685

1994
1995 1996

-1489.238
3037.493 5252.024

1999
2000 2001

-2140.984
-1932.353 -1277.622

1997

4638.055

2002

-993.791

2003年GDP预报值为112976.4,预报与实际相 差-4275.5 相关指数R2=0.974,说明年份能够解释 97.4%的GDP值变化,所建模型能很好地刻画 GDP和年份的关系.

练习某运动员训练次数与运动成绩之间的数据关系如下:
编号 1 2 3 4 5 6 7 8

次数 30 33 35 37 39 44 46 50

成绩 30 34 37 39 42 46 48 51
试预测运动员训练47次以及55次的成绩

第一步:做散点图
编号 1 2 3 4 5 6 7 8 次数 30 33 35 37 39 44 46 50 成绩 30 34 37 39 42 46 48 51

第二步:求回归方程
编号 1 2 3 4 5 6 7 8

次数 30 33 35 37 39 44 46 50 成绩 30 34 37 39 42 46 48 51

? y=1.0415x-0.00302

第三步:残差图

? y=1.0415x-0.00302
编号 1 2 3 4 5 6 7 8
次数 30 33 35 37 39 44 46 50 成绩 30 34 37 39 42 46 48 51 残差 -1.24 -0.37 0.55 0.46 1.38 0.17 0.09 -1.08

残差图
编号 1 2 3 4 5 6 7 8 次数 30 33 35 37 39 44 46 50 成绩 30 34 37 39 42 46 48 51 残差 -1.24 -0.37 0.55 0.46 1.38 0.17 0.09 -1.08

第四步:计算相关指数
编号 1 2 3 4 5 6 7 8 次数 30 33 35 37 39 44 46 50 成绩 30 34 37 39 42 46 48 51 残差 -1.24 -0.37 0.55 0.46 1.38 0.17 0.09 -1.08

相关指数 R 2 ? 1 ?

?? y
i ?1 n i ?1

n

i

? ? yi ? ? y?

2

?? y

? 0.9855

2

i

说明了该运动员的成绩的差异有98.55%是由训 练次数引起的,说明了两个变量的相关关系非常强.

第五步:作出预报 由上述分析可知,我们可以用回归方程

? y=1.0415x-0.00302 来作为该运动员成绩的预报值

? 将x=47和x=55分别代入可以得到:? 49和57 y 故预测该运动员训练47次和55次的成绩分别为49和57

小结: 一般地,建立回归模型的基本步骤为:
1.确定研究对象
2.画散点图 3.由经验确定回归方程的类型 4.按一定规则估计回归方程中的参数

5. 分析残差图
6. 分析残差图 7. 下结论

作业:

假设关于某设备的使用年限x和所支出的维修费用 y (万元),有如下的统计资料。
使用年限x
维修费用y

2
2.2

3
3.8

4
5.5

5
6.5

6
7.0

若由资料知,y对x呈线性相关关系。试求: (1)线性回归方程

? ? ? y ? bx ? a

的回归系数

? ? a、b ;

(2)求残差平方和;

(3)求相关系数

R;

2

(4)估计使用年限为10年时,维修费用是多少?

解: (1)由已知数据制成表格。

i
xi yi xi yi
xi2

1 2 2.2 4.4 4

2 3 3.8 11.4 9
5

3 4 5.5 22.0 16
5

4 5 6.5 32.5 25

5 6 7.0 42.0 36

合计 20 25 112.3 90

xi2 ? 90; ? xi yi ? 112.3. x ? 4; y ? 5; ?
i ?1 i ?1

? 所以有 b ? 1.23, a ? 0.08. ?

? ? y ? 1.23x ? 0.08.

1.分类变量 不同类别 变量的不同“值”表示个体所属的_____,像这样的变量 称为分类变量. 2.列联表 频数表 (1)定义:列出的两个分类变量的____,称为列联表.


赞助商链接
推荐相关:
网站首页 | 网站地图
All rights reserved Powered by 大学生考试网 9299.net
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@qq.com