9299.net
大学生考试网 让学习变简单
赞助商链接
当前位置:首页 >> 数学 >>

考点5,回归分析与独立性检验

考点5,回归分析与独立性检验


考点五

回归分析与独立性检验

考点要揽 ◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关 系。 ◆了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回 归方程。 ◆了解独立性检验(只要求 2 ? 2 列联表)的基本思想、方法及其简单应用。 ◆了解回归分析的基本思想、方法及其简单应用。 命题趋向 ◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预 测,在给出临界值的情况下判断两个变量是否有关。 ◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检 验的应用。 备考策略 ◆系统掌握有关概念 ◆能熟练的运用公式求线性回归系数

一、回归分析

?? ?x ? a ? ?b ? ,其中 b (一)回归直线方程: y

? ?xi ? x ?? yi ? y ? ? xi yi ? nxy
i ?1

n

n

? ?x
i ?1

n

i

? x?

?

2

i ?1 n

?x
i ?1

2 i

? nx 2

?x , ? x , y ? 称为样本中心点,因而回归直线过样本中心点. ? ? y ?b a
(二)样本相关系数 ?r ? 用来衡量两个变量之间线性相关关系的方法.

r?

? ?x
i ?1 n i ?1

n

i

? x ?? y i ? y ?
n

2 2 ? ? xi ? x ? ? ? y i ? y ? i ?1

当 r ? 0 时,表明两变量正相关;当 r ? 0 ,表明两变量负相关. r 越接近 1,表 明两变量的线性相关性越强; r 越接近 0,表明两变量的线性相关关系几乎不存 在,通常当 r ? 0.75 时,认为两个变量有很强的线性相关关系. 理解总结 (一)线性回归分析 一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下 ,应先进 行相关性检验,在确认具有线性相关关系后,再求回归直线方程.

回归分析的一般步骤为: 1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方 程才有实际意义,否则,求出的回归直线方程毫无意义;

? 是回归 ?x ? a ? 是常数项, b ? ?b ? ,其中 a 2.如果具有线性相关关系 ,求出回归方程 y
系数; 3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.

? 时,一般利用最小二乘法.其计算公 ? 和b (二)估计线性回归模型中的未知参数 a
式为:

? ? ?? ?b ? ? ? ?

? ?x
i ?1 n

n

i

? x ?? y i ? y ?
i

? ?x
i ?1

? x?

?

?x y
i ?1 n i

n

i

? nx y ? nx 2

2

?x
i ?1

2 i

?x ??y ? ?b a

其中 x ?

1 n 1 n , yi . ? xi y ? n ? n i ?1 i ?1

对此公式不要求记忆,但要会用. 高考导航 例 1 假设关于某设备使用年限 x 和所支出的维修费用 y (万元)有如下的统计资 料: 使用年限 x 维修费用 y 2 2.2 3 3.8 4 5 6

5.5 6.5 7.0

若由资料知 y 对 x 呈线性相关关系.

?x ? a ?; ? ?b ? 的回归系数 a ?, b 试求:(1)线性回归方程 y
(2)估计使用年限为 10 时,维修费用是多少? 解题思路 求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算 出 ? xi yi , ? xi , x , y ,后将这些量代入公式计算.
2 i ?1 i ?1 n n

解析:(1)制表如下:
i

1 2

2 3

3 4

4 5

5 6

合计 20

xi

yi

2.2 4.4 4

3.8 11.4 9
n

5.5 22.0 16

6.5 32.5 25
n

7.0

25

xi yi

42.0 112.3 36 90

?xi 2

2 ?x ? 4 ;?y ? 5 ;?? xi ? 90 ; ? xi yi ? 112.3 i ?1 i ?1

?? 于是 b

112 .3 ? 5 ? 4 ? 5 ?x ? 5 ? 1.23? 4 ? 0.08. ??y ? ?b ? 1.23 , a 90 ? 5 ? 4 2

? ? 1.23x ? 0.08 ? 12.38. (2)回归直线方程为 y ? ? 12.38 ,即估计使用 10 年时,维修费用是 12.38 万元. 当 x ? 10 时, y

二、独立性检验
(一)独立性检验的概念 一般地 ,假设有两个分类变量 X 和 Y ,它们的值域分别为 ?x1 , x 2 ?和 ?y1 , y2 ? , 其样本频数列联表(称为 2 ? 2 列联表)为:

y1
x1

y2
b
d b?d

总计
a?b c?d a?b?c?d
2

a c

x2
总计

a?c

我们利用随机变量 K 2 ?

n?ad ? bc? 来确定在多大程度上可以 ?a ? b??c ? d ??a ? c??b ? d ?

认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一 结论成立的可信程度 ,首先假设该结论不成立,即假设结论“两个分类变量没有 关系”成立.在该假设下我们构造的随机变量 K 2 应该很小,如果由观测数据计算 得到的 K 2 的观测值 k 很大,则在一定程度上说明假设不合理. 具体比较如下表:

反证法原理与独立性检验原理的比较 反证法原理 独立性检验原理 在假设 H 0 下,如果推出一个矛盾,就证明了 H 0 不成立. 在假设 H 0 下,如果出现一个与 H 0 矛盾的小概率事件,就推 断 H 0 不成立,且该推断犯错误的概率不超过这个小概率. (三)独立性检验的方法 假设 H 1 :“ X 与 Y 有关系”,可按如下步骤判断结论 H 1 成立的 可能性: 1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无 法精确地给出所得结论的可靠程度. 2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判 断的可靠程度,具体做法是: (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的 上界 a ,然后通过下表确定临界值 k0 .

P K 2 ? k0
k0

?

?

0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2 2

n?ad ? bc? (2)由公式 K ? ,计算 K 2 的观测值 k . ?a ? b??c ? d ??a ? c??b ? d ?
(3)如果 k ? k 0 ,就推断“ X 与 Y 有关系”.这种推断犯错误的概率不超过 a ;否 则,就认为在犯错误的概率不超过 a 的前提下不能推断“ X 与 Y 有关系”,或者 在样本数据中没有足够证据支持结论“ X 与 Y 有关系”. 理解总结 根据独立性检验的基本思想,可知对于 K 2 的观测值 k ,存在一个正数 k0 为判 断规则的临界值 , 当 k ? k 0 , 就认为“两个分类变量之间有关系”;否则就认为 “两个分类变量没有关系”.在实际应用中,我们把 k ? k 0 解释为有

?1 ? P?K

2

? k0 ?100% 的把握认为“两个分类变量之间有关系”;把 k ? k 0 解释

??

为不能以 1 ? P K 2 ? k0 ?100 % 的把握认为“两个分类变量之间有关系”,或者 样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航 例 1 (1)下列关系中不是相关关系的是? ( )

?

?

??

(A)产品投入的广告费与产品的销售量. (B)数轴上的点与实数 x . (C)人的身高与体重的大小. (D)一天中的湿度与气温的高低. (2)对分类变量 X 与 Y 的随机变量 K 2 的值,下列说法正确的是 ( (A) K 2 越大,“ X 与 Y 有关系”可信度越小. (B) K 2 越小,“ X 与 Y 有关系”可信度越小. (C) K 2 越接近于 0,“ X 与 Y 无关”程度越小. (D) K 2 越大,“ X 与 Y 无关”程度越大. 解题思路 (1)观察给出的两个量之间是否是函数关系、 是否具备一定的联系,是否没有 关系,从而可以判断出各种关系. (2) K 2 是反映变量 X 与 Y 是否有相关关系的一个重要参数. 解析: (1)A 项产品投入的广告费与产品的销售量、 C 项的人的身高与体重的大小、 D 项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关 系,故为相关关系.B 项数轴上的点与实数 x 之间为确定的函数关系. 例 2 为了比较注射 A 、 B 两种药物后产生的皮肤疱疹的面积,选 200 只家兔做 试验,将这 200 只家兔随机地分成两组,每组 100 只,其中一组注射药物 A ,另一组 注射药物 B . (1)甲、乙是 200 只家兔中的 2 只,求甲、乙分在不同组的概率; (2)下表 1 和表 2 分别是注射药物 A 和 B 后的试验结果.(疱疹面积单位: m m2 ) 表 1:注射药物 A 后皮肤疱疹面积的频数分布表 疱疹面积 [60,65) [65,70) 频数 30 40 [70,75) 20 [70,75) 20 [75,80) 10 [75,80) [80,85) 30 15 )

表 2:注射药物 B 后皮肤疱疹面积的频数分布表 疱疹面积 [60,65) [65,70) 频数 10 25

①完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;

②完成下面 2 ? 2 列联表,并回答能否有 99 .9% 的把握认为“注射药物 A 后的疱疹 面积与注射药物 B 后疱疹面积有差异”. 表3 疱疹面积小于 70m m2 注射药物 A 注射药物 B 合计 疱疹面积不小于 70m m2
b?
d?

合计

a?
c?

n?

附: K 2 ?

n?ad ? bc? ?a ? b??c ? d ??a ? c??b ? d ?
2

P K 2 ? k0
k0

?

?

0.10 2.706

0.05 3.841

0.025 5.024

0.010

0.001

6.635 10.828

解题思路 (1)将甲、 乙两只家兔分在不同组,可在剩余的 198 只中选 99 只,也就是将剩 余的分为两组,然后再将甲乙两只分在两个组中即可; (2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴 为频率与组距的比值 ;在频率分布直方图中,中位数将小矩形的面积分为相等的 两部分,据此可以估计中位数所在的范围 ;第②问可以根据给出的频数分布表得 到 2 ? 2 列联表,然后利用给定的公式和对应表来确定其可信程度. 【解析】(1)甲、乙两只家兔分在不同组的概率为: P ? (2)①
1 99 C2 C198 100 . ? 100 199 C200

在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于 0.5,可以 看出注射药物 A 后的疱疹面积的中位数在 65 至 70 之间,而注射药物 B 后的疱疹 面积的中位数在 70 至 75 之间,所以注射药物 A 后疱疹面积的中位数小于注射药 物 B 后疱疹面积的中位数. ②表 3: 疱疹面积小于 70m m2 注射药物 A 注射药物 B 合计
K2 ?
a ? 70
c ? 35

疱疹面积不小于 70m m2
b ? 30
d ? 65

合计
100
100

105
2

95

n ? 200

200?70 ? 65 ? 30 ? 65? ? 24.56 100? 100? 105? 95

由于 K 2 ? 10.828, 所以有 99 .9% 的把握认为“注射药物 A 后的疱疹面积与注射 药物 B 后的疱疹面积有差异”. 迁移应用 1、 (2009 宁夏海南卷理科)对变量 x , y 有观测数据 ?xi , yi ? ?i ? 1,2,?,10? ,得散 点图 1;对变量 u , v 有观测数据 ?ui , vi ? ?i ? 1,2,?,10? ,得散点图 2. 由这两个散点 图可以判断。

(A)变量 x 与 y 正相关, u与v 正相关 (B)变量 x 与 y 正相关, u与v 负相关 (C)变量 x 与 y 负相关, u与v 正相关 (D)变量 x 与 y 负相关, u与v 负相关 2、 (2010·湖南卷文科) 某商品销售量 y (件)与销售价格 x (元/件)负相关, 则其回归方程可能是( )
? ? 10x ? 200 (B) y

? ? ?10x ? 200 (A) y

? ? ?10x ? 200 (C) y

? ? 10x ? 200 (D) y

3、 (2011·江西卷文科)为了解儿子身高与其父亲身高的关系,随机抽取 5 对父 子的身高数据如下: 父亲身高 x (cm) 儿子身高 y (cm) 174 175 176 175 )
? ? x ?1 (B) y ? ? 176 (D) y

176 176

176 177

178 177

则 y 对 x 的线性回归方程为(
? ? x ?1 (A) y
?? (C) y 1 x ? 88 2

4、 (2011·江西卷理科) 变量 X 与 Y 相对应的一组数据为(10,1) , (11.3,2) , (11.8,3) , (12.5,4) , (13,5) ;变量 U 与 V 相对应的一组数据为(10,5) , (11.3,4) , (11.8,3) , (12.5,2) , (13,1), r1 表示变量 Y 与 X 之间的线性相关 系数, r2 表示变量 V 与 U 之间的线性相关系数,则( (A) r2 ? r1 ? 0 (C) r2 ? 0 ? r1 (B) 0 ? r2 ? r1 (D) r2 ? r1 )

5、 (2012·湖南卷理科)设某大学的女生体重 y (单位:kg)与身高 x (单位: cm)具有线性相关关系,根据一组样本数据 ?xi , yi ? ?i ? 1,2,?, n? ,用最小二乘法
? ? 0.85x ? 85.71,则下列结论中不正确的是( 建立的回归方程为 y



(A) y 与 x 具有正的线性相关关系 (B)回归直线过样本点的中心 ? x , y ? (C)若该大学某女生身高增加 1cm,则其体重约增加 0.85kg (D)若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg 6、 (2012·新课标全国卷文科)在一组样本数据 ?x1 , y1 ? , ?x2 , y2 ? ,?, ?xn , yn ? ( n ? 2 , x1 , x2 ,?, xn 不全相等)的散点图中,若所有样本点 ?xi , yi ? ?i ? 1,2,?, n?

1 x ? 1 上,则这组样本数据的样本相关系数为( ) 2 1 (A) ? 1 (B)0 (C) (D)1 2 7、 (2010·广东卷文科)某市居民 2005~2009 年家庭年平均收入 x (单位:万

都在直线 y ?

元)与年平均支出 y (单位:万元)的统计资料如下表所示: 年份 收入 支出 2005 11.5 6.8 2006 12.1 8.8 2007 13 9.8 2008 13.3 10 2009 15 12

根据统计资料,居民家庭年平均收入的中位数是 平均支出有 _________线性相关关系.

,家庭年平均收入与年

8、 (2010·广东卷文科)某电视台在一次对收看文艺节目和新闻节目观众的抽样 调查中,随机抽取了 100 名电视观众,相关的数据如下表所示: 文艺节目 20 至 40 岁 大于 40 岁 总计 40 15 55 新闻节目 18 27 45 总计 58 42 100

(1)由表中数据直观分析,收看新闻节目的观众是否与年龄有关? (2) 用分层抽样方法在收看新闻节目的观众中随机抽取 5 名,大于 40 岁的观众 应该抽取几名? (3)在上述抽取的 5 名观众中任取 2 名,求恰有 1 名观众的年龄为 20 至 40 岁 的概率. 9、 (2010·海南卷理科)为调查某地区老年人是否需要志愿者提供帮助,用简单 随机抽样方法从该地区调查了 500 位老年人,结果如下: 是否 性 需要 别 护理 需要 不需要 40 160 30 270 男 女

(Ⅰ)估计该地区老年人中,需要志愿者提 供帮助的老年人的比例; (Ⅱ) 能否有 99%的把握认为该地 区的老年人是否需要志愿者提供帮助与性别有 关? (Ⅲ)根据(Ⅱ)的结论,能否提出更好的调查方法来估计该地区的老年人中, 需要志愿者提供帮助的老年人的比例?说明理由. 10、 (2011·安徽卷文科)某地最近十年粮食需求量逐年上升,下表是部分统计 数据: 年份 需求量(万吨) 2002 236 2004 246 2006 257 2008 276 2010 286

?x ? a ? ?b ?; (Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程 y
(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地 2012 年的粮食需求量.



推荐相关:
网站首页 | 网站地图
All rights reserved Powered by 大学生考试网 9299.net
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@qq.com