9299.net
大学生考试网 让学习变简单
赞助商链接
当前位置:首页 >> 数学 >>

学案4 用样本估计总体与变量间的相关关系

学案4  用样本估计总体与变量间的相关关系


学案4

用样本估计总体与 变量间的相关关系

1.用
样本 估计 总体

(1)了解分布的意义和作用,能根据频率分布表画频率分布直 方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解 样本数据标准差的意义和作用,会计算数据标准差(不要求记 忆公式).(3)能从样本数据中提取基本的数字特征(如平均数、 标准差),并给出合理的解释.(4)会用样本的频率分布估计 总体分布,会用样本的基本数字特征估计总体的基本数字特征, 理解用样本估计总体的思想.(5)会用随机抽样的基本方法和 样本估计总体的思想解决一些简单的实际问题.

2.变 (1)会作两个有关联变量的数据的散点图,并利用散点图认识 量的 变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的 相关 线性回归方程系数公式建立线性回归方程(线性回归方程系 性 数公式不要求记忆).

2013年高考,试题难度仍以中低档题为主.对总体分布的 估计、线性回归很可能在选择、填空题中考查.对于频率 分布直方图,求线性回归方程以及回归分析、独立性检验 与假设检验等,由于计算量大,因此考解答题的可能性 不大,但也不排除给出数据、公式,以选择题形式考查.

1.用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图 频率分布表和频率分布直方图,是从各个小组数据 在样本容量中所占 比例大小 的角度,来表示数据分 布规律,它可以使我们看到整个样本数据的频率分布情 况.

(2)频率分布折线图 连接频率分布直方图中各小长方形 上端的中点 ,就 得到频率分布折线图. (3)总体密度曲线 总体密度曲线反映了总体在各个范围内取值的百分比, 它能给我们提供更加精细的信息. (4)茎叶图 2.用样本的数字特征估计总体的数字特征

(1)众数、中位数、平均数

众数:在样本数据中,频率分布最大值所对应的样本 数 据; 中位数:样本数据中,累积频率为0.5时所对应的样本 数据值(累积频率:样本数据小于某一数值的频率叫做该 数值点的累积频率);
1

平均数:样本数据的算术平均数,即x= (2)标准差的计算公式: 1 [(x1 - x)2 + (x 2 - x)2 + …+ (x n - x)2 ] s=
n

n

(x1 + x 2 + …+ xn )

.

.

3.从散点图上看,点散布在 从左下角到右上角的区域内
就称这种相关关系为正相关,如果点散布在 从左上角到右下 角的区域内 就称这种相关关系为负相关.

4.如果散点图中点的分布从整体上看大致在一条直 线附近,我们就称这两个变量之间具有 线性相关关系, ? 这条直线叫做回归直线,回归直线方程常记作 y = a + bx . 5.对于一组具有线性相关关系的数据 (x1,y1),(x2,y2),…,(xn,yn),用最小二乘法,求回归直线系数 ? ? a,b的公式为
n

n
i

∑ (x
i =1

- x)(y i - y) - x)
2

∑x
i =1 n

i

yi - n x y
2 i

?

n

b=

∑ (x
i =1

i

=
n i i =1

∑x
i =1

- nx

2

,a=
i

?

y-bx

.

其中,x=

1 n

∑x ,y=

1 n

n

∑y
i =1

.

(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2 通过求Q= 的最小值而得出回归直线的方法,即求回归直线,使得样

本 数 据的点到它的距离的平方和最小,这一方法叫做最
小二乘法.

考点1

绘制频率分布直方图

某市2011年4月1日—4月30日对空气污染指数的监 测数据如下(主要污染物为可吸入颗粒物): 61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,9 1,77,86,81,83,82,82,64,79,86,85,75,71,49,45.

(1)完成频率分布表;
(2)作出频率分布直方图; (3)根据国家标准,污染指数在0~50之间时,空气质量为优; 在51~100之间时,为良;在101~150之间时,为轻微污染;在 151~200之间时,为轻度污染.

请你依据所给数据和上述标准,对该市的空气质量给出一 个简短评价.

(1)频率分布表: 分组 频数

频率
2 30 1 30 4 30 6 30 10 30 5 30 2 30

[41,51)
[51,61)

2
1

[61,71)
[71,81) [81,91) [91,101) [101,111)

4
6 10 5 2

(2)频率分布直方图如图所示.

(3)答对下述两条中的一条即可:

①该市一个月中空气污染指数有2天处于优的水平,占当 1 月天数的 15 ; 有26天处于良的水平,占当月天数 3 4 的 15 ;处于优或良的天数为28,占当月天数的 .说明 15 该市空气质量基本良好.
②轻微污染有2天,占当月天数的 ;污染指数在80以上 15 的接近轻微污染的天数15,加上处于轻微污染的天数17, 17 占当月天数的 ,超过50%;说明该市空气质量有待 30 进一步改善.
1

【评析】 (1)列频率分布表时要注意区分频数、频率的意义. (2)画频率分布直方图时要注意纵、横坐标代表的意义及 单位.

(3)通过本题可以掌握总体分布估计的各种常见步骤和方
法. (4)解决总体分布估计问题的一般步骤如下:

①先确定分组的组数;
②分别计算各组的频数及频率(频率=
频数

总数

);

③画出频率分布直方图,并作出相应的估计.

对某电子元件进行寿命追踪调查,情况如下:
寿命(h) 个数(个) [100,200) 20 [200,300) 30 [300,400) 80 [400,500) 40 [500,600) 30

(1)列出频率分布表; (2)画出频率分布直方图;

(3)估计电子元件寿命在[100,400)以内的概率;
(4)估计电子元件寿命在400 h以上的概率.

【解析】

(1)样本频率分布表如下:
分 组 频 数 20 30 80 40 30 20 频 率 0.01 0.15 0.40 0.20 0.15 1.00

[100.200) [200.300) [300,400) [400,500) [500,600) 合 计

(2)频率分布直方图如图

(3)由频率分布表可以看出,寿命在[100,400)内的电子 元件出现的频率为0.65,所以我们估计电子元件寿命在 [100,400)内的概率为0.65. (4)由频率分布表可知,寿命在400 h以上的电子元件出现 的频率为0.20+0.15=0.35,故我们估计电子元件寿命在 400 h以上的概率为0.35.

考点2

频率分布直方图的应用

为了解学生身高情况,某校以10%的比例对全校700名 学生按性别进行分层抽样调查,测得身高情况的统计图 如图:

(1)估计该校男生的人数; (2)估计该校学生身高在170~185 cm之间的概率; (3)从样本中身高在180~190 cm之间的男生中任选2人, 求至少有1人身高在185~190 cm之间的概率.

【分析】在频率直方图中,频率等于矩形的面积,每一小 组的频率等于这小组的频数与样本容量的商.

【解析】(1)样本中男生人数为40,由分层抽样比例为 10%估计全校男生人数为400. (2)由统计图知,样本中身高在170~185 cm之间的学生 有14+13+4+3+1=35(人),样本容量为70,所以样本中学生身 高在170~185 cm之间的频率f= 70 =0.5.故由f估计该校学
35

生身高在170~185 cm之间的概率p=0.5.
(3)样本中身高在180~185 cm之间的男生有4人,设其 编号为①②③④,样本中身高在185~190 cm之间的男生 有2人,设其编号为⑤⑥. 从上述6人中任选2人的树状图为:

故从样本中身高在180~190 cm之间的男生中任选2 人的所有可能结果数为15,至少有1人身高在185~190 9 3 cm ? 之间的可能结果数为9.因此,所求概率p2=
15 5

.

评析解决该类问题时应正确理解图表中各个量的意义, 识图掌握信息是解决该类问题的关键 . 频率分布指的是 一个样本数据在各个小范围内所占比例的大小 , 一般用

频率分布直方图反映样本的频率分布.其中, ①频率分 布
频数 频率 直方图中纵轴表示 组距 ,频率= 样本容量 ;②频率分布直

方图中,各小长方形的面积之和为1 , 因此在频率分布直

方图中,组距是一个固定值,所以长方形高的比也就是频率
之比; ③频率分布表和频率分布直方 图是一组数据频率 分布的两种形式,前者准确,后者直观;④众数为最高矩形 的中点; ⑤中位数为平分频率分布直方图面积且垂直于 横轴的直线与横轴交点的横坐标.

根据《中华人民共和国道路交通安全法》规定:车辆驾驶 员血液酒精浓度在20~80 mg/100 mL(不含80)之间,属 于酒后驾车;血液酒精浓度在80 mg/100 mL(含80)以 上时,属醉酒驾车.据《法制晚报》 报道,近两周全国查处酒后驾车和 醉酒驾车共28 800人,如图是对这 28 800人血液中酒精含量进行检测 所得结果的频率分布直方图,则属
于醉酒驾车的人数约为 A.2 160人 C.4 320人 B.2 880人 D.8 640人 ( )

C(依题意血液酒精浓度超过80 mg/100 mL的频率为 0.005×10+0.01×10=0.15,因此属于醉酒驾车的人数 为28 800×0.15=4 320(人). 故应选C.)

考点3 用样本的数字特征估计总体的数字特征

甲、乙两台机床同时加工直径为10mm的零件,为了 检验产品的质量,从产品中各随机抽取6件进行测量,测 得数据如下(单位:mm) 甲:99,100,98,100,100,103
乙:99,100,102,99,100,100

(1)分别计算上述两组数据的平均数和方差;
(2)根据(1)的计算结果,说明哪一台机床加工的这种零件 更符合要求.

【分析】已知一组数据x1,x2,…,xn,其平均数为x,方差 为s2= ∑ ( x i - x) ,标准差为 1 ∑ ( x - x)2 i n i =1 n i =1
2

1

n

n

. =100,

【解析】(1)x甲= 99 + 100 + 98 + 100 + 100 + 103 x乙=
99 + 100 + 102 + 99 + 100 + 100

=100,

6

= 6 [(99-100)2+(100-100)2+(98-100)2+(1007 100)2+(100-100)2+(103-100)2]= .

s

2 甲

1

6

s = [(99-100)2+(100-100)2+(102-100)2+(996 2+(100-100)2+(100-100)2]=1. 100)
(2)因为 s甲 > s 2 ,说明甲机床加工零件波动比较大,因 乙 此乙机床加工零件更符合要求.
2

2 乙

1

3

【评析】两个机床加工零件的平均数相等,平均数描述 了数据的平均水平,要说明哪一台机床加工的零件更符

合要求,可再用方差来判断.平均数和标准差超过了规定
界限时,说明这批产品质量与生产要求有较大偏差.

甲、乙两种冬小麦试验品种连续x年的平均单位面积产 量如下:

品种


第1年
9.8

第2年
9.9

第3年
10.1

第4年
10

第5年
10.2



9.4

10.3

10.8

9.7

9.8

试根据这组数据,估计哪一种小麦品种产量较稳定.

甲品种的样本平均数为10,样本方差为 [(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2] ÷5=0.02; 乙品种的样本平均数也是10,样本方差为 [(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2] ÷5=0.24>0.02. 所以,由这组数据可以认为甲种小麦的产量比乙种小麦 的产量较稳定.

考点4 茎叶图

某化肥厂甲、乙两个车间包装肥料,在自动包装传送 带上每隔30min抽取一包产品,称其重量,分别记录 抽查数据如下:

甲:102,101,99,98,103,98,99;
乙:110,115,90,85,75,115,110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示: (3)将两组数据比较,说明哪个车间产品较稳定.

【分析】 (1)根据各种抽样的特点判断.

(2)求出两组数据的平均值与方差进行比较.
【解析】 (1)因为间隔时间相同,故是系统抽样. (2)茎叶图如图所示:

(3)甲车间: 平均值:x1= 方差:
1 7

(102+101+99+98+103+98+99)=100.
7

s

2 1

= 1 [(102-100)2+(101-100)2+…+(99-100)2]

≈3.4286.

乙车间:
平均值:x2=
1 7 1 7
2 < 1

(110+115+90+85+75+115+110)=100,

方差:

s

2 = 2

[(110-100)2+(115-100)2+…+(110-100)2]

≈228.5714. ∵x1=x2,

s

s ,∴甲车间产品稳定.

2 2

【评析】 (1)茎叶图的优点是保留了原始数据 , 便于 记录及表示,能反映数据在各段上的分布情况. (2)茎叶图不能直接反映总体的分布情况,这就需要 通过茎叶图给出的数据求出数据的数字特征 , 进一步估 计总体情况.

某校开展摄影比赛,9位评委为参赛作品A给出的分数如茎 叶图所示.记分员在去掉一个最高分和一个最低分后,算得 平均分为91,复核员在复核时,发现有一个数字(茎叶图中的 x) 无 法 看 清 . 若 记 分 员 计 算 失 误 , 则 数 字 x 应 该 是 ___________.

甲品种的样本平均数为10,样本方差为[(9.8-10)2+(9.910)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02;
乙品种的样本平均数也是10,样本方差为 [(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2] ÷5=0.24>0.02.

所以,由这组数据可以认为甲种小麦的产量比乙种小麦的 产量较稳定.

考点5 利用散点图判定相关关系

关于人体的脂肪含量(百分比)和年龄关系的研究中, 得到如下一组数据. 年龄 23 27 39 41 45 49 50 51 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 判断它们是否有相关关系. 【分析】本题涉及两个变量:年龄与脂肪含量,可 以以年龄为自变量,考查脂肪含量的变化趋势,而分 析相关关系通常借助散点图.

【解析】以年龄作为x轴,脂肪含量作为y轴,可得 相应散点图如图所示:

由散点图可知,两者之间具有相关关系.

【评析】判断有无相关关系,一种常用的简便方法 就是绘制散点图.

已知10只狗的血球体积及红血球数的测量值如下表: 26.99355.90589.49406.20
x:血球体积(mm3) 45 y:红血球数(百万) 6.53

42
46 48 42 35 58 40

6.30
9.52 7.50 6.99 5.90 9.49 6.20

(1)将表中的数据画成散点图;
(2)你能从散点图中发现狗的血球体积与红血球数近似 成什么关系吗? (3)如果近似成线性相关关系的话,请画出一条直线来 近似地表示这种线性相关关系.

(1)画出的散点图如图所示.

(2)由散点图可以看出:狗的血球体积与红血球数近
似成线性相关关系. (3)如图中的直线.

考点6

求线性回归直线

假设关于某设备的使用年限x和所支出的维修费用y(万 元)有如下的统计资料: 使用年限x 维修费用y 2 2.2 3 3.8 4 5.5 5 6.5 6 7.0

(1)线性回归方程y=bx+a的回归系数a,b; (2)估计使用年限为10年时,维修费用是多少? 若由资料知,y与x呈线性相关关系.试求:

【分析】本题已知x与y之间有线性相关关系,就无需 进行相关检验. 【解析】(1)制表如下: i 1 2 2.2 4.4 4
5

xi yi

2 3 3.8 11.4 9
5 2 1

3 4 5.5 22.0 16 x=4;y=5;

4 5 6.5 32.5 25

5 6 7.0 42.0 36

合计

20 25 112.3 90

xiyi
xi
2

x ∑
i =1

= 90; ∑ i y i = 112.3. x
i =1

于是有b=

112.3 - 5 × 4 × 5 90 - 5 × 4
2

=

12.3 10

= 1.23

;

a=y-bx=5-1.23×4=0.08.

(2)回归直线方程是:y=1.23x+0.08,
当x=10年时,y=1.23×10+0.08=12.3+0.08=12.38(万

元),即估计使用10年时,维修费用是12.38(万元).

【评析】 由本题中y对x的关系呈线性关系,故可用一元线 性 相关的方法解决问题.
n

x ∑y
i

i

- nx y , a = y - b x 来计算回归系 - nx
2

(1)利用公式:

b=

i =1 n

x ∑
i =1

2 i

数,有时为了方便常制表对应出xiyi, x i2 ,以利于求和. (2)获得直线方程后,取x=10,即得所求. (3)求线性回归方程的计算量大,解题时可借助计算器, 列出表格,再按分析时的步骤进行. (4)本题是一个应用问题,其实就是求出回归直线方程, 通过回归方程来分析使用年限与维修费用之间的关系.

2.[2011年高考江苏卷]某老师从星期一到星期五收 到的信件数分别为10,6,8,5,6,则该组数据的方差 s2=___________________. 3.[2010年高考江苏卷]某棉纺厂为了解一批棉花的 质量,从中随机抽测了100根棉花纤维的长度(棉花纤维 的长度是棉花质量的重要指标). 所得数据均在区间[5,40]中, 其频率分布直方图如图所示, 则在抽测的100根中,有____ 根棉花纤维的长度小于20 mm

4.[2010年高考天津卷]甲、乙两人在10天中每天加 工零件的个数用茎叶图表示如图10-4-10所示,中间 一列的数字表示零件个数的十位数,两边的数字表示 零件个数的个位数,则这10天甲、乙两人日加工零件 的平均数分别为________和____________.

1.几种表示频率分布的方法的优点与不足: (1)频率分布表在数量表示上比较确切,但不够直观、形 象,分析数据分布的总体态势不太方便. (2)频率分布直方图能够很容易地表示大量数据,非常直 观地表明分布的形状,使我们能够看到在分布表中看不 清楚的数据模式.但从直方图本身得不出原始的数据内 容,也就是说,把数据表示成直方图后,原有的具体数据 信息就被抹掉了. (3)频率分布折线图的优点是它反映了数据的变化趋势, 如果样本容量不断增大,分组的组距不断缩小,那么折线 图就趋向于总体分布的密度曲线.

(4)用茎叶图优点是原有信息不会抹掉,能够展示数据的 分布情况,但当样本数据较多或数据位数较多时,茎叶图 显得不太方便了. 2.标准差、方差描述了一组数据围绕平均数波动的大小. 标准差、方差越大,数据的离散程度越大,标准差、方 差越小,数据的离散程度越小,因为方差与原始数据的 单位不同,且平方后可能夸大了偏差的程度,所以虽然 方差与标准差在刻画样本数据的分散程度上是一样的, 但在解决实际问题时,一般多采用标准差. 3.线性相关关系的理解:相关关系与函数关系不同.函数 关系中的两个变量间是一种确定性关系.例如正方形面 积S与边长x之间的关系S=x2就是函数关系.相关关系是 一种非确定性关系,即相关关系是非随机变量与随机变 量之间的关系.例如商品的销售额与广告费是相关关系. 两个变量具有相关关系是回归分析的前提.

4.求回归方程,关键在于正确求出系数a,b,由于a,b的计 算量大,计算时应仔细谨慎,分层进行,避免因计算而产 生错误(注意回归直线方程中一次项系数为b,常数项为a, 这与一次函数的习惯表示不同). 5.回归分析是处理变量相关关系的一种数学方法.主要 解决:(1)确定特定量之间是否有相关关系,如果有就找 出它们之间贴近的数学表达式.(2)根据一组观察值,预 测变量的取值及判断变量取值的变化趋势.(3)求出回归 直线方程.

1.牢记画频率分布直方图的步骤: (1)先确定分组的组数,其方法是:最大数据与最小 数据之差除以组距得组数. (2)计算每组的频数及频率,其中频率=
频数 总数

.

(3)画出直方图,同时要注意频率分布直方图的含义. 2.利用频率分布直方图估计样本的数字特征: (1)众数在样本数据的频率分布直方图中,就是最高矩 形的中点的横坐标.

(2)在频率分布直方图中 , 中位数左边和右边的直方 图的面积应该相等,由此可以估计中位数的值. (3)平均数是频率分布直方图的“重心”,等于频率 分布直方图中每个小矩形的面积乘以小矩形底边中点的 横坐标之和. (4)一组数据中的众数可能不止一个,而中位数是唯一 的,如果数据的个数为偶数, 那么,最中间两个数据的平均 数是这组数据的中位数.

3.分清平均数和标准差的数学定义和现实含义.平均 数反映的是数据的平均水平,标准差反映的是数据的离 散程度,反映了各个样本数据聚集于样本平均数周围的 程度,标准差越小,表明数据在样本平均数的周围越集中; 反之,标准差越大,表明各个样本数据在样本平均数的 两边越分散.

4.要熟记相关的定义,注意散点图对判断是否相关 的作用.由于计算较为繁琐,因此要细心,还要会用回归 方程进行估计,并结合实际作出回答.



推荐相关:
网站首页 | 网站地图
All rights reserved Powered by 大学生考试网 9299.net
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@qq.com