9299.net
大学生考试网 让学习变简单
赞助商链接
当前位置:首页 >> 其它课程 >>

第二讲描述统计

第二讲描述统计


表一

高一( ) 名学生语文、 高一(2)班30名学生语文、数学、英语期末考试成绩 名学生语文 数学、
(三科成绩均服从正态分布)

学号 01 02 03 04 05 06 07 08 09 10

语 数 英
87 65 73 94 80 78 75 63 58 70 93 67 72 86 78 75 80 60 66 74 85 74 80 82 76 65 76 58 67 74

学号 11 12 13 14 15 16 17 18 19 20

语 数 英
80 76 66 53 44 49 74 69 73 52 72 81 70 57 52 50 81 70 74 43 76 82 73 60 53 45 80 73 72 54

学号 语 21 22 23 24 25 26 27 28 29 30 67 80 84 86 61 68 72 78 82 76

数 65 78 87 77 62 72 69 86 81 75

英 71 83 95 75 64 74 66 88 78 85

第二讲
一、统计图表 二、集中量 三、差异量 四、相关量

描述统计

在整理数据的过程中,第一步是对数据的特点 和种类加以分析,制定出简单明了的统计图表。 统计表和统计图是在表示数据上非常有用的 两种不同形式。它们的优点都在于一目了然, 使它所欲表现的信息容易被人们理解和接受。

统计表
(一)什么是统计表 (二) 统计表的构造和编制 (三)统计表的种类

统计表 构成:统计表一般由标题、表号、标目、表注 等构成。

统计表基本格式
表的标题 ???
(

顶线)

横标目的总标目 (亦可空白) 横标目 注脚:说明资料来源等 XXX

纵标目 (一般设谓语) 数字 (底线)

表一:数学焦虑、数学态度、 数学投入动机基本情况分析
学习经验 n M 平均数 83.780 SD 标准差 23.821

anx 数学焦虑 att 数学态度 inv 数学投入动机

300

300

101.86

17.486

300

39.283

7.731

统计图
(一)统计图的功用 所谓统计图就是依据数字资料,应用点、线、面、体、 色彩导的描绘制成整齐而又规律,简明而又知其数量的 图形。统计图一般采用直角坐标系,横坐标用来表示事 物的组别或自变量X,纵坐标常用来表示事物出现的次 数或因变量Y.

(二)统计图的结构与制图要点
图号及图题 图目 图形 图注

第一节 统计表与统计图
复式条形图
100 80 60 40 20 0
高三(1) 高三(2) 高三(3) 高三(4)

语文 数学 英语 物理

圆形图(饼图)
图2。2某中学考核成绩人数
及格 18%

不及格 12% 优 23%

良 47%

优 良 及格 不及格

圆形图(饼图)
98年北京城镇居民消费结构

8% 14%

6% 食 品 衣 着 家庭设备 医疗保健 交通和通讯 文化教育 居 住 杂项商品

41%

5% 5% 11% 10%

折线图
图2。5 某市教育系统1995-2000年人员平均工资 和经费投入变化情况(1995年=1) 3 2 1 0 1995 1996 1997 1998 1999 2000 平均工资 经费投入

4. 线条图
图 2.310题正误题做对不同题 数概率分布 300 200 100 0 1 2 3 4 5 6 7 8 9 10 11 做对题数

5. 频数颁布直方图
图2.4中考化学统计成绩直方图

频数

6. 累积频数图
图2.5 2004年中考化学抽样得分情况累积频数图
2004年中考化学抽样得分累积频数分布曲线 350 300 250 累积频数 200 150 100 50 0 1 11 44 86 168 128 206 256 2 283 287 87

图2.6:高一语文

累积频数

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 得分率

140 120 100 80 60 40 20 0

129 127 119 99 64 31
10 20 30

12 1 404 50 60 0

70 80 90 100

7、面积图 面积图
北京、四川城镇居民消费性支出比较 6000.00 5000.00 4000.00 3000.00 2000.00 1000.00 0.00
品 着 备 育 住 健 设 讯 教 保 通 食 衣 居 商 品

四 川 北 京























VAR00001
12

10

8

6

4

Frequency

2

Std. Dev = 11.81 Mean = 71.1 N = 30.00 45.0 55.0 65.0 75.0 85.0 95.0

0

VAR00001

二、

集中量数

集中量是代表一组数据典型水平或集 中趋势的量。 常用的集中量有平均数、中位数和众 数。

一、平均数
1、算术平均数 2、加权平均数

1、算术平均数 简称为平均数或均数 (Mean)。

X ,Y ?, m

例如,求某小组10个学生的数学测验分数 78,79,62,84,90,71,76,83,98, 77的平均数。

表一

高一( ) 名学生语文、 高一(2)班30名学生语文、数学、英语期末考试成绩 名学生语文 数学、
(三科成绩均服从正态分布)

学号 01 02 03 04 05 06 07 08 09 10

语 数 英
87 65 73 94 80 78 75 63 58 70 93 67 72 86 78 75 80 60 66 74 85 74 80 82 76 65 76 58 67 74

学号 11 12 13 14 15 16 17 18 19 20

语 数 英
80 76 66 53 44 49 74 69 73 52 72 81 70 57 52 50 81 70 74 43 76 82 73 60 53 45 80 73 72 54

学号 语 21 22 23 24 25 26 27 28 29 30 67 80 84 86 61 68 72 78 82 76

数 65 78 87 77 62 72 69 86 81 75

英 71 83 95 75 64 74 66 88 78 85

缺点:

① 易受极端数据的影响。 ② 若出现模糊不清数据时,无法计算

平均数。 此外,必要注意,凡不同质的数据不能 计算平均数。

2、加权平均数
(1)加权平均数的 概念 加权平均数是不同比 重数据(平均数),

ΣWi X i MW = ΣWi

W表示各观察值的权数; X表示具有不同比重的观察值。

(2)加权平均数的计算方法
例如,某年级各班的一 次数学考试成绩如下: 一班45人平均分为80; 二班50人平均分为70; 三班40人平均分为65; 四班50人平均分为80; 五班60人平均分为65, 求全年级的总平均分。

Σni X i XT = Σni

中位数
中数, 中数,又称中点数,中位数。符号为Md中数是 指位于一组数据中较大一半与较小一半中间位 置的那个数。 中数的求法根据数据是 否分组,而有不同的方 法。

〔例1〕有下列9个数,依大小排列为4、7、 8、9、10、11、12、13、14(N=9) (N+1)/2=5,序列第五的数据是10,则该组 数据的中数是10。

〔例2〕有下列8个数,依大小排列为: 2、3、5、7、8、10、15、19(N=8)序列为 N/2=4者是7,序列为N/2+1=5者为8,则其中 数为(7+8)/2=7.5。 从以上两例可以看出,求中数不受极大值与 极小值的影响,而决定中数的关键是居中 的那几个数据的数值大小。

〔例3〕有以下重复数列(N=9)依大小排序: 2、3、5、5、7、7、7、11、13

中数的意义与应用
优点:计算简单,容易理解,中数的概念简单明了。 缺点:它反应不够表敏; 计算中数时,受抽样的影响较大,不如平均数稳定; 中数乘以总数与数据的总和不相等; 中数不能作进一步代数运算等等。 在一些特殊情况下,它的应用受到重视。这些特殊情 况是:当一组观测结果中出现两极端数目时。当次数 分布的两端数据或个别数据不清楚时,只能取中数作 为集中趋势的代表值。当需要快速估计一组数据的代 表值是,也常用中数。

众数
众数(Mode)又称为范数,密集数,通常数等,常 用符号M0表示。众数是指在次数分布中出现次 数最多的那个数的数值。

只凭观察找出出现次数最多的数据就是众数。 5、8、9、8、4、3、8、1、8、4

众数的意义与应用
众数的概念简单明了,容易理解; 但它不稳定,受分组的影响,亦受样本变动的影响; 反应不够灵敏,观察众数,不严格计算而来,用计算方 法所得众数亦是一个估计值。同时不能作进一步代数运 算。 众数也不是一个优良的集中量数,应用也不广泛。 但在下述情况下也常有应用:①当需要快速而粗略地寻 求一组数据的典型情况时;②当一组数据出现同质的情 况时,可用众数表示;3、当次数分布中有两极端的数 目时,有时也用众数(一般用中数);④当粗略估计次数 分布的形态时,有时用平均数与众数之差,表示次数分布 是否偏态的指标。

平均数、中数、 平均数、中数、众数之间的关系
在一个正态分布中,平均数、中数、众数三者 相等,因此在数轴上三点重合。 在正偏态分布中M>Md>M。 在负偏态分布中M<Md<M。 平均数为一个平衡点,是一组数据的重心。它 使数轴保持平衡,即支点两侧的力矩是相等的。 中数:只使其两侧的数据个数相同。 众数:是指次数出现最多的,即重量较大的那 个数据。

SPSS
Analyze---descriptive stastistics ------frequencies (descriptives)

三、 差异量数
对于数据变异性即离中趋势进行度量的一组统计量, 称作差异量数,这些差异量数有标准差或方差,全 距,平均差,四分差及各种百分差等等。 集中量数是指量尺上的一点,是点值,而差异量数 是量尺上的一段距离,只有将二者很好结合才能对 一组数据的全貌进行清晰的描述。

(一)全距(R)
最大值与最小值之差

R = X max ? X min

(三) 方差与标准差
方差(Varance)也称变异数、均方。作为统计 量,常用符号S2,δx2表示,作为总体参数,常 用符号δ2表示。 标准差(Srandard deviation)即方差的平方根, 常用S或SD,δx表示。若用δ表示,则是指总体 的标准差。

1、方差与标准差的计算 、
σ
2

=



n

( X

i = 1

i

?

X

)

2

N

σ

=

∑ ∑
n

n

( X

i = 1

i

?

X

)

2

N ( X n =
i = 1 i

? ?
i

X 1 ? X 1

)

2

S

2

S

=



n

( X n

)

2

i = 1

?

问题1:

某班甲乙两组在一次测验中的 成绩分别为65,68,71,72,74 (均分为70分)和 30,50,86,90, 94(均分为70分)。如何评价两组 的学习情况?

Descriptive Statistics N x y Valid N (listwise) 5 5 5 Mean Std. Deviation Variance 70.0000 3.53553 12.500 70.0000 28.42534 808.000

又如:某某研究者对实验班用计算机辅助教 学,而对照班仍用传统的讲授方式进行教学,期 末进行统一测试,两班学生的成绩如下,试比较 两种授课方式产生的效果有何不同?
实验班
83 92 84 84 86 91 76 86 87 87 83 85 89 74 87 78 82 81 88 84 80 78 90 95 91 87 92 81 72 88 79 90 85 79 75 76 77 89 79 85 76 89 86 87 78 82 75 68 84 76 75 72 78 84 74 78 78 79 76 66 87 83 87 73 84 85 65

对照班
83 77 90 87 89 88 78 69 83 80 87 85 83 76 85 84 75 83 79 87 88 76 71 82

总平均数=81.81
实验 班 (45) 对照 班 (46) 平均 标准 分 差 83.76 5.47 D 1.95 方差 平方 和 29.92 3853 3241 07 40.45 3592 2885 44 和

79.82 6.36

1.99

2、方差与标准差的意义 、
方差与标准差是表示一组数据离散程 度的最好指标,其值越大,说明离散 程度大,其值小,说明数据比较集中, 它是统计描述与统计分析中最常应用 的差异量数。

它基本具备一个良好的差异量数应具备的条件: (1)反应灵敏; (2)有一定的计算公式严密确定; (3)容易计算; (4)适合代数运算; (5)受抽样变动的影响小,即不同样本的标 准差或方差比较稳定; (6)简单明了; (7)具有可加性。

(四)差异系数(相对差异量)
在对不同样本的观测结果的离散程度进行比 较时,在下列情况时: (1)两个或多个样本所测的特质不同,即所 使用的观测工具不同; (2)即使使用的是同一种观测工具,但样本 的水平相差较大时。

差异系数,又称变异系数、相对标准差 等,通常用符号CV表示,其计算公式如 下:

CV

=

σ
X

× 100 %

例题:某校期末考试语文平均成绩为 69.3分,标准差为11.2分;英语平均成 绩为94.8,标准差为13.8分。问哪一学 科离散程度大?
11.2 CV (语文) = ×100% = 16.2% 69.3
13.8 CV (英语) = × 100% = 14.6% 94.8

语文的离散程度大

又例:
某市区入学男童(7岁组)体重的平均值为 20.37kg,标准差为2.16kg;身高的平均值为 113.64cm,标准差为4.04cm。问身高与体重那 个差异大? σ 由公式

CV =

可得: 体重CV=10.6% 身高CV=3.56%

X

×100%

(五)标准分
(1)概念:标准分是将原始分数(测验分 数)与平均分数相减,再除以标准差所 得的商。 X ? X Z = σ 甲同学: z(语文)=(73-48.3)/ 13.9=1.8 z(数学)=(79-66.9) / 18.5=0.7

(2)标准分特点
标准分是以标准差为单位的,故称为标准 分。它是一种相对地位分,即表明原始数 据在团体分布中的地位。 标准分有正负之分,一般在[-3,3]中(几 率为99.74%) 。 标准分的平均数为0,标准差为1。 标准分可比性根据在于标准正态分布。

标准分数的优点
1、可比性 2、可加性 3、明确性 4、稳定性

(3)标准分应用
①比较各个学生成绩在班级中地位;
当Z=0,X=X; 当Z>0,X > X 当Z<0,X < X

比较某个学生两科或多科测验中所得分的优劣, 精确地计算学生的总成绩。 ②计算不同质的观测值的总和或平均值,以表 示在团体中的相对位置

问题4: 问题 :下表中是某班甲乙两同学的期末 考试成绩,问:(1)甲同学的语文和数 考试成绩, :( ) 学哪科相对较好? 学哪科相对较好? (2)甲同学和乙同 ) 学相比,哪一个学业成绩较好? 学相比,哪一个学业成绩较好?
甲 项目 语文 数学 英语 合计
个人 成绩


标准差

乙 Z
个人 成绩 所在班级 平均成绩


标准差

所在班级 平均成绩

Z

73 79 75 227

48.3 66.9 67.2

13.9 18.5 14

62 85 80 227

48.3 66.9 67.2

13.9 18.5 14

甲 项目 语文 数学 英语 合计
个人 成绩


标准差

乙 Z 1.8 0.7 0.6 3.1
个人 成绩 所在班级 平均成绩


标准差

所在班级 平均成绩

Z 1.2 0.8 0.9 2.9

73 79 75 227

48.3 66.9 67.2

13.9 18.5 14

62 85 80 227

48.3 66.9 67.2

13.9 18.5 14

表示标准测验分数
在实际应用中,通常把标准分数Z通过线性变换,转到 更大的标准分数量表上,其一般转换公式为:如 T=a+bZ 上式中,a和b为选定的两个常数,Z为标准分数,T为 线性变换的标准分数。如: ①教育与心理测验中的T分数:T=50+10Z ②韦氏智力量表智商(离差智商):IQ=100+15Z ③美国大学入学考试报告分数:CEEB=500+100Z ④美国教育测验中心举办“托福”考试: TOEFL=500+70Z

练习:20名学生的综合测验成绩分别为 40,60,71,72,73,73,77,77, 77,79,83,85,86,88,89,90, 92,94,98,103。试将其转换为标准 分数。

(六)百分位差(相对地位量 数)
1、百分位数 是指量尺上的一个点,在此点以下包括 数据分布中全部数据个数的一定百分比。 第P个百分位数就是指在其值为P的数据 以下,包括分布中全部数据的百分之P, 其符号为P。 百分位差是指两个百分位数之差,常用 的是P90-P10,,P93-P7

表2:30名学生英语成绩频数分布表
分数 7065605550∑
求P90,P75,P10

组中值XC f 72 67 52 57 52 2 5 9 8 6 30

Fb 30 28 23 14 6

2、百分等级分数PR
百分位数是预先确定分布中的某个百分 点P,然后根据这个百分点去求相应的百 分位数; 百分等级分数正好相反,它是事先知道 分布中的一个原始分数,再求这个原始 分数在分布中所处的相对位置——百分 等级。

百分等级分数指出原始数据在常模团体 中的相对位置,百分等级越小,原始数 据在分布中的相对位置越低,百分等级 越大,原始数据在常模团体中的位置越 高。

3、四分位差Q
是指在一个次数分配中,中间50%的次数 的全距的一半。在一组数据中,它的值 等于P25到P75距离的二分之一。这个差异 量数反映数据分布中中间50%的数据的散 布情况。

四分位差是第三四分位(P )与第一四分位 (P )之差的一半。它的计算公式为
25 75

Q

= =

Q

3

Q

1

L

b

? Q 1 2 1 × + 4 3 × 4

N f N f

?

F

b

× i

Q

3

=

L

b

+

?

F

b

× i

百分位量表具有计算简便,意义明确,对各种 测验普遍适用的优点。 但百分位量表的主要缺点是:它是一个顺序量 表,不具有相等单位,从而不能作进一步的数 学运算,无法作进一步的统计分析; 另外,由于百分位量表的分布呈长方形,当测 验分数的分布为正态或接近正态时,百分位量 表将夸大分布中间的原始分数的差异而缩小分 布两端的原始分数的差异。

差异量数的选用
(一)优良差异量数具备的标准 1、是根据客观数据资料获得的 2、是根据全部观测值计算得出来的 3、应当简明,容易理解 4、计算方便、容易、迅速 5、取样具有相对恒常性 6、能够采用代数方法计算

(二)各种差异量数优缺点比较
标准差计算最严密,考虑到了每一个数据,测 量具有代表性,适合代数法处理,受抽样变动 的影响较小,反应灵敏。缺点是较难理解,运 算较繁琐,易受极端值的影响。

方差的描述作用不大,但是由于它具有可加性, 是对一组数据中造成各种变异的总和的测量, 通常采用方差的可加性分解并确定属于不同来 源的变异性,并进一步说明各种变异对总结果 的影响。因此,方差是推论统计中最常用的统 计量数。

全距详算简便,容易理解,适用于所有类型的 数据,但它易受极值影响,测量也太粗糙,只 能反映分布两极端值的差值,不能显示全部数 据的差异情况,仅作为辅助量数使用。

百分位差易理解,易计算,不易受极值影响, 但不能反映出分布的中间数值的差异情况,也 仅用作补助量数。

四分位差意义明确,计算方便容易,对极端值 不敏感,较不受极端值影响。当组距不确定, 其他差异量数都无法计算时,可以计算四分位 差。但是,四分位差无法反映分布中所有数据 的离散状况,不适合使用代数方法处理,受抽 样变动影响较标准差大。

通过比较,可以发现标准差、方差价值 较大,它们的应用也比较广泛,因此, 一般称标准差、方差为高效差异量。相 比较而言,其他差异量数,如全距、平 均差、百分位差和四分位差等缺点比较 明显,应用也受到限制,故称他们为低 效差异量数。

如何选用差异量数
1、当样本是随机取样时,S、Q、R,这几个差 异量数的可靠性依次降低 2、当要求计算要容易、快捷时,R、Q、S依次 变得繁杂 3、当要求统计量进一步使用时,S远远胜过其 他差异量数 4、在偏态分布中,Q比S更常用 5、当分布是截尾分布时,只有Q能正确指出分 布的变异性 6、在选用差异量数时,应考虑选用合适的集 中量数

要想描述一组数据的全貌,必须同时使用集中 量数和差异量数。因为集中量数描述数据的典 型性特点,差异量数描述的是数据的变异特点。 1 、当选用中数作为描述一组数据的集中量数 时,差异量数通常选用Q或其他百分位差为宜, 因为它们计算方法的原理是一致的,都是用插 值法求得的。 2、大多数情况下,人们更多地是用平均数和 标准差一起来描述一组数据的全貌。

四、 相关量
[教学目标] 1、识记相关、散点图、相关系数的类别和含义 2、理解各类相关系数的意义和适用条件 3、熟练掌握常用相关系数的计算方法 4、恰当应用各类相关系数进行相关分析 [学习重点] 1、相关的基本类型 2、各种相关系数的适用条件和计算方法 3、积差相关、等级相关、质量相关、品质相关的应用

四、 相关系数
(一) 什么是相关
一种是因果关系 因果关系,即一种现象是另一种现象的因,而另一 因果关系 种现象则是果。 第二种是共变关系 共变关系,即表面看来有联系的两种事物都与 共变关系 第三种现象有关,这时两种事物之间的关系,便是共变关 系。 第三种是相关关系 相关关系,即两类现象在发展变化的方向与大 相关关系 小方面存在一定的关系,但不能确定这两类现象之间哪 个是因,哪个是果;也有理由认为这两者并不同时受第 三因素的影响,即不存在共变关系。 相关是指具有相关关系的不同现象之间的关系程度 相关 程度

相关系数
1、定义:相关系数是两列变量间相关程度的 数字表现形式,或者说是表示相关程度的指标。 作为样本间相互关系程度的统计特征数,常用r 表示,作为总体参数,一般用ρ表示,并且是指线 , , ρ , 性相关而言。 2、取值范围:相关系数的取值介于 -1.00至+1.00之间 常用小数形式表示。 之间,常用小数形式表示 至 之间 常用小数形式表示。


第一种是两列变量变动方向相同,即一种变量变 动时,另一种变量亦同时发生或大或小与前一种 变量同方向的变动,这称为正相关 正相关。0<r ≤ 1 正相关 相关关系第二种相关情况是负相关 负相关,这时 负相关 两列变量中若有一列变量变动时,另一列变量呈 或大或小但与前一列变量指向相反的变动。-1
≤r<0

相关关系第三种相关是零相关 零相关,即两列变 零相关 量之间无关系。这种情况下,一列变量变动时, 另一列变量作无规律的变动,属零相关,即无相 关关系,二者都是独立的随机变量。

相关关系
正相关 0<r
25
25 20



1

20 15

15 系 1 列 10 5 0 0 2 4 6 8 10

系列 1 10 5 0 0 2 4 6 8 10

r=1:完全正相关

r=-1:完全负相关

25 20 15 系 1 列 10 5 0 0 2 4 6 8 10

负相关

-1 ≤r<0

相关关系
25 20 15 系列1 10 5 0 0 2 4 6 8 10

零相关
r=0

表4.1相关系数与相关程度表一览表 4.1相关系数与相关程度表一览表
0.3<|r| ≤0.5 0.5< |r| ≤0.8

| r |

0

≤0.3

>0.8

1.0

相关 程度

零相 微相关 关

切实相关

密切相关

高度相 关

完全相 关

(二) 积差相关
概念 积差相关,又称积矩相关,是英国统计学 家皮尔逊于20世纪初提出的一种计算相关的方 法,因而也称皮尔逊相关,是求直线相关的基本 方法。 适用范围
1、两列数据正态连续变量。 2、其次,两列变量之间的关系是直线性的。 3、n>30

如何判断两列变量之间的相关是否直线式,可 如何判断两列变量之间的相关是否直线式 可 作相关散布图进行初步分析 相关散布图是以二列变量中的一列变量为横坐 标,以另一列变量为纵坐标,画散点图。如果所 有散点分布呈椭圆型,则说明二变量之间呈线性 关系,如果散点呈弯月状(不论弯曲度大小或方 向),说明二变量之间呈非线性关系。

线性关系

非线性关系

计算积差相关的基本公式
积差相关系数的定义公式: 积差相关系数的定义公式:

rXY

∑ ( X ? X )(Y ?Y ) = Nσ X σ Y

积差相关系数的定义
用原始数据计算:
r=

∑ XY ? (∑ X )(∑ Y ) / N ∑ X ? (∑ X ) / N ? ∑ Y ? (Y )
2 2 2

2

/N

用特征量计算:

∑ XY ? NXY r = Nσ X σ Y

例:10名学生的语文高考成绩和大二的大 学语文成绩如下,问二次成绩的相关程度如 何? 表4.2
高考语 文成绩 大学语 文成绩

74 71 72 68 76 73 67 70 65 74 76 75 71 70 76 79 65 77 62 72

由计算器算得:X=71,Y=72.3 δX =3.317,δY=5.178,
Σxy=51467

r

=



XY N σ

? N X Y
X

σ

Y

=(51467-10*71*72.3)/(10*3.317*5.178) =0.780

课堂练习:求以下几何( )与代数( ) 课堂练习 求以下几何(X)与代数(Y)的 求以下几何 积差相关系数。 积差相关系数。

X Y

79 80

75 82

77 76

73 77

79 77

78 84

81 81

76 72

72 70

70 75

(三)等级相关
在心理与教育领域的研究中,有时搜集到的数据 不是等距或等比的测量数据,只能是具有等级顺 等级顺 序的测量数据,另外,即使搜集到的数据是等距 序的测量数据 或等比的数据,但其总体分布不是正态,不满足 求积差相关的要求,在这两种情况下,欲求两列 或两列以上变量的相关,就要用等级相关,这种 相关方法对变量的总体分有不作要求,故又称这 种相关法为非参数的相关方法。本节所讨论的 等级相关,也是线性相关,至于非线性关系则不 包括在内。

斯皮尔曼等级相关
适用资料 斯皮尔曼等级相关,是等级相关的一种。它适 用于只有两列变量,而且是属于等级变量性质,具有 线性关系的资料。如果是属于等距或等比性质的 变量,若按其取值大小,赋以等级顺序,也可计算等级 相关。因而,有些虽属等距或等比变量性质但其分 布不是正态的资料,不能用积差相关的方法求相关, 但能计算等级相关。 斯皮尔曼等级相关常用符号rR表示。

2、基本公式
斯皮尔曼等级相关公式如下
6ΣD rR = 1 ? N ( N 2 ? 1)
2

式中D为各对偶等级之差,∑D2是各D平方之 和,N为等级数目. N不一定必须大于30 计算步骤为: 1、给两组数据赋予等级(从大到小或从小 到大) 2、计算等级之差

例:10个学生数学和物理成绩的等级相关 分析
序号 1 2 3 4 5 6 7 8 9 10 N=10 数学分数X 数学分数X 94 90 86 86 72 70 68 66 64 61 物理分数Y 物理分数Y 93 92 92 70 82 76 65 76 68 60 X等级 1 2 3.5 3.5 5 6 7 8 9 10 Y等级 1 2.5 2.5 7 4 5.5 9 5.5 8 10 D 0 -0.5 1 -3.5 1 0.5 -2 2.5 1 0 D2 0 0.25 1 12.25 1 0.25 4 6.25 1 0 26

N (N 6 × 26 = 1 ? 10 × 99 = 0 . 84

rR = 1 ?

6


2

D

2

? 1)

课堂练习:校方评价一个年级 位物理教师 课堂练习 校方评价一个年级8位物理教师 校方评价一个年级 课堂教学效果所排列的名次(效果越好等级 课堂教学效果所排列的名次 效果越好等级 越高),和这8个班级学生物理统一测验的 越高 ,和这 个班级学生物理统一测验的 平均分数如下表, 平均分数如下表,问教师课堂教学效果与 学生测验成绩是否存在相关? 学生测验成绩是否存在相关?
课堂教 师效果 得分 各班平 均分数 4 2 8 7 3 6 1 5

72

54

80

72

63

69

51

69

(四)

质与量相关

质与量的相关是指一列变量为等比或等 距的测量数据,另一列变量是按性质划分 的类别,欲求这样两列变量的直线相关,称 之为质量相关,包括:点二列相关,二列相 关及多系列相关。

点二列相关
如果两列变量中有一列为等距或等比的测量数据而且其总体 分布为正态,另一列变量只是二分称名变量。 点二列相关多用于编制是非题测验时评价测验内部一致性 等问题.这类测验题每题只有两个答案,答对得分,答错不得 分,这时统计整个测验的得分,则得到一列等距或等比性质的 连续变量,而每一题目的"对"错"就成为二分名义变量,欲求每 一题目与总分的相关(这称为每一题目的区分度),就要应用 点二列相关。

点二列相关的计算公式
在来自总体的两个变量中,一个变量是连 续变量,另一个变量是两分变量(男、女; 对、错;及格、不及格),点二列相关研 究这样两个变量之间的相关关系。
p、q两类变量的平均值 相关系数 一类别频数 的比例

rpq =
连续变量 的标准差

X p ? Xq

σt

? pq

另一类别频 数的比例

例题:下表为某一测验中10名考生的卷面总分和一道选择 题的得分,试求该选择题的区分度.(与部分的相关)

考生 选择 题得 分 卷面 总分

A

B

C

D

E

F

G

H

I

J

1

1

1

1

0

0

1

0

0

1

75 57 73 65 67 56 63 61 65 67

由计算器算得:p=0.6,q=0.4,X p = 66.667, Xq = 62.25,σt = 5.804 rpq = X p ? Xq

σt

? pq

66.667 ? 62.25 = ? 0.6×0.4 5.804 = 0.373

课堂练习:高等教育自学考试已婚与未 课堂练习 高等教育自学考试已婚与未 婚学员的高等数学成绩如下表, 婚学员的高等数学成绩如下表,问婚否 与成绩是否存在相关? 与成绩是否存在相关?

成绩
已婚1 已婚 未婚0 未婚

72 81 64 93 67 70 78 83 79 71 77 82 80 76 58 66 72 67 74 78 1 0 0 0 0 1 0 1 1 1 0 0 1 1 1 1 1 1 1 0

二列相关
适用的资料 二列相关是两列均属于态分布。但其中一列变 量为等距或等比的测量数据,另一列变量虽然也 呈正态分布,但它被人为地划分为两类. 二列相关在试验中常用于对项目区分度指 标的确定.有时某一项目(或称某一题目〉根据 一定的得分划分为对、错或通过、不通过两类 时,因某一项目可得不同的分数,这些分数的分 布为正态,是人为地依一定标准将它划分为两类。 二者的区别主要是二分的变量是否为正态。

公式及计算

rb = rb =

X X

p

? X

q

计算二列相关有两个公式..

σ
p

t t

pq ? y p ? y

? X

σ

t

式中与δτ与Xτ是连续变量的标准差与平均数。 Xp为与二分变量中某一二分变量对偶的连续变量的平 均数, XQ为与二分变量中另一二分变量对偶的连续变量的平 均数, p为某一二分变量在所有二分变量中所占的比率。 y为p的正态曲线的高度,查正态表得到。

二列相关系数的取值在-1.00——1.00之 间。绝对值越接近1.00,其相关程度越高。

例:下表为10名考生一次测验的卷面总分和 一道问答题的得分,试求该题的区分度(该 问答题满分为10分,因此6分和6分以上则认 为通过).
考生

A

B

C

D

E

F

G

H

I

J

卷面 总分 问答 题得 分

75 57 73 65 67 56 63 61 65 67 7 6 7 4 7 4 4 4 7 6

N=10,δτ=6.12,XP=67.33,P=0.6 Xq=61.25,q=0.4 P=0.6 查正态分布表Y=.3866

rb =

X

p

? X

q

σ

t

pq ? y

6 7 .3 3 ? 6 1 .2 5 0 .6 × 0 .4 = × 6 .1 2 0 .6 8 6 6 = 0 .6 2

课堂练习:把身高1.65m以上或以下作 为划分高矮的标准,已抽得某班18位学 生的体育理论课成绩如下.问该课成绩 与学生身高是否有关?
成9 8 8 8 9 7 7 6 7 7 8 8 9 7 8 9 9 7 绩6 4 8 2 0 6 8 0 2 4 4 8 0 8 0 2 4 6

身矮矮矮高高矮矮高高矮矮高矮高高矮矮高 高

解:
10 p= = 0.556, y = 0.39505, q = 0.444, 18 X p = 85.6, X q = 78.25, σ t = 8.825, rb = X
p

? Xq

σt

pq ? y

85.6 ? 78.25 0.556 × 0.444 = × 8.825 0.39505 = 0.52

(五)

品质相关

品质相关用于表示RXC(行X列)表的两 个变量之间的关联程度。 品质相关处理的数据类型一般都是计数 数据,而非测量性数据。品质相关依二 因素的性质及分类项目的不同,而有不 同的名称和计算方法,主要有四分相关、 Φ相关、列联表相关等。

四分相关
适用范围:两个变量都是连续变量,且 每一个变量的变化被人为地分为两种类 型这样的测量数据之间的相关。通常整 理成四格表。
A因素 A
B 因 素 非B

非A

B

a c

b d

a+b c+d

a+c b+d

例:下表所列数据是调查377名学生两科测验成绩所得到 的结果,假设两科成绩的分布为正态,只是人为地将其按一 定的标准划分为及格、不及格两类。
历史成绩 及格 地理成绩 及格 不及格 合计

a 124 C 85 209

b 68 d 100 168

192

不及格

185

合计

377

? ? 180o rt = c o s ? ? ad ? 1 + bc ? ? ? 180o = cos ? ? 124 × ? 1 + 68 × ? = 0 .2 9 1 9

? ? ? ? ? ? ? ? ? 100 ? ? 85 ?

练习:45名学生跳高与跳远如下表,问跳高与跳 远成绩的相关情况如何?
跳远 达标 跳高 达标 未达标 合计

a 8 C 11 19

b 6 d 20 26

14

未达标

31

合计

45

Φ系数
适用资料是当两个变 量都是二分变量,无 ad ? bc 论是真正的二分变量 rΦ = 还是人为的二分变量, (a + b)(c + d )(a + c)(b + d ) 都可用Φ相关来表示。 是表示两因素分类资 料相关程度最常用的 一种相关系数

例:从体育达标测验的学生中随机抽取60人,其中男、 女达标情况见下表,问本次达标测验是否与性别有关?

另一类数据 达标 一类 数据 合计 男 女 20 11 31 未达标 12 17 29

合计 32 28

rΦ =

ad ? bc (a + b)(c + d )(a + c)(b + d )

20 × 17 ? 12 ×11 32 × 31× 29 × 28 = 0.232 =

r(58 ) 0.05 = 0.254

练习:高中往常考试男女学生英语成绩见下表,问从总体 上说,英语测验成绩与性别是否存在相关?
成绩 中等以上 性别 男 中等以下 合计

a 15 C 36 51

b 31 d 18 49

46



54

合计

100

Φ系数的大小,表示两因素之间的关联程度。 当Φ值小于0.3时,表示相关较弱;当Φ值大于0.6 时,表示较强.关于相关方向,一般由表中的ad、 bc的大小来说明。负值表示一次测量中的“是” 多于另一次测量的“非”。完全正相关时,全 体个案落于四格表中a、d两格中;完全负相关 时,全体个案落于四格表中b、c两格中。零相 关时,全体个案匀称地落于四格中。但在应用 Φ相关时,一般不指出相关方向,只说明相关 程度是否显著。

对于四格表(独立样本)相关程度的描 述,除常用的Φ相关外,有时还用到其他 方法。如尤尔的关联系数Q或归结系数γ (W) 这些表示二因素之间 Q= γ=
相关程度的尺度不同, 数值也可能不同,但 都能反映两因素之间 的相关。Q=2/(1+γ2)

列联表相关
又称均方相依系数、接触系数,一般用C 表示。当两个变量均被分成两个以上类 别,或其中一个变量被分成两个以上类 别,表示这两个变量之间的相关,称为 列联相关。它是由二因素的RXC列联表资 料求得,故称为列联相关。当数据属于 RXC表的计数资料,欲分析所研究的二因 素之间的相关程度,就要应用列联相关。

计算方法
最常用的是皮尔逊定义的列联系数: C=
X2= N(∑f20/nr*nc-1) 当两个因素完全独立时C为0,反之它不会超过1,但达不到1。为 弥补这个缺点,Tschuprow提出了另一个公式: T= 这个公式在R≠C时,T也不能达到1。

例:某年级生物与化学成绩如下表,问两者的相 关程度如何?
化学成绩 65分以 下 生物成 绩 上 中 下 合计 7 65-85 28 80分以 上 15 50= nr1 110= nr2 40= nr3 200=N 合计

10 13

73 22

27 5

30= nc1 123 = nc2 47=nc3

X2= N(∑f20/nr*nc-1) =200*(72/50*30+102/110*30+……+52/40*47)

=14.80 C= =0.262

当双变量的测量型数据被整理成次数分 布表后,也可用列联相关系数表示两变 量的相关程度。此时,当分组数目R≥5, C≥5,而且样本N又较大,计算的列联相 关系数C与积差相关系数很接近。

作业:45名学生跳高与跳远如下表,问跳高与跳 远成绩的相关情况如何?
跳远 达标 跳高 达标 未达 标 合计 a 8 C 11 19 未达标 b 6 d 20 26 14 31 45 合计

(六) 相关系数的选用与解释
选择计算相关系数的方法取决于要处理的数据 性质类别以及某一相关系数需要满足的假设条 件。 选择合适的相关系数要考虑: 1、测量产生数据的类别、属性及研究问题的 重点。 2、对两种测量数据依次作出判断。 3、根据相关系数的适用范围采用适当的相关 系数。

相关系数的解释
相关系数是一个指标值,它表示两个变量之间 的关系程度,它不是等距的测量值,因此不能 用倍数关系来解释。 相关系数值的大小表明了测量数据相互间的相 关程度; 当两个变量之间的关系受到其他变量的影响时, 两者之间的高强度相关很可能是一种假象。 偏相关和部分相关是研究消除第三变量(或其 他多个变量)影响后的两变量之间相关程度的 方法。

相关系数的用途
可以用于确定测验的信度系数和效度系 数,用于地测验的项目区分度进行分析。 同时,相关数值的大小,因为不同类型 的测验,它所表示的价值和意义也有所 不同。

1、假设两变量为线性关系,计算下列 各种情况的相关时,应用什么方法?
(1)两列变量是等距或等比数据且均为正态分布; (2)两列变量是等距或等比数据但不为正态分布 (3)一变量为正态等距变量,另一列变量也为正态变 量,但人为分为两类 (4)一变量 为正态等距变量,另一列变量为二分名 义变量 (5)一变量为正态等距变量,另一列变量也为正态变 量,但人为分为多类 (6)两变量均以等级表示

2、下表是平时两次考试的成绩分数,假设其分布为 正态,分别用积差相关0.8197与等级相关0.7939方 法计算相关系数,并回答,就这份资料用哪种相关 法更恰当? 被 1 试 A B 2 3 4 5 6 7 8 9 10

86 58 79 64 91 48 55 82 32 75 83 52 89 78 85 68 47 76 25 56

3、下列两变量为非正态,选用恰当方法计 算相关0.973
被 试 1 2 3 4 5 6 7 8 9 10

X

13

12

10

10

8

6

6

5

5

2

Y

14

11

11

11

7

7

5

4

4

4

4、问下表中成绩与性别(1=男,2=女) 是否有关?-0.789 被 1 试 性 1 别 2 2 3 2 4 1 5 2 6 1 7 1 8 1 9 2 10 2

成 83 91 95 84 89 87 86 85 88 92 绩 B

被 试 1 2 3 4 5 6 7 8 9

5、下表是9名被试评价10名某种天文学家的等级 评定结果,问这名被试的等级评定是否具有 一致性?S=3216.5,W=0.481
被评价者 A B 1 2 1 4 1 3 1 3 1 9 1 4 1 3 1 3 1 2 C 4 2 4 4 2 9 5 5 8 D 3 2 2 2 2 2 10 7 4 E 9 6 2 2 6 5 2 6 9 F 6 7 8 6 3 6 6 4 6 G 5 3 9 10 4 7 9 8 3 H 8 10 6 8 8 3 7 10 7 I 7 8 10 7 10 10 8 2 5 J 10 9 7 9 7 8 4 9 10

6、将第五题的结果转化成对偶比较结果, 并计算肯德尔一致性系数0.319

7、从研究生入学考试中,随机抽取60人,其大学应届与 历届毕业生录取情况如下表,问应届与历届大学毕 业生同研究生录取与否的相关情况如何?0.23

应届 录取 历届 录取 未录取 20 11 31 未录取 12 17 29 32 28


更多搜索:第二讲描述统计

推荐相关:
网站首页 | 网站地图
All rights reserved Powered by 大学生考试网 9299.net
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@qq.com