第 第 2 2 第 第第第第第第 统 第 第第第第第第 统 • 2.1 2.1 第第第第第第第 第第第第第第第 • 2.2 2.2 第 第第第第第第 第 第第第第第第 • 2.3 2.3 第第第第第第 统 第第第第第第 统 • 2.4 2.4 第第第第第第 统 第第第第第第 统 • 2.5 2.5 第第第第第第第第第 第第第第第第第第第 • 2.6 2.6 第第第第第第第第第 第第第第第第第第第 • 2.7 2.7 第第第第第第第第第第 第第第第第第第第第第
Jan 02, 2016
第 第 22 章 统计数据的描述章 统计数据的描述
• 2.12.1 数据的计量尺度 数据的计量尺度
• 2.2 2.2 统计数据的来源统计数据的来源
• 2.3 2.3 统计数据的质量统计数据的质量
• 2.4 2.4 统计数据的整理统计数据的整理
• 2.5 2.5 分布集中趋势的测度分布集中趋势的测度
• 2.6 2.6 分布离散程度的测度分布离散程度的测度
• 2.7 2.7 分布偏态与峰度的测度分布偏态与峰度的测度
2.1 2.1 数据的计量尺度数据的计量尺度
一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度
列名尺度列名尺度
1.1. 也称名义尺度或分类尺度也称名义尺度或分类尺度2.2. 计量层次最低计量层次最低3.3. 对事物进行平行的分类对事物进行平行的分类4.4. 各类别可以指定数字代码表示各类别可以指定数字代码表示5.5. 使用时必须符合类别穷尽和互斥的要求使用时必须符合类别穷尽和互斥的要求6.6. 数据表现为“类别”数据表现为“类别”7.7. 具有具有 == 或或的数学特性的数学特性
顺序尺度顺序尺度
1.1. 也称定序尺度也称定序尺度2.2. 对事物分类的同时给出各类别的顺序对事物分类的同时给出各类别的顺序3.3. 比定类尺度精确比定类尺度精确4.4. 未测量出类别之间的准确差值未测量出类别之间的准确差值5.5. 数据表现为“类别”,但有序数据表现为“类别”,但有序6.6. 具有具有 >> 或或 << 的数学特性的数学特性
间隔尺度间隔尺度
1.1. 也称间隔尺度也称间隔尺度2.2. 对事物的准确测度对事物的准确测度3.3. 比定序尺度精确比定序尺度精确4.4. 数据表现为“数值”数据表现为“数值”5.5. 没有绝对零点没有绝对零点6.6. 具有 具有 + + 或 或 - - 的数学特性的数学特性
比率尺度比率尺度
1.1. 也称比率尺度也称比率尺度2.2. 对事物的准确测度对事物的准确测度3.3. 与定距尺度处于同一层次与定距尺度处于同一层次4.4. 数据表现为“数值”数据表现为“数值”5.5. 有绝对零点有绝对零点6.6. 具有 具有 或 或 的数学特性的数学特性
四种计量尺度的比较四种计量尺度的比较
四种计量尺度的比较四种计量尺度的比较
定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度
分类分类 ( = ( = ≠ ,≠ , )) 排序排序 ( < ( < ,, > )> ) 间距间距 ( + ( + ,, - )- ) 比值比值 ( × ( × ,, ÷÷ ) )
√√ √ √ √√
√ √ √ √ √√
√ √ √√ √ √ √ √
计量尺度数学特性
“√”表示该尺度所具有的特性表示该尺度所具有的特性
2.2 2.2 统计统计数据的来源数据的来源
一、间接获取的数据一、间接获取的数据 二、直接获取的数据二、直接获取的数据
间接取得的数据间接取得的数据
InternetInternethttp//http//WWW.WWW.
中国统计年中国统计年
鉴鉴 20012001
中中国国人人口口统统计计年年鉴鉴
中中国国市市场场统统计计年年鉴鉴
世世界界发发展展报报告告
世世界界
经经济济
年年检检
工工业业
普普查查
数数据据
中国统计出
版社
1.1. 统计部门和政府部门公布的有关资料,统计部门和政府部门公布的有关资料,如各类统计年鉴如各类统计年鉴
2.2. 各类经济信息中心、信息咨询机构、专各类经济信息中心、信息咨询机构、专业调查机构等提供的数据业调查机构等提供的数据
3.3. 各类专业期刊、报纸、书籍所提供的资各类专业期刊、报纸、书籍所提供的资料料
4.4. 各种会议,如博览会、展销会、交易会各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关及专业性、学术性研讨会上交流的有关资料资料
5.5. 从互联网或图书馆查阅到的相关资料 从互联网或图书馆查阅到的相关资料
提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构 网址网址 数据内容数据内容国家统计局国家统计局 http://http://www.stat.gov.cnwww.stat.gov.cn 统计年鉴、统计月统计年鉴、统计月
报等报等国务院发展研究中心国务院发展研究中心信息网信息网
http://www.drcnet.com.chttp://www.drcnet.com.cnn
宏观经济、财经、宏观经济、财经、货币金融等 货币金融等
中国经济信息网中国经济信息网 http://www.cei.gov.cnhttp://www.cei.gov.cn 经济信息及各类网经济信息及各类网站站
华通数据中心华通数据中心 http://data.acmr.com.cnhttp://data.acmr.com.cn 国家统计局授权的国家统计局授权的数据中心数据中心
中国决策信息网中国决策信息网 http://www.juece.gov.cnhttp://www.juece.gov.cn 决策知识及案例决策知识及案例三农数据网三农数据网 http://www.sannong.gov.http://www.sannong.gov.
cncn三农信息、论坛及三农信息、论坛及相关网站相关网站
提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构 网址网址 数据内容数据内容
人口普查局人口普查局 http://www.census.http://www.census.govgov 人口和家庭等人口和家庭等
联邦储备局联邦储备局 http://www.bog.frb.http://www.bog.frb.fed.usfed.us
货币供应、信货币供应、信誉、汇率等誉、汇率等
预算编制办公室预算编制办公室 http://www.whitehohttp://www.whitehouse.gov/ombuse.gov/omb
财政收入、支财政收入、支出、债券等出、债券等
商务部商务部 http://www.doc.govhttp://www.doc.gov 商业、工业等商业、工业等
直接取得的数据直接取得的数据• 普查普查•抽样调查抽样调查•重点调查重点调查•典型调查典型调查
普查普查
1.1. 为特定目的专门组织的非经常性全面调查为特定目的专门组织的非经常性全面调查2.2. 通常是一次性或周期性的通常是一次性或周期性的3.3. 一般需要规定统一的标准调查时间一般需要规定统一的标准调查时间4.4. 数据的规范化程度较高数据的规范化程度较高5.5. 应用范围比较狭窄应用范围比较狭窄
抽样调查抽样调查
1.1. 从总体中随机抽取一部分单位作为样本从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断进行调查,并根据样本调查结果来推断总体特征的数据收集方法 总体特征的数据收集方法
2. 2. 具有经济性、时 具有经济性、时 效性强、适应面广、效性强、适应面广、准确性高等特点准确性高等特点
重点调查重点调查
•重点调查:是指在调查对象中,只选择一重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。部分重点单位进行的非全面调查。
•重点单位:着眼于现象量的方面而言,尽重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。大的比重,在总体中具有举足轻重的作用。
典型调查典型调查
典型调查是一种专门组织的非全面调查。典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是识事物发展变化的规律。有人也认为它是“目的抽样”,以若干具有代表性的单位“目的抽样”,以若干具有代表性的单位为样本。为样本。
2.3 2.3 统计统计数据的质量数据的质量
数据的误差数据的误差
抽 样 误 差
³ éÑ ù¿ òÎ ó² î » Ø ðÎ ó² î Î Þ» Ø ðÎ ó² î µ ÷² éÔ ±Î ó² î
非 抽 样 误 差
数 据 的 误 差
抽样误差抽样误差
1.1. 由于抽样的随机性所带来的误差 由于抽样的随机性所带来的误差 2.2. 所有样本可能的结果与总体真值之间的所有样本可能的结果与总体真值之间的
平均性差异 平均性差异 3.3. 影响抽样误差大小的因素影响抽样误差大小的因素
– 样本量的大小样本量的大小– 总体的变异性总体的变异性
非抽样误差非抽样误差
1.1. 相对于抽样误差而言相对于抽样误差而言2.2. 除抽样误差之外的,由于其他原因造成除抽样误差之外的,由于其他原因造成
的样本观察结果与总体真值之间的差异的样本观察结果与总体真值之间的差异3.3. 存在于所有的调查之中存在于所有的调查之中
– 概率抽样,非概率抽样,全面性调查概率抽样,非概率抽样,全面性调查4.4. 有抽样框误差、回答误差、无回答误差、有抽样框误差、回答误差、无回答误差、
调查员误差、测量误差调查员误差、测量误差
误差的控制误差的控制
1.1. 抽样误差可计算和控制抽样误差可计算和控制2.2. 非抽样误差的控制非抽样误差的控制
– 调查员的挑选调查员的挑选– 调查员的培训调查员的培训– 督导员的调查专业水平督导员的调查专业水平– 调查过程控制调查过程控制
• 调查结果进行检验、评估调查结果进行检验、评估• 现场调查人员进行奖惩的制度现场调查人员进行奖惩的制度
2.4 2.4 统计统计数据的整理数据的整理
一、统计数据的分组一、统计数据的分组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图
组距分组组距分组 ((要点要点 ))
1.1. 将变量值的一个区间作为一组将变量值的一个区间作为一组2.2. 适合于连续变量适合于连续变量3.3. 适合于变量值较多的情况适合于变量值较多的情况4.4. 需要遵循“不重不漏”的原则需要遵循“不重不漏”的原则5.5. 可采用等距分组,也可采用不可采用等距分组,也可采用不
等距分组等距分组
组距分组组距分组(( 步骤步骤 ))
1.1. 确定组数:组数的确定应以能够显示数确定组数:组数的确定应以能够显示数据的分布特征和规律为目的据的分布特征和规律为目的
2.2. 确定组距:组距是一个组的上限与下限之确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及差,可根据全部数据的最大值和最小值及所分的组数来确定,即所分的组数来确定,即
组距=组距= ( ( 最大值 最大值 - - 最小值最小值 )÷ )÷ 组数组数3.3. 统计出各组的频数并整理成频数分布表 统计出各组的频数并整理成频数分布表
组距分组组距分组(( 几个概念几个概念 ))
• 下限下限 : :一个组的最小值一个组的最小值• 上限上限 : :一个组的最大值一个组的最大值• 组距组距 : :上限与下限之差上限与下限之差• 组中值组中值 : :下限与上限之间的中点值下限与上限之间的中点值
下限值下限值 ++ 上限上限值值 22
组中值 组中值 ==
次数分配直方图次数分配直方图1.1. 用矩形的宽度和高度来表示频数分布的图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的形,实际上是用矩形的面积面积来表示各组的来表示各组的频数分布频数分布
2.2. 在直角坐标中,用横轴表示数据分组,纵在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图形成了一个矩形,即直方图
3.3. 直方图下的总面积等于直方图下的总面积等于 11
分组数据的图示分组数据的图示(( 直方图的绘制直方图的绘制 ))
某车间工人周加工零件直方图某车间工人周加工零件直方图 某车间工人周加工零件直方图某车间工人周加工零件直方图 80 90 100 110 120 130
0
4
8
12
折线图折线图1.1. 折线图也称频数多边形图折线图也称频数多边形图2.2. 是在直方图的基础上,把直方图顶部的中点是在直方图的基础上,把直方图顶部的中点 (( 组组
中值中值 ))用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉3.3. 折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是
– 第一个矩形的顶部中点通过竖边中点(即该组频数第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴与其竖边中点连接到横轴
– 折线图下所围成的面积与直方图的面积相等,二者折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的所表示的频数分布是一致的
分组数据的图示分组数据的图示(( 折线图的绘制折线图的绘制 ))
折线图与直方图下的面积相等!折线图与直方图下的面积相等!
某车间工人周加工零件折线图某车间工人周加工零件折线图 某车间工人周加工零件折线图某车间工人周加工零件折线图
80 90 100 110 120 130
0
4
8
12
次数分配的类型次数分配的类型
对称分布对称分布对称分布对称分布 右偏分布右偏分布右偏分布右偏分布 左偏分布左偏分布左偏分布左偏分布
正正 JJ型分布型分布正正 JJ型分布型分布 反反 JJ型分布型分布反反 JJ型分布型分布 UU型分布型分布UU型分布型分布
几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布
2.5 2.5 分布集中趋势的测度分布集中趋势的测度
一、众数一、众数二、中位数二、中位数三、均值三、均值四、众数、中位数和均值的比较四、众数、中位数和均值的比较
众数众数((modemode))
定义:众数是指社会现象总体中最普遍出现的标定义:众数是指社会现象总体中最普遍出现的标志值。志值。
①① 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值②② 适合于数据量较多时使用适合于数据量较多时使用③③ 不受极端值的影响不受极端值的影响④④ 一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数⑤⑤ 主要用于分类数据,也可用于顺序数据和数值主要用于分类数据,也可用于顺序数据和数值型数据型数据
众数的确定众数的确定
• 1)1) 单项式分配数列确定众数:出现次数最单项式分配数列确定众数:出现次数最多的标志值就是众数。多的标志值就是众数。
• 2)2) 组距式分配数列确定众数:由组距数列组距式分配数列确定众数:由组距数列确定众数,先确定众数组,再通过一定的确定众数,先确定众数组,再通过一定的公式计算众数的近似值。公式计算众数的近似值。
众数众数(( 不惟一性不惟一性 ))
•无众数无众数原始数据原始数据 : 10 5 9 12 6 8: 10 5 9 12 6 8
一个众数一个众数原始数据原始数据 : 6 : 6 5 5 9 8 9 8 5 55 5
多于一个众数多于一个众数原始数据原始数据 : 25 : 25 28 2828 28 36 36 42 4242 42
组距式数列确定众数的公式组距式数列确定众数的公式
•下限公式:下限公式:
• 上限公式:上限公式:
o
oooo
oo
o MMMMM
MMMo d
ffff
ffLM
)()( 11
1
o
oooo
oo
o MMMMM
MMMo d
ffff
ffUM
)()( 11
1
众数的几何意义众数的几何意义
1oo
MMff1
ooMM
ff
oM
f
oM
oM
Lo
MU
中位数 中位数
• 定义:中位数是将总体各个单位按其标志定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的位数的单位占一半;标志值大于中位数的单位也占一半。单位也占一半。
中位数中位数((medianmedian))
1. 1. 排序后处于中间位置上的值排序后处于中间位置上的值
MMee
50%50%50%50% 50%50%50%50%
2.2. 不受极端值的影响不受极端值的影响
3.3. 主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据
4.4. 各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即min
1e
n
ii Mx min
1e
n
ii Mx
中位数的确定 中位数的确定
• (1)(1)未分组资料确定中位数。未分组资料确定中位数。•将总体各单位的标志值按照大小顺序排列,将总体各单位的标志值按照大小顺序排列,
•当总体单位数当总体单位数 nn 为奇数时: 为奇数时:
•当总体单位数当总体单位数 nn 为偶数时为偶数时 ,, : :
2
1 ne xm
2
122
nn
e
xx
m
(2)(2) 单项式分组资料确定中位数单项式分组资料确定中位数
•当 为奇数时: 当 为奇数时:
•当 为偶数时当 为偶数时 , ,
f
2
1fe xm
f
2
122
ff
e
xx
m
3) 3) 组距式分组资料确定中位数组距式分组资料确定中位数
•下限公式:下限公式:
• 上限公式:上限公式:
e
e
e
e MM
M
Me df
Sf
LM
12
e
e
e
e MM
M
Me df
Sf
UM
12
均值均值
一、算术平均数一、算术平均数二、调和平均数二、调和平均数三、几何平均数 三、几何平均数
均值均值((meanmean))
1.1. 集中趋势的最常用测度值集中趋势的最常用测度值2.2. 一组数据的均衡点所在一组数据的均衡点所在3.3. 体现了数据的必然性特征体现了数据的必然性特征4.4. 易受极端值的影响易受极端值的影响5.5. 用于数值型数据,不能用于分类数据和顺用于数值型数据,不能用于分类数据和顺
序数据序数据
算术平均数算术平均数
• 算术平均数的基本公式算术平均数的基本公式
• 计算平均数的要求:总体标志总量必须是总体各计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。单位标志值的总和,标志值和单位之间一一对应。
总体单位数总体标志总量算术平均数
算术平均数的计算方法算术平均数的计算方法
•(( 11)简单算术平均数。简单算术平均数)简单算术平均数。简单算术平均数主要用于未分组资料,用总体各单位标志主要用于未分组资料,用总体各单位标志值简单加总得到的标志总量除以单位总量值简单加总得到的标志总量除以单位总量而得。计算公式:而得。计算公式:
n
x
n
xxxx
n
ii
n
121
算术平均数的计算方法算术平均数的计算方法
(( 22)加权算术平均数。 )加权算术平均数。 A. A. 加权算术平均数主要用于原始资料已经分组,并得出加权算术平均数主要用于原始资料已经分组,并得出
次数分布的条件。计算公式: 次数分布的条件。计算公式:
ffii 为各组标志值出现的次数。为各组标志值出现的次数。
n
ii
n
iii
n
nn
f
fx
fff
fxfxfxx
1
1
21
2211
B.B. 权数的意义和作用:权数的意义和作用: 权数:各组次数(频数)的大小所对应的权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作标志值对平均数的影响具有权衡轻重的作用。用。
当各组的次数都相同时,即当当各组的次数都相同时,即当 ff11==ff22==ff33=…=…==ffnn 时,时,
加权算术平均数就等于简单算术平均数。 加权算术平均数就等于简单算术平均数。
n
x
nf
xf
f
fxx
n
i
n
in
ii
n
iii
11
1
1
算术平均数的数学性质 算术平均数的数学性质
•(( 11)算术平均数与标志值个数的乘积等)算术平均数与标志值个数的乘积等于各标志值的总和。于各标志值的总和。
•简单算术平均数:简单算术平均数:
•加权算术平均数:加权算术平均数:
n
iixxn
1
n
iii
n
ii fxxf
11
•(( 22)各个标志值与其算术平均数的离差)各个标志值与其算术平均数的离差之和等于零。之和等于零。
•简单算术平均数:简单算术平均数:
•加权算术平均数:加权算术平均数:
n
ii
n
ii xxnxx
11
0)(
n
i
n
ii
n
iiii
n
i
n
iiii xffxfxxfxxf
1 111 1
0)(
•(( 33)各标志值与算术平均数离差的平方和为最小)各标志值与算术平均数离差的平方和为最小值。值。
•(( 44)对被平均的变量实施某种线性变换后,新变)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。样的线性变换的结果。
•(( 55)对于任意两个变量)对于任意两个变量 xx和和 yy,它们的代数和的,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。 算术平均数等于两个变量的算术平均数的代数和。
n
ii xx
1
2 min)(
调和平均数调和平均数
• 1.1.简单调和平均数:标志值的倒数的算术简单调和平均数:标志值的倒数的算术平均数的倒数。 平均数的倒数。
nxxx
H
n
1111
21
n
i in x
n
xxx
n
121
1111
2.2.加权调和平均数加权调和平均数计算公式:计算公式:
•在权数选择合适时,加权调和平均数实际在权数选择合适时,加权调和平均数实际上是加权算术平均数的变形: 上是加权算术平均数的变形:
n
i i
i
n
ii
n
n
n
x
m
m
x
m
xm
xm
mmmH
1
1
2
2
1
1
21
n
ii
n
iii
n
i i
ii
n
iii
n
i i
i
n
ii
f
fx
xfx
fx
xm
m
1
1
1
1
1
1
•当各组标志总量相等,当各组标志总量相等, mm11=m=m22=…=m=…=mnn
时,加权调和平均数可化简成为简单调和时,加权调和平均数可化简成为简单调和平均数形式。平均数形式。
n
i
n
i i
n
i i
i
n
ii
x
n
xm
nm
xm
m
111
1
11
几何平均数几何平均数
1.1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2. 适用于对比率数据的平均适用于对比率数据的平均3.3. 主要用于计算平均增长率主要用于计算平均增长率4.4. 计算公式为计算公式为
5. 5. 可看作是均值的一种变形可看作是均值的一种变形
n
n
ii
nnm xxxxG
1
21 n
n
ii
nnm xxxxG
1
21
n
xxxx
nG
n
ii
nm
1
21
lg)lglg(lg
1lg
n
xxxx
nG
n
ii
nm
1
21
lg)lglg(lg
1lg
众数、中位数和均值的关系众数、中位数和均值的关系
左偏分布左偏分布左偏分布左偏分布
均值均值均值均值 中位数中位数中位数中位数
众数众数众数众数
对称分布对称分布对称分布对称分布
均值均值均值均值 = = = = 中位数中位数中位数中位数 == == 众数众数众数众数
右偏分布右偏分布右偏分布右偏分布
众数众数众数众数
中位数中位数中位数中位数 均值均值均值均值
在对称的正态分布条件下:算术平均数等于众数等于在对称的正态分布条件下:算术平均数等于众数等于中位数; 中位数;
在非对称正态分布的情况下,众数、中位数和平均数在非对称正态分布的情况下,众数、中位数和平均数三者的差别取决于偏斜的程度,偏斜的程度越大,它三者的差别取决于偏斜的程度,偏斜的程度越大,它们之间的差别越大;们之间的差别越大;
当次数分配呈右偏当次数分配呈右偏 (( 正偏正偏 ))时,算术平均数受极大值的时,算术平均数受极大值的影响;影响;
当次数分配呈左偏当次数分配呈左偏 (( 负偏负偏 ))时,算术平均数受极小值的时,算术平均数受极小值的影响;影响;
中位数则总是介于众数和平均数之间。中位数则总是介于众数和平均数之间。
oe MMx xMM eo
皮尔生经验法则皮尔生经验法则
• 分布在轻微偏斜的情况下,众数、中位数分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为: 和算术平均数数量关系的经验公式为:
)(3 eo MxMx
众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用
1.1. 众数众数– 不受极端值影响不受极端值影响– 具有不惟一性具有不惟一性– 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用
2.2. 中位数中位数– 不受极端值影响不受极端值影响– 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用
3.3. 均值均值– 易受极端值影响易受极端值影响– 数学性质优良数学性质优良– 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用
2.6 2.6 分布离散程度的测度分布离散程度的测度
一、极差一、极差二、方差和标准差二、方差和标准差三、离散系数三、离散系数
极差极差
1.1. 一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.2. 离散程度的最简单测度值离散程度的最简单测度值3.3. 易受极端值影响易受极端值影响4.4. 未考虑数据的分布未考虑数据的分布
RR = max(= max(xxii) - min() - min(xxii))
5.5. 计算公式为计算公式为
方差和标准差方差和标准差
1.1. 离散程度的测度值之一离散程度的测度值之一2.2. 最常用的测度值最常用的测度值3.3. 反映了数据的分布反映了数据的分布4.4. 反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.5. 根据总体数据计算的,称为总体方差或标根据总体数据计算的,称为总体方差或标
准差;根据样本数据计算的,称为样本方准差;根据样本数据计算的,称为样本方差或标准差差或标准差
总体方差和标准差总体方差和标准差
• 未分组数据:未分组数据:
组距分组数据:组距分组数据:
未分组数据:未分组数据:
组距分组数据:组距分组数据:
方差的计算公式方差的计算公式 标准差的计算公式标准差的计算公式
N
xN
ii
1
2
2
)(
N
xN
ii
1
2
2
)(
N
fMK
iii
1
2
2
)(
N
fMK
iii
1
2
2
)(
N
xN
ii
1
2)(
N
xN
ii
1
2)(
N
fMK
iii
1
2)(
N
fMK
iii
1
2)(
样本方差和标准差 样本方差和标准差
• 未分组数据:未分组数据:
组距分组数据:组距分组数据:
未分组数据:未分组数据:
组距分组数据:组距分组数据:
方差的计算公式方差的计算公式 标准差的计算公式标准差的计算公式
1
)(1
2
2
n
xxs
n
ii
1
)(1
2
2
n
xxs
n
ii
1
)(1
2
2
n
fxMs
k
iii
1
)(1
2
2
n
fxMs
k
iii
1
)(1
2
n
xxs
n
ii
1
)(1
2
n
xxs
n
ii
1
)(1
2
n
fxMs
k
iii
1
)(1
2
n
fxMs
k
iii
样本方差样本方差自由度 自由度
1.1. 一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2. 当当样本数据的个数为样本数据的个数为 nn 时,若样本均值时,若样本均值 xx 确定后确定后 ,,只有只有 nn-1-1 个数据可以自由取值,其中必有一个数据个数据可以自由取值,其中必有一个数据则不能自由取值则不能自由取值
3.3. 例例如,样本有如,样本有 33 个数值,即个数值,即 xx11=2=2 ,, xx22=4=4 ,, xx33=9=9 ,,则 则 xx = 5= 5 。当 。当 xx = 5= 5 确定后,确定后, xx11 ,, xx22 和和 xx33 有两个有两个数据可以自由取值,另一个则不能自由取值,比如数据可以自由取值,另一个则不能自由取值,比如xx11=6=6 ,, xx22=7=7 ,那么,那么 xx33则必然取则必然取 22 ,而不能取其他值,而不能取其他值
4.4. 样样本方差用自由度去除,其原因可从多方面解释,本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差去估计总体方差 σσ22 时,它是时,它是 σσ22 的无偏估计量的无偏估计量
离散系数离散系数
1.1.标准差与其相应的均值之比标准差与其相应的均值之比2.2. 对数据相对离散程度的测度对数据相对离散程度的测度3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.4. 用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5. 5. 计算公式为计算公式为
v
vx
svs
x
svs
2.7 2.7 分布偏态与峰度的测度分布偏态与峰度的测度
一、偏态一、偏态二、峰度二、峰度
偏态偏态
• 11 、偏态:衡量频数分配不对称程度,或偏、偏态:衡量频数分配不对称程度,或偏斜程度的指标。斜程度的指标。
• 22 、计算公式:(用距法测定)、计算公式:(用距法测定)
23
2
333
•当 当 =0=0时,左右完全对称,为正态分布;时,左右完全对称,为正态分布;当 当 >0>0时为正偏斜;当 时为正偏斜;当 <0<0时为负时为负偏斜。偏斜。
Ⅰ(α=0)
II(α>0) Ⅲ(α< 0)
峰度 峰度
• 11 、峰度:用以衡量频数分配的集中程度,、峰度:用以衡量频数分配的集中程度,即分布曲线的尖峭程度的指标。即分布曲线的尖峭程度的指标。
• 22 、计算公式:(用距法测定)、计算公式:(用距法测定)
33 2
2
444
• 峰度指标峰度指标 β=0β=0,分布为正态峰度,当峰度,分布为正态峰度,当峰度指标指标 β>0β>0时,表示频数分布比正态分布更时,表示频数分布比正态分布更集中,分布呈尖峰状态,集中,分布呈尖峰状态, β<0β<0时表示频数时表示频数分布比正态分布更分散,分布呈平坦峰。分布比正态分布更分散,分布呈平坦峰。如图所示:如图所示:
Ⅱ(β>0)
Ⅰ(β=0)
Ⅲ (β<0)