Page 1
CHAPTER 3 CHAPTER 3 如何描述數據如何描述數據
常用的統計量數常用的統計量數 集中趨勢量數集中趨勢量數
平均數 平均數 (mean) (mean) 中位數 中位數 (median)(median) 眾數 眾數 (mode)(mode)
離散趨勢量數離散趨勢量數 全距 全距 (range)(range) 變異數 變異數 (variance) (variance) 標準差 標準差 (standard (standard deviation)deviation)
Page 2
平均數平均數
設有設有 nn 筆樣本資料筆樣本資料 ::XX1 1 , X, X2 2 ,,……, X, Xnn
則其樣本平均數則其樣本平均數
設有設有 nn 筆母體資料筆母體資料 ::XX1 1 , X, X2 2 ,…, X,…, XNN
則其母體平均數則其母體平均數
1 2 nX X X
Xn
1 2 NX X X
N
Page 3
平均數的性質平均數的性質
平均數是資料的平衡點平均數是資料的平衡點 (( 重心重心 )) 平均數的優點是使用到所有資料訊息平均數的優點是使用到所有資料訊息 平均數的缺點是易受極端值的影響平均數的缺點是易受極端值的影響 平均數可進行代數演算平均數可進行代數演算
Page 4
分組資料平均數的計算分組資料平均數的計算
組中點組中點 次數次數
mm ff mm‧‧ffm1m1 f1f1 m1m1‧‧f1f1
m2m2 f2f2 m2m2‧‧f2f2
.. .. ..
.. .. ..
.. .. ..
.. .. ..
.. .. ..
mkmk fkfk mkmk‧‧fkfk Σf=nΣf=n ΣmΣm‧‧ff
n
fmX
Page 5
範例範例
59.78110
8645X
組中點組中點 次數次數
mm ff mm‧‧ff34.534.5 22 6969
44.544.5 22 8989
54.554.5 44 218218
64.564.5 1919 1225.51225.5
74.574.5 2424 17881788
84.584.5 3939 3295.53295.5
94.594.5 1515 1417.51417.5
104.5104.5 33 313.5313.5
114.5114.5 22 229229
110110 86458645
Page 6
組中點組中點 次數次數
mm xx ff xx‧‧ff34.534.5 -4-4 22 -8-8
44.544.5 -3-3 22 -6-6
54.554.5 -2-2 44 -8-8
64.564.5 -1-1 1919 -19-19
74.574.5 00 2424 00
84.584.5 11 3939 3939
94.594.5 22 1515 3030
104.5104.5 33 33 99
114.5114.5 44 22 88
110110 4545
59.78
5.7410110
45
X
Page 7
中位數中位數 n n 是奇數,是奇數, 中位數是位置在最中間的該筆資料的值中位數是位置在最中間的該筆資料的值
n n 是偶數,是偶數, 中位數是位置在最中間的兩筆資料的平均中位數是位置在最中間的兩筆資料的平均
X ndM )2
1(
2
)12
()2
( XX nn
dM
Page 8
範例範例 某英國小鎮在最近五週內所發生的竊盜案件數某英國小鎮在最近五週內所發生的竊盜案件數
分別為分別為 1414 、、 1717 、、 2020 、、 2222 ,與,與 1717 件。請找件。請找出這個小鎮這五週內竊盜案件數的中位數。出這個小鎮這五週內竊盜案件數的中位數。
解解 : : 將上列五個數依照大小排列依序為 將上列五個數依照大小排列依序為
1414 、、 1717 、、 1717 、、 2020 、、 2222
∵n=5 ∴∵n=5 ∴
17)3()( 215 xxmd
Page 9
範例範例 1212 堂道安講習中,出席的違規駕駛人人數堂道安講習中,出席的違規駕駛人人數分別為分別為 3737 、、 3232 、、 2828 、、 4040 、、 3535 、、 3838 、、4040 、、 2424 、、 3030 、、 3737 、、 3232 與與 4040 。請求出。請求出其中位數。其中位數。
解解 : : 將這些數據依照大小順序排列得將這些數據依照大小順序排列得24 28 30 32 32 24 28 30 32 32 35 3735 37 37 38 40 40 40 37 38 40 40 40
∵ ∵n=12 n=12
∴∴ 22)7()6()1()( 2
122
12 xxxxmd
362
3735
Page 10
分組資料中位數的計算分組資料中位數的計算
組界組界 次數次數 累加次數L~UL~U ff F
29.5~39.529.5~39.5 22 2
39.5~49.539.5~49.5 22 4
49.5~59.549.5~59.5 44 8
59.5~69.559.5~69.5 1919 27
69.5~79.569.5~79.5 2424 51
79.5~89.579.5~89.5 3939 90
89.5~99.589.5~99.5 1515 105
99.5~109.599.5~109.5 33 108
109.5~119.109.5~119.55
22 110
110110
53.80439
105.79)55( XM d
Page 11
步驟說明步驟說明1.1. 計算次數總和計算次數總和 n=Σf=110n=Σf=1102.2. 中位數中位數 Md=xMd=x(55)(55) (∵110(∵110 的ㄧ半是的ㄧ半是 55)55)
3.3. 增加一欄位累加次數增加一欄位累加次數 FF4.4. 找出找出 xx(55)(55) 是落在第是落在第 66 組組 79.5~89.579.5~89.5 內內
的第的第 44 個數據 個數據 (∵(∵ 累積到第累積到第 55 組共組共 5151 個數據個數據 ))
5.5. 79.5~89.579.5~89.5 內內 3939 個數據的間距是個數據的間距是6.6.
39
10
53.80439
105.79)55( XM d
Page 12
中位數的特質中位數的特質
中位數只計算到數列中間位置的一二中位數只計算到數列中間位置的一二個數值個數值
中位數的優點是不受極端值的影響中位數的優點是不受極端值的影響 中位數的缺點是對數據的變化不敏感中位數的缺點是對數據的變化不敏感
Page 13
眾數眾數
出現次數大於一而且最多次的數值出現次數大於一而且最多次的數值 22 、 24 、 23 、 24 、 27 、 25 、 24 、 20 、 24 Mo=24Mo=24 22 、 24 、 23 、 24 、 22 、 25 、 24 、 20 、 22 Mo=22Mo=22和和 2424 22 、 24 、 23 、 26 、 27 、 25 、 28 、 30 、 34 MoMo不存在不存在
Page 14
眾數的性質眾數的性質
眾數可能有多個或一個都沒有眾數可能有多個或一個都沒有 眾數不受極端值影響眾數不受極端值影響 眾數對數據的變化不敏感眾數對數據的變化不敏感 眾數適合用於類別資料眾數適合用於類別資料
Page 15
皮爾生經驗法則皮爾生經驗法則)(3 MdXXMo
Page 16
統計 量數
優 點 缺 點
1.資料的重心。 1.若有極端值存在時,則不具代表性。
2.適合代數演算 2.資料如為偏態,則代表性較差。
3.考慮所有觀察值,敏感度高。
平均數
4.觀察值與平均數差平方和最小
1.適用於有極端值的資料 1.不適合代數演算 2.適用於偏態資料 2.對觀察值敏感性低 中位數 3.觀察值與中位數絕對差和最小
1.適用於有極端值的資料 1.可能不只一個或不存在 2.適用於偏態資料 2.敏感性低 眾數 3.適用於質的資料
Page 17
全距全距
最簡單的離散量數就是最簡單的離散量數就是全距全距 (range)(range) 全距 全距 R R = 最大值 - 最小值= 最大值 - 最小值 全距僅用到資料中的兩個值,因此深全距僅用到資料中的兩個值,因此深受極端值的影響受極端值的影響
Page 18
變異數與標準差變異數與標準差 母體變異數 母體標準差母體變異數 母體標準差
樣本變異數 樣本標準差樣本變異數 樣本標準差N
x 22 )(
)1(
)(
1
)( 2222
nn
xxn
n
xxS
2
S2S
Page 19
變異數與標準差的計算變異數與標準差的計算
66 個樣本數據個樣本數據 :80,60,70,60,50,50:80,60,70,60,50,50
求算變異數與標準差求算變異數與標準差
Page 20
方法一方法一
x x2
80 6400
60 3600
70 4900
60 3600
50 2500
50 2500
370
23500
)1(
)( 222
nn
xxnS
67.13630
4100
)16(6
370235006 22
S
69.1167.1362 SS
Page 21
方法二方法二
xy=x-60
y2
80 20 400
60 0 0
70 10 100
60 0 0
50 -10 100
50 -10 100
370
10 700
)1(
)( 222
nn
yynS
67.13630
4100
)16(6
107006 22
S
69.1167.1362 SS
Page 22
練習練習 66 個樣本數據個樣本數據 :3.58,3.59,3.49,3.48,3.55,3.53:3.58,3.59,3.49,3.48,3.55,3.53
求其標準差求其標準差 解解 : : 數據減去數據減去 3.533.53
再乘上再乘上 100100 倍倍 算出來的標準 算出來的標準差差 會是原來的 會是原來的 110000 倍倍
∴標準差為 ∴標準差為 0.0450.04555
xy=x-3.53
z=100y
z2
3.58 0.05 5 25
3.59 0.06 6 36
3.49 -0.04 -4 16
3.48 -0.05 -5 25
3.55 0.02 2 4
3.53 0 0 0
21.22
0.04 4106
55.467.2030
620
)16(6
41066 2
S
Page 23
分組資料變異數和標準差的計算分組資料變異數和標準差的計算
組中點組中點 次數次數
mm ff mm‧‧ff mm22‧‧ff
m1m1 f1f1 m1m1‧‧f1f1 mm1122‧‧f1f1
m2m2 f2f2 m2m2‧‧f2f2 mm2222‧‧f2f2
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
.. .. .. ..
mkmk fkfk mkmk‧‧fkfk mmkk22‧‧fkfk
ΣΣf=nf=n ΣΣmm‧‧ff ΣΣmm22‧‧ff
)1(
)( 222
nn
mffmnS
Page 24
範例範例 求下列分組資料的求下列分組資料的
變異數和標準差變異數和標準差組數 組界 次數
1 5.5~10.5 1
2 10.5~15.5 2
3 15.5~20.5 4
4 20.5~25.5 4
5 25.5~30.5 4
6 30.5~35.5 3
7 35.5~40.5 2
Page 25
加入組中點加入組中點 mm 及計算及計算 mfmf 和和 m2fm2f 等等 33 個欄位個欄位
L~U f m mf m2f
5.5~10.5 1 8 8 64
10.5~15.5
213
26 338
15.5~20.5
418
72 1296
20.5~25.5
423
92 2116
25.5~30.5
428112 3136
30.5~35.5
333
99 3267
35.5~40.5
238
76 2888
20 4851310
5
↓↓ ↓↓ ↓↓n Σmf Σm2f
72.70)120(20
)485(1310520 22
S
41.872.70 S
Page 26
簡化計算方式簡化計算方式
數據減去數據減去 2323 再除以再除以 55 算出來的標準差算出來的標準差 會是 會是原來的原來的 1/51/5 倍倍
標準差 標準差為為 1.1.682×5=8.41682×5=8.41 變異數為 變異數為 2.8292.829××25=70.72525=70.725
L~U f my=(m-23)÷5
yf y2f
5.5~10.5
1 8 -3 -3 9
10.5~15.5
213
-2 -4 8
15.5~20.5
418
-1 -4 4
20.5~25.5
423
0 0 0
25.5~30.5
428
1 4 4
30.5~35.5
333
2 6 12
35.5~40.5
238
3 6 18
20
5 55
↓ ↓ ↓
n Σyf Σy2f
829.2)120(20
)5(5520 22
S
682.1829.2 S
Page 27
分組資料求平均數中位數和標準差分組資料求平均數中位數和標準差L~U f F m
y=(m-66)÷3
yf y2f
58.5~61.5
4 460
-2 -8 16
61.5~64.5
111563
-1 -11 11
64.5~67.5
254066
0 0 0
67.5~70.5
105069
1 10 10
70.5~73.5
25272
2 4 8
52 -5 45
↓ ↓ ↓
n Σyf Σy2f
7.6566352
5
x
82.651125
35.64 dm
8.235152
)5(4552 2
S
Page 28
作業作業 試計算下面諸數的標準差試計算下面諸數的標準差
計算下面己分組數據的標準差計算下面己分組數據的標準差 70,95,50,35,60,55,40,70,65,30,25
時 薪 次 數300 4
350 5
400 8
450 10
500 9
550 12
Page 29
平均數和標準差的應用平均數和標準差的應用
1.1. 變異係數變異係數 CVCV 變異係數是變異性的相對衡量,它衡量標準差相對於
平均值的大小。 一般而言,欲比較具有不同的標準差與平均數的資料
之離散程度時,變異係數是一個有用的統計量。
%100
CV
%100x
SCV
母體資料:
樣本資料:
Page 30
例:調查某大學例:調查某大學 150150 名學生得平均體重為 名學生得平均體重為 6060 公斤,公斤,標準差標準差 1010 公斤;另調查某幼稚園學生公斤;另調查某幼稚園學生 2020 名,得平名,得平均體重均體重 2020 公斤,標準差公斤,標準差 44 公斤。試比較大學生與幼公斤。試比較大學生與幼稚園學生之體重分配,何者差異性較大?稚園學生之體重分配,何者差異性較大?
解:解:若直接利用標準差做比較,自然是大學若直接利用標準差做比較,自然是大學生體重之差異較大,但此種比較法並不合生體重之差異較大,但此種比較法並不合理。因每位大學生的體重都大於幼稚園學理。因每位大學生的體重都大於幼稚園學生的體重,其體重標準差亦會大於幼稚園生的體重,其體重標準差亦會大於幼稚園學生體重之標準差。因此,合理的比較法學生體重之標準差。因此,合理的比較法是採用比較體重之變異係數的大小。是採用比較體重之變異係數的大小。
Page 31
例:調查某大學例:調查某大學 150150 名學生得平均體重為 名學生得平均體重為 6060 公斤,公斤,標準差標準差 1010 公斤;另調查某幼稚園學生公斤;另調查某幼稚園學生 2020 名,得平名,得平均體重均體重 2020 公斤,標準差公斤,標準差 44 公斤。試比較大學生與幼公斤。試比較大學生與幼稚園學生之體重分配,何者差異性較大?稚園學生之體重分配,何者差異性較大?
大學生體重之變異係數 大學生體重之變異係數 CVCV 大學大學==
幼稚園學生體重之變異係數幼稚園學生體重之變異係數 CVCV 幼稚園幼稚園= = 因幼稚園學生體重之變異係數因幼稚園學生體重之變異係數 20%20% 大於大學生 大於大學生 體重之變異係數 體重之變異係數 16.67%16.67% ,故幼稚園學生體重之,故幼稚園學生體重之差異性較大。差異性較大。
%67.16%10060
10
%20%10020
4
Page 32
作業作業
本田車之平均價格為美金本田車之平均價格為美金 13,50013,500元,標準差為元,標準差為 700700 元。日產汽車的元。日產汽車的平均價格為平均價格為 12,50012,500 元,標準差為元,標準差為625625 元,兩者的變異係數元,兩者的變異係數 CVCV 是多是多少?那一種車之價格變化較大?少?那一種車之價格變化較大?
Page 33
平均數和標準差的應用平均數和標準差的應用
2.2. ZZ 分數分數
某個數據相對於一組數據的標準化值稱為某個數據相對於一組數據的標準化值稱為 ZZ 分數分數
ZZ 分數代表某個數據在整組數據的相對位置分數代表某個數據在整組數據的相對位置
數據數據 XX 的的 ZZ 分數定義為:分數定義為: 其中 , 其中 , SS 分別為樣本平均數和標準差。分別為樣本平均數和標準差。X
S
XXZ
Page 34
設某一學生的數學成績為設某一學生的數學成績為 6565分分,而英文成績,而英文成績為為 7272分分。如果已知班上的數學平均。如果已知班上的數學平均 6060 分,分,標準差標準差 2020 分,而英文平均分,而英文平均 7878 分,標準差分,標準差 1212分,則該生兩科何者在班上的表現較佳?分,則該生兩科何者在班上的表現較佳?
解:解: ZZ 數學數學==
ZZ 英文英文==
∴數學成績在 ∴數學成績在班上的表現較佳班上的表現較佳
25.020
6065
5.012
7872
Page 35
作業作業 甲同學的數學成績是甲同學的數學成績是 6565 分,全班數學成績分,全班數學成績的平均數是的平均數是 7878 分,標準差是分,標準差是 1111 分,他的分,他的英文成績是英文成績是 7373 分,英文平均分數是分,英文平均分數是 8585 分,分,標準差是標準差是 1212 分,請他的那一門課的成績之分,請他的那一門課的成績之排名較高?排名較高?
甲班的英文成績之平均數為甲班的英文成績之平均數為 7070 ,標準差為,標準差為88 ,張三之英文成績為,張三之英文成績為 8080 。乙班的英文成。乙班的英文成績之平均數為績之平均數為 6565 ,準差為,準差為 99 ,李四英文成,李四英文成績為績為 7575 ,問甲班的張三或乙班的李四誰在,問甲班的張三或乙班的李四誰在相對的排名上比較高?相對的排名上比較高?
Page 36
平均數和標準差的應用平均數和標準差的應用33 .. 柴比雪夫定理柴比雪夫定理
在任何資料集合內至少有 在任何資料集合內至少有 (1 - 1/z(1 - 1/z22)) 百分百分比的觀察值與平均數的差距在比的觀察值與平均數的差距在 zz 個標準差個標準差之內,此處之內,此處 zz 為任何大於 為任何大於 11 之值之值。。
對任何形態的資料,計算其平均數 及對任何形態的資料,計算其平均數 及標準差 標準差 S S 後,可得下列結果:後,可得下列結果:對任意數 對任意數 ZZ >1 >1 ,則至少有 ,則至少有 比例的資料落在 比例的資料落在 之間。 之間。
X
2
11Z
),( ZSXZSX
Page 37
柴比雪夫定理柴比雪夫定理 至少有至少有 0% 0% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在11 個標準差之內。個標準差之內。
至少有至少有 75% 75% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在22 個標準差之內。個標準差之內。
至少有至少有 89% 89% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在33 個標準差之內。個標準差之內。
至少有至少有 94% 94% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在44 個標準差之內。個標準差之內。
Page 38
若某學院商用統計課程有若某學院商用統計課程有 100100 位學生修課,位學生修課,期中考成績之平均數為期中考成績之平均數為 7070 ,標準差為,標準差為 55 。有。有多少學生的分數介於多少學生的分數介於 6060 與與 8080 之間?又有多之間?又有多少學生的分數介於少學生的分數介於 5858 與與 8282 之間?之間?
解:解:
(60,80)=70(60,80)=70±±10=7010=70±±22×5×5 ∴∴ 至少有至少有 7575 位學生位學生
(58,82)=70(58,82)=70±±12=7012=70±±2.42.4×5×5 ∴∴ 至少有至少有 8383 位學生位學生
25
706060
Z
4.25
708260
Z4.2
5
705858
Z
25
708080
Z
%7575.04
3
2
11
2
%64.828264.04.2
11
2
Page 39
平均數和標準差的應用平均數和標準差的應用
4.4. 經驗法則經驗法則如果資料呈鐘形分配如果資料呈鐘形分配
約有約有 68%68% 的數據會包含在 範圍內的數據會包含在 範圍內 約有約有 95%95% 的數據會包含在 範圍內的數據會包含在 範圍內 約有約有 99.7%99.7% 的數據會包含在 範圍的數據會包含在 範圍
內內
),( SXSX
)3,3( SXSX
)2,2( SXSX
Page 40
經驗法則經驗法則
+ 1+ 1 ++ 22
+ 3+ 3 –– 11 – – 22
– – 33
99.7%99.7%95%95%
68%68%
34%34% 34%34%
13.5%13.5% 13.5%13.5%2.35%2.35% 2.35%2.35% 0.15%0.15%0.15%0.15%
Page 41
若某學院商用統計課程有若某學院商用統計課程有 100100 位學生修課,位學生修課,期中考成績之平均數為期中考成績之平均數為 7070 ,標準差為,標準差為 55 ,假,假設成績成鐘型分布。問有多少學生的分數介設成績成鐘型分布。問有多少學生的分數介於於 6060 與與 8080 之間?之間?
解:解:
(60,80)=70(60,80)=70±±10=7010=70±±22×5×5 ∴∴ 大約有大約有 9595 位學生位學生
25
706060
Z 2
5
708080
Z