1
สถตเบองตน
นพ.ยงเจอ เหลาศรถาวร
ส านกระบาดวทยา กรมควบคมโรค
2
ขอบเขตเนอหา
องคประกอบของสถต ประเภทของขอมล สถตเชงพรรณนา
– การแจกแจงความถ – การวดแนวโนมสสวนกลาง – การวดการกระจาย
สถตเชงอนมาน – การทดสอบสมมตฐาน – การคาดประมาณ
3
องคประกอบของสถต
สถตเชงพรรณนา (Descriptive Statistics)
สถตเชงอนมาน (Inferential Statistics) – การประมาณคา
– การทดสอบสมมตฐาน
ประชากร Population
กลมตวอยาง Sample
4
“จากการศกษาน าหนกแรกเกดของทารก 420 คนในพนททมโครงการรณรงคทางโภชนาการ (พนททดลอง) และ 450 คน ในพนทปกต (พนทควบคม) พบวาคาเฉลยน าหนกแรกเกดในพนททดลองเทากบ 3,800 กรม (s.d.=150) และในพนทควบคมเทากบ 3,100 กรม (s.d.=140) คาเฉลยน าหนกแรกเกดในพนททดลองสงกวาพนทควบคม 700 กรม (95%ชวงเชอมน = 200 – 1,200) ซงมความแตกตางกนอยางมนยส าคญทางสถต (p-value = 0.007)”
ตวอยาง “จากการศกษาน าหนกแรกเกดของทารก 420
คนในพนททมโครงการรณรงคทางโภชนาการ (พนททดลอง) และ 450 คน ในพนทปกต (พนทควบคม) พบวาคาเฉลยน าหนกแรกเกดในพนททดลองเทากบ 3,800 กรม (s.d.=150) และในพนทควบคมเทากบ 3,100 กรม (s.d.=140) คาเฉลยน าหนกแรกเกดในพนททดลองสงกวาพนทควบคม 700 กรม (95%ชวงเชอมน = 200 – 1,200) ซงมความแตกตางกนอยางมนยส าคญทางสถต (p-value = 0.007)”
สถตเชงพรรณนา (Descriptive Statistics)
สถตเชงอนมาน (Inferential Statistics)
5
ชนดของตวแปร
ตวแปรมกชนด – จ าแนกตามความสมพนธทสนใจ เปน ตวแปรตน ตวแปรตาม
– จ าแนกตามลกษณะของขอมล เปน ตวแปรเชงคณภาพ ตวแปรเชงปรมาณ
การแยกชนด มประโยชนอยางไร – ก าหนดวธการค านวณคาสถต
– ใชวธการน าเสนอขอมลทเหมาะสม
6
ลกษณะของขอมล
ขอมลเชงคณภาพ – เชน
การปวย การตาย
การมปจจยเสยง กลมอาย
ชวงระดบดชนมวลกาย ชวงระดบโคเลสเตอรอล
ขอมลเชงปรมาณ – เชน
อาย ความสง น าหนก ดชนมวลกาย ระดบโคเลสเตอรอล
7
ชนดของตวแปร
บอกคณภาพ (Qualitative)
> 2 กลม (Polychotomous)
Categorical data
ตวแปร (Variables)
บอกปรมาณ (Quantitative)
ไมมอนดบ (Nominal)
มอนดบ (Ordinal)
2 กลม (Dichotomous)
Numerical data คารอยละ
อตรา
อตราสวน
คาเฉลย, มธยฐาน คาเบยงเบนมาตรฐาน
พสย
ไมตอเนอง (Discrete)
ตอเนอง (Continous)
8
อตราสวน (Ratio)
คอ ผลหารของตวเลขใดๆ สองคา เศษ และสวนอาจเกยวของหรอไมเกยวของกนกได เชน
– อตราสวน ชาย : หญง – อตราสวน ชาย : ทงหมด – อตราสวนการตายของมารดา ตอการเกดมชพ 1,000 ราย – อตราสวนการปวยตาย (Case fatality ratio) จ านวนผปวยโรคเอดสทตาย / จ านวนผปวยโรคเอดสรายใหม ในป..... (เหตทจดเปน Ratio เพราะมบางกรณตวเศษอาจไมรวมอยในตวหาร
เชนเปนผปวยในปทผานมาแตมาเสยชวตปน)
9
สดสวน (Proportion)
สดสวน คอ ผลหารทเศษทงหมดตองอยในสวน
สดสวน เปนอตราสวนชนดหนง
นยมใชทวไปคอ รอยละ
ตวอยางเชน
รอยละของผลบวกในผทตรวจการตดเชอทงหมด
สดสวนเพศชายจากตวอยางทงหมด (Male / All)
10
สถตเชงพรรณนา (Descriptive statistics)
เปนการส ารวจและอธบายขอมลทรวบรวมมาแบบสรป เพอใหเหนภาพรวม
การแจกแจงความถ
การวดแนวโนมเขาสสวนกลาง ( Measure Central of Tendency)
การหาคาการกระจายของขอมล ( Dispersion, Spread )
11
การแจกแจงความถ
เปนการวเคราะหขอมลโดยสถตเชงพรรณนา สรปความขอมลกลมหนง ใหอยในรปของตวเลขกลมหนงเพอใชแทนขอมลทงกลมนนๆ
ในการสรปขอมลอาจท าไดทงในรปตารางหรอกราฟ
12
ตวอยาง
ความสงของคน 100 คน 123 123 124 125 125 125 125 127 127 127
129 129 129 129 129 130 130 130 130 130
132 132 132 132 134 134 134 134 134 134
134 134 134 135 135 135 135 135 136 136
136 136 136 138 138 138 138 139 139 139
139 139 140 140 140 140 140 140 140 140
140 140 141 141 141 141 141 141 141 141
142 142 142 142 142 142 146 146 146 147
147 147 147 149 149 151 151 151 151 151
153 153 153 155 155 155 155 158 161 165
13
ตารางแจกแจงความถความสงของคน 100 คน ความสง (cm) ความถ (คน) ความถสมพนธ (%) ความถสมพนธสะสม (%)
120 – 124 3 3 3
125 – 129 12 12 15
130 - 134 18 18 33
135 – 139 24 24 57
140 – 144 19 19 76
145 – 149 9 9 85
150 – 154 8 8 93
155 – 159 5 5 98
160 – 164 1 1 99
165 - 169 1 1 100
14
Histogram ความสงของคน 100 คน
จ านวน (คน)
ความสง (cm)
120 125 130 135 140 145 150 155 160 165
0
5
10
15
20
25
170
15
การวดแนวโนมสสวนกลาง
เปนการวเคราะหสถตเชงพรรณนา โดยสรปกลมขอมลเปนตวเลขเดยว
Mean คาเฉลยเลขคณต
Median มธยฐาน
Mode ฐานนยม
16
Mean คาเฉลยเลขคณต
คอ ผลรวมทงหมด หารดวย จ านวนขอมล ตวอยาง ผเขาอบรม 16 คน แตละคนมเงนในกระเปาดงน 1, 1, 2, 3, 5, 6, 6, 7, 93, 94, 94, 95, 97, 98, 98, 100 รวมเงนทกคน = 800 บาท คาเฉลย = 800 / 16 = 50 บาท สญลกษณทางสถต Xi คอ คาขอมลแตละคา
n คอ จ านวนขอมลทงหมด
17
Median (มธยฐาน) คอ คาขอมลทอยต าแหนงตรงกลางของชดขอมลทเรยงล าดบ
แลว
กรณจ านวนขอมลเปนเลขค Median คอต าแหนงท (n+1)/2
ตวอยาง ผเขาอบรม 15 คน แตละคนมเงนในกระเปาดงน
1, 1, 2, 3, 5, 6, 6, 7, 93, 94, 94, 95, 97, 98, 100
7 คอต าแหนงล าดบท 8 เปนต าแหนงกลางจากทงหมด 15 ล าดบ
กลาวคอ มจ านวนขอมลทมคามากกวาน เทากนกบจ านวนขอมลทมคานอยกวาคาน
18
Median (มธยฐาน) กรณจ านวนขอมลเปนเลขค Median คอคาเฉลยของต าแหนงท
n/2 กบ (n/2) + 1
ตวอยาง ผเขาอบรม 16 คน แตละคนมเงนในกระเปาดงน
1, 1, 2, 3, 5, 6, 6, 7, 93, 94, 94, 95, 97, 98, 98, 100
ต าแหนงกลางคอล าดบท 8 (=7) และ 9 (=93)
คา median คอ ผลเฉลยของสองคาขางตน
= (7+93) / 2
= 50
19
Mode ฐานนยม
คอคาทมความถสงทสด หรอคาทซ ากนมากทสด
เชน ระยะฟกตว โรค ก. ในเดก 9 คน เปนดงน
3, 4, 5, 5, 6, 7, 7, 7, 8
Mode = 7 (เปนคาทซ ากนมากทสด)
จงหาคา mode ของจ านวนเงนของผเขาอบรม 16 คน ดงน
1, 1, 2, 3, 5, 6, 6, 7, 93, 94, 94, 95, 97, 98, 98, 100
ตอบ ...
20
ตวอยาง ผเขาอบรม 3 กลมๆ ละ 16 คน แตละคนมเงนดงน จงหาคา mean, max, min, median
21
การวดการกระจาย
Range (พสย)
Interquartile range
สวนเบยงเบนมาตรฐาน
22
Range (พสย) พสย คอ ผลตางของคาสงสด (Maximum) กบคาต าสด (Minimum) ตวอยาง ผเขาอบรม 16 คน แตละคนมเงนในกระเปาดงน 1, 1, 2, 3, 5, 6, 6, 7, 93, 94, 94, 95, 97, 98, 98, 100 พสย = คาสงสด – คาต าสด = 100 – 1 = 99 เปนคาทท าใหเหนความกวางของคาขอมล ในบทความอาจแสดงคาต าสด และคาสงสด ไวโดยตรง
23
Percentile & Interquartile range ถาเราเรยงล าดบขอมลจากนอยไปหามาก แลวแบงขอมลเปน
100 สวน เราเรยกคาสงสดวาเปน เปอรเซนไทลท 100 เปอรเซนไทลท p หมายความวามจ านวนขอมลคดเปนรอยละ p
ทมคานอยกวาหรอเทากบคานน คาทนยมใชคอ 25th , 50th, และ 75th percentile ซงแบงชดขอมล
เปนสสวนเทาๆ กน เรยกวา ควอรไทล(Quartile - - Q) Q1 = p25
Q2 = p50 = Median Q3 = p75
Interquatile range คอ Q1 - Q3
24
Percentile & Interquartile range
25
สวนเบยงเบนมาตรฐาน (standard deviation) และคาความแปรปรวน (variance)
ขอมล 24, 25, 29, 29, 30, และ 31 คาเฉลย = 28
ผลตางของคาเฉลยกบแตละคาเปนดงน
26
สวนเบยงเบนมาตรฐาน และคาความแปรปรวน
ขอมล 24, 25, 29, 29, 30, และ 31 คาเฉลย = 28
ผลตางของคาเฉลยกบแตละคายกก าลงสอง = 40
• จากตวอยางกอนหนาน ขอมล 3 กลม มคา Standard Deviation (SD) ตางกนหรอไม
27
ตวอยาง ผเขาอบรม 3 กลมๆ ละ 16 คน แตละคนมเงนดงน จงหาคา mean, max, min, median
28
การแปลผลคา SD และ variance
ยงมคามาก หมายความวา ขอมลกระจายตวมาก
ถาเปนการวดสงเดยวกน หนวยเดยวกน แตมขอมลสองชด สามารถเปรยบเทยบการกระจายไดโดยใช SD หรอ variance
29
คากลาง – Mean, Median, Mode
คาเฉลย (Mean) ใชเมอขอมลกระจายเปนแบบปกต มจ านวนขอมลมาก ๆ (ซงเชอวาการกระจายจะเปนแบบปกต)
แสดงผลคกนกบคาเบยงเบนมาตรฐาน (standard deviation - SD)
30
การกระจายแบบปกต
Mean
Median
Mode
31
การกระจายทมการเบขวา
Mean เปรยบเสมอนจดศนยถวงของขอมล ถาขอมลเบ จะเปนคาทเปลยนแปลงมากกวาทง
Mode และ Median
32
การกระจายทมการเบขวา
Median
Mean
Mode
33
สรปสถตเชงพรรณนา
การใช Mean และ SD เมอขอมลมการกระจายแบบปกต
การใช Median และ Q1 – Q3 (หรอ พสย หรอ คาต าสดสงสด) เมอ ขอมลไมกระจายแบบปกต, จ านวนขอมลนอย
ส าคญทสดคอ ไดคามาแลวแปลวาอะไร ใชประโยชนอะไรได
สถตเชงอนมาน (Inferential Statistics)
วตถประสงค – เพอน าคาผลจากตวอยางในการศกษาวจยไปขยายผลเปนคาในประชากรเปาหมาย
ชนดของสถตเชงอนมาน – การทดสอบสมมตฐาน : เพอดวาคาทสนใจมความแตกตางกนหรอไมระหวางแตละ
กลม
– การคาดประมาณ : เพอประมาณคาจรงของประชากรโดยใชคาจากตวอยาง
Ho: X1 = X2 Ho: m1 = m2
Ho: p1 = p2 Ho: 1 = 2
X m
proportion
34
การทดสอบสมมตฐานทางสถต (Hypothesis Testing)
ก าหนดกลมตวอยางทจะศกษา
ก าหนดสมมตฐานทางสถต
ก าหนดเกณฑทจะใชในการทดสอบ
เลอกวธการทดสอบทางสถตทเหมาะสม
ค านวณคาสถตจากขอมลตวอยาง
ตดสนใจ ปฎเสธ หรอ ยอมรบสมมตฐาน
35
ก าหนดกลมตวอยางทจะศกษา
1 กลม : ผปวย, ผมปจจยเสยง 2 กลม : ผปวยกบผไมปวย, ผมปจจยเสยงกบผไมมปจจยเสยง มากกวา 2 กลม :
– ผปวยรนแรง, ไมรนแรง, ไมปวย – ผมปจจยเสยงระดบสง, มปจจยเสยงระดบปานกลาง, มปจจยเสยงระดบนอย,
ไมมปจจยเสยง
36
การก าหนดสมมตฐาน
สมมตฐานหลก (Null hypothesis) : Ho – สมมตฐานทตองการจะทดสอบ
– มกจะเปน statement of no difference (ไมแตกตางกน)
สมมตฐานรอง (Alternative hypothesis) : H1 หรอ Ha – เปนสงทตรงขามกบ null hypothesis
– เปนสมมตฐานทจะยอมรบ หากเราปฏเสธ null hypothesis
37
การก าหนดสมมตฐาน
สมมตฐานทางเดยว : – กลมศกษากลมเดยวมคาทวดมากกวาคาทสนใจ, นอยกวาคาทสนใจ – กลมศกษาทหนงมคาทวดมากกวากลมทสอง, นอยกวากลมทสอง
สมมตฐานสองทาง :
– กลมศกษากลมเดยวมคาทวดเทากบคาทสนใจ – กลมศกษาทหนงมคาทวดเทากบกลมทสอง
38
ตวอยางสมมตฐาน สมมตฐานทางเดยว
– ผทมาฝากครรภมอายครรเฉลยนอยกวา 12 สปดาห
– ผทมาฝากครรภ กลมทไมตดเชอ HIV มอายครรภนอยกวากลมทตดเชอ
สมมตฐานสองทาง – ผทมาฝากครรภมอายครรเฉลยตางไปจาก 12 สปดาห
– ผทมาฝากครรภ กลมทไมตดเชอ HIV มอายครรภตางจากกลมทตดเชอ
12:0 xH 12:1 xH
210 : xxH 211 : xxH
12:0 xH 12:1 xH
210 : xxH 211 : xxH
39
เกณฑทใชทดสอบ ความเปนจรง
H0 ถกตอง H
0 ผด
การสรปผลการศกษา
ยอมรบ H0
1 –
(Correct)
(Type II error)
ปฏเสธ H0
(Type I error)
1 - power
(Correct)
40
Type I error คอ ความนาจะเปนทจะปฏเสธ H0 ในขณะท H0 ถกตอง Type II error คอ ความนาจะเปนทจะยอมรบ H0 ในขณะท H0 ผด
การเลอก level
ระดบของนยส าคญทางสถต – 1% (0.01), 5% (0.05), 10% (0.10)
โดยทวไปใช = 0.05 – มความนาจะเปน 5% ทจะปฏเสธ H0 ในขณะท H0 เปนจรง
– ในการตดสนใจทจะปฏเสธ H0 ในขณะท H0 เปนจรง ถอวา 5% เปนความผดพลาดระดบนอย
41
เลอกวธการทดสอบทางสถตทเหมาะสม ใชสถตตางๆ เชน Z test, t test, 2 test , อนๆ การทดสอบเกยวกบคาเฉลย
– หนงกลมตวอยาง – สองกลมตวอยาง
• อสระตอกน • ไมอสระตอกน
– ตงแตสามกลมขนไป
การทดสอบเกยวกบคาสดสวน – หนงกลมตวอยาง – ตงแตสองกลมขนไป
• อสระตอกน • ไมอสระตอกน
42
43
44
ค านวณคาสถตจากขอมลตวอยาง
ค านวณจากสตรของ สถตทเลอกใช ใชโปรแกรมสถต เชน Epiinfo, Stata, SPSS โดยก าหนดสถตทเลอกใช
45
p - value
เปนผลลพธทไดจากการทดสอบสมมตฐาน เปนความนาจะเปน มคาระหวาง 0 ถง 1
หาก null hypothesis เปนจรง (ไมมความแตกตาง) โอกาสหรอความนาจะเปนทขอมลชดทศกษาจะพบวามความแตกตางโดยบงเอญเปนเทาไร (โอกาสสรปผลผดพลาดวาแตกตางทงทความจรงไมตาง : error)
เปนตววดความสอดคลองระหวางสมมตฐานกบขอมล – p - value ต าหมายถงขอมลสอดคลองกบ null hypothesis ต า
– p - value สงหมายถงขอมลสอดคลองกบ null hypothesis สง
46
p – value
p - value เทาใดจงจะถอวาต า
– ปกตใชคาต ากวา 0.05 ( คา )
ความหมายของ p - value กรณ = 0.05
– p - value > 0.05 : ยอมรบ null hypothesis
– p - value < 0.05 : ปฏเสธ null hypothesis เกด error ไมเกน 5%
47
การแปลผล p - value
การทดสอบสมมตฐาน ( = 0.05) : อตราปวยโรคมะเรงปอดในกลมผสบ
บหรไมแตกตางกบผไมสบ ได p - value เทากบ 0.02
– อตราปวยแตกตางกนอยางมนยส าคญทางสถต ???
– อตราปวยแตกตางกนอยางมนยส าคญทางสถต ทระดบ = 0.05 ??
– อตราปวยแตกตางกนอยางมนยส าคญทางสถต ทระดบ = 0.05 (p – value =
0.02) ?
– ถาความจรงอตราปวยไมแตกตางกน การใชขอมลชดนสรปวาแตกตางกนมโอกาส
ผดพลาด 2%
48
ปญหาของการใช p - value
บอกแคความแตกตางทางสถต (โดยเฉพาะกรณสมมตฐานสองทาง) ในขณะท
ระบาดวทยาตองการทราบขนาดและทศทางของความแตกตาง
อาจชกน าใหเกดการแปลผลผดพลาดได
– หากคาสถตบงชวานาจะไมแตกตาง ในกรณขนาดตวอยางนอยๆ
– หากคาสถตบงชวานาจะแตกตาง ในกรณขนาดตวอยางมากๆ
49
ตวอยาง p-value
ปวย ไมปวย รวม
กนสตเนอ 15 30 45
ไมกนสตเนอ 10 40 50
p-value = 0.14 Risk ในกลมมปจจย = 15/45 = 0.33
Risk ในกลมไมมปจจย = 10/50 = 0.20
Risk ratio = 0.33/0.20 = 1.65
50
ตวอยาง p-value
ปวย ไมปวย รวม
กนสตเนอ 150 300 450
ไมกนสตเนอ 100 400 500
p-value < 0.001 Risk ในกลมมปจจย = 150/450 = 0.33
Risk ในกลมไมมปจจย = 100/500 = 0.20
Risk ratio = 0.33/0.20 = 1.65
51
การคาดประมาณ
คาดประมาณวาคาจรงของประชากร (incidence, prevalence, risk ratio,
rate ratio, odds ratio) จะเปนเทาใด ชนดของการคาดประมาณ
– Point estimation
– Interval estimation • 90%, 95% , 99%
• ใชคา point estimation จากการศกษา ไปค านวณ
52
การคาดประมาณ (ตอ)
Null value : ไมมความแตกตาง
– ในกรณ relative risk เปน ratio : เทากบ 1
– ในกรณ relative risk เปน difference : เทากบ 0
interval estimation ใชคาดประมาณชวงทจะมคา parameter อย เชน
การค านวณชวงเชอมน (confidence interval)
53
ตวอยางการแสดงคา RR หรอ OR
1 2 4 3 5 0.2 0.33 0.25 0.5
1.4 < 2.3 < 4.4
54
ชวงเชอมน (confidence interval)
ความกวาง : บงชความเทยงของการศกษา – ขนาดตวอยางในการเกบขอมล
– คา level : ปกตใช คา 0.05 ดงนน จงค านวณท 95% CI
55
Error ทางระบาดวทยา
ความเปนจรง
A เทากบ B A ไมเทากบ B
A เทากบ B Confidence errorการสรปผลการศกษา
A ไมเทากบ B error Power
56
ชวงเชอมน (confidence interval)
ความหมายกรณ = 0.05 (95% CI)
หากการท าศกษาชนดนหลายๆครง ชวงเชอมนทงหมดจะครอบคลมคา parameter อยางนอย 95% ( 100 ชวงเชอมนจะครอบคลมคา parameter อยางนอย 95 ชวงเชอมน )
ถา 95% CI ครอม null value หากทดสอบสมมตฐานท = 0.05 โดยใชวธการทางสถตเดยวกนจะพบวา p - value > 0.05
ถา 95% CI ไมครอม null value หากทดสอบสมมตฐานท = 0.05 โดยใชวธการทางสถตเดยวกนจะพบวา p - value < 0.05
57
ตวอยาง p-value และ 95% CI
ปวย ไมปวย รวม
กนสตเนอ 150 300 450
ไมกนสตเนอ 100 400 500
p-value < 0.001 Risk ในมปจจย = 150/450 = 0.33
Risk ในไมมปจจย = 100/500 = 0.20
Risk ratio = 0.33/0.20 = 1.65 95% CI = 1.34, 2.07
58
ตวอยาง p-value และ 95% CI
ปวย ไมปวย รวม
ดมชา 120 450 570
ไมดมชา 100 400 500
p-value = 0.670 Risk ในมปจจย = 120/570 = 0.21
Risk ในไมมปจจย = 100/500 = 0.20
Risk ratio = 0.21/0.20 = 1.05 95% CI = 0.83, 1.33
59
การอานและแปลผลชวงเชอมน (อยางงาย) การศกษาความสมพนธระหวางการสบบหรกบโรคมะเรงปอด : risk ratio = 9 ,
95% CI = 5.2, 15.4
– การอานผลชวงเชอมน • มความเชอมนวาหากท าการศกษาแบบนซ าๆกนรอยครงจะม 5 ครงทชวงเชอมนจะไมครอบคลมคาเสยงจรง หากการศกษนชวงเชอมนครอบคลมคาจรง ความเสยงสมพทธจรงจะมคาอยระหวาง 5.2 ถง 15.4 เทา หรออานผลอยางงายไดวา
• มความเชอมนรอยละ 95 วาความเสยงสมพทธจรงในประชากรจะอยระหวาง 5.2 ถง 15.4 เทา
– การแปลผลอยางงาย
• RR >1 และชวงเชอมนไมคลม 1 ดงนนความสมพนธทพบนาจะเปนปจจยเสยงจรง
หมายเหต : การแปลผลโดยสมบรณตองใชทง RR และ 95%CI
60
61