Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС 1 ТОЙМ СТАТИСТИК (Descriptive Statistics) Н.Хүдэрчулуун Эпидемиологи Биостатистикийн Тэнхим Нийгмийн Эрђђл Мэндийн Сургууль Эрђђл Мэндийн Шинжлэх Ухааны Их Сургууль e-mail: [email protected]
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС 1
ТОЙМ СТАТИСТИК (Descriptive Statistics)
Н.Хүдэрчулуун
Эпидемиологи Биостатистикийн Тэнхим
Нийгмийн Эрђђл Мэндийн Сургууль
Эрђђл Мэндийн Шинжлэх Ухааны Их Сургууль
e-mail: [email protected]
Агуулга
Статистикийн ђндсэн ойлголт, тєрєл
Тойм ба нарийвчилсан статистик
Мэдээллийн эх ђђсвэр
Анхдагч
Хоѐрдогч
Мэдээллийн тєрєл, хэлбэр
Хэмжилтийн тђвшин
Тоон мэдээллийн ђндсэн ђзђђлэлтђђд
Тєвийн хандлага
Хэлбэлзэлийн ђзђђлэлт
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 2
Агуулга
SPSS программ ашиглан Тойм статистик ђр
дђнг тооцоолох
ёр дђнг тооцоолох техник
SPSS Output
Тойм статистик ђр дђнг бичих
Статистик программ
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 3
(continued)
Шаардлагатай нэр томъѐо
Эх олонлог (Population)
Судлагдаж буй нийт масс
Тђђвэр (Sample)
Эх олонлогоос сонгогдсон тодорхой хэсэг
Параметр (Parameter)
Эх олонлогт хамаарах ђзђђлэлт
Статистик (Statistic)
Тђђвэр олонлогт хамаарах ђзђђлэлт
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 4
5
Статистик гэж юу вэ?
Ñòàòèñòèê íü ÒÎÎ ÌÝÄÝÝÃ öóãëóóëàõ, ýìõòãýí
öýãöëýõ, ТОЙМЛОН ¿ç¿¿ëýõ, ГҮНЗГИЙРҮҮЛЭН
ñóäëàõ àðãà òåõíèê¿¿äèéã áàãòààñàí øèíæëýõ óõààí.
Тойм Статистик (Descriptive statistics)
Ñóäëàãäàæ áóé þìñ ¿çýãäëèéí ерєнхий òºëºâ
áàéäëыã ä¿ðñëýí ¿ç¿¿ëýõ
Нарийвчилсан статистик (Inferential statistics)
Ñóäëàãäàæ áóé þìñ ¿çýãäëèéí õºãæèë, õýòèéí
òºëâèéí òàëààð ¿íýëãýý, ä¿ãíýëò õèéõ áîëîìæ
îëãîäîã.
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
6
Тойм Статистик (Descriptive
Statistics)
Мэдээлэл цуглуулах(Collect data)
Жнь: Асуумж
Мэдээллийг тоймлох (Present data)
Хђснэгт ба График г.м
Ерєнхий ђр дђн
Тђђврийн дундаж = г.мiX
n
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
7
Нарийвчилсан Статистик (Inferential Statistics)
Үнэлгээ (Estimation)
Цэгэн ђнэлгээ
Интервал ђнэлгээ
Таамаглал шалгах(Hypothesis
testing)
t, z тест, ANOVA
Хи-квадрат тест
Түүврийн үр дүнд үндэслэн эх олонлогийн талаарх дүнгэлт, шийдвэр гаргана.
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
8
Мэдээллийн эх ђђсвэр (Data
Sources)
ХоёрдогчМэдээллийн эх
үүсвэр
Ажиглалт
Туршилт
Print or Electronic
Асуумж
Анхдагч
Мэдээллийн эх үүсвэр
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Мэдээллийг Тоймлох
Тоон мэдээлэл
Тархалтын давтам, єсєн
нэмэгдэх давтамж
Гистограмм
Polygon
Ogive
Мэдээллийг эрэмбэлэх
Steam and leaf
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 9
Stem Leaves
2 1 4 4 6 7 7
3 0 2 8
4 1
Ogive: Daily High Temperature
0
20
40
60
80
100
10 20 30 40 50 60
Cum
ulat
ive
Per
cent
age
Frequency Polygon: Daily High Temperature
0
1
2
3
4
5
6
7
5 15 25 35 45 55 More
Fre
qu
ency
21, 24, 24, 26,
27, 27, 30, 32,
38, 41
(continued)
Мэдээллийг Тоймлох
Чанарын мэдээлэл
Хђснэгт
Нийлбэр хђснэгт
График
Баганан график
Бялуун диаграмм
Pareto diagram
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 10
Investor's Portfolio
0 10 20 30 40 50
Stocks
Bonds
CD
Savings
Amount in $1000's
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Stocks Bonds Savings CD
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
11
Мэдээллийн тєрєл (Types of Data)
Мэдээлэл (Data)
Чанарын (Categorical)
Тоон (Numerical)
Тасралттай (Discrete)
Тасралтгүй (Continuous)
Жишээ:
Гэрлэлтийн байдал
Яс үндэс
Хүйс
(Категорт ангилагдах) Жишээ:
Ам бүлийн тоо
Төрөлтийн давтамж
(Тасралтай тоо)
Жишээ:
БЖИ
Цусан дахь сахарын хэмжээ
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Тоон мэдээллийн ангилал (хэмжилтийн тђвшингээс хамаатуулсан)
Интервал (Interval)
Дэс дараалсан (Ordinal)
Нэрлэсэн (Nominal)
Хэмжилтийн дээд
тђвшин
Хэмжилтийн доод
тђвшин
Категор (зарим тохиолдолд зєвхєн ангилагдах боломжтой)
Дараалсан категор (дэс дараалуулах боломжтой)
Утгуудын хооронд утга тєгєлдєр ялгаа байдаг
Харьцуулсан (Ratio)Утгуудын хооронд харьцуулах боломжтой байх
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
13
Тоон мэдээллийн ерєнхий
ђзђђлэлтђђд
Арифметик дундаж
Голч утга
Моод
Тоон мэдээлэл
Дисперс
Стандарт хазайлт
Вариацийн коэффициент
Далайц
Завсарын квартил
Геометр дундаж
Тэгш хэм
Төвийн үзүүлэлт Хазайлт Хэлбэр (Shape)Квартил
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
14
Тєвийн хандлагийн ђзђђлэлтђђд (Measures of Central Tendency)
Төвийн үзүүлэлт
Арифметик дундаж Голч утга Моод Геометр дундаж
n
X
X
n
ii
1
n/1n21G )XXX(X
Тэнцђђ
хуваах утга
Олон
давтагдах
утга
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
15
Арифметик Дундаж (Arithmetic Mean)
Арифметик дундаж нь тєвийн хандлагийн
тодорхойлох нэг гол ђзђђлэлт юм
Дундажийг тооцох:
Тђђврийн хэмжээ
n
XXX
n
X
X n21
n
1ii
Ажиглалтын утга
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
16
Арифметик Дундаж (Arithmetic Mean)
Тєвийн хандлага хэмжих гол ђзђђлэлт
Дундаж = Утгуудын нийт нийлбэрийн тоонд нь хуваана
Алслагдсан утга нєлєєлдєг (extreme values)
(continued)
0 1 2 3 4 5 6 7 8 9 10
Дундаж = 3
0 1 2 3 4 5 6 7 8 9 10
Дундаж = 4
35
15
5
54321
4
5
20
5
104321
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
17
Голч Утга (Median)
Судлагдаж буй утгуудыг 2 тэнцђђ хэсэгт хуваах
утга (50% доош, 50% дээш)
Алслагдсан утгын нєлєєг тооцдоггђй
0 1 2 3 4 5 6 7 8 9 10
Голч утга = 3
0 1 2 3 4 5 6 7 8 9 10
Голч утга = 3
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
18
Моод (Mode)
Тєвийн хандлагын ђзђђлэлт
Ихэвчилэн тохиолддог
Алслагдсан утгууд тооцогдохгђй
Тоон болон чанарын мэдээнд ашиглаж болно
Огт моод байхгђй байж болно
Олон моод байж болно
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Моод = 9
0 1 2 3 4 5 6
No Mode
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
19
УБ хотын 5 баарны агаар дахь никотин тодорхойлжээ
Жишээ: (Дундаж, Медиан, Моод)
$2,000 K
$500 K
$300 K
$100 K
$100 K
Никотин:
25.2 µg/mg
8.7 µg/mg
7.4 µg/mg
6.8 µg/mg
6.8 µg/mg
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
25.2 µg/mg
8.7 µg/mg
7.4 µg/mg
6.8 µg/mg
6.8 µg/mg
20
ёр дђнгийн статистик
Дундаж: (54.9/5) = 10.98 µg/mg
Медиан: тэнцђђ хуваах = 7.4 µg/mg
Моод: олон давтагдах = 6.8 µg/mg
Аль ђзђђлэлт нь илђђ тодорхойлж чадах вэ?
Никотин:
25.2
8.7
7.4
6.8
6.8
Нийлбэр 54.9
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Дундажийг ихэвчлэн ашигладаг ч алслагдсан утгат
мэдрэмж єндєртэй байдаг. (outliers?)
Медиан алслагдсан утгат мэдрэмжгђй.
Жишээ: Моод, дунджаас илђђ медиан нь 5 баарны
агаар дахь никотиний хэмжээг тодорхойлж байна
21
Геометр Дундаж (Geometric Mean)
Геометр дундаж
Хазайлт єндєртэй ђзђђлэлтийн хувьд геометр дундаж тооцох тохиромжтой
ѓсєлтийн дундаж хурд тооцох геометр дундаж
Цаг хугацаанд гарсан єєрчлєлт
Ri i ђе дэхь єсєлтийн харьцаа
n/1n21G )XXX(X
1)]R1()R1()R1[(R n/1n21G
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
22
Жишээ
ѓрхийн эмнэлэгт ХБѓ-ний талаарх иргэдэд ђзђђлсэн тусламжийн зардал эхний сар ₮100,000, дараагийн сар ₮50,000 гурав дахь сард ₮100,000 байв:
000,100000,50000,100 321 XXX
50% буурсан 100% єссєн
Эхний сараас дундажаар хэдэн хувь єєрчлєгдсєн бэ?
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
23
Жишээ:
Сарын єєрчлєлтийн хувь тооцсон арифметик ба геометр дундаж:
%0111)]2()50[(.
1%))]100(1(%))50(1[(
1)]R1()R1()R1[(R
2/12/1
2/1
n/1n21G
%252
%)100(%)50(X
Арифметик
дундаж:
Геометр
дундаж :
Буруу ђр дђн
Зєв ђр
дђн
(continued)
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
24
Квартил (Quartiles)
Квартил нь судлагдаж буй ђзђђлэлтђђдийг дєрвєн
ижил тэнцђђ хэсэгт хуваах утгыг харуулна
25% 25% 25% 25%
Q1 = (n+1)/4, Q1 -аас 25% бага, 75% нь их байхаар хуваах утга
Q2 = (n+1)/2, Q2 нь медиантай тэнцђђ (50% бага, 50% их байхаар хуваах утга)
Q3 = 3(n+1)/4, гуравдугаар квартил нь ажиглалтын утгуудын 25% нь их байх утга
Q1 Q2 Q3
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
25
(n = 9)
Q1 = (9+1)/4 = 2.5 байрлал буюу 2 , 3 дахь
тооны дундаж утга
эндээс Q1 = 12.5
Квартил тооцох
Sample Data in Ordered Array: 11 12 13 16 16 17 18 21 22
Жишээ: Нэгдђгээр квартилыг олох
Q1 ба Q3 төвийн байрлалыг харуулахгүй
Q2 = Медиан, төвийн үзүүлэлт
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
26
Ижил дундаж,
Ялгаатай хазайлт
Хазайлтын ђзђђлэлт (Measures of
Variation)
Хазайлт
Дисперс (Variance)
Стандарт
хазайлт
Вариацийн
коэффициент
Далайц Завсарын
квартил
Хазайлтын ђзђђлэлтђђд
нь мэдээллийн тархалт
болон дундажийн талаарх
ђр дђнг тодруулдаг.
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
27
Далайц (Range)
Хамгийн энгийн хазайлтын ђзђђлэлт
Далайц нь хамгийн их хамгийн бага утгын
ялгавар:
Далайц = Xmax– Xmin
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Далайц = 14 - 1 = 13
Жишээ:
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
28
Мэдээллийн тархалтын байдлыг тооцдоггђй
Алсдагдсан утгад мэдрэмж ихтэй
7 8 9 10 11 12
Далайц = 12 - 7 = 5
7 8 9 10 11 12
Далайц = 12 - 7 = 5
Далайцын сул тал (Disadvantages of the
Range)
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Далайц = 5 - 1 = 4
Далайц = 120 - 1 = 119
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
29
Завсарын Квартил (Interquartile Range)
Голч утга
(Q2)X
maximumXminimum Q1 Q3
Жишээ:
25% 25% 25% 25%
12 30 45 57 70
Завсарын квартил
= 57 – 30 = 27Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Завсарын квартил = 3rd quartile – 1st quartile= Q3 – Q1
30
Дундажаас хазайх хазайлтуудын квадратын
хувьд тооцсон дундаж хэмжигдэхђђн
Тђђврийн дисперс:
Дисперс (Variance)
1-n
)X(X
S
n
1i
2i
2
ёђнд: = арифметик дундаж
n = тђђврийн хэмжээ
X
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
31
Стандарт Хазайлт (Standard Deviation)
Хазайлтын гол ђзђђлэлт
Дундажаасаа хазайх хазайлтуудын хувьд
тооцсон квадрат дундаж
Тђђврийн стандарт хазайлт:
1-n
)X(X
S
n
1i
2i
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Бага стандарт хазайлт
Их стандарт хазайлт
32
Стандарт хазайлт тооцох
Data (Xi) : 10 12 14 15 17 18 18 24
n = 8 Дундаж = X = 16
4.24267
126
18
16)(2416)(1416)(1216)(10
1n
)X(24)X(14)X(12)X(10S
2222
2222
Дундажаасаа хазайх
хазайлт
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
33
Жишээ: Стандарт хайзайлт
Дундаж = 15.5
S = 3.33811 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
B хувилбар
A хувилбар
Дундаж = 15.5
S = 0.926
11 12 13 14 15 16 17 18 19 20 21
Дундаж = 15.5
S = 4.570
C хувилбар
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
34
Вариацийн коэффициент (Coefficient of Variation)
Нэг тєрлийн байдал
Дундажийн тєлєєлєх чадвар
Тухайн ђзђђлэлтийн жигд байдалыг ђнэлэх
шалгуур ђзђђлэлт болно
“33%-иас багагђй байх”
100%X
SCV
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
35
Жишээ: Вариацийн коэффициент
A тохиолдол:
Нярайн биеийн жин= 2500 грамм
Стандарт хазайлт = 250 грамм
B тохиолдол:
Нярайн биеийн жин = 2000 грамм
Стандарт хазайлт = 250 грамм
Хоѐр
тохиолдол адил
стандарт
хазайлтай,
гэхдээ А
тохиолдол
харьцангуй
нэгэн тєрлийн
ђзђђлэлттэй
10%100%2500
250100%
X
SCVA
12.5%100%2000
250100%
X
SCVB
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
36
Тархалтын хэлбэр (Shape of a Distribution)
Нормал тархалт (ихэнх тохиолдолд)
Тархалтын хэлбэр
Тэгш хэмт эсвэл тэгш хэм хазайлттай
Дундаж = МедианДундаж < Медиан Медиан < Дундаж
Баруун-хазайлтЗүүн-хазайлт Тэгш хэмт
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
37
Хайрцган зураглал (Box and Whisker plot)
Box-and-Whisker Plot:Гарфик аргын тусламжтай тойм статистик 5-н гол ђзђђлэлт:
Minimum -- Q1 – Медиан -- Q3 -- Maximum
Жишээ:
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Min Q1 Голч утга Q3 Max
25% 25% 25% 25%
38
Тархалтын хэлбэр бахайрцган зураглал
Баруун талт(Right-Skewed)
Зђђн талт (Left-Skewed)
Тэгш хэмт(Symmetric)
Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Min Q1 Ме Q3 Max Min Q1 Ме Q3 Max Min Q1 Ме Q3 Max
Статистик программ
Statistical software
SAS
R
SPSS
Stata
NCSS
MINITAB
Excel??
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 39
Graphical software
From list above
Sigmaplot
Harvard Graphics
Axum
Excel??
40
SPSS программ ашиглах
Тойм статистик ђр дђнг тооцох:
analyze / descriptive statistics / frequencies
Frequencies цонхноос Тойм статистик
ђзђђлэлтийг сонгох
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
41
SPSS программ ашиглах
Тойм статистик ђр дђнг
тооцох:
analyze / descriptive
statistics / frequencies…
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
42
Тєвийн хандлага
Тархалт
Хазайлтын ђзђђлэлтђђд
SPSS программ ашиглах(continued)
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
43
SPSS output
SPSS программын тойм
статистик ђр дђн: SPSS
output,
Даралтын
хэмжээ:
123
120
110
110
115
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС
Тойм Статистик ђр дђнг бичих
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 44
Бүлэг A Бүлэг B p-утга
Тоон үзүүлэлт (Жнь: Нас)
Дундаж (SD)
Далайц
Медиан
Чанарын үзүүлэлт (Жнь: Хүйс)
Эрэгтэй n1 (%) n2 (%)
Эмэгтэй n3 (%) n4 (%)
Амжилт хүсье!
45Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС