INTRODUCTION TO BIOSTATISTIC Joko Mulyanto MRP 2 - 2009
INTRODUCTION TO BIOSTATISTICJoko MulyantoMRP 2 - 2009
“ There are three kind of lies: lies, damned lies, and statistics “ (Benjamin Disraeli)
“It is easy to lie with statistics, but it is easier to lie without them “ (Frederick Mosteller)
DEFINITION
•A field of study concerned with :- collection, organization, interpretation and analysis of data (descriptive statistic)- the drawing of inferences about a body of data when only part of the data is observed (inference statistic)
•Focus on biological and health sciences : biostatistics
STATISTIK DESKRIPTIF• Bagian dari ilmu statistik dalam bentuk
mengumpulkan, mengorganisasikan, meringkas, dan menampilkan data untuk memberikan gambaran tentang suatu keadaan,
• Statistik deskriptif mempunyai dua bentuk tampilan yang saling melengkapi:- Numerikal, mis: ukuran tendensi sentral,
ukuran dispersi.- Grafikal, mis : tabel, grafik,
• Pemilihan jenis statistik deskriptif didasarkan pada tujuan penampilan data, dan skala data.
BASIC CONCEPTS
•Data : information taken from an observation.
•Variable : characteristic that has different value when it is observed / measured in different subjects.
•Qualitative vs Quantitative variable•Discrete vs Continuous variable•Dependent vs Independent variable
MEASUREMENT SCALES•Measurement : the assignment of numbers to
objects or events according to a set of rules.•Nominal scale: classifying into mutually
exclusive categories; dichotomous or binary.•Ordinal scale: ranked category according to
some criterion• Interval scale: the distance between
measurements can be observed precisely in “number”.
•Ratio scale: “true zero”
NUMERICAL DESCRIPTIVE STATISTIC•Measure of Central Tendency
Mode, Median, Mean•Measure of Dispersion
Range, IQR, Variance, Standard Deviation
UKURAN TENDENSI SENTRAL
•Digunakan untuk memberikan gambaran mengenai nilai rata-rata dari data pada sebuah variabel.
•Mean •Median •Mode
MEAN
•Mean (rerata) adalah nilai yang didapatkan dari menjumlahkan seluruh nilai hasil pengamatan dan dibagi dengan jumlah pengamatan.
•Karakteristik dari mean:- Unik, hanya ada 1 buah rerata pada 1 data set.- Simpel, mudah dihitung dan dipahami- Sensitif terhadap nilai ekstrem.
PERHITUNGAN MEAN
MEDIAN• Persentil 50 dari sekelompok data hasil
pengukuran.• Data harus diurutkan terlebih dahulu dari nilai
terkecil ke terbesar.• Setengah hasil pengamatan lebih kecil dari
median, setengah yang lain lebih besar.• Karakteristik median
- Unik- Simple- Kurang sensitif terhadap nilai ekstrim
PERHITUNGAN MEDIAN
•Jumlah data / pengamatan (n) genap atau ganjil.
•Data harus diurutkan terlebih dahulu•Median = nilai pada pengamatan ke [(n +
1)/2]•Bila jumlah pengamatan genap, maka
akan didapatkan median terletak pada nilai pecahan setengah, maka nilai median adalah rerata dari nilai pengamatan diantara nilai pecahan tersebut.
MODUS
•Nilai pengamatan dengan frekuensi paling sering muncul.
•Sebuah data set hasil pengamatan bisa memiliki lebih dari 1 modus, ataupun tidak memiliki modus sama sekali.
GROUPED MEAN (RERATA KELOMPOK)•Bila data dengan skala interval-rasio
dikelompokkan maka bisa dihitung rerata kelompok.
•Rerata kelompok dihitung dengan cara:- Menghitung nilai tengah dari interval kelas- Mengalikan dengan frekuensi masing kelas- Menjumlahkan hasil diatas- Membagi dengan seluruh jumlah pengamatan
PERHITUNGAN RERATA KELOMPOK
UKURAN DISPERSI
•Menggambarkan penyebaran atau variasi dari sekumpulan data
•Range•Interquartile Range•Variance •Standard Deviation
RANGE
•Merupakan nilai yang didapatkan dari perbedaan (selisih) antara nilai terbesar dengan nilai terkecil dari sekumpulan hasil pengamatan.
•Sensitif terhadap nilai ekstrim•R = Nilai max – Nilai min
INTERQUARTILE RANGE
•Adalah selisih nilai data persentil ke 75 (kuartil 3) dengan nilai data persentil 25 (kuartil 1).
•Data harus diurutkan •IQR = Q1 – Q3•Q1 = nilai pada pengamatan ke n+1
4•Q3 = nilai pada pengamatan ke 3(n+1)
4
VARIANCE & STANDARD DEVIATION•Menggambarkan penyebaran / variabilitas
diantara rerata dari sebuah pengukuran.•Varians adalah hasil dari penjumlahan
selisih nilai pengamatan dengan rerata dikuadratkan dibagi dengan jumlah pengamatan dikurangi satu.
•Standard deviation atau simpang baku adalah akar kuadrat dari varians.
PERHITUNGAN VARIANS DAN SIMPANG BAKU
GRAPHICAL DESCRIPTIVE STATISTIC• Tabel
- Distribusi frekuensi- Frekuensi relatif
• Grafik- Grafik batang- Histogram- Frekuensi poligon- Box-plots- Grafik garis
TABEL DISTRIBUSI FREKUENSI• Tabel pada umumnya digunakan untuk data
nominal dan ordinal.• Bila data bersifat kontinu atau diskrit, data
harus dikelompokan terlebih dahulu (grouped data).
• Pengelompokan ini bersifat kontinu, non-overlapping, dengan interval tertentu.
• Dalam mengelompokan data, ada dua hal yang perlu diperhatikan :- Jumlah interval kelas- Lebar interval kelas
Interval Kelas• Rule of thumb jumlah interval kelas tidak
boleh kurang dari 6 dan tidak boleh lebih dari 15.
• Dapat juga digunakan rumus Sturges :k = 1 + 3,322 (log n)k : jumlah interval kelasn : jumlah pengamatan (subjek)
• Misal, ada 1000 pengamatan (n = 1000), maka jumlah interval kelas yang digunakan untuk mengelompokkan data adalah:
k = 1 + 3,3322 (log 1000)k = 10,9966 ≈ 11
Lebar interval kelas• Idealnya lebar interval kelas adalah sama.• Untuk menentukan lebar in• Lebar interval kelas, dapat dihitung sebagai
berikut:w = R
kw : lebar interval kelasR : range (nilai max – nilai min)k : jumlah interval kelas
• Rule of thumb untuk lebar interval kelas adalah 5 atau 10.
Contoh• Sebuah data set, terdiri atas 200
pengamatan terhadap variabel usia, nilai max = 67, nilai min = 23.
• Jumlah interval klas :k = 1 + 3.3322 (log 200) = 8,66 ≈ 9
• Lebar interval kelas = 67 - 23 = 4,88 ≈ 5 9• Perhitungan diatas tidak bersifat mutlak,
hanya merupakan panduan, kadang diperlukan penyesuaian agar tampilan data lebih nyaman
Contoh tabel distribusi frekuensiKelompok Usia Frekuensi
30 – 39 10
40 – 49 17
50 – 59 19
60 – 69 12
Total 48
Tabel frekuensi relatif• Untuk mengetahui proporsi (persentase)
dari interval kelas tertentu terhadap jumlah keseluruhan.
• Sangat bermanfaat untuk membandingkan data dengan jumlah pengamatan yang tidak sama.
• Frekuensi relatif kumulatif : persentase dari total jumlah pengamatan yang mempunyai nilai sama atau kurang dari batas atas dari interval.
Contoh 1Interval
kelasFrekuensi Frekuensi
kumulatifFrekuensi relatif (%)
Frekuensi relatif
kumulatif (%)
30 – 39 40 – 4950 – 5960 – 6970 – 7980 – 89
1146704516 1
1157
127 172 188 189
5,8224,3437,0423,81 6,47 0,53
5,8230,1667,2091,0199,48
100,00
Total 189 100,00
Contoh 2Kadar
Kolesterol (mg / dL)
Umur 25 – 34 Umur 55 – 64
f fk fr (%) frk (%)
f fk fr (%) frk (%)
80 – 119120 – 159160 – 199200 – 239240 – 279280 – 319320 – 359360 – 399
13150442299115
34 9 5
13 163 605 9041019105310621067
1,214,141,428,010,8 3,2 0,8 0,5
1,215,356,784,795,598,799,5100,0
5 48265458281128 35 7
5 53 318 7761057118512201227
0,4 3,921,637,322,910,4 2,9 0,6
0,44,325,963,286,196,599,4100,0
1067 100,0 1227 100,0
Grafik batang (bar charts)•Grafik yang biasanya digunakan
untuk menampilkan distribusi frekuensi dari data nominal atau ordinal
•Aksis horizontal (X) mewakili kelompok data pengamatan, aksis vertikal melambangkan frekuensi, atau frekuensi relatif.
•Lebar masing-masing batang haruslah sama, dan tidak berhimpit satu sama lain.
CONTOH
Grafik Distribusi Frekuensi Mahasiswa FK UNSOED 2008 berdasar etnis
Histogram• Bentuk khusus dari grafik batang untuk
menampilkan distribusi frekuensi atau frekuensi relatif dari data diskrit atau kontinu.
• Aksis horizontal melambangkan batas sebenarnya (true limits) dari interval kelas.
• True limits merupakan batas sebenarnya antara 2 interval kelas yang saling berimpitan.
• Aksis vertikal melambangkan frekuensi atau frekuensi relatif dari masing-masing interval kelas.
• Batang harus saling berimpitan, dan frekuensi dilambangkan dengan luas area batang, bukan tinggi batang.
Cont’d•Aksis vertikal harus dimulai dari nol•Batang diletakkan ditengah, dengan
midpoint berada tepat ditengah batang, tepi batang saling berimpitan antara batas benar satu kelas dengan kelas yang lain
Contoh true limits
Interval Kelas Batas Benar Mid Point Frekuensi
30 – 3940 – 4950 – 5960 – 6970 – 7980 – 89
29,5 – 39,539,5 – 49,549,5 – 59,559,5 – 69,569,5 – 79,579,5 – 89,5
34,544,554,564,574,584,5
1146704516 1
189
Contoh Histogram
Poligon FREKUENSi• Bentuk khusus dari grafik garis• Sifat menyerupai histogram• Menghubungkan (membuat garis) antar titik
tengah dari batang pada histogram.• Ujung garis harus mencapai titik nol pada aksis
horisontal• Aksis vertikal biasanya berupa frekuensi relatif• Bermanfaat untuk membandingkan 2 data set /
pengamatan yang berbeda mengenai hal yang sama.
• Dikenal pula poligon frekuensi kumulatif untuk frekuensi relatif kumulatif
Box Plots• Disebut juga box whisker plots• Merupakan grafik aksis tunggal• Dapat berupa aksis horizontal maupun vertikal• Menampilkan ringkasan data berupa sebaran /
dispersi data dalam hal ini adalah kuartil dan persentil.
• Untuk membuat box plot harus ditentukan- Q1 = P25- Q3 = P75- Q2 = P50- Interquartile range- Adjacent value- Outliers
Cont’d• Menentukan lokasi kuartil:
Data diurutkanQ1 = n + 1 data yang diurutkan
4• Nilai Q1 = L + b ( S-L)• Q3 dan Q2 menyesuaikan• Adjacent value =
- Atas : Q3 + 1,5 x (Q3-Q1) - Bawah ; Q1 - 1,5 x (Q3 –Q1)
• Adjacent value mencakup 99 % dari seluruh pengamatan
• Outlier dilambangkan dengan titik (lingkaran).
Two way scatter plot•Menggambarkan hubungan antara
dua variabel kontinu•Setiap titik merupakan pasangan
(perpotongan) dari dua nilai •Penyebaran titik menggambarkan
kekuatan dan arah hubungan antar dua variabel