Introduction to Biostatistic_chem III

INTRODUCTION TO BIOSTATISTICJoko MulyantoMRP 2 - 2009

“ There are three kind of lies: lies, damned lies, and statistics “ (Benjamin Disraeli)

“It is easy to lie with statistics, but it is easier to lie without them “ (Frederick Mosteller)

DEFINITION

•A field of study concerned with :- collection, organization, interpretation and analysis of data (descriptive statistic)- the drawing of inferences about a body of data when only part of the data is observed (inference statistic)

•Focus on biological and health sciences : biostatistics

STATISTIK DESKRIPTIF• Bagian dari ilmu statistik dalam bentuk

mengumpulkan, mengorganisasikan, meringkas, dan menampilkan data untuk memberikan gambaran tentang suatu keadaan,

• Statistik deskriptif mempunyai dua bentuk tampilan yang saling melengkapi:- Numerikal, mis: ukuran tendensi sentral,

ukuran dispersi.- Grafikal, mis : tabel, grafik,

• Pemilihan jenis statistik deskriptif didasarkan pada tujuan penampilan data, dan skala data.

BASIC CONCEPTS

•Data : information taken from an observation.

•Variable : characteristic that has different value when it is observed / measured in different subjects.

•Qualitative vs Quantitative variable•Discrete vs Continuous variable•Dependent vs Independent variable

MEASUREMENT SCALES•Measurement : the assignment of numbers to

objects or events according to a set of rules.•Nominal scale: classifying into mutually

exclusive categories; dichotomous or binary.•Ordinal scale: ranked category according to

some criterion• Interval scale: the distance between

measurements can be observed precisely in “number”.

•Ratio scale: “true zero”

NUMERICAL DESCRIPTIVE STATISTIC•Measure of Central Tendency

Mode, Median, Mean•Measure of Dispersion

Range, IQR, Variance, Standard Deviation

UKURAN TENDENSI SENTRAL

•Digunakan untuk memberikan gambaran mengenai nilai rata-rata dari data pada sebuah variabel.

•Mean •Median •Mode

MEAN

•Mean (rerata) adalah nilai yang didapatkan dari menjumlahkan seluruh nilai hasil pengamatan dan dibagi dengan jumlah pengamatan.

•Karakteristik dari mean:- Unik, hanya ada 1 buah rerata pada 1 data set.- Simpel, mudah dihitung dan dipahami- Sensitif terhadap nilai ekstrem.

PERHITUNGAN MEAN

MEDIAN• Persentil 50 dari sekelompok data hasil

pengukuran.• Data harus diurutkan terlebih dahulu dari nilai

terkecil ke terbesar.• Setengah hasil pengamatan lebih kecil dari

median, setengah yang lain lebih besar.• Karakteristik median

- Unik- Simple- Kurang sensitif terhadap nilai ekstrim

PERHITUNGAN MEDIAN

•Jumlah data / pengamatan (n) genap atau ganjil.

•Data harus diurutkan terlebih dahulu•Median = nilai pada pengamatan ke [(n +

1)/2]•Bila jumlah pengamatan genap, maka

akan didapatkan median terletak pada nilai pecahan setengah, maka nilai median adalah rerata dari nilai pengamatan diantara nilai pecahan tersebut.

MODUS

•Nilai pengamatan dengan frekuensi paling sering muncul.

•Sebuah data set hasil pengamatan bisa memiliki lebih dari 1 modus, ataupun tidak memiliki modus sama sekali.

GROUPED MEAN (RERATA KELOMPOK)•Bila data dengan skala interval-rasio

dikelompokkan maka bisa dihitung rerata kelompok.

•Rerata kelompok dihitung dengan cara:- Menghitung nilai tengah dari interval kelas- Mengalikan dengan frekuensi masing kelas- Menjumlahkan hasil diatas- Membagi dengan seluruh jumlah pengamatan

PERHITUNGAN RERATA KELOMPOK

UKURAN DISPERSI

•Menggambarkan penyebaran atau variasi dari sekumpulan data

•Range•Interquartile Range•Variance •Standard Deviation

RANGE

•Merupakan nilai yang didapatkan dari perbedaan (selisih) antara nilai terbesar dengan nilai terkecil dari sekumpulan hasil pengamatan.

•Sensitif terhadap nilai ekstrim•R = Nilai max – Nilai min

INTERQUARTILE RANGE

•Adalah selisih nilai data persentil ke 75 (kuartil 3) dengan nilai data persentil 25 (kuartil 1).

•Data harus diurutkan •IQR = Q1 – Q3•Q1 = nilai pada pengamatan ke n+1

4•Q3 = nilai pada pengamatan ke 3(n+1)

4

VARIANCE & STANDARD DEVIATION•Menggambarkan penyebaran / variabilitas

diantara rerata dari sebuah pengukuran.•Varians adalah hasil dari penjumlahan

selisih nilai pengamatan dengan rerata dikuadratkan dibagi dengan jumlah pengamatan dikurangi satu.

•Standard deviation atau simpang baku adalah akar kuadrat dari varians.

PERHITUNGAN VARIANS DAN SIMPANG BAKU

GRAPHICAL DESCRIPTIVE STATISTIC• Tabel

- Distribusi frekuensi- Frekuensi relatif

• Grafik- Grafik batang- Histogram- Frekuensi poligon- Box-plots- Grafik garis

TABEL DISTRIBUSI FREKUENSI• Tabel pada umumnya digunakan untuk data

nominal dan ordinal.• Bila data bersifat kontinu atau diskrit, data

harus dikelompokan terlebih dahulu (grouped data).

• Pengelompokan ini bersifat kontinu, non-overlapping, dengan interval tertentu.

• Dalam mengelompokan data, ada dua hal yang perlu diperhatikan :- Jumlah interval kelas- Lebar interval kelas

Interval Kelas• Rule of thumb jumlah interval kelas tidak

boleh kurang dari 6 dan tidak boleh lebih dari 15.

• Dapat juga digunakan rumus Sturges :k = 1 + 3,322 (log n)k : jumlah interval kelasn : jumlah pengamatan (subjek)

• Misal, ada 1000 pengamatan (n = 1000), maka jumlah interval kelas yang digunakan untuk mengelompokkan data adalah:

k = 1 + 3,3322 (log 1000)k = 10,9966 ≈ 11

Lebar interval kelas• Idealnya lebar interval kelas adalah sama.• Untuk menentukan lebar in• Lebar interval kelas, dapat dihitung sebagai

berikut:w = R

kw : lebar interval kelasR : range (nilai max – nilai min)k : jumlah interval kelas

• Rule of thumb untuk lebar interval kelas adalah 5 atau 10.

Contoh• Sebuah data set, terdiri atas 200

pengamatan terhadap variabel usia, nilai max = 67, nilai min = 23.

• Jumlah interval klas :k = 1 + 3.3322 (log 200) = 8,66 ≈ 9

• Lebar interval kelas = 67 - 23 = 4,88 ≈ 5 9• Perhitungan diatas tidak bersifat mutlak,

hanya merupakan panduan, kadang diperlukan penyesuaian agar tampilan data lebih nyaman

Contoh tabel distribusi frekuensiKelompok Usia Frekuensi

30 – 39 10

40 – 49 17

50 – 59 19

60 – 69 12

Total 48

Tabel frekuensi relatif• Untuk mengetahui proporsi (persentase)

dari interval kelas tertentu terhadap jumlah keseluruhan.

• Sangat bermanfaat untuk membandingkan data dengan jumlah pengamatan yang tidak sama.

• Frekuensi relatif kumulatif : persentase dari total jumlah pengamatan yang mempunyai nilai sama atau kurang dari batas atas dari interval.

Contoh 1Interval

kelasFrekuensi Frekuensi

kumulatifFrekuensi relatif (%)

Frekuensi relatif

kumulatif (%)

30 – 39 40 – 4950 – 5960 – 6970 – 7980 – 89

1146704516 1

1157

127 172 188 189

5,8224,3437,0423,81 6,47 0,53

5,8230,1667,2091,0199,48

100,00

Total 189 100,00

Contoh 2Kadar

Kolesterol (mg / dL)

Umur 25 – 34 Umur 55 – 64

f fk fr (%) frk (%)

f fk fr (%) frk (%)

80 – 119120 – 159160 – 199200 – 239240 – 279280 – 319320 – 359360 – 399

13150442299115

34 9 5

13 163 605 9041019105310621067

1,214,141,428,010,8 3,2 0,8 0,5

1,215,356,784,795,598,799,5100,0

5 48265458281128 35 7

5 53 318 7761057118512201227

0,4 3,921,637,322,910,4 2,9 0,6

0,44,325,963,286,196,599,4100,0

1067 100,0 1227 100,0

Grafik batang (bar charts)•Grafik yang biasanya digunakan

untuk menampilkan distribusi frekuensi dari data nominal atau ordinal

•Aksis horizontal (X) mewakili kelompok data pengamatan, aksis vertikal melambangkan frekuensi, atau frekuensi relatif.

•Lebar masing-masing batang haruslah sama, dan tidak berhimpit satu sama lain.

CONTOH

Grafik Distribusi Frekuensi Mahasiswa FK UNSOED 2008 berdasar etnis

Histogram• Bentuk khusus dari grafik batang untuk

menampilkan distribusi frekuensi atau frekuensi relatif dari data diskrit atau kontinu.

• Aksis horizontal melambangkan batas sebenarnya (true limits) dari interval kelas.

• True limits merupakan batas sebenarnya antara 2 interval kelas yang saling berimpitan.

• Aksis vertikal melambangkan frekuensi atau frekuensi relatif dari masing-masing interval kelas.

• Batang harus saling berimpitan, dan frekuensi dilambangkan dengan luas area batang, bukan tinggi batang.

Cont’d•Aksis vertikal harus dimulai dari nol•Batang diletakkan ditengah, dengan

midpoint berada tepat ditengah batang, tepi batang saling berimpitan antara batas benar satu kelas dengan kelas yang lain

Contoh true limits

Interval Kelas Batas Benar Mid Point Frekuensi

30 – 3940 – 4950 – 5960 – 6970 – 7980 – 89

29,5 – 39,539,5 – 49,549,5 – 59,559,5 – 69,569,5 – 79,579,5 – 89,5

34,544,554,564,574,584,5

1146704516 1

189

Contoh Histogram

Poligon FREKUENSi• Bentuk khusus dari grafik garis• Sifat menyerupai histogram• Menghubungkan (membuat garis) antar titik

tengah dari batang pada histogram.• Ujung garis harus mencapai titik nol pada aksis

horisontal• Aksis vertikal biasanya berupa frekuensi relatif• Bermanfaat untuk membandingkan 2 data set /

pengamatan yang berbeda mengenai hal yang sama.

• Dikenal pula poligon frekuensi kumulatif untuk frekuensi relatif kumulatif

Box Plots• Disebut juga box whisker plots• Merupakan grafik aksis tunggal• Dapat berupa aksis horizontal maupun vertikal• Menampilkan ringkasan data berupa sebaran /

dispersi data dalam hal ini adalah kuartil dan persentil.

• Untuk membuat box plot harus ditentukan- Q1 = P25- Q3 = P75- Q2 = P50- Interquartile range- Adjacent value- Outliers

Cont’d• Menentukan lokasi kuartil:

Data diurutkanQ1 = n + 1 data yang diurutkan

4• Nilai Q1 = L + b ( S-L)• Q3 dan Q2 menyesuaikan• Adjacent value =

- Atas : Q3 + 1,5 x (Q3-Q1) - Bawah ; Q1 - 1,5 x (Q3 –Q1)

• Adjacent value mencakup 99 % dari seluruh pengamatan

• Outlier dilambangkan dengan titik (lingkaran).

Two way scatter plot•Menggambarkan hubungan antara

dua variabel kontinu•Setiap titik merupakan pasangan

(perpotongan) dari dua nilai •Penyebaran titik menggambarkan

kekuatan dan arah hubungan antar dua variabel

Introduction to Biostatistic_chem III

Documents

data set hasil pengamatan

meanmeasure of dispersionrange

dihitung rerata kelompok

rerata kelompok dihitung

tujuan penampilan data

ukuran tendensi sentral

setengah hasil pengamatan

menjumlahkan hasil diatas