Transcript
STATISTIK DESKRIPTIF
DEFINISI
Statistik deskriptif merupakan metode yang terdiri dari mengumpulkan data, menyajikannya, dan mendeskripsikan data menggunakan tabel, grafik, dan kesimpulan perhitungan.
Urutan penyelesaian dalam pengerjaan statistik : Data diurut dari kecil ke besar, dan menentukan nilai minimum dan maksimumnya.
Dicari jumlah kelas (k) berdasar patok: k = √n, dimana n = jumlah data
Interval antar klas = (nilai maksimum – minimum) dibagi k, dibulatkan ke bawah
Menghitung frekuensi data berdasar jumlah data yang memenuhi interval klas.
Organizing and Graphing Data
Present the qualitative data
PERHITUNGAN DALAM DESKRIPTIF
Mean
n
Xin
i
1X
Eg: 9.2, 6.4, 10.5, 8.1, 7.8
Xrata2x=(9.2, 6.4, 10.5, 8.1, 7.8)/5=8.4
6 7 8 9 10 11 5 12
X
Median Median diperoleh dengan mengambil data yang berada di tengah setelah seluruh data diurut dari terkecil ke terbesar.
Eg1: 9.2, 6.4, 10.5, 8.1, 7.8
6.4,7.8, 8.1, 9.2,10.5
Eg2: 500,550,550,550,600,700,750,2000
Mean: 775 Median:
(550+600)/2=575
-Cocok utk distribusi yang sangat asimetri
Mode
Merupakan nilai x pada posisi P(X≤x) maksimum atau berupa nilai x yang paling sering muncul.
Contoh : data asli random 1, 2, 2, 3, 4, 7, 9 maka besaran mode = 2
Skewness Merupakan ukuran dari derajat ketidak simetrian bentuk distribusi dibanding bentuk distribusi normal, atau dapat diartikan sebagai perbedaan posisi Mean dan Mode.
X =
Bila X = 0 berarti distribusinya simestris (Gaussian), bila X > 0 (positive skew) berarti distribusinya memiliki puncak (menceng) ke kiri atau mode < mean, dan sebaliknya (negative skew)
3
13
)(*)2(*)1(
X
n
i
i
X
Xnn
n
Kurtosis X =
Merupakan derajat kelancipan dari bentuk puncak kurva.
Kurtosis = x = g2 = bentuk puncak kurva, bila = 3 berarti distribusi normal, bila > 3 ekor kurva (tail) agak menggembung.
D: Laplace distribution, kurva merah, excess
kurtosis = 3
S: hyperbolic secant distribution, kurva oranye,
excess kurtosis = 2
L: logistic distribution, kurva hijau, excess kurtosis
= 1.2
N: normal distribution, kurva hitam, excess
kurtosis = 0
C: raised cosine distribution, kurva biru hijau,
excess kurtosis = −0.593762...
W: Wigner semicircle distribution, kurva biru,
excess kurtosis = −1
U: uniform distribution, kurva ungu magenta,
excess kurtosis = −1.2.
)3)(2(
)1(3))(
*)3(*)2(*)1(
)1.((
24
14
nn
nX
nnn
nnX
n
i
i
X
Momen
Merupakan besaran selisih antara posisi data dengan mean data, jadi pada data ke n besaran central momen dari distribusi probabilitas random dengan variabel X sebesar :
dalam hal ini nilainya = 0.
Varians
Merupakan nilai yang menunjukkan penyebaran dari kurva probabilitas, juga menunjukkan lebar atau sempitnya kurva. Disimbolkan sebagai X
2 atau besaran standard deviasi dikuadratkan.
Contoh Variation
0 5 10
0 5 10
A
B
BA XX
Apa perbedaan antara 2 penyebaran data di atas???
Covariance (coefficient of variation) = Cv Merupakan ukuran mean dan variance untuk mendiskripsikan keterkaitan antara satu kurva dengan lainnya.
Distribusi dengan CV < 1 (misal Erlang distribution) dikategorikan low-variance, sementara bila CV > 1 (misal hyper-exponential distribution) dikelompokkan high-variance.
Standard Deviasi
Merupakan nilai penyebaran yang lain terkait variance berupa akar kuadrat dari variance yang positiv atau jarak (selisih) rata-rata data terhadap mean.
X =
2
1
)()1(
1X
n
i
iXn
Contingency table
Digunakan untuk mencatat dan menganalisa hubungan antara 2 variabel data categorical (discrete) meskipun keduanya kadang tidak saling berhubungan.
Contoh dalam tabel dibawah. menunjukkan antar variabel dalam tabel yang tidak dapat diinterpolasi.
Tangan
Kanan
Tangan
Kidal Total
Laki-laki 43 9 52
Perempuan 44 4 48
Total 87 13 100
Sample Quartile (n>25)
Lower (first) quartile, Q1=25th percentile
Second quartile (median), Q2=50th percentile
Upper (third) quartile, Q3=75th percentile
54.4 55.9 56.7 59.4 60.2 61.0 62.1 63.8 65.7 67.9
54.5 55.9 56.8 59.4 60.3 61.4 62.6 64.0 66.2 68.2
55.0 56.2 57.2 59.5 60.5 61.7 62.7 64.6 66.8 68.9
55.7 56.4 57.6 59.8 60.6 68.8 63.1 64.8 67.0 69.4
55.8 56.4 58.9 60.0 60.8 62.0 63.6 64.9 67.1 77.1
Contoh Soal :
1. Terdapat data hasil pengukuran pada test “Penetrasi
Aspal” dari sampel sebanyak 20 unit.
a. Hitunglah Mean, Median, dan Mode serta standard
deviasinya!
b. Hitunglah Skewness dan bagaimana distribusinya
berdasar nilai skewness ini?
c. Hitunglah Kurtosis dan jelaskan distribusinya berdasar
nilai Kurtosis ini?
60 68 75 77 80 74 64 65 67 68 72 76 82 87 63 82 65 70 73 68
Jawaban :
TUGAS : (kumpulkan minggu depan)
The following table gives the frequency distribution of the total miles driven during 2009 by 300 car owners.
Task
1. Plot the data menggunakan histogram.
2. Hitung mean dan median
3. Hitung varians?
4. Hitunglah Skewness dan bagaimana distribusinya berdasar nilai skewness ini?
5. Hitunglah Kurtosis dan jelaskan distribusinya berdasar nilai Kurtosis ini?
BENTUK SAJIAN DAN TAMPILAN DATA
Sajian dan tampilan lain berupa gambar atau grafik yang dapat digunakan untuk menunjukkan berbagai hubungan antar data, hasil analisis keseluruhan data maupun masing-masing individu data.
MACAM BENTUK SAJIAN DATA
SCATTER PLOT Menunjukkan hubungan antara dua variabel yang dapat digunakan untuk mencari kesimpulan ada atau tidaknya hubungan antara kedua variabel tersebut.
Berdasar gambar atau grafik ini dapat diinterpretasikan atau dilakukan analisis lebih lanjut misalnya dengan menambah reference line, atau regression line dan perhitungan statistik lain.
SCATTER PLOT
Umur (bulan)
CB
R (
%)
6050403020100
100
80
60
40
20
0
36
80
Hubungan CBR dengan Umur Perkerasann = 50
MATRIX PLOT Menunjukkan hubungan antara beberapa pasang variable sekaligus. Grafik ini digunakan untuk menampilkan tambahan variabel yang ingin ditampilkan dalam satu grafik, tetapi jangan sampai membuat sulit untuk menarik kesimpulan atau mempelajari pola data yang ada.
MATRIX PLOT
CBR
100
50
0
Umur
angka
321
50250
50
25
0
100500
3
2
1
Matrix Plot of CBR; Umur; Kondisi Lalulintas
Angka = kondisi lalu lintas Ringan (1), Sedang (2) , Berat (3)Umur
CB
R
604530150
100
80
60
40
20
0
angka
321
Matrix Plot of CBR vs Umur; angka
MARGINAL PLOT Sama dengan scatterplot, tetapi ditambah histogram, dotplot, atau boxplot pada setiap variablenya diletakkan pada sela-sela gambar atau grafik.
Umur
CB
R
6050403020100
100
80
60
40
20
0
Marginal Plot of CBR vs Umur
HISTOGRAM Menampilkan bentuk kurva (probabilitas) kejadian. Sumbu x berupa variabel data yang ingin ditampilkan dan sumbu y berupa jumlah data asli atau hitungan prosentase frekuensi.
Hitungan histogram ini berguna untuk analisis probabilitas.
HISTOGRAM
CBR
Fre
qu
en
cy
100806040200
12
10
8
6
4
2
0
Mean 57.94
StDev 24.95
N 50
Histogram of CBRNormal
DOTPLOT
menampilkan gambar yang sederhana (gambar 2.7), tampilan menarik yang menunjukkan spread (sebaran), extremes (nilai maksimal), centering(nilai tengah), dan voids atau gap dalam data.
DOTPLOT
*
*
* *
*
*
*
* *
*
*
* *
*
* *
* * * * *
0 1 2 3 4 5 6 7 8
CBR (%)
Jum
lah
da
ta
98847056422814
Dotplot of CBR
STEM AND LEAF
Menampilkan nilai data actual dalam format grafik tabel terhadap data yang
dipilih dan langsung dapat digunakan untuk memperkirakan nilai statistik yang
tidak terlihat dari data aslinya, terutama median (atau nilai tengah dari data),
percentile, dan quartile serta menunjukkan perkiraan bentuk kurvanya.
Stem berupa digit pertama atau kedua dan seterusnya sedang leaf adalah digit
terakhir dibelakang koma. Dalam gambar 2.8 median adalah (65 + 65)/2 = 65
berasal dari data ke 25 dan 26. Lef unit =1, Stem unit = 10. Angka juga boleh
dibulatkan, dan memuat angka negatif.
Data outlier : nilai data yang extreme atau berbeda jauh dari data lainnya. Outlier
dapat diplot dengan meletakkan beda baris, atau mengabaikan data tersebut.
STEM AND LEAF
Jumlah
Data
2 0 7 7
2 1 2 5
3 2 0 7 7
6 3 0 0 3 5 6 7
8 4 2 4 5 5 6 7 7 9
9 6 2 4 4 5 5 5 5 6 8
10 7 0 3 3 3 4 4 5 6 7 8
5 8 0 2 4 5 8
5 9 0 2 2 7 9
50
Stem Leaf
PROBABILITY PLOT Menampilkan kebenaran dan kesesuaian data dalam mengikuti bentuk distribusi tertentu dilengkapi confidence interval = CI (95%).
Grafik ini dapat terlihat kesesuaian garis trend atau simplifikasinya dengan meninjau banyaknya data yang ada dalam batas CI tersebut. Lihat skala pada sumbu Y tidak selalu linier, dan nilainya merupakan cumulatif dari frekuensi kejadian dalam persen
CBR
Pe
rce
nt
1251007550250
99
95
90
80
70
60
50
40
30
20
10
5
1
Mean
0.037
57.94
StDev 24.95
N 50
AD 0.795
P-Value
Probability Plot of CBRNormal - 95% CI
EMPIRICAL CDF Sama dengan probability plot dengan skala Y selalu linear.
CBR (%)
Pe
rse
nta
se
Ku
mu
latif
(%
)
120100806040200
100
80
60
40
20
0
Mean 57.94
StDev 24.95
N 50
Empirical CDF of CBRNormal
CBR (%)
Pe
rse
nta
se
Ku
mu
latif
(%
)
9585756555453525155
100
80
60
40
20
0
Mean 57.94
N 50
Empirical CDF of CBRExponential
BOXPLOT Membandingkan karakter sample distribusi misalnya median, range, dan symetry, serta identifikasi lainnya.
Boxplot diperlukan untuk lebih dari satu set data.
100
80
60
40
20
0
CBR CBRJATIM
65 64.5
Boxplot of CBR SURABAYA (CBR); CBR JAWA TIMUR (CBRJATIM)
INTERVAL PLOT Membandingkan nilai mean dan confidence intervalnya, sebagai simplifikasi dari boxplot dengan meninjau data yang paling sering muncul saja.
Tampilan harus berasal minimal dari 2 kelompok data, tampilan ini sangat sesuai untuk jumlah kelompok data yang sangat besar.
INDIVIDUAL VALUE PLOT Mempelajari dan membandingkan nilai tiap data.
Tampilan ini dapat dipelajari akurasi hasil pengamatan, dan pola data secara umum.
Da
ta
CBRCBRJATIM
100
80
60
40
20
0
57.6257.62 57.9457.94
64.564.5 6565
Individual Value Plot of CBRJATIM; CBR
BAR CHART Membandingkan ringkasan statistic, misalnya mean dari semua kelompok data.
Tampilan ini cocok untuk data dengan kelas data atau kelompok data banyak, terutama data sosial
Kelompok
Pe
rem
pu
an
> 75
th
70-74
65-6
9
60-64
55-5
9
50-54
45-4
9
40-44
35-3
9
30-34
25-2
9
20-24
15-1
9
10-14
5-9
0-4
2000
1500
1000
500
0
Chart of Perempuan vs Kelompok UmurKecamatan Benowo, Surabaya, 2003
PIE CHART Menunjukkan kombinasi relative dari setiap grup terhadap keseluruhan data.
Dapat digunakan untuk menunjukkan unit terbanyak pada satu populasi data.
Category
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
0-4
70-74
> 75 th
5-9
10-14
15-19
Pie Chart of Lakilaki vs Kelompok
Lakilaki 0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
TIME SERIES PLOT Untuk data yang dikumpulkan dengan interval waktu yang sama dan dalam urutan kronologis atau sejarah kejadian.
Year
Pro
du
ksi Ik
an
S
ura
ba
ya
[to
n]
20052004200320022001
9400
9200
9000
8800
8600
8400
8200
8000
7800
Time Series Plot of Produksi Ikan
AREA GRAPH Menunjukkan komposisi dari jumlahan hitungan yang berubah sesuai waktu dengan data yang disusun berurut.
Grafik ini sesuai untuk tampilan data histori lebih dari satu, atau untuk membandingkan antara agregat data dengan data total.
Year
Da
ta
20052004200320022001
12000
10000
8000
6000
4000
2000
0
Variable
Produksi Ikan
Kerang
Area Graph of Produksi Ikan; Kerang
20012002
20032004
2005
Ikan
Kerang0
500
1000
1500
2000
Ikan
Kerang
CONTOUR PLOT Memetakan nilai pengukuran sebagai fungsi dari dua variables lain yang dapat ditampilkan dalam beberapa bentuk tampilan grafis. Variabel yang dapat ditampilkan minimal 3 jenis, tidak harus berupa data historis.
Tahun
Ke
ran
g
20052004200320022001
1500
1450
1400
1350
1300
1250
Produksi Ikan
8200 - 8400
8400 - 8600
8600 - 8800
8800 - 9000
9000 - 9200
<
> 9200
8000
8000 - 8200
Contour Plot of Produksi Ikan vs Kerang; Tahun
2001
2003
2005
0
500
1000
1500
2000
2500
3000
3500
Kerang
Ikan
3D SCATTERPLOT Memplotkan hasil tiap hasi observasi individual dalam 3 dimensi yang didefinisikan oleh variabel yang tertuang dalam sumbu x-, y-, dan z.
1500
1400
Produksi Ikan
8000
8400
8800
9200
Kerang13002001.02002.5 12002004.0
2005.5Tahun
3D Scatterplot of Produksi Ikan vs Kerang vs Tahun
60
400
CBR50
Umur
100
2012 0
3angka
3D Scatterplot of CBR vs Umur vs angka
3D Surface Plot Seperti untuk 3D scatterplot tetapi menampilkan permukaan yang menerus atau grid disamping titik pada tiap individu data, dan tampilan ini juga lebih sesuai untuk non data serie
60
400
CBR50
Umur
100
2012 0
3angka
Surface Plot of CBR vs Umur; angka
Pemilihan Bentuk tampilan data yang terbaik
Kegunaan tampilan Pilihan
Mencari hubungan antara
sepasang variable · Scatterplot – Menunjukkan
hubungan antara dua variabel.
· Matrix Plot – Menunjukkan
hubungan antara beberapa
pasang variable sekaligus.
· Marginal Plot – Sama dengan
scatterplot, tetapi ditambah
histogram, dotplot, atau boxplot
pada setiap variablenya
diletakkan pada sela-sela gambar atau grafik.
Mencari bentuk distribusi · Histogram – Menampilkan
bentuk dan nilai tengah dari data.
· Dotplot – Sama dengan
histogram, tetapi lebih bermanfaat
untuk data yang jumlahnya kecil.
· Stem-and-Leaf – Menampilkan
nilai data actual dalam format
tabung.
· Probability Plot – Menampilkan
kebenaran dan kesesuaian data
dalam mengikuti bentuk distribusi
tertentu.
· Empirical CDF – Sama dengan
probability plot, tetapi skalanya
selalu linear.
· Boxplot – Membandingkan
karakter sample distribusi
misalnya median, range, dan symetry, serta identifikasi lainnya.
Kegunaan tampilan Pilihan
Membandingkan ringkasan atau
masing-masing variable nilai
individual
· Boxplot – Membandingkan sample
dari karakteristik dan cirri terpilih
lainnya pada distribusi.
· Interval Plot – Membandingkan rata-
rata dan confidence intervalnya.
· Individual Value Plot – Mempelajari
dan membandingkan nilai tiap data.
· Bar Chart – Membandingkan
ringkasan statistic, misalnya mean dari
semua kelompok data.
· Pie Chart – Menunjukkan kombinasi
relative dari setiap grup terhadap
keseluruhan data.
Menunjukkan distribusi hasil olahan
data.
· Bar Chart – Membandingkan
distribusi hasil dari pendataan.
· Pie Chart – Membandingkan
proporsi dari tiap kelompok data
terhadap keseluruhan.
Menggambarkan suatu uratan data
terhadap waktu
· Time Series Plot – untuk data yang
dikumpulkan dengan interval waktu
yang sama dan dalam urutan kronologis
atau sejarah kejadian.
· Area Graph – menunjukkan
komposisi dari jumlahan hitungan yang
berubah sesuai waktu dengan data
yang disusun berurut.
· Scatterplot – untuk data yang
dikumpulkan dengan interval tidak
teratur atau irregular atau tidak dalam
urutan kronologis tertentu saat
memasukkan dalam worksheet.
Pemilihan Bentuk tampilan data yang terbaik
Kegunaan tampilan Pilihan
Menunjukkan hubungan antara tiga
variabel
· Contour Plot – Memetakan nilai
pengukuran sebagai fungsi dari dua
variables lain.
· 3D Scatterplot – Memplotkan hasil tiap
hasi observasi individual dalam 3 dimensi
yang didefinisikan oleh variabel yang
tertuang dalam sumbu x-, y-, dan z.
· 3D Surface Plot – Seperti untuk 3D
scatterplot tetapi menampilkan permukaan
yang menerus atau grid disamping titik
pada tiap individu data.
top related