ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA DATA INDIKATOR KEMISKINAN (Studi Kasus Data Indikator Kemiskinan Kabupaten di Indonesia Tahun 2009) Febriyana PROGRAM STUDI MATEMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA 2011 M / 1432 H
73
Embed
ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA DATA … · 2013-05-27 · ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA DATA INDIKATOR KEMISKINAN (Studi Kasus Data Indikator Kemiskinan Kabupaten
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA
DATA INDIKATOR KEMISKINAN (Studi Kasus Data Indikator Kemiskinan Kabupaten di Indonesia Tahun 2009)
Febriyana
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI
SYARIF HIDAYATULLAH
JAKARTA
2011 M / 1432 H
ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA
DATA INDIKATOR KEMISKINAN (Studi Kasus Data Indikator Kemiskinan Kabupaten di Indonesia Tahun 2009)
Skripsi Sebagai Satu Syarat Untuk Memperoleh
Gelar Sarjana Sains
Fakultas Sains dan Teknologi
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Oleh
Febriyana
107094002893
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI
SYARIF HIDAYATULLAH
JAKARTA
2011 M / 1432 H
ii
PENGESAHAN PEMBIMBING
ANALISIS KLASTER K-MEANS DAN K-MEDIAN PADA DATA
INDIKATOR KEMISKINAN
(Studi Kasus Data Indikator Kemiskinan Kabupaten di Indonesia Tahun 2009)
Skripsi Sebagai satu syarat untuk memperoleh
Gelar sarjana sains Fakultas Sains dan Teknologi
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Oleh
Febriyana
107094002893
Menyetujui,
Dosen Pembimbing I Dosen Pembimbing II
Suma’inna, M.Si Bambang Ruswandi, M. Stat NIP. 150 408 699 NIDN. 0305108301
Mengetahui : Ketua Program Studi Matematika
Yanne Irene, M. Si NIP. 19741231 200501 2018
iii
PENGESAHAN UJIAN
Skripsi berjudul “Analisis Klaster K-Means dan K-Median Pada Data Indikator Kemiskinan” yang ditulis oleh Febriyana, NIM 107094002893 telah di uji dan dinyatakankan lulus dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 8 Juni 2011 Skripsi ini telah diterima sebagai salah satu syarat untuk memperoleh gelar sarjana strata satu (S1) Program Matematika.
Menyetujui,
Penguji 1, Penguji 2,
Taufik Edy Sutanto, M. ScTech Dr. Agus Salim, M.Si NIP. 19790530 200604 1002 NIP. 19720816 199903 1 003
Pembimbing 1, Pembimbing 2,
Suma’inna, M.Si Bambang Ruswandi, M. Stat NIP. 150408699 NIDN. 0305108301
Mengetahui :
Dekan Fakultas Sains dan Teknologi, Ketua Program Studi Matematika,
DR. Syopiansyah Jaya Putra, M. Sis Yanne Irene, M. Si NIP. 19680117 200112 1001 NIP. 19741231 200501 2018
iv
PERNYATAAN
DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-
BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN
SEBAGAI SKRIPSI PADA PERGURUAN TINGGI ATAU LEMBAGA
MANAPUN.
Jakarta, Juni 2011
Febriyana 107094002893
Karya ini ku persembahkan untuk
Orangtuaku tercinta yang telah banyak mencurahkan
kasih sayang dan dukungan baik moril maupun materi
Fitriana Fadhillah
Kedua adikku
Motto
Sesungguhnya setelah kesulitan terdapat kemudahan. Setelah
tangisan terdapat senyuman. Dan segala kesulitan akan
berakhir dengan izin Allah.
v
ABSTRAK
Analisis klaster merupakan salah satu metode multivariate yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristiknya, sehingga objek yang terletak pada satu klaster memiliki kemiripan yang lebih besar dibandingkan dengan objek pengamatan yang terletak pada klaster lain. K-means merupakan salah satu metode pengklasteran tidak berhirarki yang paling banyak digunakan, namun karena menggunakan rataan sebagai pusat klasternya, metode ini lebih sensitif terhadap keberadaan pencilan pada data. Metode K-median yang menggunakan median sebagai nilai pusat klasternya dinilai dapat mengatasi adanya pencilan. Penelitian ini bertujuan untuk membandingkan hasil analisis klaster k-means dengan k-median dari data indikator kemiskinan kabupaten di Indonesia tahun 2009.
Hasil pengklasteran menunjukkan bahwa pada metode k-means klaster pertama terdapat 395 kabupaten dan pada klaster kedua terdapat 76 kabupaten. Sedangkan pada metode k-median pada klaster pertama terdapat 99 kabupaten dan pada klaster kedua terdapat 372 kabupaten. Berdasarkan nilai ketepatan klasifikasi klaster K-means memiliki tingkat ketepatan klasifikasi yang lebih baik yaitu sebesar 98,51 Sedangkan pada k-median tingkat ketepatan klasifikasi sebesar 97,57%. Sehingga dapat disimpulkan bahwa pada kasus ini metode pengklasteran k-means lebih baik dibandingkan dengan k-median.
Kata Kunci: Kemiskinan, K-means, K-median
ABSTRACT
Cluster analysis is one of the multivariate method which aims to classify objects based on similarity or dissimilarity its characteristics, so that objects located in one cluster has a similarity larger than the object of observation is located in another cluster. K-means clustering is one method does not berhirarki the most commonly used, but because it uses the mean as the center of the cluster, this method is more sensitive to the presence of outliers in the data. K-medians method that uses the median as a central value can cope with the outliers. This study aimed to compare the results of k-means cluster analysis with k-median of district poverty indicators in Indonesia in 2009.
Clustering results show that the method of k-means clustering, the first cluster there are 395 districts and the second cluster there are 76 districts. While the k-median method, the first cluster there are 99 districts and the second cluster there are 372 districts. Based on the classification accuracy of K-means cluster has the level of a better classification accuracy that is equal to 98.51, while the k-median level of classification accuracy of 97.57%. So it can be concluded that in this case k-means clustering method is better than the k-median.
Keywords : Poverty, K-means, K-median
vii
KATA PENGANTAR
Segala puji dan syukur yang sebesar-besarnya penulis panjatkan kehadirat
Allah SWT, karena dengan rahmat dan karunia-Nya penulis dapat menyelesaikan
tugas akhir ini tepat pada waktunya. Shalawat serta salam semoga selalu tercurah
kepada Nabi Muhammad SAW, keluarga, sahabat serta segenap umatnya.
Penulis sadar bahwa skripsi ini tidak akan selesai bila penulis tidak
mendapat bantuan dari berbagai pihak, baik bantuan secara langsung maupun
dukungan moril dan doa. Oleh karena itu penulis ingin mengucapkan terima kasih
yang sebesar-besarya kepada:
1. Dr. Syopyansyah Jaya Putra, M.Si, Dekan Fakultas Sains dan Teknologi UIN
Syarif Hidayatullah Jakarta.
2. Ibu Yanne Irene, M.Si, Ketua Program Studi Matematika dan Ibu Suma’inna,
M.Si, Sekretaris Program Studi Matematika.
3. Ibu Suma’inna, M.Si, sebagai Dosen Pembimbing I, yang telah meluangkan
waktunya untuk memberikan bimbingan dan pengarahan hingga
terselesaikannya skripsi ini.
4. Bapak Bambang Ruswandi, M.Stat, sebagai Dosen Pembimbing II, atas
bimbingan, saran dan bantuannya dari awal hingga terselesaikannya skripsi
ini.
5. Ayahanda tercinta yang telah menghabiskan waktu dan tenaga tanpa
mengenal batas untuk memberikan yang terbaik bagi penulis agar dapat
meraih cita-cita serta segenap kasih sayang dan perhatiannya.
viii
6. Ibunda tercinta yang selalu memberikan semagat dan dukungan kepada
penulis, atas doa, kasih sayang, dorongan, pengertian dan kesabaran yang tak
terkira hingga penulis dapat menyelesaikan skripsi ini.
7. Seluruh dosen jurusan Matematika, Fakultas Sains dan Teknologi UIN Syarif
Hidayatullah Jakarta yang telah memberikan segenap ilmu.
8. Fitriana Fadhillah yang telah meluangkan banyak waktunya untuk membantu
menyelesaikan skripsi ini serta memberikan dukungan moril dan kesabaran.
9. Dua adikku, seluruh keluarga besarku dan keluarga Dhila yang telah
memberikan perhatian, dukungan dan doanya.
10. Seluruh karyawan dan murid Primagama Pondok Cabe yang selalu
memberikan dorongan motivasi kepada penulis hingga terselesaikan skripsi
ini.
11. Seluruh teman-teman Matematika 2007 yang penuh kekeluargaan dan selalu
memberikan motivasi kepada penulis dalam menyelesaikan skripsi ini.
Penulis menyadari dalam skripsi ini masih terdapat banyak kekurangan.
Penulis mengharapkan kritik dan saran agar penulis dapat memperbaiki
kekurangan yang ada. Penulis berharap semoga tugas akhir ini bermanfaat bagi
penulis khususnya, dan pihak lain umumnya.
Jakarta, Juni 2011
Penulis
ix
DAFTAR ISI
HALAMAN JUDUL ..................................................................................... i
PENGESAHAN PEMBIMBING ................................................................. ii
PENGESAHAN UJIAN ............................................................................... iii
PERNYATAAN ............................................................................................ iv
PERSEMBAHAN DAN MOTTO
ABSTRAK ..................................................................................................... v
ABSTRACT ................................................................................................... vi
KATA PENGANTAR ................................................................................... vii
DAFTAR ISI ................................................................................................. ix
DAFTAR TABEL ......................................................................................... xi
DAFTAR LAMPIRAN ................................................................................. xii
BAB I PENDAHULUAN ......................................................................... 1
1.1. Latar Belakang ......................................................................... 1
dengan xi dan xj sebagai vektor dari nilai objek i dan j, sedangkan S
merupakan matriks kovarian.
11
2.5 K-Means Klaster
K-Means merupakan metode pengelompokkan yang paling terkenal
dan banyak digunakan di berbagai bidang karena sederhana dan mudah
diimplementasikan. K-means merupakan metode pengklasteran secara
partitioning yang memisahkan data ke dalam kelompok yang berbeda.
K-means merupakan salah satu metode pengelompokkan data
nonhirarki yang berusaha membagi data yang ada ke dalam bentuk dua atau
lebih kelompok [13]. Metode ini dikembangkan oleh Mac Queen pada tahun
1967.
Tujuan dari pengelompokkan data ini adalah untuk
meminimalisasikan fungsi objektif dalam proses pengelompokkan, yang
pada umumnya berusaha meminimalisasikan ragam di dalam suatu
kelompok dan memaksimalkan ragam antar kelompok.
Dasar algoritma K-means adalah sebagai berikut :
1. Diberikan nilai k sebagai jumlah klaster yang ingin dibentuk.
2. Bangkitkan k centroid (titik pusat klaster) awal secara random.
3. Hitung jarak setiap data ke masing-masing pusat klaster yaitu
menggunakan Euclidean Distance.
4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan
pusatnya.
5. Tentukan posisi pusat klaster baru (Ckj) dengan cara menghitung nilai
rata-rata dari data-data yang ada pada pusat klaster yang sama.
퐶 = ⋯
푗 = 1,2, … ,7 (2.3)
12
퐶 = pusat klaster ke-k pada variabel ke-j
푎 = banyak data pada klaster ke-k
2.6 K-Median Klaster
K-median merupakan salah satu metode dalam pengelompokkan.
Namun jika pada K-means pengelompokkan berdasarkan nilai rataannya,
pada K-median pengelompokkan didasarkan pada nilai mediannya [8].
Misalkan terdapat N buah data, jarak antara objek ke-i, 푥 dan objek
ke-j, 푥 dinotasikan dengan 퐶 . Dalam pemilihan suatu objek yang
representatif dalam suatu klaster (median awal), 푦 didefinisikan sebagai
variabel biner 0 dan 1, dimana y = 1 jika objek ke-i dipiih sebagai median
awal. Penempatan setiap objek ke-j ke salah satu median awal dituliskan
sebagai 푋 , dengan 푋 bernilai 0 dan 1. Jika objek j ditempatkan ke klaster
dimana objek i sebagai median maka 푋 = 1.
Berdasarkan definisi di atas, maka :
min ∑ ∑ 퐶 푋 (2.4)
dengan ` ∑ 푋 = 1 , ∀ 푗 ∈ 푁 (2.5)
푋 ≤ 푦 ∀ 푖, 푗 ∈ 푁 (2.6)
∑ 푦 = 푘 , 푘 = jumlah klaster (2.7)
푋 ∈ {0,1} ,∀ 푖, 푗 ∈ 푁 (2.8)
푦 ∈ {0,1} ,∀ 푖 ∈ 푁 (2.9)
13
Persamaan (2.4) menyatakan bahwa klaster yang terbentuk dengan
menempatkan setiap objek ke median yang terdekat. Persamaan (2.5)
menyatakan bahwa setiap objek ditempatkan pada sebuah median.
Persamaan (2.6) menyatakan bahwa penempatan objek didasarkan pada
median. Persamaan (2.7) menyatakan bahwa hanya terdapat sebuah objek
yang akan dipilih median.
Dasar algoritma K-median adalah sebagai berikut :
1. Diberikan nilai k sebagai jumlah klaster yang ingin dibentuk.
2. Bangkitkan k centroid (titik pusat klaster) awal secara random.
3. Hitung jarak setiap data ke masing-masing pusat klaster yaitu
menggunakan Euclidean Distance.
4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan
pusatnya.
5. Tentukan posisi pusat klaster baru (Ck) dengan cara menghitung nilai
median data-data yang ada pada pusat klaster yang sama.
2.7 Analisis Diskriminan
Analisis Diskriminan merupakan suatu analisis dengan tujuan
membentuk sejumlah fungsi melalui kombinasi linear variabel-variabel asal,
yang dapat digunakan sebagai cara terbaik untuk memisahkan kelompok-
kelompok individu. Fungsi yang terbentuk melalui analisis ini selanjutnya
dinamakan fungsi diskriminan [11].
Analisis diskriminan dapat digunakan jika variabel terikat terdiri dari
dua kelompok. Apabila klasifikasi terdiri dari tiga kelompok atau lebih
14
maka teknik yang digunakan adalah analisis diskriminan multipel (multiple
discriminant analysis).
Analisis diskriminan menghubungkan satu variabel terikat (non
metrik, nominal atau ordinal) dengan satu atau beberapa variabel bebas
sebagai prediktor yang merupakan metrik (interval atau rasio).
Tujuan analisis diskriminan adalah sebagai berikut :
1. Membuat suatu fungsi diskriminan atau kombinasi linier dari prediktor
atau variabel bebas yang bisa mendiskriminasi atau membedakan
kategori variabel terikat atau kelompok. Artinya mampu membedakan
suatu objek masuk kelompok atau kategori yang mana.
2. Menguji apakah ada perbedaan signifikan antar kelompok dikaitkan
dengan variabel bebas atau prediktor.
3. Menentukan prediktor atau variabel bebas mana yang memberikan
sumbangan terbesar terhadap terjadinya perbedaan antar kelompok.
4. Mengklasifikasi objek ke dalam suatu kelompok didasarkan pada nilai
variabel bebas.
5. Mengevaluasi keakuratan klasifikasi.
Adapun dalam penelitian ini tujuan yang ingin dicapai yaitu untuk
mengevaluasi keakuratan dalam mengklasifikasi.
15
Untuk menghitung seberapa besar ketepatan klasifikasi terdapat
beberapa metode, salah satunya adalah Appearent Error Rate (APER).
APER adalah persentase kesalahan yang dikelompokkan salah. APER
dihitung berdasarkan persamaan sebagai berikut :
(2.10)
1
1
l
jMj
l
jj
nAPER
n
16
BAB III
METODOLOGI PENELITIAN
3.1 Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder hasil
Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2009 yang
dilaksanakan oleh Badan Pusat Statistik (BPS). Data yang digunakan berupa
data indikator kemiskinan untuk seluruh kabupaten/kota di seluruh
Indonesia, yang terdiri dari 471 kabupaten atau kota. Data tersebut
disesuaikan dengan ketersediaan data yang ada.
3.2 Variabel Penelitian
Variabel-variabel yang digunakan pada penelitian ini dibagi dalam
beberapa bidang sebagai berikut :
a. Variabel Bidang Pekerjaan
Pengelompokkan pekerjaan dibedakan dalam dua kelompok yaitu
bekerja di bidang formal dan informal. Pekerja sektor formal adalah
seseorang yang bekerja dengan dibantu karyawan/pegawai tetap atau
bekerja sebagai karyawan/pegawai. Sedangkan pekerja di sektor
informal adalah seseorang yang berusaha sendiri, berusaha dengan
buruh tidak tetap atau buruh tidak dibayar.
b. Variabel Fasilitas Perumahan
Sebuah rumah dikategorikan rumah sehat apabila luas lantai
perkapita yang ditempati minimal sebesar 8 m2 [2].
17
Rumah tangga pengguna air bersih adalah persentase rumah
tangga yang menggunakan air minum yang berasal dari air mineral, air
leding atau PAM, pompa air, sumur atau mata air terlindung dengan
jarak ke penampungan lebih dari 10 meter.
c. Variabel Program Pemerintah
Beras untuk masyarakat miskin (Raskin) adalah salah satu
program pemerintah untuk membantu rakyat miskin dalam memenuhi
kebutuhan makanan sehari-hari. Raskin diselenggarakan oleh Badan
Urusan Logistik (Bulog) dengan cara menjual beras dengan harga
murah bersubsidi.
Variabel yang digunakan dalam penelitian ini disesuaikan dengan
ketersediaan data. Berikut adalah variabel-variabel yang digunakan:
X1 : jumlah penduduk miskin yang bekerja di bidang formal.
X2 : jumlah penduduk miskin bekerja di bidang informal.
X3 : jumlah rumah tangga dengan luas lantai kurang dari 8 m2.
X4 : jumlah rumah tangga dengan luas lantai lebih dari 8 m2.
X5 : jumlah rumah tangga menggunakan air bersih.
X6 : jumlah rumah tangga menggunakan jamban sendiri.
X7 : jumlah rumah tangga penerima raskin.
18
3.3 Uji Multikolinieritas
Uji multikolinieritas dilakukan untuk mengetahui ada tidaknya
korelasi antar variabel. Uji multikolinieritas dilakukan dengan
menggunakan nilai Variance inflation factor (VIF). Jika nilai VIF lebih
besar dari 5, maka variabel tersebut mempunyai permasalahan
multikolinieritas dengan variabel bebas lainnya [10].
3.4 Uji Normal Multivariate
Pengujian asumsi normal multivariate dilakukan pada masing-
masing data tiap klaster untuk mengetahui apakah data pada tiap klaster
tersebut menyebar mengikuti sebaran normal multivariate, dengan langkah-
langkah sebagai berikut :
a. Menghitung jarak Mahalanobis (di2) pada kelompok ke-i dengan
persamaan :
di2 = (xi - 풙횤)T S-1 (xi - 풙횤) i = 1, 2, ..., n (3.1)
di2 = jarak Mahalanobis
xi = vektor kolom berisi nilai-nilai pengamatan
풙횤 = vektor kolom berisi rataan kelompok ke-i
S = matriks kovarians
b. Mengurutkan di2 dari yang terkecil ke terbesar sehingga d1
2 < d22 < .... <
dn2 dengan n menyatakan jumlah amatan.
c. Untuk setiap nilai di2, dihitung ( , )
d. Mencari nilai χ2 untuk setiap persentil dari sebaran χ2 dengan p derajat
bebas pada tabel Khi-kuadrat.
19
e. Membuat plot antara χ2 dengan di2
Jika x ~ Np (풙, 푺) maka (xi - 풙횤)t S-1 (xi - 풙횤) ~ χ2 (p)
Apabila plot antara jarak Mahalanobis dan Khi-kuadrat mengikuti
pola garis lurus maka dapat dikatakan bahwa data berdistribusi normal
multivariate [6].
3.5 Metode Kerja
Setelah data diperoleh, langkah selanjutnya adalah melakukan
analisis data dengan menggunakan metode K-Means klaster dan K-Median
klaster. Tahapan analisis yang dilakukan sebagai berikut :
1. Menentukan banyaknya klaster yang akan dibentuk.
Dalam penelitian ini klaster yang ingin dibentuk adalah 2 klaster.
2. Lakukan metode pengklasteran K-Means dan K-Median dengan k klaster
yang didapat pada langkah 1. Tahapan yang dilakukan pada metode k-
means adalah sebagai berikut :
a. Menentukan pusat klaster awal secara acak.
b. Menghitung jarak antara setiap objek dengan pusat klaster
c. Masukkan tiap objek ke satu klaster yang memiliki jarak terdekat
dengan pusat klasternya.
d. Menghitung kembali pusat klaster yang terbentuk.
e. Ulangi dari langkah b sampai tidak ada perpindahan objek antar
klaster.
20
3. Mendeskripsikan karakteristik klaster.
Dalam mendeskripsikan klaster digunakan persamaan
X =∑
i = 1,2,3...n j=1,2,3...q (3.2)
dengan X = Rata-rata sampel (rata-rata variabel pada klaster tertentu).
nj = banyak anggota pada klaster ke-j.
xij = nilai data ke-i pada variabel ke-j
4. Uji Variance
Uji Variance dilakukan untuk melihat apakah variabel-variabel yang
telah membentuk klaster memiliki perbedaaan pada tiap klaster, serta
untuk melihat variabel yang paling berpengaruh terhadap pembentukan
klaster [9]. Hal ini dapat dilihat dengan menggunakan konsep sebagai
berikut :
푦 = 푖 = 1,2 (3.3)
푦 = rata-rata setiap variabel pada klaster ke-i
푀 = jumlah anggota pada klaster ke-i
푦 = ∑ ∑ (3.4)
푦 = rataan populasi dari variabel
푁 = banyaknya klaster
푦 = (3.5)
푦 = rata-rata populasi
푦 = nilai data ke-j pada variabel ke-k
21
휎 = ∑ ( ) 푖 = 1,2 (3.6)
휎 = variansi pada klaster ke-i
푦 = nilai data ke-j pada klaster ke-i
Internal homogenity variance within cluster (휎 ).
휎 = ∑ (3.7)
휎 = variansi dalam klaster
External homogenity variance between cluster (휎 ).
휎 = ∑ ( ) (3.8)
휎 = variansi antar klaster
휎 = (3.9)
Semakin besar nilai 휎 suatu variabel, maka semakin besar perbedaan
variabel tersebut pada ketiga klaster yang terbentuk. Hal ini dapat
digunakan sebagai metode pembanding untuk mengetahui metode
pengelompokkan mana yang lebih baik. Semakin besar nilai 휎 pada
setiap variabel maka semakin baik metode pengelompokkan tersebut.
5. Analisis Diskriminan
Analisis Diskriminan digunakan sebagai metode pembanding dalam
mengetahui seberapa besar ketepatan pengklasteran antara metode k-
means dengan k-median. Hal ini dapat dilihat dari besar nilai ketepatan
klasifikasi. Jika nilai ketepatan klasifikasi semakin besar, maka
22
pengklasteran semakin baik. Sedangkan jika nilai ketepatan klasifikasi
semakin kecil, maka pengklasteran kurang baik.
Tabel 3.1. Tabel klasifikasi
D Prediksi Total 1 2
Aktual 1 C11 C12 C11+C12 2 C21 C22 C21+C22
D = diskriminan
Menghitung seberapa besar ketepatan klasifikasi dengan
menggunakan Correct Classification Rate (CCR). CCR merupakan
persentase ketepatan nilai amatan dan dugaannya, CCR dihitung dengan
persamaan sebagai berikut :
CCR = Jumlah prediksi yang tepat x 100% Jumlah data
CCR = , , ∑ ∑
x 100% (3.10)
Menghitung persentase kesalahan dalam klasifikasi dihitung
menggunakan APER yaitu sebagai berikut :
APER = , ,
∑ ∑ x 100% (3.11)
Semakin kecil nilai APER maka tingkat ketepatan klasifikasi
semakin baik.
23
3.6 Alur Penelitian
Gambar 3.1 Alur penelitian
Setelah data diperoleh langkah selanjutnya adalah menentukan
banyaknya klaster yang ingin dibentuk, kemudian dilakukan analisis
klaster k-means dan k-median, dan membandingkan nilai ketepatan
klasifikasi kedua metode tersebut dengan menggunakan metode analisis
diskriminan dan uji variance.
Mulai
Mengumpulkan Data
Analisis Klaster 1. K-Means 2. K-Median
Menghitung ketepatan klasifikasi
Menentukan Banyaknya klaster
Selesai
Membandingkan hasil klasifikasi dengan metode analisis diskriminan dan uji variance
24
BAB IV
HASIL DAN PEMBAHASAN
4.1 Deskripsi data
Berikut adalah deskripsi statistik yang digunakan untuk melihat
gambaran dari data.
Tabel 4.1. Deskripsi data
Variabel Rataan Ragam
Jumlah penduduk miskin yang bekerja di bidang formal (X1) 14.739,49 469.459.833,04 Jumalah penduduk miskin yang bekerja di bidang informal (X2) 50.372,92 3.619.953.702,63 Jumlah rumah tangga dengan luas lantai kurang dari 8 m2 (X3) 25.890,00 923.186.607,24 Jumlah rumah tangga dengan luas lantai lebih dari 8 m2 (X4) 25.497,21 1.292.524.266,99 Jumlah rumah tangga menggunakan air bersih (X5) 28.565,88 1.525.767.394,16 Jumlah rumah tangga menggunakan jamban sendiri (X6) 37.728,63 2.320.940.940,61 Jumlah rumah tangga penerima raskin (X7) 52.043,21 4.920.493.964,93
Berdasarkan Tabel 4.1 terlihat bahwa secara rata-rata sebagian besar
penduduk miskin di indonesia bekerja di bidang informal yaitu sebesar
50.372 jiwa. Selain itu jumlah penerima raskin juga masih cukup tinggi
yaitu sebesar 52.043 rumah tangga.
25
4.2 Pengujian Asumsi Multikolinieritas
Sebelum dilakukan pengklasteran, dilakukan uji asumsi
Multikolinieritas untuk mengetahui ukuran kemiripan apa yang dapat
digunakan. Pengujian multikolinieritas didapat hasil sebagai berikut :
Kabupaten Kode K-means K-median Karangasem 1707 1 2 Buleleng 1708 1 2 Kota Denpasar 1709 1 2 Lombok Barat 1801 2 1 Lombok Tengah 1802 2 1 Lombok Timur 1803 2 1 Sumbawa 1804 1 1 Dompu 1805 1 2 Bima 1806 1 2 Sumbawa Barat 1807 1 2 Kota Mataram 1808 1 2 Kota Bima 1809 1 2 Sumba Barat 1901 1 2 Sumba Timur 1902 1 2 Kupang 1903 1 1 Timor Tengah Selatan 1904 2 1 Timor Tengah Utara 1905 1 2 Belu 1906 1 2 Alor 1907 1 2 Lembata 1908 1 2 Flores Timur 1909 1 2 Sikka 1910 1 2 Ende 1911 1 2 Ngada 1912 1 2 Manggarai 1913 1 2 Rote Ndao 1914 1 2 Manggarai Barat 1915 1 2 Sumba Barat Daya 1916 1 2 Sumba Tengah 1917 1 2 Nagekeo 1918 1 2 Manggarai Timur 1919 1 2 Kota Kupang 1920 1 2 Sambas 2001 1 2 Bengkayang 2002 1 2 Landak 2003 1 2 Pontianak 2004 1 2 Sanggau 2005 1 2 Ketapang 2006 1 2
49
Kabupaten Kode K-means K-median Sintang 2007 1 2 Kapuas Hulu 2008 1 2 Sekadau 2009 1 2 Melawi 2010 1 2 Kayong Utara 2011 1 2 Kubu Raya 2012 1 2 Kota Pontianak 2013 1 2 Kota Singkawa 2014 1 2 Kotawaringin Barat 2101 1 2 Kotawaringin Timur 2102 1 2 Kapuas 2103 1 2 Barito Selatan 2104 1 2 Barito Utara 2105 1 2 Sukamara 2106 1 2 Lamandau 2107 1 2 Seruyan 2108 1 2 Katingan 2109 1 2 Pulang Pisau 2110 1 2 Gunung Mas 2111 1 2 Barito Timur 2112 1 2 Murung Raya 2113 1 2 Kota Palangka Raya 2114 1 2 Tanah Laut 2201 1 2 Kota Baru 2202 1 2 Banjar 2203 1 2 Barito Kuala 2204 1 2 Tapin 2205 1 2 Hulu Sungai Selatan 2206 1 2 Hulu Sungai Tengah 2207 1 2 Hulu Sungai Utara 2208 1 2 Tabalong 2209 1 2 Tanah Bumbu 2210 1 2 Balanga 2211 1 2 Banjarmasin 2212 1 2 Banjar Baru 2213 1 2 Pasir 2301 1 2 Kutai Barat 2302 1 2 Kutai 2303 1 2
50
Kabupaten Kode K-means K-median Kutai Timur 2304 1 2 Berau 2305 1 2 Malinau 2306 1 2 Bulungan 2307 1 2 Nunukan 2308 1 2 Penajam Paser Utara 2309 1 2 Tana Tidung 2310 1 2 Kota Balikpapan 2311 1 2 Kota Samarinda 2312 1 2 Kota Tarakan 2313 1 2 Kota Bontang 2314 1 2 Bolaang Mongondow 2401 1 2 Minahasa 2402 1 2 Kep. Sangihe Talaud 2403 1 2 Kep. Talaud 2404 1 2 Minahasa Selatan 2405 1 2 Minahasa Utara 2406 1 2 Bolaang Mongondow Utara 2407 1 2 Kep. Sitaro 2408 1 2 Minahasa Tenggara 2409 1 2 Kota Manado 2410 1 2 Kota Bitung 2411 1 2 Kota Tomohon 2412 1 2 Kota Kotamobagu 2413 1 2 Banggai Kepulauan 2501 1 2 Banggai 2502 1 2 Morowali 2503 1 2 Poso 2504 1 2 Donggala 2505 1 2 Toli Toli 2506 1 2 Buol 2507 1 2 Parigi Moutong 2508 1 2 Tojo Una-Una 2509 1 2 Kota Palu 2510 1 2 Selayar 2601 1 2 Bulukumba 2602 1 2 Bantaeng 2603 1 2
51
Kabupaten Kode K-means K-median Jeneponto 2604 1 2 Takalar 2605 1 2 Gowa 2606 1 2 Sinjai 2607 1 2 Maros 2608 1 2 Pangkajene Kepulauan 2609 1 2 Barru 2610 1 2 Bone 2611 1 2 Soppeng 2612 1 2 Wajo 2613 1 2 Sidenreng Rappang 2614 1 2 Pinrang 2615 1 2 Enrekang 2616 1 2 Luwu 2617 1 2 Tana Toraja 2618 1 2 Luwu Utara 2619 1 2 Luwu Timur 2620 1 2 Kota Makassar 2621 1 2 Kota Pare Pare 2622 1 2 Kota Palopo 2623 1 2 Buton 2701 1 2 Muna 2702 1 2 Kendari 2703 1 2 Kolaka 2704 1 2 Konawe Selatan 2705 1 2 Bombana 2706 1 2 Wakatobi 2707 1 2 Kolaka Utara 2708 1 2 Buton 2709 1 2 Konawe Utara 2710 1 2 Kota Kendari 2711 1 2 Kota Baubau 2712 1 2 Boalemo 2801 1 2 Gorontalo 2802 1 2 Pohuwato 2803 1 2 Bone Bolange 2804 1 2 Gorontalo Utara 2805 1 2 Kota Gorontalo 2806 1 2
52
Kabupaten Kode K-means K-median Majene 2901 1 2 Polewali Mamasa 2902 1 2 Mamasa 2903 1 2 Mamuju 2904 1 2 Mamuju Utara 2905 1 2 Maluku Tenggara Barat 3001 1 2 Maluku Tenggara 3002 1 2 Maluku Tengah 3003 1 2 Buru 3004 1 2 Kepulauan Aru 3005 1 2 Seram Bagian Barat 3006 1 2 Seram Bagian Timur 3007 1 2 Kota Ambon 3008 1 2 Kota Tual 3009 1 2 Halmahera Barat 3101 1 2 Halmahera Tengah 3102 1 2 Kepulauan Sula 3103 1 2 Halmahera Selatan 3104 1 2 Halmahera Utara 3105 1 2 Halmahera Timur 3106 1 2 Kota Ternate 3107 1 2 Kota Tidore Kepulauan 3108 1 2 Fakfak 3201 1 2 Kaimana 3202 1 2 Teluk Wondama 3203 1 2 Teluk Bintuni 3204 1 2 Manokwari 3205 1 2 Sorong Selatan 3206 1 2 Sorong 3207 1 2 Raja Ampat 3208 1 2 Kota Sorong 3209 1 2 Merauke 3301 1 2 Jayawijaya 3302 1 2 Jayapura 3303 1 2 Nabire 3304 1 2 Yapin Waropen 3305 1 2 Biak Numfor 3306 1 2 Paniai 3307 1 2