1 BAB I PENDAHULUAN 1.1 Latar Belakang Kehidupan di dunia ini semakin hari semakin meningkat. Berdasarkan hasil laporan lembaga internasional organisasi untuk kerja sama dan pembangunan ekonomi atau OECD (Organisation for Economic Co-operation and Develpoment) pada tahun 2014, negara-negara yang ikut dalam organisasi ini memiliki indeks negara dengan kehidupan yang baik. Indeks ini menentukan seberapa baik negara tersebut untuk ditinggali, dan digunakan untuk menentukan serta menyatukan langkah-langkah internasional untuk menyesuaikan kesejahteraan sesuai dengan rekomendasi yang ada. Berdasarkan hasil laporan tersebut memuat indeks-indeks dengan beberapa dimensi yang dapat menentukan tingkat kehidupan yang baik di suatu negara. Aspek yang dilihat dan dijadikan acuan sebagai dasar kriteria negara dengan tingkat kehidupan yang baik diantaranya, Dwellings without basic facilities, Housing expenditure, Rooms per person, House hold adjusted disposable income, House hold net financial wealth, Employment rate, Job security, Long-term unpemloyment rate, Personal earings, Quality of support network, Educational attainment, Student skills, Years in education, Air population, Water quality, Consultation on on rulemarketing, Voter turnout, Life expectancy, Self reported health, Life statisfaction, Assul rate, Homicide rate, Employees working very long hours, Time devote to leisure and personal care. Berdasarkan data ini bisa dilakukan proses segmentasi atau pengelompokan negara berdasarkan indeks tingkat kehidupan yang baik, berdasarkan 24 atribut tersebut nantinya dapat dibuat pengkarakteran tiap segmen yang terbentuk nantinya.
5
Embed
BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kehidupan di dunia ini semakin hari semakin meningkat. Berdasarkan
hasil laporan lembaga internasional organisasi untuk kerja sama dan
pembangunan ekonomi atau OECD (Organisation for Economic Co-operation
and Develpoment) pada tahun 2014, negara-negara yang ikut dalam organisasi ini
memiliki indeks negara dengan kehidupan yang baik. Indeks ini menentukan
seberapa baik negara tersebut untuk ditinggali, dan digunakan untuk menentukan
serta menyatukan langkah-langkah internasional untuk menyesuaikan
kesejahteraan sesuai dengan rekomendasi yang ada.
Berdasarkan hasil laporan tersebut memuat indeks-indeks dengan
beberapa dimensi yang dapat menentukan tingkat kehidupan yang baik di suatu
negara. Aspek yang dilihat dan dijadikan acuan sebagai dasar kriteria negara
dengan tingkat kehidupan yang baik diantaranya, Dwellings without basic
facilities, Housing expenditure, Rooms per person, House hold adjusted
disposable income, House hold net financial wealth, Employment rate, Job
security, Long-term unpemloyment rate, Personal earings, Quality of support
network, Educational attainment, Student skills, Years in education, Air
population, Water quality, Consultation on on rulemarketing, Voter turnout, Life
expectancy, Self reported health, Life statisfaction, Assul rate, Homicide rate,
Employees working very long hours, Time devote to leisure and personal care.
Berdasarkan data ini bisa dilakukan proses segmentasi atau pengelompokan
negara berdasarkan indeks tingkat kehidupan yang baik, berdasarkan 24 atribut
tersebut nantinya dapat dibuat pengkarakteran tiap segmen yang terbentuk
nantinya.
2
Metode untuk melakukan proses clustering dibagi menjadi dua yaitu
metode hirarki dan metode non-hirarki. metode non-hirarki atau k-means
clustering adalah pengelompokkan data kedalam k cluster. Proses ini dimulai
dengan menentukkan nilai k terlebih dahulu, data dengan karakteristik yang sama
akan masuk dalam kelompok yang sama sedangkan data yang memiliki
karakteristik yang berbeda akan masuk kedalam kelompok yang berbeda.
Dalam proses pengelompokan menggunakan k-means ditentukan nilai k
terlebih dahulu, salah satu metode yang digunakan dalam analisis ini adalah
dengan menggunakan kriteria elbow yaitu menggabungkan antara nilai RMSSTD
(Root Means Square Standard Deviation) dan RS (R Squared) statistics, dimana
jumlah cluster yang paling tepat untuk suatu dataset ditentukan jika perbedaan
nilai RMSSTD dan RS berbanding terbalik dengan keadaan sebelumnya
(Agusta,2012).
Selain itu teknik pengelompokan yang lain yaitu teknik hirarki yang
digunakan pada analisis ini adalah centroid linkage, dimana proses ini
menggunakan metode aglomerasi dengan tiap data yang terbentuk menjadi cluster
akan dicari nilai pusat/centroid sampai terbentuk cluster yang diinginkan. Pada
skripsi ini digunakan metode hierarchical k-means penggabungan antara metode
hirarki dan metode non-hirarki, proses hirarki digunakan untuk mencari
inisialisasi awal untuk proses non-hirarki dan mendapatkan cluster yang optimal.
1.2 Perumusan dan Pembatasan Masalah
Terdapat berbagai macam teknik segmentasi atau clustering yaitu metode
hirarki dan non hirarki. Dalam skripsi ini, batasan masalah sangat diperlukan
untuk memperoleh kesimpulan yang sesuai dan dapat dipertanggung jawabkan.
Agar tidak terjadi penyimpangan dari tujuan awal dan pemencahan masalah lebih
terfokus, maka pembahasan difokuskan pada penggunaan kriteria elbow untuk
menentukan jumlah cluster yang akan digunakan dalam analisis dengan
menggunakan metode hierarichal k-means untuk melakukan proses segmentasi.
Studi kasus yang diangkat dalam skripsi ini adalah mengenai segmentasi negara
3
dengan tingkat kehidupan yang lebih baik menggunakan better life indeks dari 37
negara anggota OECD. Metode hieraichal k-means merupakan pengembangan
dari merode k-means, pada metode hierarichal k-means diharapkan data dapat
dipisahkan lebih baik .
1.3 Tujuan Penulisan
Skripsi ini disusun sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Gadjah Mada, Yogyakarta.
Tujuan dari penulisan skripsi ini adalah sebagai berikut:
1. Mempelajari metode pemilihan jumlah cluster yang sesuai dengan kriteria
elbow.
2. Mempelajari metode hierarichal k-means untuk melakukan segmentasi.
3. Mengaplikasikan penggunaan kriteria elbow dan metode hierarchical k-
means untuk melakukan pengelompokan.
4. Mampu melakukan profilling dari masing-masing cluster yang terbentuk
untuk mendapatkan kesimpulan umum.
1.4 Metode Penelitian
Metode penelitian yang digunakan penulis adalah studi literatur yang
diperoleh dari perpustakaan, jurnal-jurnal ilmiah dan sumber-seumber lain yang
diperoleh dari internet. Penulis dalam menyelsaikan penelitian ini menggunakan
bantuan software R 2.11.1, SPSS 19, dan Microsoft Excel 2007. Data yang
diambil merupakan data skunder dari internet yang dapat dipertanggungjawabkan.
1.5 Tinjauan Pustaka
Clustering merupakan salah satu cara untuk mengklasifikasi objek yang
sama dalam suatu segmen yang sama. Analisis cluster akan terbentuk baik ketika
anggota suatu cluster memiliki tingkat kemiripan dengan yang lain dalam satu
4
cluster dan bukan suatu anggota suatu cluster apabila berbeda dengan anggota
cluster yang lain. (Grow,1999;Castro,2002). Metode yang paling tekenal adalah k-
means yang dikemukakan oleh Mac Queen pada tahun 1967. Analisis k-means
juga dibahas oleh Santoso (2002) dalam Buku Latihan SPSS Statistik Multivariat.
Agusta (2012) menyatakan bahwa salah satu cara menentukan jumlah cluster
dengan menggunakan elbow criterion.
Inisialisasi secara random yang dilakukan pada metode k-means sering
menghasilkan cluster yang kurang baik, hasil yang baik dari proses ini akan
didapat setelah melakukan komputasi lebih dari satu kali. Proses untuk
menentukan batasan komputasi atau perhitungan sangat susah maka
dikembangkanlah metode baru yaitu hierarichal k-means.
Hierarichal k-means diperkenalkan oleh Kohei Arai dan Ali Ridho
Barakbah (2007) dalam jurnal yang berjudul “Hierarichal K-means: an algorithm
for centroid initialization for K-means”. Algoritma ini digunakan untuk
menentukan inisialisasi awal dari proses metode k-means.
1.6 Sistematika Penulisan
Sistematika penulisan yang digunakan dalam penelitian ini adalah sebagai
berikut:
BAB I PENDAHULUAN
Bab ini membahas lata belakan, perumusan dan batasan masalah, tujuan
penulisan, metode penelitian, tinjauan pustaka, dan sistematika penulisan
yang memberikan dan arahan dan tujuan terhadap penulisan skripsi ini.
BAB II LANDASAN TEORI
Bab ini membahas teori-teori penunjang yang akan digunakan dalam
pembahasan segmentasi menggunakan kriteria elbow dan metode
hierarichal k-means. Teori-teori penunjang tersebut diantaranya adalah
5
statistika multivariat, aljabar matriks, dan analisis cluster sebagai
pengantar metode segmentasi hierarichal k-means.
BAB III PEMBAHASAN
Bab ini berisis pembahasan mengenai segmentasi, k-means cluster, kriteria
elbow, metode hirarki cluster, dan metode hierarichal k-means.
BAB IV STUDI KASUS
Bab studi kasus ini berisi tentang analisis deskriptif data, asusmsi analisis
cluster, penentuan jumlah cluster dengan kriteria elbow, proses
pembentukan cluster, validasi, profilisasi terhadap variabel, maupun
cluster yang terbentuk.
BAB V
Pada bab terakhir ini, berisi kesimpulan yang didapat berdasarkan
pembahasan bab sebelumnya dan saran atas kekurangan atau kelebihan dari hasil