Top Banner
1 BAB I PENDAHULUAN 1.1 Latar Belakang Kehidupan di dunia ini semakin hari semakin meningkat. Berdasarkan hasil laporan lembaga internasional organisasi untuk kerja sama dan pembangunan ekonomi atau OECD (Organisation for Economic Co-operation and Develpoment) pada tahun 2014, negara-negara yang ikut dalam organisasi ini memiliki indeks negara dengan kehidupan yang baik. Indeks ini menentukan seberapa baik negara tersebut untuk ditinggali, dan digunakan untuk menentukan serta menyatukan langkah-langkah internasional untuk menyesuaikan kesejahteraan sesuai dengan rekomendasi yang ada. Berdasarkan hasil laporan tersebut memuat indeks-indeks dengan beberapa dimensi yang dapat menentukan tingkat kehidupan yang baik di suatu negara. Aspek yang dilihat dan dijadikan acuan sebagai dasar kriteria negara dengan tingkat kehidupan yang baik diantaranya, Dwellings without basic facilities, Housing expenditure, Rooms per person, House hold adjusted disposable income, House hold net financial wealth, Employment rate, Job security, Long-term unpemloyment rate, Personal earings, Quality of support network, Educational attainment, Student skills, Years in education, Air population, Water quality, Consultation on on rulemarketing, Voter turnout, Life expectancy, Self reported health, Life statisfaction, Assul rate, Homicide rate, Employees working very long hours, Time devote to leisure and personal care. Berdasarkan data ini bisa dilakukan proses segmentasi atau pengelompokan negara berdasarkan indeks tingkat kehidupan yang baik, berdasarkan 24 atribut tersebut nantinya dapat dibuat pengkarakteran tiap segmen yang terbentuk nantinya.
5

BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

Jul 19, 2018

Download

Documents

donguyet
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Kehidupan di dunia ini semakin hari semakin meningkat. Berdasarkan

hasil laporan lembaga internasional organisasi untuk kerja sama dan

pembangunan ekonomi atau OECD (Organisation for Economic Co-operation

and Develpoment) pada tahun 2014, negara-negara yang ikut dalam organisasi ini

memiliki indeks negara dengan kehidupan yang baik. Indeks ini menentukan

seberapa baik negara tersebut untuk ditinggali, dan digunakan untuk menentukan

serta menyatukan langkah-langkah internasional untuk menyesuaikan

kesejahteraan sesuai dengan rekomendasi yang ada.

Berdasarkan hasil laporan tersebut memuat indeks-indeks dengan

beberapa dimensi yang dapat menentukan tingkat kehidupan yang baik di suatu

negara. Aspek yang dilihat dan dijadikan acuan sebagai dasar kriteria negara

dengan tingkat kehidupan yang baik diantaranya, Dwellings without basic

facilities, Housing expenditure, Rooms per person, House hold adjusted

disposable income, House hold net financial wealth, Employment rate, Job

security, Long-term unpemloyment rate, Personal earings, Quality of support

network, Educational attainment, Student skills, Years in education, Air

population, Water quality, Consultation on on rulemarketing, Voter turnout, Life

expectancy, Self reported health, Life statisfaction, Assul rate, Homicide rate,

Employees working very long hours, Time devote to leisure and personal care.

Berdasarkan data ini bisa dilakukan proses segmentasi atau pengelompokan

negara berdasarkan indeks tingkat kehidupan yang baik, berdasarkan 24 atribut

tersebut nantinya dapat dibuat pengkarakteran tiap segmen yang terbentuk

nantinya.

Page 2: BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

2

Metode untuk melakukan proses clustering dibagi menjadi dua yaitu

metode hirarki dan metode non-hirarki. metode non-hirarki atau k-means

clustering adalah pengelompokkan data kedalam k cluster. Proses ini dimulai

dengan menentukkan nilai k terlebih dahulu, data dengan karakteristik yang sama

akan masuk dalam kelompok yang sama sedangkan data yang memiliki

karakteristik yang berbeda akan masuk kedalam kelompok yang berbeda.

Dalam proses pengelompokan menggunakan k-means ditentukan nilai k

terlebih dahulu, salah satu metode yang digunakan dalam analisis ini adalah

dengan menggunakan kriteria elbow yaitu menggabungkan antara nilai RMSSTD

(Root Means Square Standard Deviation) dan RS (R Squared) statistics, dimana

jumlah cluster yang paling tepat untuk suatu dataset ditentukan jika perbedaan

nilai RMSSTD dan RS berbanding terbalik dengan keadaan sebelumnya

(Agusta,2012).

Selain itu teknik pengelompokan yang lain yaitu teknik hirarki yang

digunakan pada analisis ini adalah centroid linkage, dimana proses ini

menggunakan metode aglomerasi dengan tiap data yang terbentuk menjadi cluster

akan dicari nilai pusat/centroid sampai terbentuk cluster yang diinginkan. Pada

skripsi ini digunakan metode hierarchical k-means penggabungan antara metode

hirarki dan metode non-hirarki, proses hirarki digunakan untuk mencari

inisialisasi awal untuk proses non-hirarki dan mendapatkan cluster yang optimal.

1.2 Perumusan dan Pembatasan Masalah

Terdapat berbagai macam teknik segmentasi atau clustering yaitu metode

hirarki dan non hirarki. Dalam skripsi ini, batasan masalah sangat diperlukan

untuk memperoleh kesimpulan yang sesuai dan dapat dipertanggung jawabkan.

Agar tidak terjadi penyimpangan dari tujuan awal dan pemencahan masalah lebih

terfokus, maka pembahasan difokuskan pada penggunaan kriteria elbow untuk

menentukan jumlah cluster yang akan digunakan dalam analisis dengan

menggunakan metode hierarichal k-means untuk melakukan proses segmentasi.

Studi kasus yang diangkat dalam skripsi ini adalah mengenai segmentasi negara

Page 3: BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

3

dengan tingkat kehidupan yang lebih baik menggunakan better life indeks dari 37

negara anggota OECD. Metode hieraichal k-means merupakan pengembangan

dari merode k-means, pada metode hierarichal k-means diharapkan data dapat

dipisahkan lebih baik .

1.3 Tujuan Penulisan

Skripsi ini disusun sebagai salah satu syarat untuk memperoleh gelar

Sarjana Sains Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Gadjah Mada, Yogyakarta.

Tujuan dari penulisan skripsi ini adalah sebagai berikut:

1. Mempelajari metode pemilihan jumlah cluster yang sesuai dengan kriteria

elbow.

2. Mempelajari metode hierarichal k-means untuk melakukan segmentasi.

3. Mengaplikasikan penggunaan kriteria elbow dan metode hierarchical k-

means untuk melakukan pengelompokan.

4. Mampu melakukan profilling dari masing-masing cluster yang terbentuk

untuk mendapatkan kesimpulan umum.

1.4 Metode Penelitian

Metode penelitian yang digunakan penulis adalah studi literatur yang

diperoleh dari perpustakaan, jurnal-jurnal ilmiah dan sumber-seumber lain yang

diperoleh dari internet. Penulis dalam menyelsaikan penelitian ini menggunakan

bantuan software R 2.11.1, SPSS 19, dan Microsoft Excel 2007. Data yang

diambil merupakan data skunder dari internet yang dapat dipertanggungjawabkan.

1.5 Tinjauan Pustaka

Clustering merupakan salah satu cara untuk mengklasifikasi objek yang

sama dalam suatu segmen yang sama. Analisis cluster akan terbentuk baik ketika

anggota suatu cluster memiliki tingkat kemiripan dengan yang lain dalam satu

Page 4: BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

4

cluster dan bukan suatu anggota suatu cluster apabila berbeda dengan anggota

cluster yang lain. (Grow,1999;Castro,2002). Metode yang paling tekenal adalah k-

means yang dikemukakan oleh Mac Queen pada tahun 1967. Analisis k-means

juga dibahas oleh Santoso (2002) dalam Buku Latihan SPSS Statistik Multivariat.

Agusta (2012) menyatakan bahwa salah satu cara menentukan jumlah cluster

dengan menggunakan elbow criterion.

Inisialisasi secara random yang dilakukan pada metode k-means sering

menghasilkan cluster yang kurang baik, hasil yang baik dari proses ini akan

didapat setelah melakukan komputasi lebih dari satu kali. Proses untuk

menentukan batasan komputasi atau perhitungan sangat susah maka

dikembangkanlah metode baru yaitu hierarichal k-means.

Hierarichal k-means diperkenalkan oleh Kohei Arai dan Ali Ridho

Barakbah (2007) dalam jurnal yang berjudul “Hierarichal K-means: an algorithm

for centroid initialization for K-means”. Algoritma ini digunakan untuk

menentukan inisialisasi awal dari proses metode k-means.

1.6 Sistematika Penulisan

Sistematika penulisan yang digunakan dalam penelitian ini adalah sebagai

berikut:

BAB I PENDAHULUAN

Bab ini membahas lata belakan, perumusan dan batasan masalah, tujuan

penulisan, metode penelitian, tinjauan pustaka, dan sistematika penulisan

yang memberikan dan arahan dan tujuan terhadap penulisan skripsi ini.

BAB II LANDASAN TEORI

Bab ini membahas teori-teori penunjang yang akan digunakan dalam

pembahasan segmentasi menggunakan kriteria elbow dan metode

hierarichal k-means. Teori-teori penunjang tersebut diantaranya adalah

Page 5: BAB I PENDAHULUAN - etd.repository.ugm.ac.idetd.repository.ugm.ac.id/downloadfile/85567/potongan/S1-2015... · 5 statistika multivariat, aljabar matriks, dan analisis cluster sebagai

5

statistika multivariat, aljabar matriks, dan analisis cluster sebagai

pengantar metode segmentasi hierarichal k-means.

BAB III PEMBAHASAN

Bab ini berisis pembahasan mengenai segmentasi, k-means cluster, kriteria

elbow, metode hirarki cluster, dan metode hierarichal k-means.

BAB IV STUDI KASUS

Bab studi kasus ini berisi tentang analisis deskriptif data, asusmsi analisis

cluster, penentuan jumlah cluster dengan kriteria elbow, proses

pembentukan cluster, validasi, profilisasi terhadap variabel, maupun

cluster yang terbentuk.

BAB V

Pada bab terakhir ini, berisi kesimpulan yang didapat berdasarkan

pembahasan bab sebelumnya dan saran atas kekurangan atau kelebihan dari hasil

yang telah dilakukan