BAB I PENDAHULUAN 1.1 Latar Belakang Sektor industri menempati posisi sentral dalam ekonomi masyarakat modern dan merupakan motor penggerak yang memberikan dasar bagi peningkatan kemakmuran, terutama di negara-negara maju. Bagi negara berkembang, industri sangat esensial untuk memperluas landasan pembangunan dan memenuhi kebutuhan masyarakat yang terus meningkat. Banyak kebutuhan umat manusia hanya dapat dipenuhi oleh barang dan jasa yang disediakan dari sektor industri. Pembangunan di Indonesia khususnya pada sektor industri telah mengalami perkembangan yang cukup pesat. Perkembangan industri ini ternyata membawa dampak bagi kehidupan manusia, baik dampak positif maupun dampak negatif. Dampak positif dari kegiatan industri adalah dapat mengurangi tingkat pengangguran, menambah devisa negara melalui ekspor produk industri, serta dapat menarik para investor untuk menanamkan modal pada sektor ini. Selain dampak positif, kegiatan industri juga menimbulkan dampak negatif. Salah satu dampak negatif yang ditimbulkan adalah pencemaran udara. Pencemaran udara dirasakan semakin hari kian meningkat terutama daerah yang kepadatan lalu lintasnya cukup tinggi serta di lokasi industri yang kurang memperhatikan dampak lingkungan. Udara yang tercemar dapat merusak lingkungan sekitarnya dan berpotensi terganggunya kesehatan masyarakat sekitar. Dengan meningkatnya beban pencemaran udara sebagai efek negatif dari kegiatan industri, maka diperlukan pengelompokkan industri berdasarkan beban polutan yang dihasilkan untuk mengetahui tingkat pencemaran udara dari tiap jenis industri. Hal tersebut dimaksudkan agar pemerintah dan pelaku industri dapat merelokasikan zona industri, melakukan pemantauan kualitas udara pada tiap kelompok industri. Dalam analisis statistik, kriteria polutan tersebut dinyatakan sebagai variat. Semakin banyak unsur yang menjadi kriteria polutan akan semakin rumit analisis statistik yang harus dilakukan. Dari sekian banyak metode statistika, analisis multivariat merupakan analisis yang cocok untuk meringkas data dengan peubah yang banyak. Beberapa analisis dalam analisis
UNIVERSITAS NEGERI MALANG FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM PROGRAM STUDI MATEMATIKA
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
BAB I
PENDAHULUAN
1.1 Latar Belakang
Sektor industri menempati posisi sentral dalam ekonomi masyarakat modern dan
merupakan motor penggerak yang memberikan dasar bagi peningkatan kemakmuran,
terutama di negara-negara maju. Bagi negara berkembang, industri sangat esensial untuk
memperluas landasan pembangunan dan memenuhi kebutuhan masyarakat yang terus
meningkat. Banyak kebutuhan umat manusia hanya dapat dipenuhi oleh barang dan jasa yang
disediakan dari sektor industri.
Pembangunan di Indonesia khususnya pada sektor industri telah mengalami
perkembangan yang cukup pesat. Perkembangan industri ini ternyata membawa dampak bagi
kehidupan manusia, baik dampak positif maupun dampak negatif. Dampak positif dari
kegiatan industri adalah dapat mengurangi tingkat pengangguran, menambah devisa negara
melalui ekspor produk industri, serta dapat menarik para investor untuk menanamkan modal
pada sektor ini. Selain dampak positif, kegiatan industri juga menimbulkan dampak negatif.
Salah satu dampak negatif yang ditimbulkan adalah pencemaran udara. Pencemaran udara
dirasakan semakin hari kian meningkat terutama daerah yang kepadatan lalu lintasnya cukup
tinggi serta di lokasi industri yang kurang memperhatikan dampak lingkungan. Udara yang
tercemar dapat merusak lingkungan sekitarnya dan berpotensi terganggunya kesehatan
masyarakat sekitar.
Dengan meningkatnya beban pencemaran udara sebagai efek negatif dari kegiatan
industri, maka diperlukan pengelompokkan industri berdasarkan beban polutan yang
dihasilkan untuk mengetahui tingkat pencemaran udara dari tiap jenis industri. Hal tersebut
dimaksudkan agar pemerintah dan pelaku industri dapat merelokasikan zona industri,
melakukan pemantauan kualitas udara pada tiap kelompok industri.
Dalam analisis statistik, kriteria polutan tersebut dinyatakan sebagai variat. Semakin
banyak unsur yang menjadi kriteria polutan akan semakin rumit analisis statistik yang harus
dilakukan. Dari sekian banyak metode statistika, analisis multivariat merupakan analisis yang
cocok untuk meringkas data dengan peubah yang banyak. Beberapa analisis dalam analisis
multivariat yang dapat digunakan untuk memahami dan mempermudah interpretasi data
multivariat diantaranya adalah Analisis Cluster (Tim Penelitian dan Pengembangan,
2005:120).
Analisis ini bertujuan untuk mengelompokkan objek-objek berdasarkan karakteristik
diantara objek-objek tersebut. Dari analisis cluster kita dapat mengetahui kelompok-
kelompok yang terbentuk dengan ciri khas dari tiap kelompok. Banyak objek yang dapat
dikelompokkkan dengan analisis cluster, diantaranya adalah produk (barang dan jasa), benda,
manusia (responden, konsumen) (Supranto, 2004: 141).
Analisis cluster dibagi dalam 2 metode, yaitu :
1. Metode Hierarchical
2. Metode Non - Hierarchical
Dalam masalah ini akan dibahas mengenai analisis cluster dengan metode hierarchical
dan metode non-hierarchical. Pada metode hierarchical ini memulai mengelompokkan
dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat. Kemudian proses
diteruskan ke obyek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga
cluster akan membentuk semacam “pohon” hierarki (tingkatan) yang jelas antar obyek, dari
yang paling mirip sampai yang paling tidak mirip. Dendogram biasanya digunakan untuk
membantu memperjelas proses hierarki tersebut.
1.2 Rumusan Masalah
Dalam uraian diatas maka dapat dibentuk rumusan masalah yaitu bagaimana
melakukan pengelompokkan data dengan menggunakan metode clustering?
1.3 Tujuan
Dari rumusan masalah di atas maka tujuan dan maksud dari presentasi ini adalah
sebagai berikut memberikan penjelasan bagaimana menggelompokkan data dengan
menggunakan metode clustering.
BAB II
KAJIAN TEORI
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster
mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek
lain berada dalam cluster yang sama.
Analisis cluster termasuk dalam analisis statistik multivariat metode interdependen.
Sebagai alat analisis interdependen maka tujuan analisis cluster tidak untuk menghubungkan
ataupun membedakan dengan sampel/variabel lain. Analisis cluster merupakan salah satu alat
analisis yang berguna sebagai peringkas data. Dalam meringkas data ini dapat dilakukan
dengan jalan mengelompokkan objek-objek berdasarkan kesamaan karakteristik tertentu di
antara objek-objek yang hendak diteliti.
Analisis cluster merupakan alat untuk mengelompokkan sejumlah n obyek
berdasarkan p variat yang secara relatif mempunyai kesamaan karakteristik diantara obyek –
obyek tersebut, sehingga keragaman di dalam suatu kelompok tersebut lebih kecil
dibandingkan keragaman antar kelompok. Obyek dapat berupa barang, jasa, tumbuhan,
binatang dan orang (responden, konsumen, atau yang lainnya).
Jika terdapat n obyek dan p variat, maka observasi xij
dengan i = 1, 2,…, n dan j = 1, 2, …, p,
dapat digambarkan sebagai berikut:
Var 1 Var 2 … Var j … Var p
x11
x12
… x1j
… x1p
Obyek 2 x21
x22
… x2j
… x2p
: : : : : : :
Obyek i xi1
xi2
: xij : x
ip
: : : : : : :
Obyek n xn1
xn2
: xnj
: xnp
Adapun ciri-ciri cluster adalah:
1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang
lainnya (between-cluster).
Analisis cluster mempunyai beberapa istilah penting, antara lain:
1. Skedul aglomerasi (agalomeration schedule), ialah jadwal yang memberikan informasi
tentang objek atau kasus yang akan dikelompokkan pada setiap tahap pada suatu
proses analisis cluster yang hierarkis.
2. Rata-rata cluster (cluster centroid), ialah nilai rata-rata variabel dari semua objek atau
observasi dalam cluster tertentu.
3. Pusat cluster (cluster centers), ialah titik awal dimulainya pengelompokkan di dalam
cluster nonhierarki.
4. Keanggotaan cluster (cluster membership), ialah keanggotaan yang menunjukkan
cluster untuk setiap objek yang menjadi anggotanya.
5. Dendogram, disebut juga grafik pohon, output MINITAB yang memvisualisasikan
hasil analisis cluster yang dilakukan peneliti. Garis vertikal atau tegak menunjukkan
cluster yang digabung bersama. Posisi garis pada pada skala menunjukkan jarak untuk
mana cluster digabung. Dendogram harus dibaca dari kiri ke kanan.
6. Distances between cluster centers, ialah jarak yang menunjukkan bagaimana
terpisahnya pasangan individu cluster
Proses Analisis Cluster
Untuk melakukan analisis cluster ada beberapa proses yang harus dilakukan . Proses
analisis cluster tersebut meliputi :
1. Menentukan ukuran ketakmiripan antar dua objek.
Sesuai prinsip daftar cluster yaitu mengelompokkan objek yang mempunyai kemiripan,
maka proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Dengan
memiliki sebuah ukuran kuantitatif untuk mengatakan bahwa dua obyek tertentu lebih mirip
dibandingkan dengan obyek lain, akan menghilangkan kebingungan dan mempermudah
proses formal dalam pengclusteran. Salah satu yang jelas bisa menjadi ukuran ketakmiripan
adalah fungsi jarak antara objek a dan b, yang biasa dinotasikan dengan d(a,b).
Sifat – sifat ukuran ketakmiripan adalah :
1) d(a.b) ≥ 0
2) d(a,a) = 0
3) d(a,b) = d(b,a)
4) (a,b) meningkat seiring semakin tidak mirip kedua objek a dan b.
5) d(a,c) ≤ d(a,b) + d(b,c) (Sartono, 2003:216).
Jarak yang paling umum digunakan adalah jarak euclidean. Ukuran jarak atau
ketidaksamaan antar obyek ke-i dengan obyek ke-h, disimbolkan dengan dih
. Nilai dih
diperoleh melalui perhitungan jarak kuadrat Euclidean sebagai berikut ∑ (
)
dimana:
dih
= jarak kuadrat Euclidean antar obyek ke-i dengan obyek ke-h.
p = jumlah variabel cluster.
xij
= nilai atau data dari obyek ke-i pada variabel ke-j.
xhj
= nilai atau data dari obyek ke-h pada variabel ke-j
2. Membuat Cluster
Proses cluster atau pengelompokan data bisa dilakukan dengan dua metode yaitu;
a. Metode Hirarki
Metode ini memulai pengelompokan dengan dua atau lebih objek yang mempunyai
kesamaan paling dekat. Kemudiaan operasi diteruskan ke objek lain yang mempunyai
kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam „pohon‟
dimana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling
tidak mirip. Metode yang digunakan untuk proses Clustering secara hirarki adalah Single
Linkage (Pauatan Tunggal). Metode ini akan mengelompokan dua objek yang mempunyai
jarak terdekat dahulu. Jadi pada setiap tahapan, banyaknya cluster berkurang satu. Secara
formal, dua buah cluster Br dan B
s, jarak antara B
r dan B
s misalkan h(B
r,B
s) didefinisikan
sebagai : h(Br,B
s) = min{d(x
i,x
j); x
i anggota B
r, x
j anggota B
s}
Hasil berupa single linkage clustering dapat disajikan dalam bentuk suatu dendogram atau
diagram pohon. Cabang-cabang pohon menunjukkan cluster/kelompok. Cabang-cabang
tersebut bertemu bersama-sama (menggabung) pada simpul yang posisinya sepanjang suatu
sumbu jarak (kemiripan) menunjukkan tingkat dimana penggabungan terjadi.
b. Metode Non-hirarki
Metode ini dimulai dengan proses penentuan jumlah cluster terlebih dahulu. Metode
Non-hirarki bertujuan mengelompokkan n obyek kedalam k kelompok metode ini
yang digunakan adalah k-means. Metode k-means digunakan sebagai alternatif metode cluster
untuk data dengan ukuran yang besar karena memiliki kecepatan yang lebih tinggi
dibandingkan metode hirarki.
Mac Queen menyarankan bahwa penggunaan k-means untuk menjelaskan algoritma dalam
penentuan suatu objek ke dalam cluster tertentu berdasarkan rataan terdekat. Proses
Pengelusteran dengan metode k-means adalah :
1) Menetukan besarnya k, yaitu banyaknya cluter dan menentukan centroid di tiap cluster.
2) Menghitung jarak tiap objek dengan setiap centroid.
3) Menghitung kembali rataan (centroid) untuk cluster yang baru terbentuk.
4) Mengulangi langkah 2 sampai tidak ada lagi pemindahan objek antar cluster
5) Setelah cluster terbentuk, baik dengan metode hirarki maupun non hirarki, langkah
selanjutnya melakukan interpretasi terhadap cluster yang terbentuk,yang pada intinya
memberi nama spesifik untuk menggambar isi cluster tersebut.
6) Melakukan validasi cluster.
Untuk menguji validasi cluster digunakan uji parsial F.
Hipotesis:
H0: variabel i bukan variabel pembeda dalam pengclusteran.
H1: variabel i merupakan variabel pembeda dalam pengclusteran
Taraf signifikansi α
Statistik uji
F=
Kriteria Uji :
Tolak H0 jika F > F
α, k-1,n-k
BAB III
PEMBAHASAN
3.1 Metode Hierarki
Berdasarkan data BPS (Badan Pusat Statistik) Semarang yaitu data tentang beban
pencemaran udara menurut industry di Jawa Tengah tahun 2005. Data yang diunakan dalam
permasalahan ini ada 5 variabel, dimana variable-variabel tersebut adalah jenis polutan yang
meliputi debu, Sulfur dioksida (SO2), Hidrocarbon (HC), dan Carbonmonoksida (CO).
Sedangkan obyek-obyek yang digunakan adalah 14 jenis Industri di Jawa Tengah yaitu
Industri makanan, minuman, tekstil, kayu, olahan kayu, kertas, kimia dasar, non logam,
semen, kapur dan gips, logam dasar, hasil-hasil olahan logam, rumah sakit, dan industry
perhotelan.
Dalam contoh ini akan digunakan proses clustering secra hirarki menggunakan
metode pautan tunggal atau single lingkage metode ini didasarkan pada jarak minimum.
Tabel. 1
Data Beban Pencemaran Udara pada Sektor Industri
Di Jawa Tengah Tahun 2005 (dalam ton)
Industri debu SO2 NO2 HC CO
makanan 16941.8 157563 73638.52 3168.8 393.13
Minuman 14608.3 135861 62496.05 2732.1 338.94
Tekstil 92737.1 862476 403086.58 17343.7 2151.66
Kayu 37078.6 344839 161163.97 8876.5 860.28
Olahan kayu 63789.9 575982 269190.49 11582.5 1436.93
Kertas 4916.8 483239 2137.91 919.5 131.40
Kimia dasar 6031.1 56090 27387.22 1127.9 139.93
non ogam 5226.6 48609 22717.69 977.5 121.27
Semen 509.7 4741 2215.52 95.3 11.83
Kapur dan Gips 9945.9 19350 10694.06 1860.1 230.75
Logam dasar 3830.5 35624 21977.07 1002.9 88.87
Hasil Olahan Logam 7291.3 67810 31691.85 1363.6 168.34
Rumah sakit 63.4 59 284.02 11.9 1.47
Perhotelan 98.2 91 426,64 18.4 2.28
Dalam melakukan analisis cluster terdapat dua metode yaitu metode kelompok hiraki
dan metode kelompok non hirarki. Dalam hal ini metode yang digunakan adalah metode
hiraki karena paling banyak digunakan oleh para peneliti dan memiliki keunggulan tersendiri,
yaitu pengelompokan yang terbentuk dapat terjadi secara alamiah. Kita menyelesaikan
permasalahan ini menggunakan minitab, berikut langkah-langkahnya:
1. Stat – Multivariat – Cluster Observation
2. Variable of distance matrik(masukan seluruh variable yang diteliti
3. Lingkage method (dalam pembahsan ini meggunakn single)
4. Number of cluster (pilih 1)
5. Centang standardize variable
6. Centang
7. Show dendogram
8. Klik ok
Berdasarkan hasil pengolahan menggunakan Minitab didapatkan Hasil sebagai berikut:
Cluster Analysis of Observations: debu, CO, SO2, HC
Standardized Variables, Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 13 99.9671 0.00219 13 14 13 2
2 12 99.5318 0.03118 9 13 9 3
3 11 99.1321 0.05778 7 8 7 2
4 10 98.6922 0.08707 7 11 7 3
5 9 98.6503 0.08987 7 12 7 4
6 8 97.4813 0.16770 1 2 1 2
7 7 96.2898 0.24703 7 10 7 5
8 6 95.9428 0.27014 7 9 7 8
9 5 92.1049 0.52567 1 7 1 10
10 4 78.5689 1.42693 1 6 1 11
11 3 75.0155 1.66353 1 4 1 12
12 2 74.9141 1.67028 1 5 1 13
13 1 67.2651 2.17957 1 3 1 14
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 14 52 1.48746 5.25638
Keterangan
Pada Step (tahap) 1, terbentuk satu cluster antara industri Rumah Sakit dan Industri
Perhotelan dengan koofisien jarak 0.00219 yang menunjukkan besarnya jarak antara industri
Rumah sakit (13) dan Industri Perhotelan (14). Proses Aglomerasi dimulai dengan jarak antar
obyek yang paling dekat.
Pada step (tahap) 2,dapat dilihat terbentuknya cluster antara industri Semen (9) dan
Industri Rumah sakit (13), dengan nilai koofisien jarak sebesar 0.03118 yang menunjukkan
besarnya jarak terdekat antara industry semen dan kedua industry sebelumnya (industry
Rumah sakit dan Perhotelan). Dengan terbentuknya cluster tersebut, maka sekarang cluster
terdiri dari 3 obyek, yaitu industry rumah sakit, perhotelan dan juga industry semen.
Pada Step (tahap)3, dapat dilihat terbentuknya cluster antara industry Kimia dasar
dan industri non logam, dengan niai koefisien jarak 0.05778 yang menunjukkan jarak
terdekat antara industry Kimia dasar dan industry non logam. Terbentuk cluster baru dengan
anggota industry kimia dasar dan industry non logam.
Pada step 4, dapat dilihat terbentuk cluster antara industry kimia dasar dan industry
hasil olahan logam, dengan koefisien jarak 0.08707 yang menunjukkan jarak terdekat antara
industry hasil olahan logam dengan dua industry sebelumnya (industry kimia dasar dan
industry non logam). Dengan terbentuknya cluster tersebut, maka cluster sekarang terdiri dari
3 obyek yaitu industry kimia dasar, industry non logam dan industry hasil olahan logam.
3546141391012118721
67.27
78.18
89.09
100.00
Observations
Similarity
DendrogramSingle Linkage, Euclidean Distance
Pada step 7, didapatkan bahwa cluster antara industry kimia dasar, kapur dan gips,
logam dasar, dan industry hasil olahan logam dengan dan industry semen, rumah sakit dan
industry perhotelan dengan nilai koofisien jarak 0.24703 . Dengan terbentuknya cluster
tersebut, maka sekarang cluster terdiri dari 7 obyek, yaitu industry rumah sakit, perhotelan ,
industry semen , industry kimia dasar, kapur dan gips, logam dasar, dan industry hasil olahan
logam.
Dengan cara yang sama proses pengclusteran dilakukan terus menerus sampai step
terakhir yaitu step 13 hingga pada akhirnya hanya membentuk sebuah cluster saja. Lebih
jelasnya proses penggabungan satu demi satu dapat dilihat dalam bentuk dendogram diatas.
Interpretasi Hasil:
1. Hasil analisis cluster dari 14 jenis industry berdasarkan jenis polutan (debu, SO2, NO2,
HC, CO) dapat dikelompokan menjadi 3 kelompok atau cluster, yaitu
a. cluster pertama adalah kelompok indutri pencemaran kecil
b. Cluster kedua adalah kelompok industry pencemaran sedang
c. Cluster ketiga adalah kelompok industry pencemaran tinggi
2. Ciri-ciri tiap Cluster atau kelompok yaitu :
a. Cluster pertama : kelima jenis polutannya memiliki rata-rata kecil diantara cluster
yang lain anggotanya yaitu industry logam dasar, industry kapur dan gips, industry
semen, industry non logam, industry kimia dasar, industry minuman, industry
makanan, industry hasil olahan logam, industry rumah sakit, dan industry prhotelan.
b. Cluster kedua : kelima jenis polutannya memiliki rata-rata lebih dari cluster pertama
dan kurang dari cluster ketiga, anggotanya yaitu indutri kayu, industry olahan kayu,
dan industry kertas.
c. Cluster jetiga : kelima jenis polutannya memiliki rata-rata tebesar diantara cluster
yang lain, anggotanya yaitu industry tekstil.
3.2 Metode Non Hierarki
Sebagaimana telah dijelaskan sebelumnya bahwa metode K-Means Cluster ini jumlah
cluster ditentukan sendiri. Metode non-hirarki memproses semua objek (kasus) secara
sekaligus. Metode yang digunakan adalah k-means dimana k adalah banyaknya cluster .
Proses pengclusteran dengan metode k-means adalah :
a. Besarnya k (banyaknya cluster) = 3. Centroid ada 3 karena jumlah cluster ada tiga.
Nilai centroid diperoleh secara acak.
(centroid cluster ) adalah nilai kelima variabel dari obyek industri kertas
(centroid cluster ) adalah nilai kelima variabel dari obyek industri rumah sakit
(centroid cluster ) adalah nilai kelima variabel dari obyek industri tekstil