-
i
PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI PROVINSI
DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN NILAI UJIAN
NASIONAL MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh:
Kresentia Nita Kurniadewi
125314031
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
ii
THE CLUSTERING OF SENIOR HIGH SCHOOLS IN DAERAH
ISTIMEWA YOGYAKARTA PROVINCE BASED ON THE SCORE OF
NATIONAL EXAM USING K-MEANS CLUSTERING ALGORITHM
FINAL PROJECT
Present as Partiaal Fullfillment of the Requirements
to Obtain the Sarjana Komputer Degree
in Informatics Engineering Study Program
By:
Kresentia Nita Kurniadewi
125314031
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATIC ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2016
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
v
MOTO
Mintalah, maka akan diberikan kepadamu; carilah, maka kamu
akan
mendapat; ketoklah, maka pintu akan dibukakan bagimu.
(Matius 7:7)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
vi
HALAMAN PERSEMBAHAN
Karya ini kupersembahkan kepada:
Tuhan Yesus Kristus
Bunda Maria
Keluarga
Sahabat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
ix
ABSTRAK
Ujian Nasional (UN) sebagai tolok ukur atau parameter akhir dari
suatu
proses pendidikan. Hasil Ujian Nasional digunakan sebagai dasar
untuk pemetaan
mutu program dan/atau satuan pendidikan di Indonesia. Setiap
tahun UN
diselenggarakan untuk mendapatkan sebuah informasi yang dapat
bermanfat
untuk peningkatan mutu pendidikan. Data mining merupakan salah
satu bidang
ilmu yang dapat digunakan untuk mendapatkan informasi dari
kumpulan data.
Pada tugas akhir ini digunakan algoritma K-means Clustering yang
akan
menghasilkan sebuah sistem perangkat lunak yang dapat digunakan
untuk
mengelompokkan Sekolah Menengah Atas di DIY berdasarkan nilai
Ujian
Nasional. Sistem ini diuji dengan perbandingan pengujian manual
dengan hasil
sistem, pengujian black box, pengujian hasil pengelompokan
menggunakan
Silhouette Coeficient.
Dalam melakukan proses mengubah data mentah menjadi sebuah
informasi yang bermanfaat, penulis menggunakan proses Knowledge
Discovery in
Database (KDD) yang terdiri dari pembersihan data, integrasi
data, seleksi data,
transformasi data, penambangan data, evaluasi data, dan
presentasi pengetahuan.
Pada tahap pembersihan data dilakukan secara manual, untuk
itegrasi data dan
transformasi data tidak dilakukan, sedangkan untuk seleksi data
dan penambangan
data penulis merancang perangkat lunak sebagai alat untuk
melakukan tahap-
tahap tersebut. Sedangkan untuk evaluasi pola dan presentasi
pengetahuan,
penulis melakukan evaluasi dari hasil penambangan data yang
diperoleh dari hasil
perangkat lunak dan menjelaskannya agar informasi tersebut dapat
diterima oleh
pihak-pihak yang membutuhkan. Perangkat lunak diujikan terhadap
8 dataset
yang merupakan data Ujian Nasional SMA jurusan IPA dan IPS tahun
2014/2015.
Berdasarkan penelitian yang telah dilakukan, dapat diketahui
bahwa
algoritma K-means dapat digunakan untuk mengelompokkan data
tersebut dengan
nilai k yang diberikan. Pengujian hasil pengelompokan dengan
menggunakan
Silhouette Coeficient(SC) terhadap kedua set data yang digunakan
yaitu IPA dan
IPS tahun ajaran 2014/2015 dihasilkan nilai SC untuk data IPA
sebesar 0.49 pada
k = 2 yang dikategorikan sebagai weak Classification dan untuk
data IPS sebesar
0.57 pada k = 2 dan 0.51 pada k=3 yang dikategorikan sebagai
good
Classification. Dengan demikian jumlah cluster yang disarankan
untuk data nilai
ujian jurusan IPA adalah 2 dan untuk IPS adalah 2 atau 3.
Kata Kunci : Clustering, K-Means, data mining, nilai ujian
nasional, Silhouette
Coeficient
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
x
ABSTRACT
As The National Exam is used as the final parameter of am
educational
proccess, the score resulted from National Exam is used as the
basis to set the
mapping of program quality and/or education unit in Indonesia.
National Exam is
conducted every year to get sufficient information in the
purpose of upgrading the
education quality. Data mining is one of disciplines aiming in
gaining information
among the data collection. In this undergraduate thesis, K-means
Clustering
alogarithm is used to develop a software that can be used to
clasify Senior High
School in Jogjakarta based on the the Final Score of National
Exam. This system
can be tested by compare the manual testing with result of
system, black box
testing, and result of clustering tested using Silhouette
Coeficient.
In conducting the proccess of converting raw data into a
useful
information, the writer used the proccess of Knowledge Discovery
in Database
(KDD) consisting the data cleaning, data integration, data
selection, data mining,
data evaluation, and knowledge presentation. Data cleaning was
done manually,
data integration and data transformation were not conducted,
while at the stage of
data selection and data mining, the writer designed a software
as the tool to
succeed the whole stages. Meanwhile, for the pattern evaluation
and knowledge
presentation, the writer conducted an evaluation from the result
of data mining
that was obtained from the software result and the writer
explained in order
tohave the information accepted by the people who required it.
The software will
be observed toward 8 datasets that were National Exam of Senior
High School,
both from Social and Exact Discipline –Year 2014/2015.
According to the research conducted, it is known that the
K-means
Alogarithm can be used to clasify the data by the given value of
k. Result of
clustering, tested using Silhouette Coeficient, toward both data
set, that is Social
and Exact Discipline year 2014/2015, resulting the value of SC
for Exact
Discipline 0.49 at k = 2, categorized as weak Classification and
for Social
Discipline 0.57 at k = 2 and 0.51 at k=3 which was categorized
as good
Classification. Therefore, the number of clusters recommended
for the scoring of
Exact Discipline is 2, and 2 or 3 for Social Discipline.
Keywords : Clustering, K-Means, data mining, National Exam
Score, Silhouette
Coeficient
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xi
KATA PENGANTAR
Puji dan Syukur kepada Tuhan Yang Maha Esa, karena pada
akhirnya
penulis dapat menyelesaikan penelitian tugas akhir ini yang ber
judul
“PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI DIY
BERDASARKAN NILAI UJIAN NASIONAL MENGGUNAKAN
ALGORITMA K-MEANS CLUSTERING”
Dalam menyelesaikan seluruh penyusun tugas akhir ini, penulis
tak lepas
dari dosa, bantuan, dukungan, dan motivasi dari banyak pihak.
Oleh karena itu,
penulis ingin mengucapkan banyak terima kasih kepada:
1. Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan
anugrah,
rahmat, kekuatan, dan keberuntungan sehingga penulis dapat
menyelesaikan tugas akhir ini.
2. Kedua orang tua penulis, Johanes Bosco Heru Nuryono dan
Maria
Imaculata Respita Murti atas doa, kasih sayang, perhatian,
kepercayaan,
dukungan baik moral maupun financial yang diberikan kepada
penulis.
3. Kakak penulis, Ambrosius Hans Gigih Kurniadi dan Ignasius
Hans Veda
Kurnia yang selalu memberikan semangat, dukungan, dan doa
kepada
penulis.
4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan
Fakultas
Sains dan Teknoologi.
5. Ibu Dr. Anastasia Rita Widiarti selaku ketua Program Studi
Teknik
Informatika.
6. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen
Pembimbing
Skripsi yang telah memberikan waktu, bimbingan, nasihat, dan
motivasi
kepada penulis.
7. Bapak Iwan Binanto M.Cs. selaku Dosen Pembimbing Akademik
penulis.
8. Seluruh Dosen yang telah mendidik dan memberikan pengetahuan
dan
pengalaman berharga selama penulis belajar di Universitas Sanata
Dharna.
9. Seluruh dosen, sekretariat, laboran, staff, dan perpustakaan
yang telah
membimbing dan membantu selama proses perkuliahan di
Universitas
Sanata Dharma.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xiii
DAFTAR ISI
HALAMAN
PERSETUJUAN..............................................................................iii
HALAMAN
PENGESAHAN...............................................................................vi
MOTTO..................................................................................................................v
HALAMAN
PERSEMBAHAN............................................................................vi
PERNYATAAN KEASLIAN
KARYA...............................................................vii
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI..............................viii
ABSTRAK.............................................................................................................ix
ABCTRACT...........................................................................................................x
KATA
PENGANTAR...........................................................................................xi
DATAR
ISI..........................................................................................................xiii
DATAR
GAMBAR..............................................................................................xvi
DATAR
TABEL..................................................................................................xvii
BAB I PENDAHULUAN
....................................................................................
1
1.1. LATAR BELAKANG
........................................................................
1
1.2. RUMUSAN MASALAH
...................................................................
2
1.3. TUJUAN PENELITIAN
....................................................................
2
1.4. BATASAN MASALAH
....................................................................
2
1.5. MANFAAT PENELITIAN
................................................................
3
1.6. SISTEMATIKA PENULISAN
........................................................... 3
BAB II LANDASAN TEORI
..............................................................................
6
2.1. PENAMBANGAN DATA
.................................................................
6
2.1.1. Pengertian Penambangan Data
........................................................... 6
2.1.2. Fungsi Penambangan Data
.................................................................
6
2.1.3. Knowledge Discovery in Database (KDD)
......................................... 8
2.2. Ujian Nasional
.................................................................................
10
2.2.1. Definisi Ujian Nasional
....................................................................
10
2.2.2. Tujuan dan Fungsi Ujian Nasional
.................................................... 10
2.2.3. Peserta Ujian Nasional
.....................................................................
11
2.2.4. Penyelenggaran Ujian Nasional
........................................................ 12
2.2.5. Strandar Kelulusan
...........................................................................
12
2.3. Konsep Data Mining
........................................................................
13
2.3.1. Clustering
........................................................................................
13
2.3.2.
K-Means...........................................................................................
13
2.3.3. Distance Space
.................................................................................
16
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xiv
2.4. Validitas Cluster
...............................................................................
16
2.4.1. Analisis Cluster
................................................................................
16
2.4.2. Validitas Internal
..............................................................................
17
2.4.3. Silhouette
.........................................................................................
17
BAB III METODOLOGI
PENELITIAN............................................................
23
3.1. Sumber Data
....................................................................................
23
3.1.1. Data yang digunakan
........................................................................
23
3.2. Spesifikasi Alat
................................................................................
23
3.2.1. Spesifikasi Hardware
.......................................................................
23
3.2.2. Spesifikasi Software
.........................................................................
23
3.3. Tahap-Tahap Penelitian
....................................................................
23
3.3.1. Studi Kasus
......................................................................................
23
3.3.2. Penelitian Pustaka
............................................................................
24
3.3.3. Knowledge Discovery in Database (KDD)
....................................... 24
3.3.4. Pengembangan Perangkat Lunak
...................................................... 24
3.3.5. Analisis dan Pembuatan Laporan
...................................................... 26
BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT
LUNAK PENAMBANGAN DATA
..................................................................
26
4.1. PEMROSESAN AWAL
...................................................................
26
4.1.1. Pembersihan Data (Data Cleaning)
.................................................. 26
4.1.2. Itegrasi Data (Data Integration)
....................................................... 26
4.1.3. Seleksi Data (Data Selection)
........................................................... 26
4.1.4. Tranformasi Data (Data Transformation)
......................................... 29
4.2. PERANCANGAN PERANGKAT LUNAK PENAMBANGAN
DATA
.............................................................................................
29
4.2.1. Diagram Use
Case............................................................................
29
4.2.1. 1. Gambaran Umum Use Case
..............................................................
30
4.2.1. 2. Narasi Use Case
................................................................................
30
4.2.2. Perancangan Umum
.........................................................................
30
4.2.2.1. Input Sistem
.....................................................................................
30
4.2.2.2. Proses Sistem
...................................................................................
31
4.2.2.3. Output
Sistem...................................................................................
33
4.2.3. Diagram Aktivitas (Activity diagram).
.............................................. 33
4.2.4. Diagram Kelas Desain
......................................................................
33
4.2.5. Diagram Sekuen (Sequence Diagram).
............................................. 34
4.2.6. Algoritma per Method
......................................................................
34
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xv
4.2.7. Perancangan Struktur Data
...............................................................
34
4.2.7.1. Array
................................................................................................
35
4.2.7.2. ArrayList
..........................................................................................
35
4.2.7.3 HashMap
............................................................................................
36
4.2.8. Perancangan Antarmuka
..................................................................
37
4.2.8.1. Halaman Halaman Awal
...................................................................
37
4.2.8.2. Halaman Bantuan
.............................................................................
38
4.2.8.3. Halaman Tentang
.............................................................................
39
4.2.8.4. Halaman Clustering K-Means
.......................................................... 40
BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL
..........................................................................................................................
41
5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK ....................
41
5.1.1. Implementasi Kelas
..........................................................................
41
5.2. EVALUASI HASIL
.........................................................................
51
5.2.1. Pengujian Perangkat Lunak (Black Box)
.......................................... 51
5.2.1.1. Rencana Pengujian Black Box
.......................................................... 51
5.2.1.2. Prosedur Pengujian Black Box dan Kasus Uji
................................... 52
5.2.1.3. Evaluasi Pengujian Black Box
.......................................................... 52
5.2.2. Pengujian Perbandingan Hasil Hitung Manual dengan Hasil
Perangkat
Lunak
..............................................................................................
52
5.2.2.1. Penghitungan Manual
.......................................................................
52
5.2.2.2. Penghitungan Perangkat Lunak
........................................................ 53
5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan
Hasil
Perangkat Lunak
..............................................................................
54
5.2.2.4. Hasil Pengujian Dataset dengan Silhouette Coeficient
Nilai Ujian
Nasional Jurusan IPA Tahun Ajaran 2014/2015
............................... 55
5.2.2.5. Hasil Pengujian Dataset dengan Silhouette Coeficient
Nilai Ujian
Nasional Jurusan IPS Tahun Ajaran
2014/2015................................ 58
5.3. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK ..............
62
5.3.1. Kelebihan Perangkat Lunak
..................................................................
62
5.3.2. Kekurangan Perangkat Lunak
..............................................................
62
BAB VI
.............................................................................................................
64
PENUTUP
.........................................................................................................
64
6.1. SIMPULAN
.....................................................................................
64
6.2. SARAN
............................................................................................
65
DAFTAR
PUSTAKA............................................................................................67
LAMPIRAN...........................................................................................................69
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xvi
DAFTAR TABEL
Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan
Berdasarkan Silhouette
Coeficient (SC)
..................................................................................
21
Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional
Program IPA
2014/2015
..........................................................................................
23
Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional
Program IPS
2014/2015
..........................................................................................
23
Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional
2015 ............ 28
Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional
Program Strudi IPA
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
................... 28
Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional
Program Strudi IPS
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
................... 29
Tabel 5. 1 Implementasi Kelas Home
.................................................................
41
Tabel 5. 2 Implementasi Kelas Clustering_KMeans
........................................... 43
Tabel 5. 3 Implementasi Kelas Tentang
..............................................................
47
Tabel 5. 4 Implementasi Kelas Bantuan
.............................................................
49
Tabel 5. 5 Implementasi Kelas KMeans
.............................................................
51
Tabel 5. 6 Implementasi Kelas KMeans
.............................................................
51
Tabel 5. 7 Rencana pengujian dengan menggunakan metode black
box. ............. 52
Tabel 5. 8 Hasil uji perbandingan member percluster secara
manual dan sistem . 54
Tabel 5. 9 Hasil Pengujian Dataset dengan rata-rata Silhouette
data set Nilai
Ujian Nasional Jurusan IPA 2014/2015
.............................................. 55
Tabel 5. 10 Hasil Pengujian Dataset dengan rata-rata Silhouette
data set Nilai
Ujian Nasional Jurusan IPS 2014/2015
.............................................. 58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
xvii
DAFTAR GAMBAR
Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in
Databese
(Han&Kamber, 2006).
.......................................................................
8
Gambar 4. 1 Use Case Diagram
.........................................................................
30
Gambar 4. 2 Diagram flowchart
.........................................................................
32
Gambar 4. 3 Diagram Kelas Desain
...................................................................
34
Gambar 4. 4 Ilustrasi Konsep Array
...................................................................
35
Gambar 4. 5 Ilustrasi Konsep ArrayList
.............................................................
35
Gambar 4. 6 Perancangan ArrayList
...................................................................
36
Gambar 4. 7 Antarmuka Halaman Beranda
........................................................ 37
Gambar 4. 8 Antarmuka Halaman Bantuan
........................................................ 38
Gambar 4. 9 Antarmuka Halaman Tentang
........................................................ 39
Gambar 4. 10 Antarmuka Halaman Proses
......................................................... 40
Gambar 5. 1 Implementasi Antarmuka kelas Home
............................................ 43
Gambar 5. 2 Implementasi Antaramuka Kelas Clustering_Kmeans
.................... 46
Gambar 5. 3 Implementasi Antaramuka Kelas Tentang
...................................... 48
Gambar 5. 4 Implementasi Antaramuka Kelas Bantuan
...................................... 50
Gambar 5. 5 Hasil Penambangan Data Menggunakan Perangkat Lunak
............. 53
Gambar 5. 6 Rata-rata Silhouette data set Jurusan IPA
..................................... 587
Gambar 5. 7 Rata-rata Silhouette data set Jurusan IPS
....................................... 61
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
1
BAB I
PENDAHULUAN
1.1. LATAR BELAKANG
Data mining adalah proses yang menggunakan teknik statistik,
matematika,
kecerdasan buatan, dan machine learning untuk mengekstrasi
dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang
terkait dengan
database besar (Kusrini, 2009). Data mining bisa digunakan oleh
perusahan atau
instansi besar untuk menggali data untuk mendapatkan informasi
yang dapat
menunjang dan meningkatkan kualitas perusahaan/instansi
tersebut. Terdapat
banyak metode yang digunakan dalam data mining salah satunya
adalah metode
clustering. Clustering untuk menemukan kumpulan objek hingga
objek-objek
dalam kelompok sama (atau punya hubungan) dengan yang lain dan
berbeda (atau
tidak berhubungan) dengan objek-objek dalam kelompok lain.
Tujuan dari analisis
cluster adalah meminimalkan jarak di dalam cluster dan
memaksimalkan jarak
antara cluster (Hermawati, 2013). Salah satu algoritma
clustering adalah K-
Means. Algoritma K-Means merupakan algoritma pengelompokan
interaktif yang
melakukan partisi set data ke dalam sejumlah K cluster yang
sudah ditetapkan di
awal (Prasetyo, 2014). Salah satu data yang dapat digunakan
dalam penambangan
data adalah data Ujian Akhir Nasional.
Pendidikan sangat diperlukan untuk mempersiapkan generasi muda
agar
menjadi sumber daya manusia (SDM) yang mampu bersaing. Badan
Standar
Pendidikan Nasional Tahun 2010 menyebutkan pendidikan adalah
usaha sadar
dan terencana untuk mewujudkan suasana belajar dan proses
pembelajaran ajar
peserta didik secara aktif menyumbangkan potensi dirinya untuk
memiliki
kekuatan spiritual keagamaan, pengendalian diri, kepribadian,
kecerdasan, akhlak
mulia, serta keterampilan yang diperlukan dirinya, masyarakat,
bangsa dan negara
yang tertuang dalam UU No 20 Tahun 2003. Sejak tahun 2002/2003
pemerintah
mengganti Evaluasi Belajar Tahap Akhir Nasional (EBTANAS)
menjadi Ujian
Akhir Nasional (UAN) sebagai tolok ukur atau parameter akhir
dari suatu proses
pendidikan (Sulistyo, 2007). Menurut Peraturan Pemerintah
Republik Indonesia
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
2
No. 13 Tahun 2015 Pasal 68 menyebutkan bahwa Hasil Ujian
Nasional
digunakan sebagai dasar untuk pemetaan mutu program dan/atau
satuan
pendidikan, pertimbangan seleksi masuk jenjang pendidikan
berikutnya, dan
pembinaan dan pemberian bantuan kepada satuan pendidikan dalam
upaya
meningkatkan mutu pendidikan. Sesuai dengan konsep clustering
yang membagi
data menjadi kelompok-kelompok maka dapat dilakukan
pengelompokan Sekolah
Menengah Atas yang ada di DIY menggunakan data Nilai Ujian
Nasional untuk
melihat peta mutu pendidikan.
Berdasarkan hal di atas, maka penulis mengangkat judul skripsi
yaitu
“Pengelompokan Sekolah Menengah Atas Di DIY Berdasarkan Nilai
Ujian
Nasional Menggunakan Algoritma K-Means Clustering”.
1.2. RUMUSAN MASALAH
Dari latar belakang diatas, maka rumusan masalah dalam
penelitian ini
adalah:
1. Apakah algoritma K-Means dapat dipergunakan untuk
mengelompokkan Sekolah Menengah Atas di DIY berdasarkan
nilai
Ujian Nasional ?
2. Bagaimana evaluasi hasil clustering menggunakan
Silhouette
Coeficient?
1.3. TUJUAN PENELITIAN
Tujuan penelitian ini adalah mengimplementasi algoritma K-Means
untuk
mempermudah pengelompokkan Sekolah Menengah Atas berdasarkan
nilai Ujian
Nasional.
1.4. BATASAN MASALAH
Masalah dibatasi sebagai berikut:
1. Metode yang digunakan dalam penelitian ini adalah metode
clustering
algoritma K-Means
2. Data yang digunakan adalah data nilai Ujian Nasional SMA di
DIY pada
2014/2015 jurusan IPA dan IPS.
3. Aplikasi akan dibuat menggunakan pemrograman Java Desktop
Standard
Edition.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
3
1.5. MANFAAT PENELITIAN
Manfaat penulisan tugas akhir ini adalah sebagai berikut:
1. Penelitian ini diharapkan dapat memberikan manfaat untuk
pihak-pihak
dalam dunia pendidikan, terutama dinas pendidikan. Dinas
pendidikan dapat
menggunakan penelitian ini sebagai salah satu bahan masukan
pengambilan
kebijakan pembinaan dan pemberian bantuan kepada satuan
pendidikan
dalam upaya meningkatkan mutu pendidikan.
2. Sebagai referensi bagi peneliti yang berkaitan dengan
clustering pemetaan
atau pengelompokan sekolah.
1.6. SISTEMATIKA PENULISAN
Sistematika penulisan Tugas Akhir ini adalah sebgai berikut:
1. BAB I. PENDAHULUAN
Pada Bab ini memberikan gambaran singkat dan menyeluruh
mengenai
sistem pengelompokan nilai ujian nasional SMA pada tiap
kompetensi. Bab I
ini meliput latar belakang masalah, batasan masalah, tujuan dan
manfaat
penelitian, rumusan masalah, metodologi penelitian, dan
sistematika
penulisan.
2. BAB II. LANDASAN TEORI
Pada Bab ini mengemukakan teori-teori yang digunakan sebagai
acuan
dalam perancangan dan pengimplementasikan sistem pengelompokan
nilai
ujian nasional SMA pada tiap kompetensi.
3. BAB III. METODOLOGI PENELITIAN
Bab ketiga ini akan menjelaskan gambaran umum penelitian,
data,
spesifikasi alat, dan tahap-tahap penelitian.
4. BAB IV : PEMROSESAN AWAL DAN PERANCANGAN
PERANGKAT LUNAK PENAMBANGAN DATA
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
4
Pada bab keempat ini berisi pemrosesan awal dalam proses
Knowledge
Discovery in Database (KDD) yaitu pembersihan data, integrasi
data, seleksi
data, dan transformasi data. Selain itu bab ini juga akan berisi
perancangan
perangkat lunak yang akan digunakan dalam tahap penambangan
data.
Perancangan perangkat lunak tersebut terdiri dari perancangan
umum,
diagram use case, diagram aktivitas, diagram sekuen, algoritma
per method,
struktur data, dan perancangan antarmuka.
5. BAB V. IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI
HASIL
Pada bab kelima ini berisi implementasi rancangan perangkat
lunak
penambangan data dan evaluasi hasil yang terdiri dari pengujian
perangkat
lunak (black box), pengujian perbandingan hitung manual dengan
hasil
sistem, Evaluasi hasil clustering menggunakan Silhouette Index,
kelebihan
sistem, dan kekurangan sistem.
6. BAB VI. PENUTUP
Pada Bab ini berisi tentang kesimpulan dan saran dari skripsi
yang telah
dibuat serta pengembangan penelitian ke depan.
.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
5
BAB II
LANDASAN TEORI
2.1. PENAMBANGAN DATA
2.1.1. Pengertian Penambangan Data
Penambangan data (Data Mining) menghadirkan suatu proses
yang
dikembangkan untuk menguji sejumlah data besar. Data-data yang
dapat
digunakan dalam penambangan data adalah data pemasaraan,
kesehatan,
pendidikan, dan lain-lain.
Data mining adalah proses yang menggunakan teknik statistik,
matematika, kecerdasan buatan, dan machine learning untuk
mengekstrasi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang
terkait dari
berbagai database besar (Turban,2005). Data mining mempunyai
tujuan untuk
mendapatkan hubungan atau pola yang mungkin memberikan indikasi
yang
bermanfaat.
2.1.2. Fungsi Penambangan Data
Menurut Han dkk. (2006) fungsionalitas data mining yang
digunakan
untuk menentukan pola dapat ditemukan pada tugas data mining.
Secara umum
tugas data mining dapat di klasifikasikan ke dalam dua kategori:
deskriptif dan
prediktif. Tugas penambangan deskriptif adalah melakukan
karakterisasi sifat
umum dari data dalam basis data. Sedangkan Tugas penambangan
prediksi adalah
untuk melakukan inferensi pada data saat ini untuk membuat
prediksi.
Fungsi data mining dan jenis pola yang dapat ditemukan,
yaitu:
a. Konsep/Deskripsi Kelas
Data dapat dikaitkan dengan kelas atau konsep. Deskripsi
seperti
kelas atau konsep yang disebut deskripsi kelas/konsep. Deskripsi
tersebut
dapat diturunkan melalui karakterisasi data, dengan merangkum
data dari
kelas yang diteliti(sering disebut kelas target) secara umum,
atau dengan
diskriminasi data, dengan perbandingan target kelas dengan satu
atau satu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
6
set kelas komparatif (sering disebut kelas kontras), atau
baik
krakterisasi data dan diskriminasi.
b. Penambangan Kemunculan Pola, Asosiasi, Korelasi
Pola yang sering adalah pola yang sering terjadi di data. Jenis
pola
yang dimaksud adalah itemset, subsequences, dan substructure.
Sebuah
itemset biasanya mengacu pada satu set item yang sering muncul
bersama-
sama. Sebuah subsequences sering terjadi misalnya pada pola
pelanggan
cenderung membeli PC pertama, diikuti oleh kamera digital, dan
kemudian
kartu memori. Sebuah substructure dapat merujuk untuk bentuk
struktural
yang berbeda, seperti grafik, tree atau kisi yang dapat
dikombinasikan
dengan itemset atau subsequences. Substructure yang sering
terjadi, itu
disebut (Frequent) pola terstruktur. Penambangan pola yang
sering
mengarah pada penemuan asosiasi yang menarik dan korelasi dalam
data.
c. Klasifikasi dan Prediksi
Klasifikasi adalah proses menemukan model (fungsi) yang
menggambarkan dan yang membedakan kelas data atau konsep
dengan
tujuan mampu menggunakan model untuk memprediksi kelas objek
yang
label kelas tidak diketahui. Ada banyak metode untuk
membangun
classificationmodels, seperti naive bayesian classification,
support vector
machines, dan k-nearest neighbor classification.
Prediksi digunakan untuk memprediksi hilang atau tidak
tersedianya data nilai numerik pada label kelas. Analisis
regresi adalah
metodologi statistik yang paling sering digunakan untuk prediksi
numerik.
Prediksi juga meliputi identifikasi tren distribusi berdasarkan
data yang
tersedia.
Klasifikasi dan prediksi mungkin perlu didahului dengan
analisis
relevansi, yang mencoba untuk mengidentifikasi atribut yang
tidak
memberikan kontribusi terhadap klasifikasi atau prediksi
proses.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
7
d. Analisis Cluster
Analisis klaster objek data tanpa berkonsultasi dengan label
kelas
yang diketahui. Data dikelompokkan berdasarkan prinsip
memaksimalkan
kesamaan intraclass dan meminimalkan kesamaan antar kelas.
Dengan
kata lain, kelompok benda terbentuk sehingga objek dalam
cluster
memiliki kesamaan yang tinggi dibandingkan satu sama lain ,
tetapi sangat
berbeda untuk objek dalam cluster lainnya . Setiap cluster yang
terbentuk
dapat dilihat sebagai kelas objek.
e. Analisi Outlier
Sebuah basis data dapat berisi objek data yang tidak sesuai
dengan
perilaku umum atau model data. Peristiwa langka bisa lebih
menarik
daripada yang terjadi lebih teratur . Sebagian besar metode data
mining
membuang outlier sebagai noise atau pengecualian. Namun,
dalam
beberapa aplikasi seperti deteksi penipuan, peristiwa langka
bisa lebih
menarik daripada peristiwa yang sering terjadi. Analisis data
outlier
disebut sebagai outlier mining.
Outlier dapat dideteksi menggunakan uji statistik yang
mengasumsikan distribusi atau model probabilitas data, atau
menggunakan
pendekatan jarak di mana objek yang berbeda dari setiap lainnya
dianggap
outlier .
f. Analisi Evolution
Analisis evolusi menggambarkan data dan model keteraturan
atau
tren untuk objek yang perilakunya berubah dari waktu ke waktu.
Meskipun
termasuk dalam karakterisasi, diskriminasi, asosiasi dan
analisis korelasi,
klasifikasi, prediksi, atau pengelompokan data, fitur yang
berbeda dari
analisis tersebut meliputi analisis data time-series, urutan
atau periodisitas
pencocokan pola, dan analisis data berbasis kesamaan.
(Han dkk,2006)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
8
2.1.3. Knowledge Discovery in Database (KDD)
Menurut Han dkk. (2006), penambangan data tidak dapat dipisahkan
dari
proses Knowledge Discovery in Databese (KDD). KDD merupakan
sebuah proses
mengubah data mentah menjadi suatu informasi yang berguna.
Illustrasi proses
KDD dapat dilihat pada gambar 2.1.
Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in
Databese
(Han&Kamber, 2006).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
9
Knowledge Discovery merupakan suatu proses digambarkan dalam
Gambar
2.1 dan terdiri dari langkah-langkah sebagai berikut:
1. Pembersihan Data ( Data Cleaning)
Pembersihan Data dilakukan untuk menghilangkan noise dan data
yang
tidak konsisten. Sebelum proses data mining dapat dilaksanakan,
perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses
cleaning mencakup antara lain membuang duplikasi data, memeriksa
data
yang inkonsisten dan memperbaiki kesalahan pada data, seperti
kesalahan
cetak (tipografi). Lalu dilakukan juga proses enrichment, yaitu
proses
“memperkaya” data yang sudah ada dengan data atau informasi lain
yang
relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
2. Integrasi Data (Data Integration)
Tahap ini berisikan penggabungann dari beberapa sumber data.
3. Seleksi Data (Data Selection)
Pemilihan (seleksi) data dari sekumpulan data operasional
perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
Seleksi
data merupakan proses menganalisi data yang relevan dari dalam
database.
4. Transformasi Data (Data Transformation)
Tahap ini mengubah atau mengkonsolidasi data ke dalam bentuk
yang
sesuai untuk dilakukan penambangan data.
5. Penambangan Data (Data Mining)
Data mining adalah proses proses penting di mana metode cerdas
yang
diterapkan untuk mengekstrak pola data.
6. Evaluasi Pola (Pattern Evaluation)
Evaluasi pola digunakan untuk mengidentifikasi pola-pola yang
benar-
benar menarik yang mewakili pengetahuan berdasarkan pada
beberapa
langkah penting.
7. Presentasi Pengetahuan (Knowledge Presentation)
Tahap ini merupakan proses teknik visualisasi dan
representasi
pengetahuan digunakan untuk menyajikan pengetahuan hasil
penambangan
kepada pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
10
2.2. Ujian Nasional
2.2.1. Definisi Ujian Nasional
Ujian adalah kegiatan yang dilakukan untuk mengukur
pencapaian
Kompetensi Peserta Didik debagai pengakuan prestasi belajar dan
penyelesaian
dari salah satu pendidikan. Ujian Nasional adalah evaluasi tahap
Akhir yang
merupakan salah satu proses pengukuran hasil belajar dan mutu
pendidikan yang
telah dilaksanakan secara nasional di Indonesia sejak tahun
1985. Ujian Nasional
diadakan untuk peningkatan mutu pendidikan dan daya saing sumber
daya
manusia Indonesia. Pemerintah telah menetapkan standar kelulusan
minimal yang
harus dicapai peserta didik.
Hasil Ujian Nasional bertujuan untuk pemetakan mutu program dan
satuan
pendidikan yaitu; (1) pemetaan mutu pendidikan yaitu memperoleh
gambaran
perbandingan mutu pendidikan antar sekolah/madrasah, dan antar
wilayah dari
tahun ke tahun, (3) pertimbangan seleksi masuk jenjang
pendidikan berikutnya,
(5) pembinaan dan memberian bantuan kepada satuan pendidikan
dalam upaya
meningkatkkan mutu pendidikan di Indonesia.
Dalam pelaksanaan UN tahun 2015 mengenai standar nasional
pendidikam
pemerintah telah mengatur dalam Peratuaran Pemerinrah Republik
Indonesia
Nomor 13 Tahun 2015 tentang Perubahan Kedua Atas Peraturan
Pemerintah
Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan. Disebut
dalam
pasal 1 ayat 29 Badan Standar Nasional Pendidikan (BSNP) adalah
badan mandiri
dan Independen yang bertugas mengembangkan, memantau, dan
mengendalikan
Standar Nasional Pendidikan.
Pembinaan sekolah misalnya oleh pengawas sekolah,
pelaksanaan
pembinaan oleh pengawas untuk SMP/MTs, SMA/MA, dan SMK/MAK
paling
sedikit 7 (tujuh) satuan pendidikan menurut Peraturan Menteri
Pendidikan dan
Kebudayaan No 143 Tahun 2014.
2.2.2. Tujuan dan Fungsi Ujian Nasional
Berdasarkan Peraturan Menteri Pendidikan dan Kebudayaan
Republik
Indonesia Nomor 5 Tahun 2015 BSNP (Badan Standar Nasional
Pendidikan)
menyelengarakan Ujian Nasional bekerja sama dengan instansi
terkait di
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
11
lingkungan Pemerintah, Pemerintah provinsi, pemerintah
kabupaten/kota dan
satuan pendidikan sesuai dengan kurikulum yang berlaku.
Penilaian hasil belajar bertujuan untuk menilai pencapaian
kompetensi
lulusan secara nasional paada mata pelajaran tertentu dan di
lakukan dalam bentuk
ujian nasional. (ps. 66, peraturan pemerintah republik indonesia
nomor 13 tahun
2015). Hasil ujian nasional digunakan sebagai dasar untuk :
a. pemetaan mutu program dan/atau satuan pendidikan.
b. pertimbangan seleksi jenjang pendidikan berikutnya.
c. pembinaan dan pemberian bantuan kepada satuan pendidikan
dalam upaya
untuk meningkatkkan mutu pendidikan.
2.2.3. Peserta Ujian Nasional
Setiap peserta didik jalur pendidikan formal pendidikan dasar
dan
menengah dan jalur pendidikan nonformal kesetaraan berhak
mengikuti Ujian
nasioal dan berhak mengulainya sepanjang belum dinyatakan
memenuhi kriteria
pencapaian kompetensi lulusan. Peserta didik wajib mengikuti
satu kali Ujian
nasional tanpa dipungut biaya. Peserta Didik jalur pendidikan
formal pendidikan
dikecualikan untuk Peserta Didik SD/MI/SDLB atau bentuk lain
yang sederajat.
Peserta Didik pendidikan informal dapat mengikuti Ujian nasional
setelah
memenuhi syarat yang ditetapkan oleh BSNP. Peserta Ujian
nasional memperoleh
surat keterangan hasil Ujian nasional yang diterbitkan oleh
satuan pendidikan
penyelenggara Ujian nasional. (ps.69, Peraturan Pemerintah
Republik Indonesia
Nomor 13 Tahun 2015). Dalam Peraturan Menteri Pendidikan dan
Kebuyaan
Republiik Indonesia No. 15 tahun 2015 Persyaratan peserta didik
pada jalur
formal yang mengikuti ujian nasional adalah telah atau pernah
berada pada tahun
terakhir pada suatu jenjang pendidikan di satuan pendidikan, dan
memiliki
laporan lengkap penilaian hasil belajar pada suatu jenjang
pendidikan di satuan
pendidikan tertentu mulai semester I sampai dengan semester V.
Persyaratan
peserta pendidikan kesetaraan yang mengikuti ujian nasional
adalah berasal dari
PKBM, kelompok belajar pada SKB, Pondok Pesantren penyelenggara
Program
Wustha, atau kelompok belajar sejenis dan memiliki laporan
lengkap penilaian
hasil belajar pada Pendidikan Kesetaraan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
12
2.2.4. Penyelenggaran Ujian Nasional
Dalam Peraturan Mentri Pendidikan dan Kebudayaan Republik
Indonesia
No 5 tahun 2015 pasal 14 menyebutkan bahwa BSNP (Badan Standar
Nasional
Pendidikan) menyelenggarakan UN bekerja sama dengan instansi
terkait di
lingkungan Pemerintah, pemerintah provinsi, pemerintah
kabupaten/kota, dan
satuan pendidikan. BSNP sebagai penyelengara UN bertugas untuk
menelaah dan
menetapkan kisi-kisi UN, menyusun dan menetapkan POS pelaksanaan
UN,
menelaah dan menetapkan naskah soal UN, memberikan rekomendasi
kepada
Menteri tentang pembentukan Panitia UN Tingkat Pusat, melakukan
koordinasi
persiapan dan pengawasan pelaksanaan UN secara nasional, dan
melakukan
evaluasi dan menyusun rekomendasi perbaikan pelaksanaan UN.
2.2.5. Strandar Kelulusan
Peserta didik dinyatakan lulus dari suatu pendidikan setelah
menyelesaikan
seluruh program belajar, memperoleh nilai sikap.perilaku minimal
baik, dan lulus
ujian S/M/PK. Kelulusan peserta didik dari ujian S/M ditetapkan
oleh satuan
pendidikan. Kelulusan peserta didik dari ujian PK ditetapkan
oleh Dinas
Pendidikan Provinsi. Dan Kelulusan peserta didik ditetapkan
setelah satua
pendidikan menerima hasil ujian nasional peserta didik yang
bersangkutan. (ps.2
Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia
No. 5 tahun
2015).
Kriteria kelulusan peserta didik mencakup minimal rata-rata
nilai dan
minimal nilai setiap mata pelajaran yang ditetapkan oleh satuan
pendidikan. Nilai
S/M/PK sebagaimana dimaksud pada ayat (1) dan ayat (2) diperoleh
dari
gabungan:
a. Rata-rata nilai rapor dengan bobot 50% (lima puluh persen)
sampai dengan
70% (tujuh puluh persen):
1. Semester I sampai dengan semester V atau yang setara pada
SMP/MTs,
SMPLB, dan Paket B/Wustha;
2. Semester III sampai dengan semester V atau yang setara
pada
SMA/MA/SMAK/SMTK, SMALB, SMK/MAK, dan Paket C;
3. Semester I sampai dengan semester V atau yang setara bagi
SMP/MTs
dan SMA/MA/SMAK/SMTK yang menerapkan sistem SKS.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
13
b. Nilai Ujian S/M/PK dengan bobot 30% sampai dengan 50% (lima
puluh
persen).
(ps. 4. Peraturan menteri Pendidikan dan Kebudayaan Republik
Indonesia No. 5
tahun 2015).
Kelulusan peserta didik SMP/MTs, SMPLB, SMA/MA/SMAK/SMTK,
SMALB, SMK/MAK ditetapkan oleh setiap satuan pendidikan yang
bersangkutan dalam rapat dewan guru. (ps. 5. Peraturan menteri
Pendidikan dan
Kebudayaan Republik Indonesia No. 5 tahun 2015).
2.3. Konsep Data Mining
2.3.1. Clustering
Konsep cluster yaitu menemukan kumpulan objek hingga
objek-objek
dalam satu kelompok sama (punya hubungan) dengan yang lain dan
berbeda
(tidak berhunungan) dengan objek-objek dalam kelompok lain.
Tujuan dari
analisa cluster adalah meminimalkan jarak didalam cluster dan
memaksimalkan
jarak antar cluster. Tidak di perlukan label kelas untuk setiap
data yang diproses
karena label baru dapat diberikan ketika cluster sudah
terbentuk.
Ada beberapa pendekatan yang digunakan dalam metode clustering.
Dua
pendekatan yang utama adalah clustering dengan pendekatan
partisi yang biasa
disebut partition-bassed clustering mengelomokan data dengan
memilah-milah
data yang dianalisa ke dalam cluster-cluster yang ada. Metode
yang menggunakan
partisi salah satunya adalah K-Means. Selain itu juga terdapat
pendekatan
hierarchical clustering yaitu mengelompokan data dengan membuat
suatu hirarki
berupa dendogram dimana data yang mirip akan ditempatkan pada
hirarki yang
berdekatan dan yang tidak pada hirarki berjauhan
(Prasetyo,2014).
2.3.2. K-Means
K-Means merupakan algoritma pengelompokan iteratif yang
melakukan
partisi set data ke dalam sejumlah K cluster yang sudah
diteteepkan diawal.
Algoritma K-Means sederhana untuk diimplementasikan dan
dijalankan, relatif
cepat dan mudah beradaptasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
14
K-Means dapat diterapkan pada data yang direpresentasikan dalam
r-
dimensi ruang tempat. K-Means mengelompokan set data r-dimensi,
X = {x1|i=1,
...,N}, dimana xi ϵ Ɽd
yang mengatakan bahwa data ke-i sebagai “titik data”. Perlu
diperhatikan titik harus berada dalam cluster yang mana,
dilakukan dengan cara
memberikan setiap titik sebuah ID cluster. Titik dengan ID yang
sama berarti
berada dalam satu cluster yang sama, sedangkan titik dengan ID
cluster yang
berbeda berada dalam cluster yang berbeda. Dapat dinyatakan
dengan vektor
keanggotaan cluster m dengan panjang N dimana mi bernilai ID
cluster titik xi.
Parameter yang dimasukan ketika menggunakan algoritma K-Means
adalah nilai
K. Nilai K digunakan berdasarkan informasi yang diketahui
sebelumnya tentang
sebenarnya berapa banyak cluster data yang muncul dalam X.
Dalaam K-Means, setiap cluster dari K cluster diwakili oleh
titik tunggal
dalam Ɽd
. Set representatif cluster dinyatakan C= {cj|j=1, ..., K}. Pada
saat data
sudah dihutung ketidakmiripan terhadap centroid, maka dipilih
ketidakmiripan
yang paling kecil sebagai cluster yang akan diikuti sebagai
relokasi data pada
cluster di sebuah iterasi. Relokasi sebuah data dalam cluster
yang diikuti dapat
dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1.
Jika 0 maka tidak
menjadi anggota cluster 1, begitupun sebaliknya. K-Means
mengelompokan
secara tegas data hanya pada satu cluster, maka dari nilai a
sebuah data pada
semua cluster, hanya satu yang bernilai 1, sedangkan lainnya 0
seperti dinyatakan
oleh persamaan berkut:
{
..............................................(2.1)
Di mana:
= nilai keanggotaan
i = index data
j = cluster ke j
= data yang masuk ke cluster
= ketidakmiripan (jarak) dari data ke-i ke cluster .
Relokasi centroid untuk mendapatkan titik centroid C didapatkan
dengan
menghitung rata-rata setiap fitur dari semua data yang
tergantung dalam setiap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
15
cluster. Rata-rata sebuah fitur dari semua data dalam sebuah
cluster dinyatakan
oleh persamaan berikut:
∑
Di mana:
= cluster
= anggota cluster ke- k
= nilai pusat cluster baru
= banyaknya anggota cluster ke- k
Untuk meminimalkan fungsi objektif/fungsi biaya non-negatif
dinyatakan
oleh persamaan berikut:
∑∑
= jumlah cluster
= jumlah data
= data ke i
= data yang masuk ke cluster
= ketidakmiripan (jarak) dari data ke-i ke cluster .
Algoritma K-Means untuk mengelompokan suatu data X sebagai
berikut:
(Prasetyo, 2014)
1. Inisiasi: tentukaan nilai K sebagai jumlah cluster yang
diinginkan
dan metrik ketidakmiripan (jarak) yang diinginkan. Jika
perlu,
tetapkan ambang batas perubahan fungsi objektif dan ambang
batas
perubahan posisi centroid.
2. Pilih K data dari set data X sebagai centroid.
3. Alokasikan semua data ke centroid terdekat dengan metrik
jarak
yang sudah ditetapkan (memperbaharui cluster ID setiap data)
4. Hitung kembali centroid C berdasarkan data yang mengikuti
cluster
masing-masing.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
16
5. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai,
yaitu
(a) perubahan fungsi objektif sudah dibawah ambang batas
yang
diinginkan; atau (b) tidak ada data yang berpindah cluster; atau
(c)
perubahan posisi centroid sudah dibawah ambang batas yang
ditetapkan.
2.3.3. Distance Space
Distance space adalah proses penghitungan jarak antara suatu
dokumen
dengan dokumen lainnya. Euclidean distance adalah salah satu
cara untuk
menghitung Distance space. Rumus Euclidean distance dinyatakan
pada
persamaan berikut:
√
........(2.4)
Di mana:
= data ke
= data ke j
jarak antara data ke i dan data ke j
= nilai atribut ke satu dari data ke i
= nilai atribut ke satu dari data ke j
= jumlah atribut yang digunakan
(Handoyo dkk, 2014).
2.4. Validitas Cluster
2.4.1. Analisis Cluster
Analisis cluster merupakan pemrosesan data secara alami dengan
algoritma
yang berjalan sendiri sehingga didapatkan kelompok-kelompok yang
terbentuk
secara alami pula. Selain parameter-parameter diawal algoritma
yang berjalan,
tidak ada lagi yang diberikan kepada sistem setelah alggoritma
selesai dilakukan.
Pada dasarnya analisis cluster adalah proses penggalian
informasi yang
sebelumnya tidak ada sehingga seolah-olah menjadi pertanyaan
mengapa harus
harus dilakukan evaluasi.
Dalam evaluasi cluster terdapat dua metode yaitu metode
unsupervised dan
metode supervided. Metode unsupervised untuk mengukur kebagusan
struktur
cluster tanpa membutuhkan eksternal. Metode unsupervised untuk
mengukur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
17
sejauh mana struktur cluster yang ditemukan olehh algoritma
clustering cocok
dengan struktur eksternal. Metode relatif melakukan perbandingan
cluster
menggunakan ukuran evaluasi unsupervised dan supervided.
(Prasetyo, 2014).
2.4.2. Validitas Internal
Banyak matrik internal yang mengukur validitas cluster pada
metode
pengelompokan berbasis partisi didasarkan pada nilai kohesi dan
separasi. Kohesi
dalam pengelompokan berbasis partisi didefinisikan sebagai
jumalh dari
kedekatan data terhadap centroid dari cluster yang diikutinya.
Sedangkan separasi
di antara dua sluster dapat diukur dengan kedekatan dua
prototipe (centroid)
cluster. (Prasetyo, 2014)..
2.4.3. Silhouette
Ketepatan sebuah pengelompokan menunjukan seberapa baik
proses
pengelompokan dan kualitas kelompok yang terbentuk. Salah satu
ukuran
ketepatan yang dapat digunakan dalam menentukan ketepatan
pengelompkan
adalah Silhouette Coeficient (Muhammad).
Silhouette dapat digunakan untuk memvalidasi baik sebuah data,
cluster
tunggal (satu cluster dari sejumlah cluster), atau keseluruhan
cluster. Metode ini
paling banyak digunakan untuk memvalidasi cluster yang
menggabungkan nilai
kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data
ke-i, ada 2
komponen yaitu dan . adalah rata-rata jarak data ke- terhadap
semua data
lainnya dalam satu cluster, sedangkan bi didapatkan dengan
menghitung rata-rata
jarak data ke- terhadap semua data dari cluster yang lain tidak
dalam satu cluster
dengan data ke- , kemudian diambil yang terkecil. (Prasetyo,
2014).
Berikut formula untuk menghitung
∑
Di mana:
= cluster
= index data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
18
= rata-rata jarak data ke – terhadap semua data lainnya dalam
satu
cluster.
= jumlah data dalam cluster ke- .
adalah jarak data ke- dengan data ke- dalam suatu cluster .
Berikut adalah formula untuk menghitung
{
∑
}
Di mana:
= cluster
n = cluster
= index data
= jumlah data dalam cluster ke- .
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua
data
dari cluster yang lain tidak dalam satu cluster dengan data ke-
.
= jarak data ke- dalam cluster j dengan data ke- dalam suatu
cluster .
(Prasetyo, 2014).
Untuk mendapatkan nilai jumlah Silhouette data ke-
menggunakan
persamaan berikut:
{
}
Di mana:
= Silhouette data ke i dalam 1 cluster
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua
data dari
cluster yang lain tidak dalam satu cluster dengan data ke- .
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
19
= rata-rata jarak data ke – terhadap semua data lainnya dalam
satu
cluster.
(Kaufman dan Rousseeuw, 2005)
Nilai S( rata-rata dari sebuah cluster didapatkan dengan
menghitung rata-
rata nilai S( semua data yang bergabung dalam cluster tersebut,
seperti pada
persamaan berikut:
∑
= Rata-rata Silhouette cluster j
= Silhouette data ke i dalam 1 cluster j
= index
= jumlah data dalam cluster ke- .
Nilai rata-rata dari data set didapatkan dengan menghitung
rata-rata
nilai dari semua cluster seperti pada persamaan berikut:
∑
= jumlah cluster.
= Rata-rata Silhouette dari data set
= Rata-rata Silhouette cluster j
(Prasetyo, 2014).
Nilai mengukur seberapa mirip sebuah data dengan cluster
yang
diikutinya, nilai yang semakin kecil menandakan semakin tepatnya
data tersebut
berada dalam cluster tersebut. Nilai yang besar menandakan
seberapa jeleknya
data terhadap cluster yang lain. (Prasetyo, 2014)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
20
Hasil perhitungan nilai Silhouette Coeficient dapat bervariasi
antara -1
hingga 1. Jika = 1 maka objek berada dalam cluster yang tepat.
Jika =
0 maka objek berada di antara dua cluster sehingga objek
tersebut tidak jelas
harus dimasukan ke dalam cluster A atau B. Akan tetapi, jika =
-1 artinya
cluster yang dihasilkan overlapping, sehingga objek lebih tepat
dimasukan ke
dalam cluster lain.(Alfian dkk, 2012). Silhouette Coeficient
adalah ukuran yang
berguna dari jumlah struktur clustering yang telah ditemukan
oleh algoritma
klasifikasi. Silhouette Coeficient adalah berdimensi kuantitas
yang paling sama
dengan 1.
Perhitungan nilai Silhouette Coeficient dapat dirumuskan sebagai
berikut:
Di mana:
SC = Silhouette Coeficient
= Nilai Silhouette
= cluster
= Nilai maksimum dari semua k.
Rata-rata dari untuk semua objects pada sebuah cluster, yang
disebut rata-rata silhouette dalam sebuah cluster. Rata-rata
dari untuk =
1,2,...n, yang disebut rata-rata silhouette pada data set. Nilai
maksimum
didapatkan dari semua percobaan k pada silhouette, dimana =
2,3,... n-1.
Menurut interpretasi subjektif dari Kauffman dan Rousseeuw(2005)
dapat
dilihat pada tabel 2.1. (Kauffman dan Rousseeuw,2005).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
21
Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan
Berdasarkan Silhouette
Coeficient (SC)
Nilai SC Interpretasi Oleh Kauffman
0,72 – 1,00 Strong Classification
0,51-0,70 Good Classification
0,26-0,50 Weak Classification
0-0,25 Bad Classification
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
22
BAB III
METODOLOGI PENELITIAN
3.1. Sumber Data
Data yang digunakan pada penelitian ini didapat dari situs
http://litbang.kemdikbud.go.id/index.php/un untuk data tahun
ajaran 2014/2015.
Data yang didapatkan berekstensi .xls dan berisikan nilai SMA
dari jurusan IPA
dan IPS.
3.1.1. Data yang digunakan
Data yang digunakan merupakan data nilai siswa program IPA dan
IPS.
Untuk program studi IPA terdiri dari mata pelajaran Bahasa
Indonesia, Bahasa
Inggris, Matematika, Biologi, Fisika dan Kimia. Sedangkan untuk
program studi
IPS terdiri dari mata pelajaran Bahasa Indonesia, Bahasa
Inggris, Matematika,
Ekonomi, Sosiologi, dan Geografi. Salah satu contoh data yang
digunakan berisi
data seperti yang terdapat dalam tabel 3.1 sampai dengan tabel
3.4.
Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional
Program IPA
2014/2015
Nama Atribut Keterangan
Kode Sek. Kode Sekolah
NAMA SEKOLAH Nama Sekolah
Sts Sek. Status Sekolah(Swasta/Negeri)
Jm. Pes Jumlah Peserta
BIN Ujian Nasional Bahasa Indonesia
ING Ujian Nasional Bahasa Ingris
MAT Ujian Nasional Matematika
FIS Ujian Nasional Fisika
KIM Ujian Nasional Kimia
BIO Ujian Nasional Biologi
TOT Total Nilai Ujian
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
http://litbang.kemdikbud.go.id/index.php/un
-
23
Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional
Program IPS
2014/2015
Nama Atribut Keterangan
Kode Sek. Kode Sekolah
NAMA SEKOLAH Nama Sekolah
Sts Sek. Status Sekolah(Swasta/Negeri)
Jm. Pes Jumlah Peserta
BIN Ujian Nasional Bahasa Indonesia
ING Ujian Nasional Bahasa Ingris
MAT Ujian Nasional Matematika
EKO Ujian Nasional Ekonomi
SOS Ujian Nasional Sosiologi
GEO Ujian Nasional Geografi
TOT Total Nilai Ujian
3.2. Spesifikasi Alat
Sistem dibuat dengan menggunakan hardware dan software sebagai
berikut:
3.2.1. Spesifikasi Hardware
a. Proses Intel Pentium Core i5 2.40GHz
b. RAM 2.00 GB
3.2.2. Spesifikasi Software
a. Sistem Operasi Microsoft Windows 7
b. Compiler IDE NetBeans 7.2
Software ini akan digunakan untuk membuat interface dan
sekaligus untuk
membuat source code.
3.3. Tahap-Tahap Penelitian
3.3.1. Studi Kasus
Nilai Ujian Nasional merupakan tolak ukur atau parameter akhir
dari
proses pembelajaran di suatu tingkat pendidikan di suatu daerah.
Dari nilai Ujian
Nasional tersebut dapat digunakan untuk pemetaan kualitas
pendidikan. Untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
24
mengevaluasi nilai ujian nasional agar dapat terlihat
pemetaannya dapat
menggunakan nilai dari mata pelajaran yang diujikan pada program
IPA maupun
IPS. Dengan penelitian ini diharapkan dapat menemukan suatu
pengelompokan
sekolah yang telah menjalankan Ujian Nasional untuk mengetahui
keberhasilan
dari Ujian Nasional.
3.3.2. Penelitian Pustaka
Pada tahap ini, dilakukan penelitian pustaka untuk memperoleh
informasi
dan menggali teori-teori tentang teknik data mining. Dalam
penelitian ini penulis
mempelajari literatur yang berkaitan dengan teknik data mining
asosiasi
khususnya algoritma K-Means dan literatur lainnya yang berguna
bagi sistem
yang akan dibangun.
3.3.3. Knowledge Discovery in Database (KDD)
Dalam melakukan proses mengubah data mentah menjadi suatu
informasi
yang bermanfaat, penulis menggunakan proses Knowledge Discovery
in Database
(KDD) yang terdiri dari pembersihan data, integrasi data,
seleksi data,
transformasi data, penambangan data, evaluasi pola, dan
presentasi pengetahuan.
Pada tahap pembersihan data dan integrasi data, penulis
melakukan secara
manual dengan menggunakan aplikasi microsoft excel. Tahap
selanjutnya yaitu
seleksi data, transformasi data, dan penambangan data, penulis
mengembangkan
perangkat lunak sebagai alat bantu untuk melakukan tahap-tahap
tersebut.
Sedangkan untuk tahap evaluasi pola dan presentasi pengetahuan,
penulis
melakukan evaluasi dari hasil penambangan data yang didapat dari
perangkat
lunak yang telah dibangun dan menjelaskan hasil evaluasi
tersebut agar informasi
yang didapat dapat diterima oleh pihak-pihak yang
membutuhkan.
3.3.4. Pengembangan Perangkat Lunak
Pada tahap seleksi data, transformasi data, dan penambangan data
di dalam
proses Knowledge Discovery in Database (KDD), penulis
mengembangkan
perangkat lunak sebagai alat untuk mengolah Dataset yang penulis
miliki untuk
mendapatkan informasi yang berguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
25
Metode yang digunakan oleh penulis dan pengembang sistem
adalah
metode waterfall. Metode ini merupakan metode yang paling sering
digunakan
oleh para pengembang perangkat lunak. Metode ini menggunakan
sistem linier
yaitu apa yang dilakukan pada tahap sebelumnya akan mempengaruhi
tahap
selanjutnya.
Metode waterfall mempunyai langkah-langkah sebagai berikut:
1. Analisa
Pada langkah ini analisa terhadap kebutuhan sistem.
Pengumpulan data dalam tahap ini bisa dilakukan melalui
sebuah
penelitian, wawancara atau studi literatur. Seorang sistem
analis
bertugas dalam mencari informasi sebanyak mungkin dari user
sehingga sistem yang dibuat dapat sesuai dengan kebutuhan
user.
Pada tahapan ini menghasilkan dokumen user requirement yang
dapat
digunakan sistem analis untuk menerjemahkan ke dalam bahasa
pemrograman.
2. Desain
Pada proses desain akan menerjemahkan syarat kebutuhan ke
sebuah perancangan perangkat lunak yang dapat dapat
diperkirakan
sebelum diubah ke dalam bahasa pemrograman. Fokus dari proses
ini
pada struktur data, arsitektur perangkat lunak, representasi
interface,
dan detail algoritma. Tahapan ini akan menghasilkan dokumen
yang
disebut software requirement. Dokumen ini yang digunakan
seorang
programmer untuk membangun sistemnya.
3. Pemrograman
Pemrograman merupakan penerjemahan design ke dalam bahasa
pemrograman. Pada tahap ini programmer akan mengubah proses
transaksi yang diinginkan user ke dalam sistem yang
dibangun.
4. Pengujian Perangkat Lunak
Pada tahap pengujian perangkat lunak dilakukan setelah
pemrograman selesai. Pengujian yang digunakan adalah
membandingkan perhitungan manual dengan hasil yang diperoleh
dari
perangkat lunak. Tujuan pengujian ini adalah untuk menemukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
26
kesalahan – kesalahan yang terdapat pada perangkat lunak
tersebut
agar kemudian dapat diperbaiki.
3.3.5. Analisis dan Pembuatan Laporan
Analisis yang akan dilakukan adalah analisis kinerja dari alat
uji yang
dibuat menggunakan algoritma K-Means, dan hasil analisis
tersebut nantinya akan
diolah kedalam sebuah laporan tugas akhir.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
27
BAB IV
PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK
PENAMBANGAN DATA
4.1. PEMROSESAN AWAL
4.1.1. Pembersihan Data (Data Cleaning)
Sebelum proses data mining dapat dilakukan, perlu proses
cleaning pada
data yang menjadi fokus. Pemrosesan pendahuluan dan pembersihan
data
merupakan operasi dasar seperti penghapusan noise dilakukan.
Pada penelitian ini
ada beberapa sekolah yang tidak ada nilainya maka peneliti
menghapus sekolah
yang tidak ada nilai hasil ujian.
4.1.2. Itegrasi Data (Data Integration)
Tahap ini berisikan penggabungan data dari bermacam-macam
sumber.
Peneliti menggunakan 2 data terdiri dari data nilai ujian
nasional 2014/2015
jurusan IPA dan IPS. Peneliti tidak menggunakan tahap ini
dikarenakan data
berasal dari sumber yang sama sehingga tidak perlu melakukan
proses integrasi
data karena range nilai yang digunakan juga sudah sama.
4.1.3. Seleksi Data (Data Selection)
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi
data merupakan
proses menganalisis data yang relevan dari dalam database.
Atribut yang tidak digunakan pada data ujian nasional jurusan
IPA dan IPS
di DIY tahun 2014/2015 dijelaskan tabel 4.1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
28
Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional
2015
Tahun Atribut
2015 No.
Kode Sek.
Sts Sek.
Jumlah Peserta
TOT
RANK
Atribut pada tabel tabel 4.5 tidak digunakan sebab atribut dalam
tabel-tabel
tersebut hanya atribut pendukung yang tidak digunakan dalam
proses clustering.
Proses clustering membutuhkan atribut nama sekolah dan mata
pelajaran.
Hasil dari seleksi atribut pada data nilai ujian nasional IPA
dan IPS di
Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 dijelaskan
pada tabel 4.2
dan 4.3.
Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional
Program Strudi IPA
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
Nama Atribut Keterangan
NAMA SEKOLAH Nama Sekolah
BIN Ujian Nasional Bahasa Indonesia
ING Ujian Nasional Bahasa Ingris
MTK Ujian Nasional Matematika
FSK Ujian Nasional Fisika
KMA Ujian Nasional Kimia
BIO Ujian Nasional Biologi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
29
Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional
Program Strudi IPS
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
4.1.4. Tranformasi Data (Data Transformation)
Pada penelitian ini tidak dilakukan normalisasi karena data yang
digunakan
memiliki interval yang sama, yaitu 0-100, sehingga tahap ini
tidak dilakukan.
Tahap kedua dalam transformasi data yaitu mengubah data numerik
menjadi
sebuah keputusan misal Tuntas atau Tidak Tuntas. Dalam
penelitian ini pada
tahap ini tidak dilakukan.
4.2. PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA
4.2.1. Diagram Use Case
Suatu sistem selalu memiliki interaksi antara pengguna dengan
sistem itu
sendiri, hal ini digambarkan dalam bentuk diagram use case.
Diagram use case
dapat dilihat pada gambar 4.1.
Nama Atribut Keterangan
NAMA SEKOLAH Nama Sekolah
BIN Ujian Nasional Bahasa Indonesia
ING Ujian Nasional Bahasa Ingris
MTK Ujian Nasional Matematika
EKO Ujian Nasional Ekonomi
SOS Ujian Nasional Sosiologi
GEO Ujian Nasional Geografi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
30
Gambar 4. 1 Use Case Diagram
Pengguna dalam sistem yang akan dibangun ini hanya satu,
diinisialkan
dengan nama pengguna. Interaksi yang dilakukan pengguna adalah:
memilih
berkas atau memasukkan data yang akan di kelompokkan, seleksi
atribut yang
digunakan, sistem melakukan proses clustering, dan simpan hasil
clustering
menggunakan algoritma K-Means dan menyimpan hasil
clustering.
4.2.1. 1. Gambaran Umum Use Case
Diagram use case pada lampiran 2 memiliki gambaran umum dari
masing-masing use case. Gambaran umum use case terlampir pada
lampiran 3.
4.2.1. 2. Narasi Use Case
Diagram use case pada gambar 4.1 juga memiliki narasi yang
merupakan
penjelasan lebih lengkap dari masing-masing use case. Narasi
tersebut terdapat
pada lampiran 4.
4.2.2. Perancangan Umum
4.2.2.1. Input Sistem
Data input dari sistem yang akan dibangun berasal dari file
dengan
ekstensi .xls yang dipilih langsung oleh pengguna (user) dari
direktori Komputer.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
31
User juga berperan untuk memasukan nilai k pada textfield yang
diinginkan oleh
user. Data yang digunakan adalah data nilai hasil ujian nasional
IPA dan IPS
untuk tahun ajaran 2011/2012 sampai 2014/2015.
4.2.2.2. Proses Sistem
Proses sitem yang akan dibangun terdiri dari beberaapa tahap
untuk dapat
melakukan pengelompokan (clustering). Proses sistem yang terdiri
dari beberapa
langkah berikut:
1. Pengambilan data yang sudah melalui preprosesing untuk
digunakan
pada proses data mining.
2. Menentukan k sesuai dengan keinginan user
3. Proses pengelompokan menggunakan K-Means.
4. Menganalisa hasil pengelompokan K-Means terhadap proses
data
mining yang telah dijalankan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
32
Proses sistem digambarkan pada gambar 4.2 dibawah ini:
Fi le XLS?
Data numerik ?
Jumlah cluster K
Tentukan Centroid
Hitung jarak obyek ke pusat
Kelompokan obyek berdasarkan jarak
terkecil Tidak
Ya
Cek Isi Data
Proses Clustering
Tampilkan Data
ya
ya
tidak
tidak
Ada selisih pusat cluster lama dengan
cluster baru ?
Tentukan centroid baru
Masukan file
Start
Simpan Data
End
Gambar 4. 2 Diagram flowchart
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
33
4.2.2.3. Output Sistem
Sistem yang dibangun akan memberikan keluaran (output) berupa
data
hasil pengelompokan menggunakan K-Means sesuai dengan k yang
telah di
berikan oleh user.
4.2.3. Diagram Aktivitas (Activity diagram).
Diagram aktivitas digunakan untuk menunjukan aktivitas yang
dikerjakan oleh pengguna dan sistem dalam setiap use case yang
disebutkan
dalam gambar 4.1. Berikut adalah diagram aktivitas dari setiap
use case.
1. Diagram Aktivitas Input Berkas File .xls
2. Diagram Aktivitas Seleksi Atribut
3. Diagram Aktivitas Proses Clustering input k
4. Diagram Aktivitas Simpan Hasil Clustering.
Detail diagram aktivitas dari setiap use case dapat dilihat pada
bagian
lampiran 5.
4.2.4. Diagram Kelas Desain
Diagram kelas dapat memperlihatkan hubungan antar kelas. Diagram
ini
dapat membantu memvisualisasikan struktur kelas-kelas dalam
suatu sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
34
Detail kelas dapat dilihat pada gambar dibawah ini:
Home
-JMenuBeranda :JMenuBar-JMenuBantuan :JMenuBar-JMenuTentang
:JMenuBar
-bt_MasukSistem :jButton
Bantuan
-JMenuBeranda :JMenuBar-JMenuBantuan :JMenuBar-JMenuTentang
:JMenuBar
+ Bantuan () : Constractor- JMenuBerandaMouseClicked
:void-JMenuBantuanMouseClicked :Void-JMenuTentangMouseClicked
:Void
Tentang
-JMenuBeranda :JMenuBar-JMenuBantuan :JMenuBar-JMenuTentang
:JMenuBar
+ Tentang () : Constractor- JMenuBerandaMouseClicked
:void-JMenuBantuanMouseClicked :Void-JMenuTentangMouseClicked
:Void
- JMenuBerandaMouseClicked :void-JMenuBantuanMouseClicked
:Void-JMenuTentangMouseClicked :Void Clustering_KMeans
-JMenuBeranda :JMenuBar-JMenuBantuan :JMenuBar-JMenuTentang
:JMenuBar
- initComponents()
- JMenuBerandaMouseClicked :void-JMenuBantuanMouseClicked
:Void-JMenuTentangMouseClicked :Void
- jfile :JTextField-jpilihfi le :JButton-table :
JTable-TableSeleksiAtribut :JTable-jtableatribut2 :
JTable-jButtonPilihAtribut : JButton- jpreprosesing : JButton-
jmlclustertext : JTextField- jproses :JButton- Output :JTextArea-
runTime : JTextArea- jreset :JButton-jsimpan : JButton
+ Clustering_KMeans() : Constractor+ Preprosesing() : void+
openFile() : void+ read() : void+ KMeans(ArrayList) :void+
MenentukanCluster (List) :int[]- Pembersihan() : void+ Proses()
:void+ Simpan() :void+Hitung Jarak() : void
KMeans
+ Centroid (ArrayList ) : ArrayList+ findCentroid(ArrayList arr,
int[] indexCluster, int indexCentroid, int ClusterKei) :float+
KMeans getKmeans() : Constractor+ min() : static+sequentialsearch
(Double[] number2, double value2) :int
Sillhouette
+ Sillhoutte getsillhoutte() : Constractor+
hitungjarakSilhoute(ArrayList DataSekolah) : ArrayList+ Sillhoute
(ArrayList TampungNamaSekolah, ArrayList TampungindeksSekolah,
ArrayList arr): StringBuffer
Gambar 4. 3 Diagram Kelas Desain
4.2.5. Diagram Sekuen (Sequence Diagram).
Diagram Sekuen adalah diagram yang memperlihatkan atau
menampilkan
interaksi-interaksi antar objek di dalam sistem. Diagram sekuen
pada sistem ini
terdiri dari 3 diagram sesuai dengan usecase. Diagram dapat
dilihat pada lampiran
7.
4.2.6. Algoritma per Method
Rincian algoritma per method terdapat pada lampiran 8.
4.2.7. Perancangan Struktur Data
Sistem pengelompokan K-Means ini membutuhkan suatu tempat
penyimpanan data yang tidak membutuhkan memori yang terlalu
banyak dan
tidak menghabiskan waktu yang cukup banyak ketika sistem
dijalankan karena
dapat mengolah data dengan efisien. Peneliti menggunakan konsep
penyimpanan
data menggunakan struktur data. Struktur data yang digunakan
pada sistem ini
adalah ArrayList. ArrayList pada sistem ini mampu menyimpan
banyak nilai
dalam sebuah variabel dengan tipe data yang sama dan ukurannya
bisa berubah
secara dinamis.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
35
4.2.7.1. Array
Array adalah sebuah struktur data yang mampu menyimpan banyak
nilai
dalam sebuah variabel dengan tipe data yang sama. Array bagaikan
basis data
mini yang berada di memori.
Untuk dapat menggunakan Array dalam kode program, dapat dengan
cara
mendeklarasikan sebuah variabel untuk direferensikan ke Array
dan
menspesifikasikan tipe data dari Array. Deklarasi variable Array
tidak
mengalokasi ruang di memori hanya mengalokasikan tempat untuk
referensi ke
Array yang dibuat. Ukuran Array tidak dapat diubah setelah Array
dibuat.
Perhatikan ilustrasi Array pada gambar 4.4 berikut ini:
Gambar 4. 4 Ilustrasi Konsep Array
4.2.7.2. ArrayList
ArrayList merupakan sebuah struktur data yang mampu
menyimpan
banyak nilai dalam sebuah variabel dengan tipe data yang sama
dan ukurannya
bisa berubah secara dinamis.
Perhatikan ilustrasi ArrayList pada gambar 4.5 berikut ini:
java.util.ArrayList size:5
0 1 2 3 4 ... ...
elementData
Value1 Value2 Value3 Value5Value4
Gambar 4. 5 Ilustrasi Konsep ArrayList
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
36
Pada Penelitian ini, penulis menggunakan arraylist dalam
arraylist
ArrayList untuk membuat matriks. Daftar nilai ujian
nasional sebagai elementData. Daftar nilai ujian nasional
memiliki nama
sekolah yang saling terhubung dengan nilai mata pelajaran akan
berada
dalam index yang sama pada ArrayList. Objek arraylist baru akan
selaku
dibuat untuk setiap kode sekolah yang berbeda. Setelah membuat
objek
arraylist untuk setiap sekolah maka akan dibuat objek arraylist
untuk
menjadikan satu semua objek arraylist sebelumnya. Sebagai contoh
akan
dijelaskan pada gambar 4.6 berikut ini:
java.util.ArrayList size:5
0 1 2 3 4
elementData: Dafar nilai Ujian Nasional
Nama Sekolah
Nama Sekolah
Nama Sekolah
Nama Sekolah
Nama Sekolah
1 2 3 4 5
0 1 2 3 4
Nama Sekolah
1
Nilai Mapel 1
Nama Sekolah
2
Nilai Mapel 1
Nama Sekolah
3
Nilai Mapel 1
Nama Sekolah
4
Nilai Mapel 1
Nama Sekolah
5
Nilai Mapel 1
dst...
Gambar 4. 6 Perancangan ArrayList
4.2.7.3 HashMap
Secara prinsip ArrayList dibuat dengan memasukan data kedalam
sebuah
indeks dengan cara terurut, sedangkan hashmap dengan cara
pemetaan, dengan
kata lain tidak berurut. Map seperti array yang indeksnya adalah
objek sembarang
bukan integer. Pada map, objek yang digunakan sebagai indeks
disebut key dan
objek yang ditunjuk oleh indeks disebut value.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
37
4.2.8. Perancangan Antarmuka
Sistem clustering yang akan dibangun, memiliki 4 antarmuka yang
terdiri
dari antar muka halaman awal, antarmuka bantuan, antarmuka
tentang, dan
antarmuka proses clustering.
4.2.8.1. Halaman Halaman Awal
Perancangan antarmuka halaman awal dapat dilihat pada gambar
4.7
berikut ini:
Table Nilai Ujian Nasional
Application Title
TentangBantuanBeranda
Logo
Masuk Sistem
KRESENTIA NITA KURNIADEWI – 125314031FAKULTAS SAINS DAN
TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA2016
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Gambar 4. 7 Antarmuka Halaman Beranda
Halaman ini merupakan halaman utama yang akan tampil. Halaman
ini
berisi 3 menu yaitu Beranda, Bantuan, dan Tentang serta tombol
Masuk Sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
38
4.2.8.2. Halaman Bantuan
Perancangan antarmuka halaman awal dapat dilihat pada gambar
4.8
berikut ini:
Table Nilai Ujian Nasional
Application Title
TentangBantuanBeranda
KRESENTIA NITA KURNIADEWI – 125314031FAKULTAS SAINS DAN
TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA2016
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Panduan Penggunaan
Gambar 4. 8 Antarmuka Halaman Bantuan
Halaman ini berisi petunjuk penggunaan sistem yang akan membantu
user
ketika user kesulitan atau bingung menggunakan sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
39
4.2.8.3. Halaman Tentang
Perancangan antarmuka halaman awal dapat dilihat pada gambar
4.9
berikut ini:
Table Nilai Ujian Nasional
Application Title
TentangBantuanBeranda
KRESENTIA NITA KURNIADEWI – 125314031FAKULTAS SAINS DAN
TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA2016
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Informasi Sistem
Gambar 4. 9 Antarmuka Halaman Tentang
Halaman ini berisi tentang mengenai tujuan sistem dibangun dan
kegunaanya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
40
4.2.8.4. Halaman Clustering K-Means
Perancangan antarmuka halaman awal dapat dilihat pada gambar
4.10
berikut ini:
Table Nilai Ujian Nasional
Application Title
TentangBantuanBeranda
Seleksi AtributAtribut Output
KRESENTIA NITA KURNIADEWI – 125314031FAKULTAS SAINS DAN
TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA
2016
Data Browse
Pilih
Proses
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Jumlah Cluster
Reset Simpan
Runing Time
Gambar 4. 10 Antarmuka Halaman Proses
Halaman ini merupakan halaman yang akan ditampilkan ketika
pengguna
menekan tombol Masuk Sistem pada halaman Beranda. Halaman ini
berfungsi
sebagai sarana untuk memasukan data, memilih atribut yang akan
digunakan serta
memberikan k yang diinginkan.
Kemudian Halaman Clustering K-Means ini digunakan untuk
menampilkan hasil iterasi yang telah dilakukan menggunakan
algoritma K-Means.
Halaman Clustering K-Means ini akan tampil ketika user menekan
tombol Proses
pada halaman praprosesing. Pada halaman ini user juga bisa
melihat Running
Time yang dihasilkan, pengguna juga dapat menyimpan hasil
clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
41
BAB V
IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL
5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK
Perangkat lunak pengelompokan menggunakan meetode K-Means
ini
memiliki 5 buah kelas.
5.1.1. Implementasi Kelas
Selanjutnya dijelaskan spesifikasi detail dari setiap antarmukka
yang ada
pada perangkat lunak ini. Spesifikasi detail dari kelas home
dapat dilhat pada
tabel 5.1 berikut:
Tabel 5. 1 Implementasi Kelas Home
ID_Objek Jenis Teks Keterangan
jMenuBeranda JMenu Beranda Jika di klik,
akanmenuju ke
halaman home.java
jMenuBantuan JMenu Bantuan Jika di klik,
akanmenuju ke
halaman Bantuan.java
jMenuTentang JMenu Tentang Jika di klik,
akanmenuju ke
halaman Tentang.java
jtitle1 JLabel Pengelompokan
Nilai Ujian
Nasional Sekolah
Menengah Atas
Judul perangkat lunak
yang dibangun
jtitle2 JLabel Menggunakan
Metode
Clustering K-
Means
Judul perangkat lunak
yang dibangun
bt_MasukSistem jButton Masuk Sistem Jika di klik, akan
menuju halaman
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
42
Clustering_Kmeans.ja
va
jLabel1 JLabel KRESENTIA
NITA
KURNIADEWI-
125314031
Identitas pembuat
perangkat lunak
jLabel2 JLabel FAKULTAS
SAINS DAN
TEKNOLOGI
UNIVERSITAS
SANATA
DHARMA
Identitas fakultas dan
universitas pembuat
perangkat lunak
jLabel5 JLabel YOGYAKARTA Identitas fakultas dan
universitas pembuat
perangkat lunak
jLabel6 JLabel 2016 Identitas tahun
pembuatan perangkat
lunak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
43
Implementasi antarmuka dari kelas home dapat dilihat pada gambar
5.1
berikut ini.
Gambar 5. 1 Implementasi Antarmuka kelas Home
Spesifikasi detail dari kelas Clustering_Kmeans dapat dilhat
pada tabel 5.2
berikut:
Tabel 5. 2 Implementasi Kelas Clustering_KMeans
ID_Objek Jenis Teks Keterangan
jMenuBeranda JMenu Beranda Jika di klik, akan
menuju ke halaman
home.java
jMenuBantuan JMenu Bantuan Jika di klik, akan
menuju ke halaman
Bantuan.java
jMenuTentang JMenu Tentang Jika di klik, akan
menuju ke halaman
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
44
Tentang.java
jtitle1 JLabel Pengelompokan
Nilai Ujian
Nasional
Sekolah
Menengah Atas
Judul perangkat lunak
yang dibangun
jtitle2 JLabel Menggunakan
Metode
Clustering K-
Means
Judul perangkat lunak
yang dibangun
jData JLabel Data Keterangan label
Jpath JTextField Isi path directory dari
file yang dimasukkan
ke dalam tabel.
Jpilihfile JButton Browse Jika diklik, akan
membuka directory
file yang akan dipilih
Table JTable Menampilkan data file
yang dipilih
TableSeleksiAt
ribut
JTable Menampilkan nama
kolom (atribut) pada
tabel, yang akan di
seleksi.
jButtonPilihAt
ribut
JButton Pilih Jika diklik, akan
menampilkan nama
kolom (atribut) ke
jtableatribut2.
jtableatribut2 JTable Menampilkan nama
kolom (atribut) pada
tabel, yang telah di
seleksi.
jLabel2 JLabel Jumlah Cluster Keterangan label
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
-
45
Jmlclustertext JTextField Untuk memasukan
jumlah klaser
Jproses JButton Proses Jika di klik, sistem
akan melakukan
proses clustering.
jTextArea1 jTextArea Menampilkan hasil
clustering
jLabel9 JLabel Runing Time : Keterangan label
runTime JTextField Menampilkan running
time
Jreset JButton Reset Jika di klik akan
mereset sistem.
J