i PENGAMBILAN POLA KELULUSAN TEPAT WAKTU PADA MAHASISWA STMIK AMIKOM YOGYAKARTA MENGGUNAKAN DATA MINING ALGORITMA C4.5 Naskah Publikasi diajukan oleh Muchamad Piko Henry Widiarto 04.22.0400 kepada SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA 2011
19
Embed
PENGAMBILAN POLA KELULUSAN TEPAT WAKTU PADA …repository.amikom.ac.id/files/Publikasi_04.22.0400.pdf · studinya. Mahasiswa yang masuk dalam jumlah besar, tetapi mahasiswa yang lulus
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
i
PENGAMBILAN POLA KELULUSAN TEPAT WAKTU PADA
MAHASISWA STMIK AMIKOM YOGYAKARTA
MENGGUNAKAN DATA MINING
ALGORITMA C4.5
Naskah Publikasi
diajukan oleh
Muchamad Piko Henry Widiarto
04.22.0400
kepada
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
AMIKOM
YOGYAKARTA
2011
ii
iii
PATTERN MAKING ON-TIME GRADUATION ON THE
STUDENT STMIK AMIKOM YOGYAKARTA
USING C4.5 ALGORITM DATA MINING
PENGAMBILAN POLA KELULUSAN TEPAT WAKTU PADA
MAHASISWA STMIK AMIKOM YOGYAKARTA
MENGGUNAKAN DATA MINING
ALGORITMA C4.5
Muchamad Piko Henry Widiarto
Jurusan Sistem Informasi
STMIK AMIKOM YOGYAKARTA
ABSTACT
Progress of sophisticated computer applications have helped performance of big
companies which requires an application that need an application that can perform
calculation of big amounts of data. Data mining is a process of discovering meaningful
connections, patterns, and trends by examining the large collection of data stored in
storage by using pattern recognition techniques such as statistics and mathematics.
Therefore, data mining is indispensable in helping make decisions with the results of data
using one algorithm is applicable.
Purpose of the implementation of the "data mining" of C4.5 algorithm on STMIK
AMIKOM Yogyakarta is help a manager of data management systems of student
graduation improving the quality of education. Due to the frequent occurrence of buildup
of students which not graduate on time according to education level in each period of
graduation.
Therefore, implementation of data mining will help classify the student data which
will then be calculated using the C4.5 algoritm and the patterns are accurate decisions.
Keywords: Data mining, C4.5 Algoritm, Computer System
1
1. Latar Belakang Masalah
STMIK AMIKOM Yogyakarta merupakan salah satu perguruan tinggi yang
sukses menarik banyak mahasiswa disetiap periodenya. Namun ada beberapa hal yang
tidak seimbang antara masuk dan keluarnya mahasiswa yang telah menyelesaikan
studinya. Mahasiswa yang masuk dalam jumlah besar, tetapi mahasiswa yang lulus tepat
waktu sesuai dengan ketentuan jauh sangat kecil dibandingkan masuknya. Sehingga
terjadi penumpukan mahasiswa dalam jumlah tinggi disetiap periode kelulusan.
Oleh karena itu untuk meningkatkan kualitas pada perguruan tinggi STMIK
AMIKOM Yogyakarta, maka haruslah ada filter pada mahasiswa yang mendaftar untuk
masuk. Data mining merupakan salah satu metode yang tepat untuk membentuk pola-
pola yang mungkin memberikan indikasi yang bermanfaat pada data mahasiswa yang
dalam jumlah besar. Pada data mining ini dapat dirumuskan sebuah permasalahan yang
dijadikan sebagai acuan yaitu proses Algoritma C4.5 menentukan mahasiswa yang akan
lulus tepat waktu sesuai dengan ketentuan jenjang pendidikan yang diambil.
2. Landasan Teori
2.1. Data mining
Menurut Gartner Group, data mining adalah suatu proses menemukan hubungan
yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data
yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola
seperti teknik statistik dan matematika (Larose, 2005). Data mining bukanlah suatu
bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining
adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-
bidang ilmu yang sudah mapan terlebih dulu. Berawal dari beberapa disiplin ilmu, data
mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani:
1. Jumlah data yang sangat besar
2. Dimensi data yang tinggi
3. Data yang heterogen dan berbeda bersifat
2.2. Teknik Data Mining
2.2.1 Klasifikasi
Teknik Klasifikasi dalam data mining dikelompokkan ke dalam Teknik Pohon
Keputusan, Bayesian (Naïve Bayesian dan Bayesian Belief Networks), Jaringan Saraf
Tiruan (Backpropagation), Teknik yang berbasis konsep dari penambangan aturan-
aturan asosiasi, dan teknik lain (k-Nearest Neighboor, algoritma genetik, teknik dengan
pendekatan himpunan rough dan fuzzy.)
2
Setiap teknik memiliki kelebihan dan kekurangannya sendiri. Data dengan profil
tertentu mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan kata
lain, profil data tertentu dapat mendukung termanfaatkannya kelebihan dari teknik ini.
Gambar 2.2 Pengelompokan Teknik Klasifikasi
Secara umum, Proses Klasifikasi dapat dilakukan dalam dua tahap, yaitu proses
belajar dari data pelatihan dan klasifikasi kasus. Pada proses belajar, Algoritma
Klasifikasi mengolah data training untuk menghasilkan sebuah model. Setelah model diuji
dan dapat diterima, pada tahap klasifikasi, model tersebut digunakan untuk memprediksi
kelas dari kasus baru untuk membantu proses pengambilan keputusan (Han et al.,2001;
Quinlan, 1993).
2.3 Pohon Keputusan
Pohon Keputusan atau Decision Tree merupakan metode klasifikasi dan prediksi
yang sangat kuat dan terkenal. Metode Pohon Keputusan mengubah fakta yang sangat
besar menjadi Pohon Keputusan yang merepresentasikan aturan. Aturan dapat dengan
mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam
bentuk bahasa database seperti SQL untuk mencari record pada kategori tertentu.
Pohon Keputusan adalah sebuah struktur pohon dimana setiap node pohon
merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian
hasil uji, dan node daun merepresentasikan kelompok kelas tertentu. Level node teratas
dari sebuah Pohon Keputusan adalah node akar yang biasanya berupa atribut yang
paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision
Tree melakukan strategi pencarian secara top-down untuk solusinya.
2.4 Algoritma C4.5
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut.
1. Pilih atribut sebagai node akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
3
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama.
Untuk memilih atribut sebagai node akar, didasarkan pada nilai Gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam
persamaan berikut: Gain(S,A) = Entropy(S) – ∑| |
| |
* Entropy(Si)
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
| | : jumlah kasus pada partisi ke-i
| | : jumlah kasus dalam S
Sebelum mendapatkan nilai Gain adalah mencari nilai Entropy. Entropy
digunakan untuk menentukan seberapa informatif sebuah masukan atribut untuk
menghasilkan keluaran atribut. Rumus dasar dari Entropy tersebut adalah sebagai
berikut : Entropy(S) = ∑
Keterangan :
S : himpunan Kasus
A : fitur
n : jumlah partisi S
pi : proporsi dari Si terhadap S
2.5 Java
Java telah mengakomodasi hampir seluruh fitur penting bahasa – bahasa
pemrograman yang ada semenjak perkembangan komputasi modern manusia. Sebagai
sebuah bahasa pemrograman, Java dapat membuat seluruh bentuk aplikasi, desktop,
web dan lainnya, sebagaimana dibuat dengan menggunakan bahasa pemrograman
konvensional yang lain. Java adalah bahasa pemrograman yang berorientasi obyek
(OOP) dan dapat dijalankan pada berbagai platform sistem operasi. Perkembangan Java
tidak hanya terfokus oada satu sistem operasi, tetapi dikembangkan untuk berbagai
sistem operasi dan bersifat open source. Sebagai sebuah peralatan pembangun,
teknologi Java menyediakan banyak tool: compiler, interpreter, penyusun dokumentasi,
paket kelas dan sebagainya.Aplikasi dengan teknologi Java secara umum adalah aplikasi
serba guna yang dapat dijalankan pada seluruh mesin yang memiliki JRE.
Berdasarkan white paper resmi dari SUN, Java memiliki karakteristik:Sederhana