JURNAL PREDIKSI KELULUSAN SISWA SMK MENGGUNAKAN ALGORITMA K-NN Romadani, Pascasarjana Magister Teknik InformatikaUdinus Vincent Suhartono ,Pascasarjana Magister Teknik Informatika Udinus Catur Suprianto, Pascasarjana Magister Teknik InformatikaUdinus PROGRAM PASCA SARJANA MAGISTER TEKNIK INFORMATIKA UNIVERSITAS DIAN NUSWANTORO SEMARANG 2013
16
Embed
Roma-Vincent-Catur-Prediksi Kelulusan Siswa SMK Menggunakan Algoritma K-NN
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
JURNAL
PREDIKSI KELULUSAN SISWA SMK MENGGUNAKAN
ALGORITMA K-NN
Romadani, Pascasarjana Magister Teknik InformatikaUdinus
Vincent Suhartono ,Pascasarjana Magister Teknik Informatika Udinus
Catur Suprianto, Pascasarjana Magister Teknik InformatikaUdinus
PROGRAM PASCA SARJANA
MAGISTER TEKNIK INFORMATIKA
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
PREDIKSI KELULUSAN SISWA SMK MENGGUNAKAN
ALGORITMA K-NN
Romadani, Vincent Suhartono, Catur Suprianto
Pascasarjana Teknik Informatika Universitas Dian Nuswantoro
ABSTRACT
Improving the quality of education being one of the important agenda for the government . In
connection with the improvement of the quality of education , various attempts have been made to
improve the quality of teachers , equip educational facilities, improved allocation of education funds
and the implementation of sustainable educational evaluation. Evaluation of learning outcomes by the
Government aimed to assess the achievement of national competency standards , is done in the form of
National Examination . But the natinal examination unsuccessful students always have a negative
impact on students , parents , schools , the Department of Education and educational holder stage .
Therefore it is necessary for data mining students' ability to predict the value of each student before
the national examination takes place . Based on the results of prediction can be made strategic moves
in the national examination unsuccessful students . Research in terms of predicting students'
graduation and college students have a lot to do . In this research, algoroitma prediction using k - NN
is applied to the smk student graduation data is either pass or not pass . This study tested by
comparing the test dataset supporting this study with 11 variables consisting of 10 vaiabel the value of
gender, program expertise , the semester grades 1-5 , the average semester grades , school test scores
, school grades , and 1 pass labels and did not pass . As for further testing using 10 datasets consisting
of 9 vaiabel the value of gender, program expertise , the value of half 1-5 , the average semester ,
school test scores , school grades , and 1 label passed and did not pass . The k - NN classification
method in which a new object is labeled by ( k ) nearest neighbors object . From the test results to
measure the performance of the algorithm using the method of cross validation , confusion matrix and
ROC curves is known that the accuracy is based on 11 variables with k - 1 98.10 % , AUC 0.500 , k - 3
98.20 % , AUC 0.993 , k - 5 98.10 % , AUC 0.996 , k - 7 98.50 % . The value of accuracy with 10
variables with k - 1 98.00 % , AUC 0.500 , k - 3 98.10 % , AUC 0.993 , k - 5 98.10 % , AUC 0.996 , k -
7, 98.40 % , AUC 0.998 . The results of the highest value obtained 98.50 % accuracy on the k - 7 and
AUC of 0.988 with a predicate Excellent Classification.
Keywords : data mining , prediction , k – NN
1. PENDAHULUAN
a) Latar Belakang
Pendidikan merupakan proses yang menerima input berupa siswa dengan tingkat pemahaman yang
rendah, kemudian dilatih melalui beberapa tahap untuk menghasilkan individu-individu yang
berkualitas. Salah satu cara untuk menilai keberhasilan pendidikan adalah dari nilai yang bersangkutan
[1]. Keberhasilan seseorang dalam menempuh ujian dipengaruhi oleh banyak faktor. Ketika nilai ujian
digunakan untuk menentukan kelulusan, maka terjadilah dampak positif dan negative yang terus
diperdebatkan [2]. Ujian Nasional adalah kegiatan pengukuran dan penilaian kompetensi peserta didik
secara nasional pada jenjang SMA, SMK, dan MA. Sedangkan Nilai Ujian Nasional adalah nilai yang
diperoleh oleh peserta didik dalam mengikuti Ujian Nasional. Mata Pelajaran Ujian Nasional SMK
meliputi Bahasa Indonesia, Bahasa Inggris, Matematika dan Teori Kejuruan [3].
Kelulusan peserta Ujian Nasional (UN) SMA/MA/SMK Tahun Ajaran 2010/2011 sebanyak
1.461.941 peserta UN SMA/MA/SMK jumlah peserta yang lulus sebanyak 1.450.498, sedangkan
peserta yang tidak lulus 11.443 peserta [4]. Berdasarkan data evaluasi UN milik Kemdikbud, siswa
yang tidak lulus UN tahun 2011/2012 mencapai 7.579 siswa, dari 1.524.704 peserta UN. Angka
tersebut didapat dari siswa yang nilai akhir rata-ratanya tidak mencapai 5,5 sebanyak 5.300 siswa
(69,4 persen). Juga karena ada satu atau lebih mata pelajaran yang nilainya kurang dari 4 (30,06
persen) [5].
Melihat angka ketidaklulusan UN di atas perlu diadakan upaya-upaya untuk memperkecil angka
ketidaklulusan siswa dalam UN, yaitu dengan melakukan data mining kemampuan siswa. Data mining
digunakan untuk mengubah data menjadi informasi, knowledge dan windom. Data mining digunakan
untuk memprediksi kelulusan setiap siswa SMK sebelum UN berlangsung [3]. Pada penelitian
sebelumnya dalam melakukan prediksi kelulusan dengan menggunakan model algoritma c4.5
dan naïve bayes yang hanya menggunakan 7 parameter sebagai bahan penelitian prediksi
kelulusan. Pada penelitian tentang prediksi kelulusan siswa smk ini akan menggunakan
pendekatan dengan algoritma k-NN, adapun parameter yang digunakan 11 parameter. Klasifikasi algortima k-Nearest Neighbor (k-NN) adalah metode klasifikasi dimana sebuah objek
baru diberi label berdasarkan (k) objek tetangga terdekatnya [6]. k-NN termasuk algoritma supervised
learning dimana hasil dari query instance yang baru diklasifikasikan berdasarkan mayoritas dari
kategori pada k-NN. Sehingga dengan demikian diharapkan penelitian ini dengan menggunakan
algoritma k-NN meningkatkan akurasi yang jauh lebih baik dibandingkan penelitian sebelumnya
dengan menggunakan model algoritma c4.5 dan naïve bayes dengan 7 parameter.
b) Rumusan Masalah
Dari latar belakang masalah di atas, maka penulis merumuskan sebagai berikut :
1. Prediksi kelulusan tidak dapat dilakukan dengan tepat
2. Penelitian sebelumnya parameter yang digunakan hanya melibatkan 7 parameter dengan model
c4.5 dengan akurasi 85,7% dan naïve bayes dengan akurasi 80,85%
c) Tujuan
1. Penelitian ini bertujuan untuk menyediakan model yang lebih tepat untuk melakukan prediksi
kelulusan siswa SMK dengan melakukan prediksi kelulusan siswa SMK dengan algoritma k-nn
2. Penelitian ini bertujuan meningkatkan tingkat akurasi lebih dari 85,7 % dengan melibatkan lebih
dari 11 parameter dengan 10 atribut dan 1 label
d) Manfaat
d.1 Manfaat Bagi Sekolah
1. Untuk mengurangi jumlah ketidak lulusan siswa SMK
2. Membantu pengajar untuk menentukan siswa dan mata pelajaran mana yang perlu dilakukan
tindakan khusus agar siswa tersebut lulus
3. Membantu pengajar untuk menentukan metode pembelajaran terbaik agar diperoleh nilai tertinggi
d.2 Manfaat Bagi Pengetahuan
Hasil penelitian ini diharapkan dapat untuk memberikan sumbangan model prediksi dengan
pendekatan algoritma data mining untuk prediksi kelulusan siswa SMK
2. TINJAUAN PUSTAKA
2.1 Penelitian yang Relevan
Literatur yang digunakan dalam penelitian yang relevan yaitu : 1). An Artificial Neural Network for
Predicting Student Graduation Outcomes penelitian ini menjelaskan tentang prediksi kelulusan
mahasiswa tepat pada waktunya. Dalam penelitian ini membahas tentang penurunan tingkat kelulusan
mahasiswa yang sangat siginifikan dan menjadi sebuah masalah dalam perguruan tinggi. An Artificial
Neural Network (ANNs) sebagai pengklasifikasian membawa pihak kampus dalam pengembangan,
pelatihan, dan pengujian suatu jaringan syaraf tiruan untuk memprediksi hasil kelulusan mahasiswa.
Tingkat prediktibilitas rata-rata untuk set pelatihan dan uji masing-masing adalah 77 % dan 68 %.
2). Graduation Prediction of Gunadarma University Students Using Algorithm And Naïve Bayes
C4.5 Algorithm penilitian ini untuk mengetahui prediksi kelulusan mahasiswa yang sesuai dengan
waktu studi, diantaranya : NEM SMA, IP semester 1 dan IP semester 2, IPK DNU semester 1 dan 2, gaji
orang tua dan pekerjaan orang tua. Tujuan dari penelitian ini adalah mencari dan menemukan pola yang terdapat
pada data mahasiswa berdasarkan data NEM, IP DNS semester 1, IP DNS semester 2, IPK DNU semester 1-2,
gaji orang tua dan pekerjaan orang tua. metode yang dilakukan dengan mencari akurasi dari masing
masing algoritma kemudian dilakukan perbandingan antara Algoritma Naïve Bayes dan Algoritma
C4.5, dari hasil perbandingan didapat tingkat akurasi ketepatan untuk prediksi menggunakan Naïve
Bayes 80,85% dan prediksi menggunakan C4.5 85,7%.
3). Adaptive Neuro Fuzzy Inference System untuk memprediksi nilai post test mahasiswa pada
jurusan teknik informatika FTIF ITS, dimana penelitian ini dilakukan pada tahun 2012 untuk
mengetahui tingkat pemahaman mahasiswa selama satu semester berlangsung. Pada penelitian
tersebut menggunakan dataset yang berasal dari 2 mata kuliah yang berbeda dengan 4 atribut terdiri
dari nilai kuis 1, nilai kuis 2, nilai UTS, nilai kuis 3 dan 1 nilai UAS yang akan diprediksi, hasil yang
didapat dengan menggunakan iterasi/epoch yang berbeda terlihat bahwa metode ANFIS mencapai
rata-rata error sebesar 0,01 dan RMSE sebesar 0,01 untuk dataset 1. Error tersebut tercapai pada saat
epoch 200. Untuk dataset 2 model mencapai error sebesar 0,06 dan RMSE sebesar 0,07 dengan
menggunakan epoch yang sama, semakin besar jumlah iterasi/epoch maka error yang dihasilkan juga
semakin kecil.
2.2 Landasan Teori
2.2.1 Data Mining
Data mining adalah kegiatan mengesktrasi atau menambang pengetahuan dari data yang berukuran
atau berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. Dimana
langkah-langkah untuk melakukan data mining adalah sebagai berikut [7]:
Gambar 1. Data Mining
Adapun tahapan-tahapan dalam proses KDD (Knowledge Discovery in Database) adalah sebagai
berikut :
1. Data Cleaning
Data-data yang tidak relevan itu juga lebih baik dibersihkan karena keberadaannya bisa mengurangi
mutu atau akurasi dari hasil data mining merupakan istilah yang sering dipakai untuk menggambarkan
tahapan ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena
data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Data Integration
Data mining tidak hanya berasal dari suatu database tetapi juga berasal dari beberapa database atau
file teks, integrasi data dilakukan pada atribut-atribut yang mengidentifikasi entitas entitas yang unik
seperti atribut nama, jenis produk, nomor pelanggan dan sebagainya.
3. Data Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk
proses Data Mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada
jenis atau pola informasi yang akan dicari dalam basis data.
4. Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses
KDD secara keseluruhan.
5. Pattern Evolution
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang
diperoleh tidak sesuai hipotesa, ada beberapa alternative yang dapat diambil seperti menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. Ada
beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisa prediksi.
Visualisasi hasil analisis akan sangat membantu untuk memudahkan pemahaman dari hasil data
mining.
6. Knowledge
Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari
hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami
data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami
semua orang adalah satu tahapan yang diperlukan dalam proses data mining.
2.2.2 Prediksi
Data Mining digunakan untuk dapat menyelesaikan masalah dalam kehidupan nyata dengan cara
membangun sebuah model khusus untuk menggambarkan dataset yang di-mined. Pada dasarnya data
mining terdiri dari :
1. Predictive, metode yang menggunakan beberapa variabel yang ada untuk memprediksi nilai masa
depan (belum diketahui) dari variabel lain. Contoh : classification, regression, biases/anomalies
detection.
2. Descriptive, metode yang mengungkapkan pola dalam data, agar mudah diinterpretasikan oleh
pengguna. Contoh : clustering, association rules, sequential patterns.
2.2.3 k-Nearest Neighbor
Klasifikasi algortima k-Nearest Neighbor (k-NN) adalah metode klasifikasi dimana sebuah objek
baru diberi label berdasarkan (k) objek tetangga terdekatnya [6]. KNN termasuk algoritma supervised
learning dimana hasil dari query instance yang baru diklasifikasikan berdasarkan mayoritas dari
kategori pada KNN, prinsip dari algoritma ini yaitu diberi dataset pelatihan (kiri) dan objek baru harus
diklasifikasikan (kanan), jaraknya mengacu pada beberapa jenis kesamaan antara objek baru dan objek
pelatihan pertama kali dihitung, dan objek terdekat atau paling mirip objek (K) kemudian dipilih.
Untuk membangun algoritma ini diperlukan beberapa inputan yaitu [6].
1. Adanya dataset pelatihan
2. Jarak untuk menghitung kesamaan antara objek
3. Nilai k, yaitu jumlah yang diperlukan objek yang dimiliki dataset pelatihan, berdasarkan
klasifikasi objek baru yang akan dicapai
Tujuan dari algoritma ini adalah mengklasifikasikan objek baru berdasarkan atribut dan training
sample. Classifier tidak menggunakan model apapun untuk dicocokan dan hanya berdasarkan pada
memori.
Jarak Euclidean paling sering digunakan menghitung jarak. Jarak Euclidean berfungsi menguji
ukuran yang bisa digunakan sebagai interpretasi kedekatan jarak antara dua objek yang
dipresentasikan sebagai berikut :
)
2)
1/2 (1)
Keterangan :
Dist (a,b) = jarak Euclidean antara vectori dan vektor
k
ij = komponen ke j dari vector
i
kj = komponen ke j dari vector
k
d = jumlah komponen vectori dan vector
k
semakin besar nilai D akan semakin jauh tingkat keserupaan antara kedua individu dan sebaliknya jika
nilai D semakin kecil maka akan semakin dekat tingkat keserupaan antar individu tersebut.
Nilai k yang terbaik untuk algoritma ini tergantung pada data. Secara umum, nilai k yang tinggi
akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi
semakin kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross validation. Kasus khusus dimana klasifikasi diprediksikan berdasarkan training
data yang paling dekat. Langkah-langkah untuk menghitung metode K-Nearest Neighbor :
1. Menentukan parameter K (jumlah tetangga paling dekat)
2. Menghitung kuadrat jarak Euclid (query instance) masing-masing objek terhadap data sampel yang
diberikan
3. Kemudian mengurutkan objek-objek tersebut kedalam kelompok yang mempunyai jarak Euclid