Page 1
i
PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK
KLASIFIKASI DATA NASABAH YANG BERPOTENSI MEMBUKA
SIMPANAN DEPOSITO
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh:
Desi Ratnasari
165314069
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 2
ii
CLASSIFICATION OF COSTUMER DATA THAT POTENTIALS TO OPEN
DEPOSITS USING K-NEAREST NEIGHBOR ALGORITHM
THESIS
Present as Partial Fulfillment of the Requirements
to Obtain Sarjana Komputer Degree
in Informatics Study Program
Created by:
Desi Ratnasari
165314069
INFORMATICS STUDY PROGRAM
DEPARTMENT OF INFORMATICS
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 3
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 4
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 5
v
HALAMAN PERSEMBAHAN
“Markus 10:27”
Dengan penuh rasa syukur, skripsi ini dipersembahkan untuk:
TUHAN YESUS KRISTUS
dan ORANG TUAKU
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 6
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak
mengandung atau memuat hasil karya orang lain, kecuali yang disebut dalam daftar
pustaka dan kutipan selayaknya karya ilmiah.
Yogyakarta, 22 Januari 2021
Penulis
Desi Ratnasari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Stamp
Page 7
vii
LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma:
Nama : Desi Ratnasari
Nim : 165314069
Demi pengembangan ilmu pengetahuan, saya memberikan ke perpustakaan
Universitas Sanata Dharma karya ilmiah yang berjudul:
PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK
KLASIFIKASI DATA NASABAH YANG BERPOTENSI MEMBUKA
SIMPANAN DEPOSITO
beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan
kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan
dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data,
mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain
untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberi
royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, 22 Januari 2021
Yang menyatakan
Desi Ratnasari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Stamp
Page 8
viii
ABSTRAK
Deposito merupakan salah satu fasilitas investasi yang biasanya ditawarkan
oleh bank. Deposito yaitu tabungan yang penarikannya hanya dapat dilakukan
berdasarkan kesepakatan dari pihak bank dengan nasabah penyimpan dengan waktu
tertentu. Masalah yang dihadapi adalah bagaimana dapat menentukan prediksi dari data
nasabah untuk menentukan nasabah yang berpotensi membuka simpanan deposito.
Para nasabah berasal dari latar belakang berbeda-beda antara lain umur, pekerjaan,
status, pendidikan dan lain sebagainya. Data nasabah biasanya hanya disimpan dalam
database saja dan belum dimanfaatkan untuk memperoleh informasi tentang nasabah
yang berpotensi membuka deposito.
Bank perlu menentukan strategi pemasaran dan promosi yang lebih efisien agar
tidak terlalu banyak mengeluarkan biaya sehingga masyarakat tertarik untuk
berinvestasi pada produk deposito dari bank tersebut. Maka dari itu untuk langkah yang
lebih efisien, bank dapat menggolah data nasabah untuk memperoleh informasi tentang
nasabah yang berpotensi membuka simpanan deposito dengan melakukan klasifikasi
yang dapat memprediksi nasabah yang berpotensi membuka simpanan desposito
dengan menggunakan data dari nasabah yang diproses secara matematik sehingga
menemukan suatu keputusan.
Penelitian ini mencoba untuk mengklasifikasi data nasabah untuk memprediksi
nasabah yang berpotensi membuka simpanan deposito menggunakan algoritme K-
Nearest Neighbor agar menghasilkan hasil yang optimal. Data yang digunakan dalam
penelitian ini adalah data set bagian marketing di Portugal pada bulan oktober 2011
sejumlah 4521 record dari website UCI Repository Mechine Learning. Data tersebut
memiliki 16 atribut dan 1 label.
Kata kunci:
Deposito, algoritme K-Nearest Neighbor, data mining, klasifikasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 9
ix
ABSTRACT
Deposits are one of the investment facilities usually offered by banks. Deposits
are savings that can only be withdrawn based on an agreement from the bank with the
depositoment customer with a certain time. The problem is how to determine the
prediction of customer data to determine the customer who has the potential to open a
deposit deposit. Customers come from different backgrounds including age,
occupation, status, education and so on. Customer data is usually only stored in a
database and has not been used to obtain information about customers who have the
potential to open deposits.
Banks need to determine more efficient marketing and promotion strategies so
as not to cost too much so that people are interested in investing in deposit products
from the bank. Therefore, for more efficient measures, banks can collect customer data
to obtain information about customers who have the potential to open deposits by
conducting classifications that can predict customers who have the potential to open
desposito deposits by using data from customers that are processed mathematically so
as to find a decision.
This study tries to classify customer data to predict customers who have the
potential to open deposits using the K-Nearest Neighbor algorithm to produce optimal
results. The data used in this study is the data set of marketing section in Portugal in
October 2011 a total of 4521 records from the website of the UCI Repository Mechine
Learning. The data has 16 attributes and 1 label.
Keywords:
Deposits, K-Nearest Neighbor algorithms, data mining, classification.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 10
x
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa, karena atas berkat-Nya penulis
dapat menyelesaikan tugas akhir ini dengan baik di situasi pandemi melanda.
Dalam pengerjaan tugas akhir ini dapat berjalan dengan baik karena motivasi
dan bimbingan dari berbagai pihak. Maka dalam kesempatan ini, penulis ingin
mengucapkan terima kasih kepada:
1. Tuhan Yesus Kristus dan Bunda Maria yang telah melimpahkan berkat-Nya
sehingga penulis dapat menyelesaikan tugas akhir ini.
2. Bapak Nikodemus Isen dan Ibu Siur, kedua orang tua penulis yang tidak pernah
lupa mengucapkan nama penulis dalam doanya serta tak henti memberi
dukungan dan kasih sayang.
3. Floresius, Firdaus, Yustina, Kasius, Melati, Margareta, dan Budi, ke tujuh
kakak penulis yang selalu memberi dukungan dalam masa kuliah.
4. Bapak Eko Hari Parmadi, S.Si., M.Kom. Selaku dosen pembimbing tugas akhir
yang telah membimbing, mendukung, dan telah sabar memberi masukan dan
ilmu dalam penyempurnaan tugas akhir ini.
5. Ibu Agnes Maria Polina S.Kom., M.Sc. Selaku dosen pembimbing akademik
yang selalu memberi bimbingan.
6. Bapak Sudi Mungkasih S.Si., Math.Sc., Ph.D. Selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma
7. Bapak Robertus Adi Nugroho S.T., M.Eng. Selaku ketua Program Studi
Informatika Universitas Sanata Dharma.
8. Seluruh Dosen Fakultas Sains dan Teknologi Universitas Sanata Dharma
khususnya Program Studi Informatika yang telah memberi ilmu selama masa
perkuliahan.
9. Foggy Alfredo yang telah memberi dukungan dan menemani dalam proses
pengerjaan tugas akhir ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 11
xi
10. Valentina, William, Paulina, Caroline, Niko yang telah berbagi ilmu dan
memberi dukungan kepada penulis untuk menyelesaikan tugas akhir.
11. Teman-teman Informatika angkatan 2016 yang saling membantu saat dalam
kesulitan.
12. Fina dan Pulung yang telah memberi dukungan dalam penyelesaian tugas akhir
ini.
13. Teman mabar pubg dan mobile legends yang telah menemani dan menghibur
penulis selama pembuatan tugas akhir.
14. Seluruh pihak yang telah membantu yang tidak dapat disebutkan satu persatu.
Penulis menyadari bahwa masih banyak kekurangan dari tugas akhir ini karena
pengetahuan penulis yang masih terbatas. Oleh karena itu, penulis mengharapkan kritik
dan saran yang membangun untuk tugas akhir ini. Semoga tugas akhir ini dapat
bermanfaat bagi berbagai pihak.
Yogyakarta, 22 Januari 2021
Penulis
Desi Ratnasari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 12
xii
DAFTAR ISI
BAB I ........................................................................................................................................ 1
PENDAHULUAN ................................................................................................................... 1
1.1 Latar Belakang ............................................................................................... 1
1.2 Rumusan Masalah .......................................................................................... 3
1.3 Tujuan Penelitian ............................................................................................ 3
1.4 Manfaat Penelitian .......................................................................................... 3
1.5 Batasan Masalah ............................................................................................. 4
1.6. Sistematika Penulisan ..................................................................................... 4
BAB II ...................................................................................................................................... 5
LANDASAN TEORI .............................................................................................................. 5
2.1 Deposito .......................................................................................................... 5
2.2 Knowledge discovery in database .................................................................. 5
2.3 Data Mining .................................................................................................... 7
2.4 Klasifikasi Pada Data Mining ......................................................................... 8
2.5 Outlier ............................................................................................................. 9
2.6 K-fold Cross Validation ................................................................................. 9
2.7 k-Nearest-Neighbor classifier ....................................................................... 10
2.8 Evaluasi ........................................................................................................ 11
BAB III ................................................................................................................................... 13
METODOLOGI PENELITIAN .......................................................................................... 13
3.1 Data .............................................................................................................. 13
3.2 Seleksi data ................................................................................................... 16
3.3 Transformasi data ......................................................................................... 17
3.4 Klasifikasi K-Nearest Neighbor ................................................................... 30
3.5 Uji Akurasi menggunakan Confusion Matrix .............................................. 35
3.6 3-fold Cross Validation ................................................................................ 36
3.7 Kebutuhan Sistem ......................................................................................... 37
3.8 Perancangan Antar Muka Sistem ................................................................. 37
BAB IV ................................................................................................................................... 39
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 13
xiii
HASIL DAN ANALISA ....................................................................................................... 39
4.1 Selekasi Data ................................................................................................ 39
4.2 Klasifikasi K-Nearest Neighbor ................................................................... 57
4.3 Uji Data Tunggal .......................................................................................... 58
BAB V .................................................................................................................................... 66
KESIMPULAN ..................................................................................................................... 66
5.1 Kesimpulan ................................................................................................... 66
5.2 Saran ............................................................................................................. 66
Page 14
xiv
DAFTAR GAMBAR
Gambar 2.1 Ilustrasi k-fold cross validation................................................................10
Gambar 3.1 Gambaran Umum.....................................................................................13
Gambar 3.2 Flowchart Proses K-Nearest Neighbor.....................................................30
Gambar 3.3 Skenario 3-fold Cross Validation.............................................................35
Gambar 3.4 Tampilan Menu Utama.............................................................................36
Gambar 4.1 Uji Data Tunggal......................................................................................59
Gambar 4.2 Uji Data Tunggal......................................................................................60
Gambar 4.3 Uji Data Tunggal......................................................................................61
Gambar 4.4 Uji Data Tunggal......................................................................................62
Gambar 4.5 Uji Data Tunggal......................................................................................63
Gambar 4.6 Uji Data Tunggal......................................................................................64
Gambar 4.7 Uji Data Tunggal......................................................................................65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 15
xv
DAFTAR TABEL
Tabel 2.1 Confusion Matrix……..................................................................................11
Tabel 3.1 Atribut Data Nasabah...................................................................................14
Tabel 3.2 Contoh Data Nasabah...................................................................................15
Tabel 3.3 Hasil Uji Seleksi Atribut...............................................................................16
Tabel 3.4 Data Atribut Age...........................................................................................17
Tabel 3.5 Data Hasil Normalisasi Atribut Age..............................................................19
Tabel 3.6 Data Atribut Balance....................................................................................21
Tabel 3.7 Data Hasil Normalisasi Atribut Balance.......................................................22
Tabel 3.8 Data Atribut Duration..................................................................................24
Tabel 3.9 Data Hasil Normalisasi Atribut Duration.....................................................25
Tabel 3.10 Data Atribut Pday.......................................................................................26
Tabel 3.11 Data Hasil Normalisasi Atribut Pday..........................................................28
Tabel 3.12 Data Nasabah Hasil Normalisasi................................................................29
Tabel 3.13 Data Training 1 dan Data Testing 8.............................................................31
Tabel 3.14 Hasil Perhitungan Euclidean Distance.......................................................32
Tabel 3.15 Pengurutan Euclidean Distance pada data test 5.........................................33
Tabel 3.16 Pengurutan Euclidean Distance pada data test 6........................................33
Tabel 3.17 Pengurutan Euclidean Distance pada data test 7.........................................34
Tabel 3.18 Pengurutan Euclidean Distance pada data test 5.........................................34
Tabel 3.19 Hasil Klasifikasi K-Nearest Neighbor........................................................35
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 16
xvi
Tabel 3.20 Confusion Matrix k=5.................................................................................35
Tabel 3.21 Akurasi varian k..........................................................................................36
Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain..................................39
Tabel 4.2 Percobaan Seleksi Data................................................................................40
Tabel 4.3 Percobaan Seleksi Data................................................................................48
Tabel 4.4 Hasil Seleksi Data.........................................................................................57
Tabel 4.5 Confusion Matrix 1.......................................................................................57
Tabel 4.6 Confusion Matrix 2.......................................................................................58
Tabel 4.7 Confusion Matrix 3.......................................................................................58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 17
xvii
DAFTAR RUMUS
Rumus 2.1 Information gain..........................................................................................5
Rumus 2.2 Information gain..........................................................................................6
Rumus 2.3 Information gain..........................................................................................6
Rumus 2.4 Rumus min-max...........................................................................................7
Rumus 2.5 Euclidean Distance....................................................................................12
Rumus 2.6 Akurasi.......................................................................................................12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 18
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Deposito merupakan salah satu tempat investasi bagi masyarakat. Deposito
yaitu tabungan yang penarikannya hanya dapat dilakukan berdasarkan
kesepakatan dari pihak bank dengan nasabah penyimpan dengan waktu tertentu
(Utami, 2010). Hal itu dikarenakan suku bunga yang diperoleh pertahunnya cukup
tinggi dibandingkan dengan suku bunga yang diperoleh dari simpanan biasa.
Apabila nasabah ingin menarik tabungan sebelum waktu yang telah ditetapkan
maka nasabah terkena denda pinalti, tetapi jika tabungan yang semakin lama
disimpan dalam bentuk deposito, maka semangkin besar bunga yang diperoleh.
Hal tersebut menjadi peluang dari pihak bank untuk menarik masyarakat agar
memilih melakukan simpanan deposito (Prabowo 2018).
Bank pada umumnya memiliki banyak data nasabah, dari data nasabah
tersebut menghasilkan pengetahuan yang dapat membantu bank menanggani
suatu masalah. Masalah yang dihadapi adalah bagaimana dapat menentukan
memprediksi dari data nasabah untuk menentukan nasabah yang berpotensi
membuka simpanan deposito. Para nasabah berasal dari latar belakang berbeda-
beda antara lain umur, pekerjaan, status, pendidikan dan lain sebagainya. Data
nasabah biasanya hanya disimpan dalam database saja dan belum dimanfaatkan
untuk memperoleh informasi tentang nasabah yang berpotensi membuka deposito.
Data nasabah yang berpotensi membuka deposito dapat membantu bank untuk
mempertahankan nasabah dan menentukan suatu target pemasaran salah satunya
adalah melakukan klasifikasi yang dapat memprediksi nasabah yang berpotensi
membuka simpanan desposito dengan menggunakan data dari nasabah yang
diproses secara matematik sehingga menemukan suatu keputusan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 19
2
Salah satu metode untuk mengklasifikasi data adalah K-Nearest Neighbor
yang menggunakan algoritma supervised. Algoritma K-Nearest Neighbor
dilakukan dengan mencari kelompok k objek pada data training yang paling dekat
dengan objek pada data baru atau data testing. Untuk menghitung jarak antara dua
objek x dan y yang menggunakan rumus Euclidean Distance. Untuk mengevaluasi
model klasifikasi dalam memperkirakkan objek yang benar atau salah
menggunakan confusion matrix. Matrix dari klasifikasi akan dibandingkan dengan
kelas yang asli.
Penelitian terkait dengan topik ini dilakukan oleh (Febianto, 2019), penelitian
yang dibuat yakni Prediksi Nasabah yang Berpotensi Membuka Simpanan
Deposito Menggunakan algoritme Backpropagation, data yang digunakan adalah
data public diperoleh dari website UCI Repository Machine Learning
menggunakan 21 atribut, menghasilkan akurasi sebesar 80.2109 % dengan
struktur jaringan paling optimal dengan menggunakan 50 neuron dan satu layer
tersembunyi dan menggunakan fungsi aktivasi logsig dan fungsi training traingdx.
Penelitian lainnya dilakukan oleh (Mustakim, dkk, 2016) penelitian tentang
“Algoritma K-Nearest Neighbor Sebagai Sistem Prediksi Predikat Mahasiswa.
Jumlah data testing 50 data dan data training 165 data, hasil penelitian 82%.
Pada penelitian lain oleh (Wijaya dan Muslim, 2016), penelitian tentang
Peningkatan Akurasi pada Algoritma Support Vector Machine dengan Penerapan
Information Gain untuk Mendiagnosa Chronic Kidney Disease. Disimpulkan
bahwa menerapkan Information Gain pada algoritma Support Vector Machine
menunjukan bahwa tingkat akurasi meningkat 0,75% dari 97,75% menjadi
98,50%.
Berdasarkan uraian tersebut, penulis tertarik melakukan penelitian penerapan
algoritma K-Nearest Neighbor untuk klasifikasi data nasabah yang berpotensi
membuka simpanan deposito. Data yang digunakan adalah data publik yang
diperoleh dari website UCI Repository Machine Learning yang diharapkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 20
3
mampu mendapatkan hasil klasifikasi untuk mengetahui nasabah yang berpotensi
membuka simpanan deposito.
1.2 Rumusan Masalah
Dari latar belakang di atas, dapat dirumuskan masalah yaitu :
1. Bagaimana mengklasifikasi data nasabah yang berpotensi membuka
simpanan deposito menggunakan algoritma K-Nearest Neighbor?
2. Berapa nilai k yang menghasilkan akurasi tertinggi dalam mengklasifikasi
nasabah yang berpotensi membuka simpanan deposito?
3. Berapakah akurasi dari hasil implementasi algoritma K-Nearest Neighbor
dalam melakukan klasifikasi data nasabah yang berpotensi membuka
simpanan deposito menggunakan algoritma K-Nearest Neighbor?
1.3 Tujuan Penelitian
Beberapa tujuan yang diharapkan dengan penelitian ini adalah sebagai berikut :
1. Mengklasifikasi data nasabah yang berpotensi membuka simpanan deposito
menggunakan algoritma K-Nearest Neighbor.
2. Mengetahui jumlah k yang menghasilkan akurasi tertinggi dalam
mengklasifikasi nasabah yang berpotensi membuka simpanan deposito
3. Mengetahui akurasi dari hasil implementasi algoritma K-Nearest Neighbor
untuk klasifikasi data nasabah yang berpotensi membuka simpanan deposito
menggunakan algoritma K-Nearest Neighbor.
1.4 Manfaat Penelitian
1. Secara umum manfaat penelitian ini yaitu membantu pihak bank untuk
melakukan klasifikasi data nasabah yang berpotensi membuka simpanan
deposito, serta menambah pengetahuan yang lebih mengenai algoritma K-
Nearest Neighbor.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 21
4
1.5 Batasan Masalah
Berdasarkan rumusan masalah maka dapat ditentukan batasan masalah sebagai
berikut:
1. Data yang digunakan adalah data publik yang diperoleh dari website UCI
Repository Machine Learning yaitu bank marketing
2. Implementasi algoritma K-Nearest Neighbor menggunakan Matlab.
1.6. Sistematika Penulisan
BAB I PENDAHULUAN
Bab ini membahas mengenai latar belakang, rumusan masalah, batasan masalah,
tujuan penelitian, manfaat penelitian, dan sistmatika penulisan.
BAB II LANDASAN TEORI
Bab ini membahas tentang teori-teori yang menjadi pendukung dalam
menyelesaikan masalah mengenai penambangan data, klasifikasi dan metode
yang digunakan yaitu algoritma k-nearest neighbor.
BAB III METODOLOGI PENELITIAN
Bab ini menjelaskan tentang metodologi penelitian yang terdiri dari tahap
perancangan, data yang digunakan, pengolahan data, pembuatan alat uji, alat
evaluasi dan analisis kebutuhan sistem.
BAB IV ANALISIS DAN PEMBAHASAN
Bab ini menjelaskan tentang hasil dan analisis dari hasil percobaan yang telah
dilakukan.
BAB V PENUTUP
Bab ini berisi kesimpulan yang didapatkan dari penelitian yang telah dilakukan,
kesimpulan menjawab rumusan masalah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 22
5
BAB II
LANDASAN TEORI
2.1 Deposito
Pengertian deposito menurut Undang-Undang No. 10 Tahun 1998 adalah
simpanan yang penarikannya hanya dapat dilakukan pada waktu tertentu
berdasarkan kesepakatan nasabah dengan pihak bank. (Dendawijaya, 2003).
Deposito merupakan aktivitas investasi yang dilakukan untuk memperoleh
keuntungan. Deposito ini merupakan salah satu kegiatan mengumpulkan dana
yang dilakukan oleh perbankan, selain tabungan dan giro. Bank memerlukan dana
untuk mempertahankan perbankannya yaitu dengan mengumpulkan dana melalui
simpanan deposito, kemudian dana tersebut disalurkan kembali sehingga bank
memperoleh pendapatan melalui bunga. (Nazir dan Hassanudin, 2004)
2.2 Knowledge discovery in database
Proses knowledge discovery in database (KDD) secara garis besar
dijelaskan sebagai berikut (Kusrini & Luthfi, 2009) :
1. Seleksi data
Sebelum tahap penggalian informasi dalam KDD dilakukan, perlu
dilakukan pemilihan atau seleksi data termaksud diantaranya seleksi atribut
dari sekumpulan data operasional. Data hasil seleksi digunakan untuk proses
data mining. Salah satu metode yang digunakan untuk seleksi data adalah
Information Gain. Berikut rumus untuk menghitung Information Gain:
Info(D) = -∑𝑖=1𝑚 pi Log2(pi) (2.1)
Keterangan :
D = Jumlah seluruh sampel data.
m = Jumlah nilai pada atribut target (jumlah kelas klasifikasi).
i = Maksimal nilai pada atribut target.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 23
6
Pi = Jumlah sampel untuk kelas i
InfoA(D) = -∑𝑗=1𝑣
|𝐷𝑗|
𝐷 x Info(Di) (2.2)
Keterangan :
A = Atribut.
v = Suatu nilai yang mungkin untuk atribut A.
j = Maksimal nilai yang mungkin untuk atribut A.
|Dj| = Jumlah sampel untuk nilai j.
D = Jumlah seluruh sampel data.
Di = Jumlah sampel untuk kelas i.
Kemudian, nilai dari information gain digunakan untuk menghitung
efektifitas suatu atribut dalam pengklasifikasi data dengan rumus :
Gain (A) = |Info(D)-InfoA(D)| (2.3)
Keterangan :
A : Atribut.
Info(D) : entropi untuk kelas D.
InfoA(D) : entropi untuk kelas D pada atribut A.
2. Cleaning Data
Proses cleaning yaitu memeriksa data yang tidak konsisten, dan
memperbaiki kesalahan data (tipografi). Data yang tidak sesuai dapat
diperbaiki atau dihilangkan dan diisi prediksi nilainya. Namun, pada dataset
yang digunakan tidak dilakukan karena dataset yang digunakan tidak terdapat
kesalahan data dan kosisten.
3. Transformasi Data
Proses Transfromasi data merupakan proses untuk mengubah bentuk data ke
bentuk yang sesuai untuk digunakan. Diantaranya yaitu generalisasi untuk
mengganti data primitif atau data dengan level rendah menjadi data level
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 24
7
tinggi, normalisasi merupakan proses untuk mengskalakan nilai atribut pada
data sehingga memiliki kategori rentang tertentu, dan mengubah dari
kategorikal ke numerik. Metode tranformasi yang digunakan pada penelitian
ini adalah metode min-max yang berfungsi untuk normalisasi data.
Normalisasi min-max dapat dihitung dengan rumus berikut ini (Han, 2011):
Ndata =(𝑣−min)(𝑛𝑚𝑎𝑥−𝑛𝑚𝑖𝑛
𝑚𝑎𝑥−𝑚𝑖𝑛+nmin 2.4
Dimana:
Ndata : data hasil normalisasi min-max
v : data yang akan dinormalisasi
min : nilai minimun dari data
max : nilai maksimum dari data
nmin : skala minimum yang ditentukan
nmax : skala maksimum yang ditentukan
4. Data Mining
Tahap ini mengimplemetasikan algoritma penambangan data untuk
mencari informasi dalam data yang telah ada untuk memberi hasil yang
diinginkan.
5. Interpretasi/evaluasi
Pada tahap ini, hasil dari proses penambangan data dipresentasikan
kepada user untuk menjelaskan luaran sistem. Tahap ini juga termaksud
pengujian terhadap hasil yang ditemukan apakah sesuai fakta sebelumnya.
2.3 Data Mining
Data mining adalah proses yang digunakan untuk menguraikan informasi di
dalam database. Penambangan data bertujuan untuk menangani masalah
pengambilan informasi dari basis data yang besar dengan menggunakan teknik
statistik, machine learning, kecerdasan buatan (Turban, dkk. 2005).
Terdapat beberapa jenis algoritma penambangan data yakni (Larose, 2005):
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 25
8
1. Deskripsi
Teknik yang digunakan adalah menggambarkan pola dan kecenderungan
yang terdapat dalam data.
2. Klasifikasi
Klasifikasi merupakan proses mengklasifikasi data baru berdasarkan data
yang ada telah diklasifikasi sebelumnya. Hasil klasifikasi data yang ada
digunakan untuk memberikan sejumlah aturan dalam pengklasifikasian pada
data baru.
3. Estimasi
Estimasi digunakan untuk melakukan perkiraaan terhadap data baru yang
belum memiliki keputusan berdasarkan data yang telah ada.
4. Prediksi
Prediksi digunakan untuk memprediksi suatu kejadian di masa yang akan
datang.
5. Klastering
Klaster merupakan pengelompokan data ke kelompok-kelompok tertentu
yang memiliki kemiripan.
6. Asosiasi
Asosiasi adalah mencari hubungan atribut antar karakteristik tertentu
dalam satu waktu.
2.4 Klasifikasi Pada Data Mining
Klasifikasi adalah proses penemuan fungsi yang menggambarkan dan
membedakan kelas data atau konsep yang bertujuan untuk memprediksi kelas
suatu objek yang sudah didefinisikan sebelumnya (Han dan Kamber, 2006).
Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011) :
a. Kelas
Variabel terikat yang berupa kategorikal yang mempresentasikan label yang
terdapat pada objek.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 26
9
b. Predictor
Variabel bebas yang direpresentasikan oleh karakteristik data.
c. Training dataset
Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan
untuk menentukan kelas yang cocok berdasarkan predictor
d. Testing dataset
Berisi data yang akan diklasifikasikan oleh model yang telah dibuat dan
akurasi klasifikasi dievaluasi.
2.5 Outlier
Outlier merupakan sehimpunan data yang memiliki sifat yang berbeda
dibandingkan dengan kebanyakan data lainnya. (Han & Kamber, 2006). Deteksi
outlier adalah suatu teknik untuk mencari obyek yang mempunyai perilaku yang
berbeda dari obyek-obyek lain.
2.6 K-fold Cross Validation
K-fold cross validation merupakan salah satu metode yang digunakan untuk
menilai atau memvalidasi keakuratan sebuah sistem. Dalam k-fold cross
validation data akan di partisi secara acak ke dalam k partisi (D1, D2,…, Dk),
masing-masing dari Di memiliki jumlah data yang sama).
Cara pembagian k-fold cross validation yaitu dengan cara menentukan terlebih
dahulu nilai K yang akan digunakan setelah itu membagi seluruh data sebanyak K
yang sudah ditentukan. Setelah itu, dilakukan kombinasi dengan aturan model
training 2/3 dari nilai K yang telah ditentukan dan sisanya menjadi model testing.
Misalkan dipilih K = 3 maka pembagian data dari 3-fold cross validation dapat
dilihat pada ilustrasi di bawah ini:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 27
10
Gambar 2.1 Ilustrasi k-fold cross validation
Keterangan :
Train
Test
2.7 k-Nearest-Neighbor
Algoritma k-Nearest-Neighbor menggunakan perhitungan kemiripan data
baru (data testing) dengan data yang sudah memiliki label atau kelas (data
training) sebagai nilai prediksi dari sampel uji yang baru. Untuk perhitungan
kemiripan dilakukan dengan menghitung jarak antar tetangga. Jarak antar tetangga
pada algoritma k-nearest neighbor dihitung menggunakan eucledian distance.
Langkah-langkah untuk menghitung metode k-nearest neinghbor antara lain
(Muhammad, 2015):
1. Menentukan parameter k (jumlah tetangga paling dekat).
2. Menghitung kuadrat jarak eucledian (query distance) masing-masing objek
terhadap data sampel yang ditentukan.
3. Kemudian mengurutkan jarak eucledian dari terkecil sampai terbesar.
4. Mengumpulkan kategori Y (klasifikasi nearest neighbor)
5. Dengan menggunakan kategori nearest neighbor yang paling banyak, maka
dapat diprediksi kategori objek.
k adalah tetangga terdekat yang digunakan untuk melakukan klasifikasi data
yang baru. Untuk menentukan nilai k mempertimbangkan banyaknya data dan
ukuran dimensi yang berbentuk dari data tersebut. Jika semangkin banyak data,
sebaiknya menggunakan angka k yang semangkin kecil. Namun, jika dimensi data
D3
D1
D2
D2
D3
D1
D1
D2
D3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 28
11
semangkin besar, sebaiknya menggunakan angka k yang tinggi (Advernesia,
2018).
Untuk menghitung jarak antar data menggunakan euclidean distance yang
dirumuskan:
d(x,y) =√∑ (𝑥𝑖 − 𝑦𝑖)²𝑛𝑖=1 (2.5)
Dimana :
xi = data uji atau data testing
yi = sampel data
I = variabel data
d(x,y) = dissimilarity/jarak
n = dimensi data
2.8 Evaluasi
Evaluasi bertujuan untuk menguji tingkat keberhasilan. Pengujian tingkat
keberhasilan suatu sistem merupakan hal penting untuk mengetahui seberapa baik
sistem dalam mengklasifikasi data. Confusion Matrix merupakan salah satu
metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi.
Pada pengukuran kinerja menggunakan Confusion Matrix, terdapat 4 istilah
sebagai representasi hasil proses klasifikasi, yaitu :
Tabel 2.1 Confusion Matrix
Positive Negative
Positive TP(True Positive ) FN(False Negative )
Negative FP(False Positive ) TN(True Negative )
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 29
12
Nilai akurasi dapat dihitung dengan persamaan:
Akurasi =𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁𝑋100% (2.6)
Dimana :
TP : Jumlah positive yang diklasifikasi sebagai positive
TN : Jumlah negative yang diklasifikasi sebagai negative
FP : Jumlah negative yang diklasifikasi sebagai positive
FN : Jumlah positive yang diklasifikasi sebagai negative
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 30
13
BAB III
METODOLOGI PENELITIAN
Penelitian ini bertujuan untuk mengklasifikasikan data nasabah yang berpotensi
menerima tawaran deposito menggunakan metode k-nearest neighbor. Gambar 3.1
merupakan alur dari tahapan penelitian dijabarkan dalam bentuk gambaran umum
seperti berikut :
Gambar 3.1 Gambaran Umum
3.1 Data
Data yang digunakan pada penelitian ini merupakan data publik yang
diperoleh dari situs UCI Repository Machine Learning pada data bagian
marketing sebuah bank dari Portugis yang diambil dari May 2008 sampai
November 2010 dengan jumlah data 4521 dengan atribut 16 dan satu kelas label.
Berikut adalah penjelasan dari masing-masing atribut:
Klasifikasi K-Nearest Neighbor
Data Seleksi Data
Modeling
Akurasi
Transformasi
Data Testing
Label Training
Data Training
Label Testing
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 31
14
Tabel 3.1 Atribut Data Nasabah
No Atribut Keterangan dan Nilai
1 Age Umur nasabah.
2 Job Jenis pekerjaan nasabah
(admin/bluecollar/entrepreneur/housemaid/management/retired/s
elf-employed/services/student/technician/unemployed/unknown).
3 Marital Status perkawinan (divorced/married/single).
4 Education Pendidikan nasabah (primary/secondary/tertiary/unknown).
5 Default Apakah mempunyai kredit gagal/macet? (yes/no).
6 Balance Pendapatan rata-rata pertahun
7 Housing Apakah mempunyai kredit pinjaman rumah? (yes/no).
8 Loan Apakah mempunyai pinjaman pribadi? (yes/no).
9 Contact Jenis komunikasi yang digunakan nasabah
(cellular/telephone/unknown).
10 Day Hari terakhir dihubunggi
11 Month Bulan terakhir menghubungi
nasabah.(jan/feb/mar/apr/may/jun/jul/aug/oct/sep/nov/dec)
12 Duration Durasi terakhir menghubungi nasabah dalam detik.
13 Campaign Berapa kali promosi yang sudah dilakukan pada nasabah ini?
14 Pdays Jumlah hari yang berlalu setelah nasabah terakhir dihubungi untuk
promosi sebelumnya.
15 Previous Jumlah berapa kali dihubungi sebelum melakukan promosi untuk
nasabah ini.
16 Poutcome Hasil dari penawaran marketing sebelumnya
(failure/other/success/unknown).
17 Y Apakah nasabah berlangganan deposito yang ditawarkan (yes/no).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 32
15
Tabel 3.2 Contoh Data Nasabah
Age Job Marital Education Default Balance Housing Loan Contact Day Month Duration Campaign Pdays previous poutcame Y
46 blue-collar married secondary no 668 yes no unknown 15 may 1263 2 -1 0 unknown yes
40 blue-collar married secondary no 1100 yes no unknown 29 may 660 2 -1 0 unknown no
49 blue-collar married secondary no 322 no no cellular 14 aug 356 2 -1 0 unknown no
38 blue-collar married secondary no 1205 yes no cellular 20 apr 45 4 153 1 failure no
32 services single secondary no 473 yes no cellular 7 jul 624 5 -1 0 unknown no
33 services married secondary no -333 yes no cellular 30 jul 329 5 -1 0 unknown no
57
self-
employed married tertiary yes -3313 yes yes unknown 9 may 153 1 -1 0 unknown no
57 technician married secondary no 295 no no cellular 19 aug 151 11 -1 0 unknown no
28 blue-collar married secondary no 1137 no no cellular 6 feb 129 4 211 3 other no
44 entrepreneur single tertiary no 1136 yes yes cellular 3 apr 345 2 249 7 other no
46 blue-collar married secondary no 668 yes no unknown 15 may 1263 2 -1 0 unknown yes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 33
16
3.2 Seleksi data
Seleksi data adalah proses memilih atribut yang relavan dan menghapus atribut
yang kurang berpengaruh dalam penelitian. Dalam menjalankan tahap ini penulis
menggunakan tools yang terdapat pada aplikasi Weka dengan versi 3.8.3 dengan
menerapkan metode Information Gain untuk melakukan perangkingan terhadap
atribut yang ada pada data.
Dalam proses seleksi, dilakukan dilakukan pengujian untuk mengetahui atribut
yang berpengaruh dan berapa persen atribut tersebut berpengaruh. Pengujian
dilakukan oleh aplikasi Weka. Berikut adalah hasil dari perangkingan atribut :
Tabel 3.3 Hasil Uji I Seleksi Atribut
Ranked No kolom Nama atribut
0.10811967 12 duration
0.03758116 16 poutcome
0.03553361 14 Pday
0.0299014 11 Month
0.01633501 9 Contact
0.01622639 15 Previous
0.00999086 2 Job
0.00971603 1 Age
0.00782731 7 Housing
0.00533738 6 Balance
0.0041129 8 Loan
0.00304631 13 Campaign
0.00297254 3 Marital
0.00236554 4 Education
0.00000121 5 Default
0 10 Day
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 34
17
Seleksi atribut di atas pada tabel 3.3 menghasilkan atribut yang dominan yang
diurutkan berdasarkan rangking.
3.3 Transformasi data
Setelah melakukan seleksi data, tahap selanjutnya dilakukan transformasi pada
atribut yang memiliki rentang nilai yang terlalu jauh dengan atibut numerik
diskalakan dalam range yang lebih kecil di sini peneliti menggunakan 0 sampai 1
dimana atribut tersebut adalah age, balance,duration, dan pday. Kemudian
menggubah data dari kategorikal ke numerik pada atribut job, marital, education,
default, housing, loan, contact, dan month. Berikut adalah hasil transformasi data :
1. Transformasi pada atribut age :
Transformasi dilakukan menggunakan rumus min-max dengan rentang min
0 dan max 1. Maka langkah-langkah normalisasi min-max adalah sebagai
berikut:
a. Langkah pertama yaitu menentukan skala maksimum (nmax) dan
minimum (nmin) baru yaitu nmax =1 dan nmin = 0.
b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom age
Tabel 3.4 Data Atribut Age
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Age 30 49 68 37 59 20 26 32 32 33 53 58
Berdasarkan tabel 3.4 di atas, maka diperoleh min = 20 dan max = 68.
c. Mengitung normalisasi masing-masing data pada atribut age dengan
Rumus 2.4. berikut hasil perhitungan untuk tiap data :
Data ke – 1 = 30
N1 = (30−20)∗(1−0)
68−20+ 0
N1 = 0,208
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 35
18
Data ke – 2 = 49
N2 = (49−20)∗(1−0)
68−20+ 0
N2 = 0,604
Data ke – 3 = 68
N3 = (68−20)∗(1−0)
68−20+ 0
N3 = 1
Data ke – 4 = 37
N4 = (37−20)∗(1−0)
68−20+ 0
N4 = 0,354
Data ke – 5 = 59
N5 = (59−20)∗(1−0)
68−20+ 0
N5 = 0,812
Data ke – 6 = 20
N6 = (20−20)∗(1−0)
68−20+ 0
N6 = 0
Data ke – 7 = 26
N7 = (26−20)∗(1−0)
68−20+ 0
N7 = 0,125
Data ke – 8 = 32
N8 = (32−20)∗(1−0)
68−20+ 0
N8 = 0,25
Data ke – 9 = 32
N9 = (32−20)∗(1−0)
68−20+ 0
N9 = 0,25
Data ke – 10 = 33
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 36
19
N10 = (33−20)∗(1−0)
68−20+ 0
N10 = 0,27
Data ke – 11 = 53
N11 = (53−20)∗(1−0)
68−20+ 0
N11 = 0,68
Data ke – 12 = 58
N12 = (58−20)∗(1−0)
68−20+ 0
N12 = 0,791
Berikut adalah hasil dari normalisasi :
Tabel 3.5 Data Hasil Normalisasi Atribut Age
2. Transformasi pada atribut job
Terdapat 12 class label pada atribut job, yaitu:
o Admin : 1
o Blue-collar : 2
o Entrepreneur : 3
o Housemaid : 4
o Management : 5
o Retired : 6
o Self-Employed : 7
o Services : 8
o Student : 9
o Techinician : 10
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Age 0,208 0,604 1 0,354 0,812 0 0,125 0,25 0,25 0,27 0,687 0,781
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 37
20
o Unemployed : 11
o Unknown : 12
3. Transformasi pada atribut marital.
Terdapat 3 class label yaitu:
o Divorce : 1
o Married : 2
o Single : 3
4. Transformasi pada atribut education
Terdapat 4 class label yaitu:
o Primary : 1
o Secondary : 2
o Tertiary : 3
o Unknown : 4
5. Transformasi pada atribut default
Terdapat 2 class label yaitu
o Yes : 1
o No : 2
6. Transformasi pada atribut balance
Transformasi dilakukan menggunakan rumus min-max dengan rentang
min 0 dan max 1. Maka langkah-langkah normalisasi min-max adalah
sebagai berikut :
a. Langkah pertama yaitu menentukan skala maksimum (nmax) dan
minimum (nmin) baru yaitu nmax =1 dan nmin = 0.
b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom
balance
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 38
21
Tabel 3.6 Data Atribut Balance
Berdasarkan tabel 3.6 di atas, maka diperoleh min = 0 dan max = 4189.
c. Mengitung normalisasi masing-masing data pada atribut balance
dengan Rumus 2.4. berikut hasil perhitungan untuk tiap data :
Data ke – 1 = 1787
N1 = (1787−0)∗(1−0)
4189−0+ 0
N1 = 0,426
Data ke – 2 = 1235
N2 = (1235−0)∗(1−0)
4189−0+ 0
N2 = 0,294
Data ke – 3 = 4189
N3 = (4189−0)∗(1−0)
4189−0+ 0
N3 = 1
Data ke – 4 = 2317
N4 = (4189−0)∗(1−0)
4189−0+ 0
N4 = 0,553
Data ke – 5 = 0
N5 = (0−0)∗(1−0)
4189−0+ 0
N5 = 0
Data ke – 6 = 502
N6 = (502−0)∗(1−0)
4189−0+ 0
N6 = 0,119
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Balance 1787 1235 4189 2317 0 502 543 2536 2089 3935 2231 3401
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 39
22
Data ke – 7 = 543
N7 = (543−0)∗(1−0)
4189−0+ 0
N7 = 0,129
Data ke – 8 = 2536
N8 = (2536−0)∗(1−0)
4189−0+ 0
N8 = 0,605
Data ke – 9 = 2089
N9 = (2089−0)∗(1−0)
4189−0+ 0
N9 = 0,498
Data ke – 10 = 3935
N10 = (3935−0)∗(1−0)
4189−0+ 0
N10 = 0,939
Data ke – 11 = 2231
N11 = (2231−0)∗(1−0)
4189−0+ 0
N11 = 0,532
Data ke – 12 = 3401
N12 = (3401−0)∗(1−0)
4189−0+ 0
N12 = 0,811
Berikut adalah hasil dari normalisasi :
Tabel 3.7 Data Hasil Normalisasi Atribut Balance
7. Transformasi pada atribut housing
Terdapat 2 class label, yaitu:
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Balance 0,426 0,294 1 0,553 0 0,119 0,129 0,605 0,498 0,939 0,532 0,811
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 40
23
o Yes : 1
o No : 2
8. Tranformasi pada atribut loan
Terdapat 2 class label, yaitu:
o Yes : 1
o No : 2
9. Transformasi pada atribut contact
Terdapat 3 class label, yaitu:
o Cellular : 1
o Telephone : 2
o Unknown : 3
10. Tranformasi pada atribut month
Terdapat 13 class label, yaitu:
o Jan : 1
o Feb : 2
o Mar : 3
o Apr : 4
o May : 5
o Jun : 6
o Jul : 7
o Aug : 8
o Oct : 9
o Sep : 10
o Nov : 11
o Dec : 12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 41
24
11. Tranformasi pada atribut duration
Transformasi dilakukan menggunakan rumus min-max dengan rentang
min 0 dan max 1. Maka langkah-langkah normalisasi min-max adalah
sebagai berikut :
a. Langkah pertama yaitu menentukan skala maksimum (nmax) dan
minimum (nmin) baru yaitu nmax =1 dan nmin = 0.
b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom
duration
Tabel 3.8 Data Atribut Duration
Berdasarkan tabel 3.8 di atas, maka diperoleh min = 79 dan max = 958.
c. Mengitung normalisasi masing-masing data pada atribut duration
dengan Rumus 2.4. berikut hasil perhitungan untuk tiap data :
Data ke – 1 = 79
N1 = (79−79)∗(1−0)
958−79+ 0
N1 = 0
Data ke – 2 = 354
N2 = (354−79)∗(1−0)
958−79+ 0
N2 = 0,312
Data ke – 3 = 897
N3 = (897−79)∗(1−0)
958−79+ 0
N3 = 0,93
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Duration 79 354 897 114 226 261 169 958 132 765 272 84
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 42
25
Data ke – 4 = 114
N6 = 0,207
Data ke – 7 =169
N7 = (169−79)∗(1−0)
958−79+ 0
N7 = 0,102
Data ke – 8 = 958
N8 = (958−79)∗(1−0)
958−79+ 0
N8 = 1
Data ke – 9 = 132
N9 = (132−79)∗(1−0)
958−79+ 0
N9 = 0,06
Data ke – 10 = 765
N10 = (765−79)∗(1−0)
958−79+ 0
N10 = 0,78
Data ke – 11 = 272
N11 = (272−79)∗(1−0)
958−79+ 0
N11 = 0,219
Data ke – 12 = 84
N12 = (84−79)∗(1−0)
958−79+ 0
N12 = 0,005
Berikut adalah hasil dari normalisasi :
Tabel 3.9 Data Hasil Normalisasi Atribut Duration
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Duration 0 0,312 0,93 0,039 0,167 0,207 0,102 1 0,06 0,78 0,219 0,005
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 43
26
12. Transformasi pada atribut pday :
Transformasi dilakukan menggunakan rumus min-max dengan
rentang min 0 dan max 1. Maka langkah-langkah normalisasi min-max
adalah sebagai berikut :
a. Langkah pertama yaitu menentukan skala maksimum (nmax) dan
minimum (nmin) baru yaitu nmax =1 dan nmin = 0.
b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom
pday
Tabel 3.10 Data Atribut Pday
Berdasarkan tabel 3.10 di atas, maka diperoleh min = -1 dan max = 342
c. Mengitung normalisasi masing-masing data pada atribut pday dengan
Rumus 2.4. berikut hasil perhitungan untuk tiap data :
Data ke – 1 = -1
N1 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N1 = 0
Data ke – 2 = -1
N2 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N2 = 0
Data ke – 3 = -1
N3 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N3 = 0
Data ke – 4 = 152
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Pday -1 -1 -1 152 -1 -1 -1 -1 -1 342 -1 265
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 44
27
N4 = (152−(−1))∗(1−0)
342−(−1)+ 0
N4 = 0,446
Data ke – 5 = -1
N5 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N5 = 0
Data ke – 6 = -1
N6 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N6 = 0
Data ke – 7 = -1
N7 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N7 = 0
Data ke – 8 = -1
N8 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N8 = 0
Data ke – 9 = -1
N9 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N9 = 0,
Data ke – 10 = 342
N10 =(342−(−1))∗(1−0)
342−(−1)+ 0
N10 = 1
Data ke – 11 = -1
N11 = ((−1)−(−1))∗(1−0)
342−(−1)+ 0
N11 = 0
Data ke – 12 = 265
N12 = (265−(−1))∗(1−0)
342−(−1)+ 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 45
28
N12 = 0,775
Berikut adalah hasil dari normalisasi :
Tabel 3.11 Data Hasil Normalisasi Atribut Pday
13. Tranformasi pada atribut Poutcome
Terdapat 4 class label, yaitu:
o Failure : 1
o Other : 2
o Succes : 3
o Unknown : 4
Atribut Data
1 2 3 4 5 6 7 8 9 10 11 12
Pday 0 0 0 0,446 0 0 0 0 0 1 0 0,775
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 46
29
Tabel 3.12 Data Nasabah Hasil Normalisasi
Age Jo
b
Mar
ital
Educa
tion
Def
ault
Bal
ance
Housi
ng
Loan
Conta
ct
Day
Month
Dura
tion
Cam
pai
gn
Pday
s
Pre
vio
us
PO
utc
ame
Y
0.510638 2 2 1 2 0.141066 1 2 3 5 5 0.22549 1 0 0 4 2
0.765957 6 2 4 2 0.157704 2 2 2 17 8 0.086057 1 1 2 1 2
0.531915 7 2 2 2 0.178925 2 1 1 30 7 0.118736 2 0 0 4 2
0.468085 1 2 2 2 0.015192 2 1 1 21 8 0.037037 2 0 0 4 2
0.787234 6 1 2 2 1 2 2 2 14 7 0.933551 2 0 0 4 1
0 10 2 2 2 0.031107 2 2 1 27 8 0.044662 3 0 0 4 2
0.595745 5 2 2 2 0 2 2 1 21 11 0 1 0 0 4 2
0.021277 5 3 3 2 0.601399 1 2 1 26 8 1 6 0 0 4 1
0.382979 10 2 3 2 0.287678 2 2 1 13 8 0.342048 3 0 0 4 1
0.234043 1 1 2 2 0.426573 1 2 3 14 5 0.119826 1 0 0 4 2
1 6 1 1 2 0.045093 2 2 2 22 10 0.062092 1 0 0 4 1
0.021277 2 2 2 2 0.49361 1 2 1 14 11 0.100218 1 0 0 4 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 47
30
3.4 Klasifikasi K-Nearest Neighbor
Algoritma yang digunakan pada proses klasifikasi data nasabah yang
berpotensi menerima tawaran deposito adalah k-nearest neighbor yang secara
umum dijelaskan flowchart berikut:
Gambar 3.2 Flowchart Proses K-Nearest Neighbor
start
Input
nilai k
Perhitung
euclidean distance
Pengambil k
tetangga terdekat
Penentuan label
mayoritas
sebagai kelas
end
Pengurutan euclidean
distancese secara ascending
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 48
31
Sebagain ilustrai bagaimana klasifikasi menggunakan k-nearest neighbor,
diambil contoh klasifikasi menggunakan k = 1, 3, 5, 7 pada Tabel 3.12. Pembagian
data klasifikasi yakni data 5-12 menjadi data training dan data 1-4 menjadi data test,
berikut adalah langkah-langkah klasifikasi k-nearest neighbor:
1. Mengitung jarak menggunakan euclidean distance dengan rumus 2.5 untuk
setiap data train terhadap data test yang diberikan. Pada Tabel 3.12 berikut
merupakan rincian dalam perhitungan jarak pada data train 1 dan data test 8:
Tabel 3.13 Data Training 1 dan data test 8
Atribut Data 1 Data 8
Age 0.510638
0.021277
Job 2
5
Marital 2
3
Education 1
3
Default 2
2
Balance 0.141066
0.601399
Housing 1
1
Loan 2
2
Contact 3
1
Day 5
26
Month 5
8
Duration 0.22549
1
Campaign 1
6
Pdays 0
0
Previous 0
0
POutcame 4
4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 49
32
Maka dihitung euclidean distance data train 1 terhadap data test 8 menggunakan data
pada Tabel 3.4, berikut adalah perhitungannya:
di=
√(0.021277 − 0.510638)2 + (5 − 2)2 + (3 − 2)2 + (3 − 1)2 + (2 − 2)2 + (0.601399 − 0.141066)2 + (1 − 1)2 + (2 − 2)2 + (1 − 3)2 +
√(26 − 5)2 + (8 − 5)2 + (1 − 0.22549)2 + (6 − 1)2 + (0 − 0)2 + (0 − 0)2 + (4 − 4)2
Maka diperoleh euclidean distance yaitu 22.22726. Perhitungan yang sama untuk data
train selanjutnya. Berikut adalah hasil perhitungan euclidean distance untuk setiap
data train terhadap data test:
Tabel 3.14 Hasil Perhitungan Euclidean Distance
Data Train Data Test
5 6 7 8
1 10.35933 23.81818 17.52364 22.22726
2 5.606083 11.81543 6.712768 11.25108
3 16.16797 4.616305 10.15136 6.497373
4 8.937306 10.91876 5.197875 7.903833
9 4.797989 14.04639 10.16096 14.34093
10 5.770354 16.40783 10.35988 14.27762
11 8.758799 7.280144 2.48381 7.625421
12 6.126791 15.72315 7.719048 13.77756
Setelah mendapat hasil dari Euclidean Distance, maka akan dilakukan
pengurutan dari nilai yang terkecil sampai ke terbesar. Jarak terkecil merupakan
tetangga terdekat ke data test. Berikut adalah hasil pengurutan euclidean distance
untuk setiap data test:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 50
33
Tabel 3.15 Pengurutan Euclidean Distance terhadap data test 5
Jarak Data Train Label Train
4.797989 9 Yes
5.606083 2 No
5.770354 10 No
6.126791 12 Yes
8.758799 11 Yes
8.937306 4 No
10.35933 1 No
16.16797 3 No
Tabel 3.16 Pengurutan Euclidean Distance terhadap data test 6
Jarak Data Train Label Train
4.616305 3 No
7.280144 11 Yes
10.91876 4 No
11.81543 2 No
14.04639 9 Yes
15.72315 12 Yes
16.40783 10 No
23.81818 1 No
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 51
34
Tabel 3.17 Pengurutan Euclidean Distance terhadap data test 7
Jarak Data Train Label Train
2.48381 11 Yes
5.197875 4 No
6.712768 2 No
7.719048 12 Yes
10.15136 3 No
10.16096 9 Yes
10.35988 10 No
17.52364 1 No
Tabel 3.18 Pengurutan Euclidean Distance terhadap data test 8
Jarak Data Train Label Train
6.497373 3 No
7.625421 11 Yes
7.903833 4 No
11.25108 2 No
13.77756 12 Yes
14.27762 10 No
14.34093 9 Yes
22.22726 1 No
Setelah pengurutan, maka dicari hasil klasifikasi menggunakan k-nearest neighbor.
Untuk hasil klasifikasi diperoleh dari k tetangga terdekat atau nilai jarak yang terkecil
kemudian diperoleh dari label yang sering muncul. Maka diperoleh hasil klasifikasi
k-nearest neighbor dengan k yang digunakan adalah 1 3 5 7, sebagai berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 52
35
Tabel 3.19 Hasil Klasifikasi K-Nearest Neighbor
No
Label
Sebenarnya
Hasil Klasifikasi k-NN
k=1 k=3 k=5 k=7
5 Yes Yes No Yes No
6 No No No No No
7 No Yes No No No
8 Yes No No No No
3.5 Uji Akurasi menggunakan Confusion Matrix
Proses menghitung hasil klasifikasi dengan menggunakan confusion matrix.
Misal menggunakan hasil klasifikasi k-nn dengan nilai k = 5 pada Tabel 3.19,
maka diperoleh hasil confusion matrix sebagai berikut:
Tabel 3.20 Confusion Matrix k=5
Berdasarkan rumus 2.6 diperoleh akurasi k=5 adalah:
Akurasi = 1+2
1+1+0+2𝑥100% = 75%
Dengan langkah yang sama diperoleh akurasi untuk k-nearest neighbor
dengan k =1 3 4 5 7 seperti tabel di bawah ini:
Confusion
Matrix yes no akurasi
yes 1 1 75%
no 0 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 53
36
Tabel 3.21 Akurasi varian k
k Akurasi
1 50%
3 50%
5 75%
7 50%
Berdasarkan hasil akurasi pada tabel 3.21 di atas, maka diperoleh k yang
memiliki akurasi optimal adalah k=5
3.6 3-fold Cross Validation
Pada sistem ini menggunakan metode 3-fold cross validation yang
mana data dibagi menjadi 3 set data dan bergantian menjadi subset testing
dan subset training. 1/3 data testing dan 2/3 data training di setiap model.
Berikut ada skenario 3-fold yang akan digunakan sistem ini:
Model 1 Model 2
Data ke : 1-1507
Data ke : 1508-3014
Data ke :3015-4521
Model 3
Data ke : 1-1507
Data ke : 1508-3014
Data ke :3015-4521
Keterangan :
Data Test
Data Train
Gambar 3.3 Skenario 3-fold Cross Validation
Data ke : 1-1507
Data ke : 1508-3014
Data ke :3015-4521
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 54
37
3.7 Kebutuhan Sistem
Alat yang digunakan untuk perancangan sistem :
1. Perangkat keras :
1.1 komputer :
Processor : Intel Core i5- 7200U CPU @3.1GHz
Memory : 4 GB DDR4
Hard Drive : 1000 GB HDD
2. Perangkat lunak
2.1 Microsoft Windows 2010
2.2 Matlab 2018b
3.8 Perancangan Antar Muka Sistem
Gambar 3.4 Tampilan Menu Utama
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 55
38
Gambar 3.4 merupakan tampilan antar muka sistem 3 proses yang
pertama adalah tabel untuk data excel dan proses transformasi, klasifikasi,
dan uji data tunggal.
Pada halaman menu utama proses pertama adalah pada button muat
untuk mengupload data mentah excel berformat.xlsx. atau .xls . Kemudian
pada button transformasi akan melakukan proses transformasi data. Pada
button simpan user dapat menyimpan data yang terdapat pada table ke bentuk
xlsx. Selanjutnya proses k-nearest neighbor pada listbox atribut, user dapat
memilih atribut yang akan digunakan untuk proses klasifikasi kemudian user
dapat menginputkan nilai k, setelah itu user dapat melakukan proses
klasifikasi pada button proses. Hasil klasifikasi akan tampil pada listbox hasil.
Uji data tunggal, digunakan untuk menginput data baru yang akan di
klasifikasi. User dapat menginputkan data sesuai atribut yang digunakan.
Tahap ini akan melakukan proses transformasi kemudian mengklasifikasi
data baru tersebut sehingga menghasilkan label berupa Yes atau No.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 56
39
BAB IV
HASIL DAN ANALISA
Pada bab ini berisi implementasi perangkat lunak yang dibuat serta hasil sistem yang
diperoleh dari proses pengolahan data dan juga pengujian yang dilakukan sesuai
dengan gambaran umum yang telah dijelaskan pada bab sebelumnya.
4.1 Selekasi Data
Pada tahap seleksi atribut ini penulis mencoba menghitung
information gain sebelum melakukan reduksi pada atribut, penulis terlebih
dahulu mengurutkan atribut berdasarkan information gain yang dapat dilihat
pada tabel 4.1:
Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain
Ranked No Kolom Atribut
0.10811967 12 Duration
0.03758116 16 Poutcome
0.03553361 14 Pday
0.0299014 11 Month
0.01633501 9 Contact
0.01622639 15 Previous
0.00999086 2 Job
0.00971603 1 Age
0.00782731 7 Housing
0.00533738 6 Balance
0.0041129 8 Loan
0.00304631 13 Campaign
0.00297254 3 Marital
0.00236554 4 Education
0.00000121 5 Default
0 10 Day
Setelah melakukan perangkingan, menggunakan aplikasi Weka
dilakukan klasifikasi dengan menggunakan algoritma K-Nearest Neighbor
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 57
40
dengan data yang sudah ditransformasi dengan melakukan beberapa
percobaan yang dapat dilihat pada tabel 4.2.
Tabel 4.2 Percobaan Seleksi Data
Uji Atribut Jumlah K Akurasi (100%)
1 Duration 1 82.4375
3 86.1535
5 87.5470
7 88.1000
9 88.2769
11 88.1221
13 88.2327
15 88.3212
17 88.5202
19 88.6972
21 88.6751
23 88.6530
25 88.6087
27 88.5424
29 88.5866
31 88.6972
33 88.6087
2 Duration, Poutcome 1 83.4771
3 88.1663
5 88.6530
7 89.2944
9 89.3829
11 89.4492
13 89.3829
15 89.5598
17 89.5156
19 89.4050
21 89.6704
23 89.5377
25 89.6041
27 89.6262
29 89.5820
31 89.5820
33 89.5820
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 58
41
3 Duration, Poutcome, Pday 1 84.3397
3 88.4981
5 88.4096
7 89.0953
9 89.2059
11 89.0290
13 89.0953
15 89.1617
17 89.2944
19 89.4050
21 89.5156
23 89.5598
25 89.4935
27 89.4050
29 89.4492
31 89.4714
33 89.4714
4 Duration, Poutcome, Pday,
Month
1 86.1535
3 88.0779
5 89.0732
7 89.0732
9 89.0511
11 89.1617
13 89.2944
15 89.2944
17 89.2502
19 89.2502
21 89.2280
23 89.2502
25 89.2502
27 89.1617
29 89.2723
31 89.2502
33 89.1838
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 59
42
5 Duration, Poutcome, Pday,
Month, Contact
1 86.6622
3 88.3212
5 89.1838
7 89.4050
9 89.6262
11 89.6483
13 89.4492
15 89.3608
17 89.3165
19 89.4271
21 89.3608
23 89.3608
25 89.4050
27 89.2502
29 89.3165
31 89.2944
33 89.2502
6 Duration, Poutcome, Pday,
Month, Contact, Previous,
1 85.8660
3 88.0115
5 88.8520
7 89.2723
9 89.1617
11 89.2280
13 89.1175
15 89.1175
17 88.9184
19 88.9626
21 88.9847
23 89.0732
25 89.2059
27 89.0511
29 89.0069
31 89.0290
33 89.0511
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 60
43
7 Duration, Poutcome, Pday,
Month, Contact, Previous, Job
1 86.1535
3 88.0779
5 88.3433
7 88.4096
9 88.4760
11 88.3875
13 88.4539
15 88.4096
17 88.5202
19 88.4539
21 88.4760
23 88.4096
25 88.3433
27 88.3433
29 88.3654
31 88.3433
33 88.3433
8 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age
1 86.1314
3 87.5249
5 88.1663
7 88.1442
9 88.2990
11 88.1885
13 88.2990
15 88.3212
17 88.4318
19 88.3433
21 88.3875
23 88.4760
25 88.3433
27 88.3433
29 88.3654
31 88.3654
33 88.3654
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 61
44
9 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing
1 86.2199
3 87.9009
5 88.2990
7 88.1442
9 88.1442
11 88.2548
13 88.3212
15 88.2990
17 88.2106
19 88.2769
21 88.2769
23 88.2769
25 88.2769
27 88.2769
29 88.2769
31 88.3654
33 88.3654
10 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance
1 86.2641
3 87.8567
5 88.2327
7 88.1442
9 88.2327
11 88.2327
13 88.2990
15 88.2769
17 88.2548
19 88.2548
21 88.2769
23 88.2769
25 88.2769
27 88.2548
29 88.2548
31 88.3654
33 88.3654
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 62
45
11 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan
1 86.1535
3 87.6797
5 88.2548
7 88.1663
9 88.1885
11 88.1663
13 88.2327
15 88.2548
17 88.1663
19 88.2548
21 88.2990
23 88.2769
25 88.2990
27 88.2769
29 88.2548
31 88.3433
33 88.3654
12 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign
1 85.5563
3 87.6355
5 87.7682
7 87.9230
9 87.9894
11 88.0557
13 88.1000
15 88.2990
17 88.2548
19 88.2769
21 88.3212
23 88.2548
25 88.2990
27 88.3212
29 88.3654
31 88.4318
33 88.4318
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 63
46
13 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital
1 85.4899
3 87.5249
5 87.7461
7 87.9894
9 88.0336
11 87.9894
13 88.1221
15 88.2106
17 88.1885
19 88.2990
21 88.2548
23 88.2548
25 88.3212
27 88.2990
29 88.3875
31 88.4096
33 88.4096
14 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education
1 84.4282
3 87.4585
5 87.7240
7 88.0557
9 87.9894
11 88.2106
13 88.4096
15 88.3212
17 88.3433
19 88.2327
21 88.3212
23 88.3212
25 88.3433
27 88.3654
29 88.3433
31 88.3875
33 88.3433
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 64
47
15 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education,
Default
1 84.4282
3 87.5028
5 87.7682
7 88.1000
9 87.9894
11 88.2106
13 88.4096
15 88.3212
17 88.3433
19 88.2327
21 88.3212
23 88.3212
25 88.3433
27 88.3654
29 88.3433
31 88.3875
33 88.3433
16 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education,
Default, Day
1 84.3619
3 87.3701
5 87.6355
7 88.0557
9 88.0336
11 88.3875
13 88.5645
15 88.4760
17 88.4981
19 88.4981
21 88.5202
23 88.4981
25 88.5645
27 88.5424
29 88.5645
31 88.5645
33 88.5202
Hasil pemilihan atribut yang dilakukan klasifikasi dengan
menggunakan metode k-Nearest Neighbor dengan data yang sudah di
eliminasi data outlier menghasilkan jumlah data 2790, melakukan beberapa
percobaan dapat dilihat pada tabel 4.3:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 65
48
Tabel 4.3 Percobaan Seleksi Data
Uji Atribut Jumlah K Akurasi (100%)
1 Duration 1 86.3441
3 92.1505
5 93.0108
7 93.3333
9 93.6559
11 93.8710
13 93.8710
15 93.9427
17 94.0502
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
2 Duration, Poutcome 1 86.3082
3 92.1505
5 93.0108
7 93.3333
9 93.6559
11 93.8710
13 93.8710
15 93.9427
17 94.0502
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 66
49
3 Duration, Poutcome, Pday 1 86.3082
3 92.1505
5 93.0108
7 93.3333
9 93.6559
11 93.8710
13 93.8710
15 93.9427
17 94.0502
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
4 Duration, Poutcome, Pday,
Month
1 90.5735
3 92.9749
5 93.5125
7 93.7276
9 93.7993
11 93.8351
13 93.8710
15 94.1577
17 94.0860
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 67
50
5 Duration, Poutcome, Pday,
Month, Contact
1 91.2186
3 93.4409
5 93.7993
7 93.9427
9 94.1935
11 94.1219
13 94.0860
15 94.1935
17 94.1935
19 94.1577
21 94.1219
23 94.1219
25 94.1219
27 94.0502
29 94.0502
31 94.0860
33 94.0860
6 Duration, Poutcome, Pday,
Month, Contact, Previous,
1 91.2186
3 93.4409
5 93.7993
7 93.9427
9 94.1935
11 94.1219
13 94.0860
15 94.1935
17 94.1935
19 94.1577
21 94.1219
23 94.1219
25 94.1219
27 94.0502
29 94.0502
31 94.1935
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 68
51
7 Duration, Poutcome, Pday,
Month, Contact, Previous, Job
1 90.7527
3 93.1541
5 94.0143
7 94.0502
9 94.0860
11 94.0860
13 94.0502
15 94.1219
17 94.0860
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
8 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age
1 91.1828
3 93.1541
5 93.8351
7 94.0502
9 94.0860
11 94.0860
13 94.0502
15 94.0502
17 94.0502
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 69
52
9 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing
1 92.2581
3 93.4050
5 93.5842
7 94.0502
9 93.9068
11 94.0860
13 94.0502
15 94.0502
17 94.0143
19 94.0143
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
10 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance
1 92.4014
3 93.4767
5 93.6918
7 93.9427
9 93.9427
11 93.9785
13 94.0502
15 94.0502
17 94.0143
19 94.0502
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 70
53
11 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan
1 92.3656
3 93.4767
5 93.5125
7 94.0143
9 94.0143
11 94.0143
13 94.0143
15 94.0143
17 94.0143
19 94.0502
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
12 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign
1 91.1470
3 93.5484
5 94.0143
7 93.9427
9 94.0143
11 94.0143
13 94.0502
15 94.0860
17 94.0502
19 94.0860
21 94.0502
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 71
54
13 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital
1 91.4337
3 93.5842
5 94.0502
7 93.9785
9 94.0143
11 94.0143
13 94.0502
15 94.0502
17 94.0502
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
14 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education
1 91.6487
3 93.6559
5 93.9427
7 93.9427
9 94.0502
11 94.0860
13 94.0860
15 94.0860
17 94.0860
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 72
55
15 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education,
Default
1 91.7921
3 93.6559
5 93.9427
7 93.9068
9 94.0502
11 94.0860
13 94.0860
15 94.0860
17 94.0860
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
16 Duration, Poutcome, Pday,
Month, Contact, Previous, Job,
Age, Housing, Balance, Loan,
Campaign, Marital, Education,
Default, Day
1 94.1935
3 93.5125
5 93.6918
7 93.7634
9 93.9785
11 94.0860
13 94.0860
15 94.0860
17 94.0860
19 94.0860
21 94.0860
23 94.0860
25 94.0860
27 94.0860
29 94.0860
31 94.0860
33 94.0860
Dari tabel 4.3 di atas, hasil percobaan seleksi atribut terdapat
peningkatan akurasi. Akurasi optimal yang pada percobaan ke 5 pada k=9
dengan atribut adalah Duration, Poutcome, Pday, Month, dan Contact yang
menghasilkan akurasi optimal yaitu 94,1935%.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 73
56
Pada tabel 4.2 peneliti melakukan percobaan menggunakan data yang
belum diidentifikasi outlier, hasil percobaan yang dilakukan dengan menguji
satu persatu atribut untuk mendapatkan akurasi optimal menggunakan
algoritma k-Nearest Neighor yaitu pada percobaan k 5 pada k=11 dengan
atribut Duration, Poutcome, Pday, Month, dan Contact menghasilkan akurasi
optimal yaitu 89.6483%. Diketahui pula bahwa jumlah atribut dan hasil
perangkingan atribut untuk proses klasifikasi sangat berpengaruh terhadap
hasil klasifikasi dan akurasi sistem.
Pengujian terdahulu dilakukan oleh (Febianto,2019) “Klasifikasi Data
Nasabah yang Berpotensi Membuka Simpanan Deposito Menggunakan
Algoritma Backpropagation”. Dengan jumlah data 41188 dengan 20 atribut
dan 1 kelas label melakukan klasifikasi menghasilkan akurasi optimal
80,2109%. Peneliti juga melakukan klasifikasi dengan kasus yang sama tetapi
jumlah data dan atribut yang berbeda dengan algoritma k-Nearest Neighbor
menghasilkan akurasi optimal yaitu 94,1935%. Sehingga terdapat
peningkatan akurasi dengan menggunakan algoritma k-Nearest Neighbor
untuk mengklasifikasi data nasabah yang berpotensi membuka simpanan
deposito.
5 atribut dengan akurasi optimal yang akan digunakan dan telah
diseleksi sebagai berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 74
57
Tabel 4.4 Hasil Seleksi Data
No Atribut
1 Duration
2 POutcome
3 Pday
4 Month
5 Contact
4.2 Klasifikasi K-Nearest Neighbor
Pada tahap ini dilakukan klasifikasi menggunakan k-nearest neigbor
dengan menggunakan 3-fold cross validation yakni data training sejumlah
1860 data dari data keseluruhan dan 930 data testing dari data keseluruhan
pada data yang telah ditransformasi. Data yang digunakan pada proses
klasifikasi ini sebanyak 2790 dengan 5 atribut dari data asli 4521
menggunakan k = 9 dengan akurasi 94,1935%. Berikut hasil confusion matrix
untuk 3-fold cross validation :
Tabel 4.5 Confusion Matrix 1
Luaran Yes No
Yes 9 10
No 46 865
Akurasi =9+865
9+10+46+865𝑥100% =93,9785%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 75
58
Tabel 4.6 Confusion Matrix 2
Luaran Yes No
Yes 4 2
No 51 873
Akurasi =4+873
4+2+51+873𝑥100% =94,3011%
Tabel 4.7 Confusion Matrix 3
Luaran Yes No
Yes 9 7
No 46 868
Akurasi =9+7
9+7+46+868𝑥100% =94,3011%
Akurasi total =93,9785+94,3011+94,3011
3𝑥100% =94.1935%
4.3 Uji Data Tunggal
Pada tahap ini digunakan untuk melakukan proses pengujian terhadap
suatu data. Data baru dari data nasabah yang tidak digunakan dalam
klasifikasi, data yang akan diuji diinputkan akan menghasilkan luaran berupa
kelas dengan hasil prediksi yaitu yes atau no. Hasil uji data tunggal
menggunakan 5 ciri yang yang memiliki hasil optimal, sebagaimana dapat
dilihat pada gambar berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 76
59
Gambar 4.1 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 77
60
Gambar 4.2 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 78
61
Gambar 4.3 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 79
62
Gambar 4.4 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 80
63
Gambar 4.5 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 81
64
Gambar 4.6 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 82
65
Gambar 4.7 Uji Data Tunggal
Gambar di atas merupakan hasil pengujian data. Data yang digunakan untuk
menguji sistem tersebut menggunakan data asli yaitu 21 data yang tidak digunakan
pada proses klasfikasi, pada hasil pengujian di atas menghasilkan keluaran yang
sesuai dengan data asli yang diujikan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 83
66
BAB V
KESIMPULAN
5.1 Kesimpulan
Dari hasil penelitian klasifikasi nasabah yang berpotensi menerima
tawaran deposito menggunakan K-Nearest Neighbor dapat disimpulkan
sebagai berikut:
1. Proses klasifikasi untuk mengklasifikasi nasabah yang berpotensi
menerima tawaran deposito dapat diimplementasikan dengan baik
menggunakan K-Nearest Neighbor.
2. Pengujian yang dilakukan pada 2790 data menghasilkan akurasi
terbaik pada k 9 dengan jumlah atribut adalah 5, dengan atribut dipilih
duration, poutcome, pday, month, dan contact. Hal ini juga sesuai
dengan pemeringkatan atribut menggunakan Weka.
3. Akurasi optimal pada percobaan klasifikasi menggunakan metode k-
nearest neighbor sebesar 94,1935%.
5.2 Saran
Saran yang dapat diberikan untuk peneliitian ini:
1. Sistem ini dapat dikembangkan dengan metode yang lain
2. Pemilihan atribut dapat dilakukan dengan metode lain
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 84
67
DAFTAR PUSTAKA
Dendawijaya, Lukman. 2003. Manajemen Perbankan.Jakarta: Ghalua Indonesia.
Febianto, Kevin. 2019. Klasifikasi Nasabah yang Berpotensi Membuka Simpanan
Deposito menggunakan Algoritma Backpropagation.
Gorunescu, F .2011. Data Mining. Concept Model and Techiques. Berlin:
Springer.ISBN 978-3-642-19720-8
Han and Kamber.2006. Data Mining: Concept and Techniques Second Edition,
Morgan Kaufmann Publishers
Kasmir.2012. Analisis Laporan Keuangan .Jakarta. PT. Raja Grafindo.
Kusrini dan Luthfi, E.T. (2009).Algoritme Data Mining. Yogyakarta: ANDI.
Larose, D.T. 2005. Discovering Knowledge In Data. United States Of America: John
Wiley & Sons,Inc.
Muhammad.2015. Manajemen Pemasaran Jasa. Bandung : Alfabeta.
Mustakim, Oktaviani (F).2016. Algoritma K-Nearest Neighbor Classification
sebagai Sistem Prediksi Prestasi Mahasiswa.
Nazir dan Hasanuddin. 2004. Ensikplopedi Ekonomi dan Perbankan Syariah.
Turban, E. 2005, Decision Support System and Intelligent Systems Edisi Bahasa
Indonesia Jilid I. Andi: Yogyakarta.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 85
68
Utami, Christina Widya. 2010. Manajemen Ritel. Jakarta : Salemba Empat.
Prabowo, Rahman.2018. Prediksi Nasabah yang Berpotensi Membuka Simpanan
Deposito menggunakan Naïve Bayes Berbasis Particle Swarm Optimization.
Wijaya dan Muslim. 2016. Peningkatan Akurasi pada Algoritma Support Vector
Machine dengan Penerapan Information Gain untuk Mendiagnosa Chronic
Kidney Disease
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI