PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK …

i

PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK

KLASIFIKASI DATA NASABAH YANG BERPOTENSI MEMBUKA

SIMPANAN DEPOSITO

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Desi Ratnasari

165314069

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2021

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLASSIFICATION OF COSTUMER DATA THAT POTENTIALS TO OPEN

DEPOSITS USING K-NEAREST NEIGHBOR ALGORITHM

THESIS

Present as Partial Fulfillment of the Requirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Created by:

Desi Ratnasari

165314069

INFORMATICS STUDY PROGRAM

DEPARTMENT OF INFORMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2021


iii


iv


v

HALAMAN PERSEMBAHAN

“Markus 10:27”

Dengan penuh rasa syukur, skripsi ini dipersembahkan untuk:

TUHAN YESUS KRISTUS

dan ORANG TUAKU


vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak

mengandung atau memuat hasil karya orang lain, kecuali yang disebut dalam daftar

pustaka dan kutipan selayaknya karya ilmiah.

Yogyakarta, 22 Januari 2021

Penulis

Desi Ratnasari


Stamp

vii

LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma:

Nama : Desi Ratnasari

Nim : 165314069

Demi pengembangan ilmu pengetahuan, saya memberikan ke perpustakaan

Universitas Sanata Dharma karya ilmiah yang berjudul:

PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK

KLASIFIKASI DATA NASABAH YANG BERPOTENSI MEMBUKA

SIMPANAN DEPOSITO

beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan

dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data,

mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain

untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberi

royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.


Yang menyatakan

Desi Ratnasari


Stamp

viii

ABSTRAK

Deposito merupakan salah satu fasilitas investasi yang biasanya ditawarkan

oleh bank. Deposito yaitu tabungan yang penarikannya hanya dapat dilakukan

berdasarkan kesepakatan dari pihak bank dengan nasabah penyimpan dengan waktu

tertentu. Masalah yang dihadapi adalah bagaimana dapat menentukan prediksi dari data

nasabah untuk menentukan nasabah yang berpotensi membuka simpanan deposito.

Para nasabah berasal dari latar belakang berbeda-beda antara lain umur, pekerjaan,

status, pendidikan dan lain sebagainya. Data nasabah biasanya hanya disimpan dalam

database saja dan belum dimanfaatkan untuk memperoleh informasi tentang nasabah

yang berpotensi membuka deposito.

Bank perlu menentukan strategi pemasaran dan promosi yang lebih efisien agar

tidak terlalu banyak mengeluarkan biaya sehingga masyarakat tertarik untuk

berinvestasi pada produk deposito dari bank tersebut. Maka dari itu untuk langkah yang

lebih efisien, bank dapat menggolah data nasabah untuk memperoleh informasi tentang

nasabah yang berpotensi membuka simpanan deposito dengan melakukan klasifikasi

yang dapat memprediksi nasabah yang berpotensi membuka simpanan desposito

dengan menggunakan data dari nasabah yang diproses secara matematik sehingga

menemukan suatu keputusan.

Penelitian ini mencoba untuk mengklasifikasi data nasabah untuk memprediksi

nasabah yang berpotensi membuka simpanan deposito menggunakan algoritme K-

Nearest Neighbor agar menghasilkan hasil yang optimal. Data yang digunakan dalam

penelitian ini adalah data set bagian marketing di Portugal pada bulan oktober 2011

sejumlah 4521 record dari website UCI Repository Mechine Learning. Data tersebut

memiliki 16 atribut dan 1 label.

Kata kunci:

Deposito, algoritme K-Nearest Neighbor, data mining, klasifikasi.


ix

ABSTRACT

Deposits are one of the investment facilities usually offered by banks. Deposits

are savings that can only be withdrawn based on an agreement from the bank with the

depositoment customer with a certain time. The problem is how to determine the

prediction of customer data to determine the customer who has the potential to open a

deposit deposit. Customers come from different backgrounds including age,

occupation, status, education and so on. Customer data is usually only stored in a

database and has not been used to obtain information about customers who have the

potential to open deposits.

Banks need to determine more efficient marketing and promotion strategies so

as not to cost too much so that people are interested in investing in deposit products

from the bank. Therefore, for more efficient measures, banks can collect customer data

to obtain information about customers who have the potential to open deposits by

conducting classifications that can predict customers who have the potential to open

desposito deposits by using data from customers that are processed mathematically so

as to find a decision.

This study tries to classify customer data to predict customers who have the

potential to open deposits using the K-Nearest Neighbor algorithm to produce optimal

results. The data used in this study is the data set of marketing section in Portugal in

October 2011 a total of 4521 records from the website of the UCI Repository Mechine

Learning. The data has 16 attributes and 1 label.

Keywords:

Deposits, K-Nearest Neighbor algorithms, data mining, classification.


x

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa, karena atas berkat-Nya penulis

dapat menyelesaikan tugas akhir ini dengan baik di situasi pandemi melanda.

Dalam pengerjaan tugas akhir ini dapat berjalan dengan baik karena motivasi

dan bimbingan dari berbagai pihak. Maka dalam kesempatan ini, penulis ingin

mengucapkan terima kasih kepada:

1. Tuhan Yesus Kristus dan Bunda Maria yang telah melimpahkan berkat-Nya

sehingga penulis dapat menyelesaikan tugas akhir ini.

2. Bapak Nikodemus Isen dan Ibu Siur, kedua orang tua penulis yang tidak pernah

lupa mengucapkan nama penulis dalam doanya serta tak henti memberi

dukungan dan kasih sayang.

3. Floresius, Firdaus, Yustina, Kasius, Melati, Margareta, dan Budi, ke tujuh

kakak penulis yang selalu memberi dukungan dalam masa kuliah.

4. Bapak Eko Hari Parmadi, S.Si., M.Kom. Selaku dosen pembimbing tugas akhir

yang telah membimbing, mendukung, dan telah sabar memberi masukan dan

ilmu dalam penyempurnaan tugas akhir ini.

5. Ibu Agnes Maria Polina S.Kom., M.Sc. Selaku dosen pembimbing akademik

yang selalu memberi bimbingan.

6. Bapak Sudi Mungkasih S.Si., Math.Sc., Ph.D. Selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma

7. Bapak Robertus Adi Nugroho S.T., M.Eng. Selaku ketua Program Studi

Informatika Universitas Sanata Dharma.

8. Seluruh Dosen Fakultas Sains dan Teknologi Universitas Sanata Dharma

khususnya Program Studi Informatika yang telah memberi ilmu selama masa

perkuliahan.

9. Foggy Alfredo yang telah memberi dukungan dan menemani dalam proses

pengerjaan tugas akhir ini.


xi

10. Valentina, William, Paulina, Caroline, Niko yang telah berbagi ilmu dan

memberi dukungan kepada penulis untuk menyelesaikan tugas akhir.

11. Teman-teman Informatika angkatan 2016 yang saling membantu saat dalam

kesulitan.

12. Fina dan Pulung yang telah memberi dukungan dalam penyelesaian tugas akhir

ini.

13. Teman mabar pubg dan mobile legends yang telah menemani dan menghibur

penulis selama pembuatan tugas akhir.

14. Seluruh pihak yang telah membantu yang tidak dapat disebutkan satu persatu.

Penulis menyadari bahwa masih banyak kekurangan dari tugas akhir ini karena

pengetahuan penulis yang masih terbatas. Oleh karena itu, penulis mengharapkan kritik

dan saran yang membangun untuk tugas akhir ini. Semoga tugas akhir ini dapat

bermanfaat bagi berbagai pihak.


Penulis

Desi Ratnasari


xii

DAFTAR ISI

BAB I ........................................................................................................................................ 1

PENDAHULUAN ................................................................................................................... 1

1.1 Latar Belakang ............................................................................................... 1

1.2 Rumusan Masalah .......................................................................................... 3

1.3 Tujuan Penelitian ............................................................................................ 3

1.4 Manfaat Penelitian .......................................................................................... 3

1.5 Batasan Masalah ............................................................................................. 4

1.6. Sistematika Penulisan ..................................................................................... 4

BAB II ...................................................................................................................................... 5

LANDASAN TEORI .............................................................................................................. 5

2.1 Deposito .......................................................................................................... 5

2.2 Knowledge discovery in database .................................................................. 5

2.3 Data Mining .................................................................................................... 7

2.4 Klasifikasi Pada Data Mining ......................................................................... 8

2.5 Outlier ............................................................................................................. 9

2.6 K-fold Cross Validation ................................................................................. 9

2.7 k-Nearest-Neighbor classifier ....................................................................... 10

2.8 Evaluasi ........................................................................................................ 11

BAB III ................................................................................................................................... 13

METODOLOGI PENELITIAN .......................................................................................... 13

3.1 Data .............................................................................................................. 13

3.2 Seleksi data ................................................................................................... 16

3.3 Transformasi data ......................................................................................... 17

3.4 Klasifikasi K-Nearest Neighbor ................................................................... 30

3.5 Uji Akurasi menggunakan Confusion Matrix .............................................. 35

3.6 3-fold Cross Validation ................................................................................ 36

3.7 Kebutuhan Sistem ......................................................................................... 37

3.8 Perancangan Antar Muka Sistem ................................................................. 37

BAB IV ................................................................................................................................... 39


xiii

HASIL DAN ANALISA ....................................................................................................... 39

4.1 Selekasi Data ................................................................................................ 39

4.2 Klasifikasi K-Nearest Neighbor ................................................................... 57

4.3 Uji Data Tunggal .......................................................................................... 58

BAB V .................................................................................................................................... 66

KESIMPULAN ..................................................................................................................... 66

5.1 Kesimpulan ................................................................................................... 66

5.2 Saran ............................................................................................................. 66

xiv

DAFTAR GAMBAR

Gambar 2.1 Ilustrasi k-fold cross validation................................................................10

Gambar 3.1 Gambaran Umum.....................................................................................13

Gambar 3.2 Flowchart Proses K-Nearest Neighbor.....................................................30

Gambar 3.3 Skenario 3-fold Cross Validation.............................................................35

Gambar 3.4 Tampilan Menu Utama.............................................................................36

Gambar 4.1 Uji Data Tunggal......................................................................................59








xv

DAFTAR TABEL

Tabel 2.1 Confusion Matrix……..................................................................................11

Tabel 3.1 Atribut Data Nasabah...................................................................................14

Tabel 3.2 Contoh Data Nasabah...................................................................................15

Tabel 3.3 Hasil Uji Seleksi Atribut...............................................................................16

Tabel 3.4 Data Atribut Age...........................................................................................17

Tabel 3.5 Data Hasil Normalisasi Atribut Age..............................................................19

Tabel 3.6 Data Atribut Balance....................................................................................21

Tabel 3.7 Data Hasil Normalisasi Atribut Balance.......................................................22

Tabel 3.8 Data Atribut Duration..................................................................................24

Tabel 3.9 Data Hasil Normalisasi Atribut Duration.....................................................25

Tabel 3.10 Data Atribut Pday.......................................................................................26

Tabel 3.11 Data Hasil Normalisasi Atribut Pday..........................................................28

Tabel 3.12 Data Nasabah Hasil Normalisasi................................................................29

Tabel 3.13 Data Training 1 dan Data Testing 8.............................................................31

Tabel 3.14 Hasil Perhitungan Euclidean Distance.......................................................32

Tabel 3.15 Pengurutan Euclidean Distance pada data test 5.........................................33

Tabel 3.16 Pengurutan Euclidean Distance pada data test 6........................................33



Tabel 3.19 Hasil Klasifikasi K-Nearest Neighbor........................................................35


xvi

Tabel 3.20 Confusion Matrix k=5.................................................................................35

Tabel 3.21 Akurasi varian k..........................................................................................36

Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain..................................39

Tabel 4.2 Percobaan Seleksi Data................................................................................40

Tabel 4.3 Percobaan Seleksi Data................................................................................48

Tabel 4.4 Hasil Seleksi Data.........................................................................................57

Tabel 4.5 Confusion Matrix 1.......................................................................................57




xvii

DAFTAR RUMUS

Rumus 2.1 Information gain..........................................................................................5



Rumus 2.4 Rumus min-max...........................................................................................7

Rumus 2.5 Euclidean Distance....................................................................................12

Rumus 2.6 Akurasi.......................................................................................................12


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Deposito merupakan salah satu tempat investasi bagi masyarakat. Deposito

yaitu tabungan yang penarikannya hanya dapat dilakukan berdasarkan

kesepakatan dari pihak bank dengan nasabah penyimpan dengan waktu tertentu

(Utami, 2010). Hal itu dikarenakan suku bunga yang diperoleh pertahunnya cukup

tinggi dibandingkan dengan suku bunga yang diperoleh dari simpanan biasa.

Apabila nasabah ingin menarik tabungan sebelum waktu yang telah ditetapkan

maka nasabah terkena denda pinalti, tetapi jika tabungan yang semakin lama

disimpan dalam bentuk deposito, maka semangkin besar bunga yang diperoleh.

Hal tersebut menjadi peluang dari pihak bank untuk menarik masyarakat agar

memilih melakukan simpanan deposito (Prabowo 2018).

Bank pada umumnya memiliki banyak data nasabah, dari data nasabah

tersebut menghasilkan pengetahuan yang dapat membantu bank menanggani

suatu masalah. Masalah yang dihadapi adalah bagaimana dapat menentukan

memprediksi dari data nasabah untuk menentukan nasabah yang berpotensi

membuka simpanan deposito. Para nasabah berasal dari latar belakang berbeda-

beda antara lain umur, pekerjaan, status, pendidikan dan lain sebagainya. Data

nasabah biasanya hanya disimpan dalam database saja dan belum dimanfaatkan

untuk memperoleh informasi tentang nasabah yang berpotensi membuka deposito.

Data nasabah yang berpotensi membuka deposito dapat membantu bank untuk

mempertahankan nasabah dan menentukan suatu target pemasaran salah satunya

adalah melakukan klasifikasi yang dapat memprediksi nasabah yang berpotensi

membuka simpanan desposito dengan menggunakan data dari nasabah yang

diproses secara matematik sehingga menemukan suatu keputusan.


2

Salah satu metode untuk mengklasifikasi data adalah K-Nearest Neighbor

yang menggunakan algoritma supervised. Algoritma K-Nearest Neighbor

dilakukan dengan mencari kelompok k objek pada data training yang paling dekat

dengan objek pada data baru atau data testing. Untuk menghitung jarak antara dua

objek x dan y yang menggunakan rumus Euclidean Distance. Untuk mengevaluasi

model klasifikasi dalam memperkirakkan objek yang benar atau salah

menggunakan confusion matrix. Matrix dari klasifikasi akan dibandingkan dengan

kelas yang asli.

Penelitian terkait dengan topik ini dilakukan oleh (Febianto, 2019), penelitian

yang dibuat yakni Prediksi Nasabah yang Berpotensi Membuka Simpanan

Deposito Menggunakan algoritme Backpropagation, data yang digunakan adalah

data public diperoleh dari website UCI Repository Machine Learning

menggunakan 21 atribut, menghasilkan akurasi sebesar 80.2109 % dengan

struktur jaringan paling optimal dengan menggunakan 50 neuron dan satu layer

tersembunyi dan menggunakan fungsi aktivasi logsig dan fungsi training traingdx.

Penelitian lainnya dilakukan oleh (Mustakim, dkk, 2016) penelitian tentang

“Algoritma K-Nearest Neighbor Sebagai Sistem Prediksi Predikat Mahasiswa.

Jumlah data testing 50 data dan data training 165 data, hasil penelitian 82%.

Pada penelitian lain oleh (Wijaya dan Muslim, 2016), penelitian tentang

Peningkatan Akurasi pada Algoritma Support Vector Machine dengan Penerapan

Information Gain untuk Mendiagnosa Chronic Kidney Disease. Disimpulkan

bahwa menerapkan Information Gain pada algoritma Support Vector Machine

menunjukan bahwa tingkat akurasi meningkat 0,75% dari 97,75% menjadi

98,50%.

Berdasarkan uraian tersebut, penulis tertarik melakukan penelitian penerapan

algoritma K-Nearest Neighbor untuk klasifikasi data nasabah yang berpotensi

membuka simpanan deposito. Data yang digunakan adalah data publik yang

diperoleh dari website UCI Repository Machine Learning yang diharapkan


3

mampu mendapatkan hasil klasifikasi untuk mengetahui nasabah yang berpotensi

membuka simpanan deposito.

1.2 Rumusan Masalah

Dari latar belakang di atas, dapat dirumuskan masalah yaitu :

1. Bagaimana mengklasifikasi data nasabah yang berpotensi membuka

simpanan deposito menggunakan algoritma K-Nearest Neighbor?

2. Berapa nilai k yang menghasilkan akurasi tertinggi dalam mengklasifikasi

nasabah yang berpotensi membuka simpanan deposito?

3. Berapakah akurasi dari hasil implementasi algoritma K-Nearest Neighbor

dalam melakukan klasifikasi data nasabah yang berpotensi membuka

simpanan deposito menggunakan algoritma K-Nearest Neighbor?

1.3 Tujuan Penelitian

Beberapa tujuan yang diharapkan dengan penelitian ini adalah sebagai berikut :

1. Mengklasifikasi data nasabah yang berpotensi membuka simpanan deposito

menggunakan algoritma K-Nearest Neighbor.

2. Mengetahui jumlah k yang menghasilkan akurasi tertinggi dalam

mengklasifikasi nasabah yang berpotensi membuka simpanan deposito

3. Mengetahui akurasi dari hasil implementasi algoritma K-Nearest Neighbor

untuk klasifikasi data nasabah yang berpotensi membuka simpanan deposito

menggunakan algoritma K-Nearest Neighbor.

1.4 Manfaat Penelitian

1. Secara umum manfaat penelitian ini yaitu membantu pihak bank untuk

melakukan klasifikasi data nasabah yang berpotensi membuka simpanan

deposito, serta menambah pengetahuan yang lebih mengenai algoritma K-

Nearest Neighbor.


4

1.5 Batasan Masalah

Berdasarkan rumusan masalah maka dapat ditentukan batasan masalah sebagai

berikut:

1. Data yang digunakan adalah data publik yang diperoleh dari website UCI

Repository Machine Learning yaitu bank marketing

2. Implementasi algoritma K-Nearest Neighbor menggunakan Matlab.

1.6. Sistematika Penulisan

BAB I PENDAHULUAN

Bab ini membahas mengenai latar belakang, rumusan masalah, batasan masalah,

tujuan penelitian, manfaat penelitian, dan sistmatika penulisan.

BAB II LANDASAN TEORI

Bab ini membahas tentang teori-teori yang menjadi pendukung dalam

menyelesaikan masalah mengenai penambangan data, klasifikasi dan metode

yang digunakan yaitu algoritma k-nearest neighbor.

BAB III METODOLOGI PENELITIAN

Bab ini menjelaskan tentang metodologi penelitian yang terdiri dari tahap

perancangan, data yang digunakan, pengolahan data, pembuatan alat uji, alat

evaluasi dan analisis kebutuhan sistem.

BAB IV ANALISIS DAN PEMBAHASAN

Bab ini menjelaskan tentang hasil dan analisis dari hasil percobaan yang telah

dilakukan.

BAB V PENUTUP

Bab ini berisi kesimpulan yang didapatkan dari penelitian yang telah dilakukan,

kesimpulan menjawab rumusan masalah.


5

BAB II

LANDASAN TEORI

2.1 Deposito

Pengertian deposito menurut Undang-Undang No. 10 Tahun 1998 adalah

simpanan yang penarikannya hanya dapat dilakukan pada waktu tertentu

berdasarkan kesepakatan nasabah dengan pihak bank. (Dendawijaya, 2003).

Deposito merupakan aktivitas investasi yang dilakukan untuk memperoleh

keuntungan. Deposito ini merupakan salah satu kegiatan mengumpulkan dana

yang dilakukan oleh perbankan, selain tabungan dan giro. Bank memerlukan dana

untuk mempertahankan perbankannya yaitu dengan mengumpulkan dana melalui

simpanan deposito, kemudian dana tersebut disalurkan kembali sehingga bank

memperoleh pendapatan melalui bunga. (Nazir dan Hassanudin, 2004)

2.2 Knowledge discovery in database

Proses knowledge discovery in database (KDD) secara garis besar

dijelaskan sebagai berikut (Kusrini & Luthfi, 2009) :

1. Seleksi data

Sebelum tahap penggalian informasi dalam KDD dilakukan, perlu

dilakukan pemilihan atau seleksi data termaksud diantaranya seleksi atribut

dari sekumpulan data operasional. Data hasil seleksi digunakan untuk proses

data mining. Salah satu metode yang digunakan untuk seleksi data adalah

Information Gain. Berikut rumus untuk menghitung Information Gain:

Info(D) = -∑𝑖=1𝑚 pi Log2(pi) (2.1)

Keterangan :

D = Jumlah seluruh sampel data.

m = Jumlah nilai pada atribut target (jumlah kelas klasifikasi).

i = Maksimal nilai pada atribut target.


6

Pi = Jumlah sampel untuk kelas i

InfoA(D) = -∑𝑗=1𝑣

|𝐷𝑗|

𝐷 x Info(Di) (2.2)

Keterangan :

A = Atribut.

v = Suatu nilai yang mungkin untuk atribut A.

j = Maksimal nilai yang mungkin untuk atribut A.

|Dj| = Jumlah sampel untuk nilai j.

D = Jumlah seluruh sampel data.

Di = Jumlah sampel untuk kelas i.

Kemudian, nilai dari information gain digunakan untuk menghitung

efektifitas suatu atribut dalam pengklasifikasi data dengan rumus :

Gain (A) = |Info(D)-InfoA(D)| (2.3)

Keterangan :

A : Atribut.

Info(D) : entropi untuk kelas D.

InfoA(D) : entropi untuk kelas D pada atribut A.

2. Cleaning Data

Proses cleaning yaitu memeriksa data yang tidak konsisten, dan

memperbaiki kesalahan data (tipografi). Data yang tidak sesuai dapat

diperbaiki atau dihilangkan dan diisi prediksi nilainya. Namun, pada dataset

yang digunakan tidak dilakukan karena dataset yang digunakan tidak terdapat

kesalahan data dan kosisten.

3. Transformasi Data

Proses Transfromasi data merupakan proses untuk mengubah bentuk data ke

bentuk yang sesuai untuk digunakan. Diantaranya yaitu generalisasi untuk

mengganti data primitif atau data dengan level rendah menjadi data level


7

tinggi, normalisasi merupakan proses untuk mengskalakan nilai atribut pada

data sehingga memiliki kategori rentang tertentu, dan mengubah dari

kategorikal ke numerik. Metode tranformasi yang digunakan pada penelitian

ini adalah metode min-max yang berfungsi untuk normalisasi data.

Normalisasi min-max dapat dihitung dengan rumus berikut ini (Han, 2011):

Ndata =(𝑣−min)(𝑛𝑚𝑎𝑥−𝑛𝑚𝑖𝑛

𝑚𝑎𝑥−𝑚𝑖𝑛+nmin 2.4

Dimana:

Ndata : data hasil normalisasi min-max

v : data yang akan dinormalisasi

min : nilai minimun dari data

max : nilai maksimum dari data

nmin : skala minimum yang ditentukan

nmax : skala maksimum yang ditentukan

4. Data Mining

Tahap ini mengimplemetasikan algoritma penambangan data untuk

mencari informasi dalam data yang telah ada untuk memberi hasil yang

diinginkan.

5. Interpretasi/evaluasi

Pada tahap ini, hasil dari proses penambangan data dipresentasikan

kepada user untuk menjelaskan luaran sistem. Tahap ini juga termaksud

pengujian terhadap hasil yang ditemukan apakah sesuai fakta sebelumnya.

2.3 Data Mining

Data mining adalah proses yang digunakan untuk menguraikan informasi di

dalam database. Penambangan data bertujuan untuk menangani masalah

pengambilan informasi dari basis data yang besar dengan menggunakan teknik

statistik, machine learning, kecerdasan buatan (Turban, dkk. 2005).

Terdapat beberapa jenis algoritma penambangan data yakni (Larose, 2005):


8

1. Deskripsi

Teknik yang digunakan adalah menggambarkan pola dan kecenderungan

yang terdapat dalam data.

2. Klasifikasi

Klasifikasi merupakan proses mengklasifikasi data baru berdasarkan data

yang ada telah diklasifikasi sebelumnya. Hasil klasifikasi data yang ada

digunakan untuk memberikan sejumlah aturan dalam pengklasifikasian pada

data baru.

3. Estimasi

Estimasi digunakan untuk melakukan perkiraaan terhadap data baru yang

belum memiliki keputusan berdasarkan data yang telah ada.

4. Prediksi

Prediksi digunakan untuk memprediksi suatu kejadian di masa yang akan

datang.

5. Klastering

Klaster merupakan pengelompokan data ke kelompok-kelompok tertentu

yang memiliki kemiripan.

6. Asosiasi

Asosiasi adalah mencari hubungan atribut antar karakteristik tertentu

dalam satu waktu.

2.4 Klasifikasi Pada Data Mining

Klasifikasi adalah proses penemuan fungsi yang menggambarkan dan

membedakan kelas data atau konsep yang bertujuan untuk memprediksi kelas

suatu objek yang sudah didefinisikan sebelumnya (Han dan Kamber, 2006).

Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011) :

a. Kelas

Variabel terikat yang berupa kategorikal yang mempresentasikan label yang

terdapat pada objek.


9

b. Predictor

Variabel bebas yang direpresentasikan oleh karakteristik data.

c. Training dataset

Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan

untuk menentukan kelas yang cocok berdasarkan predictor

d. Testing dataset

Berisi data yang akan diklasifikasikan oleh model yang telah dibuat dan

akurasi klasifikasi dievaluasi.

2.5 Outlier

Outlier merupakan sehimpunan data yang memiliki sifat yang berbeda

dibandingkan dengan kebanyakan data lainnya. (Han & Kamber, 2006). Deteksi

outlier adalah suatu teknik untuk mencari obyek yang mempunyai perilaku yang

berbeda dari obyek-obyek lain.

2.6 K-fold Cross Validation

K-fold cross validation merupakan salah satu metode yang digunakan untuk

menilai atau memvalidasi keakuratan sebuah sistem. Dalam k-fold cross

validation data akan di partisi secara acak ke dalam k partisi (D1, D2,…, Dk),

masing-masing dari Di memiliki jumlah data yang sama).

Cara pembagian k-fold cross validation yaitu dengan cara menentukan terlebih

dahulu nilai K yang akan digunakan setelah itu membagi seluruh data sebanyak K

yang sudah ditentukan. Setelah itu, dilakukan kombinasi dengan aturan model

training 2/3 dari nilai K yang telah ditentukan dan sisanya menjadi model testing.

Misalkan dipilih K = 3 maka pembagian data dari 3-fold cross validation dapat

dilihat pada ilustrasi di bawah ini:


10

Gambar 2.1 Ilustrasi k-fold cross validation

Keterangan :

Train

Test

2.7 k-Nearest-Neighbor

Algoritma k-Nearest-Neighbor menggunakan perhitungan kemiripan data

baru (data testing) dengan data yang sudah memiliki label atau kelas (data

training) sebagai nilai prediksi dari sampel uji yang baru. Untuk perhitungan

kemiripan dilakukan dengan menghitung jarak antar tetangga. Jarak antar tetangga

pada algoritma k-nearest neighbor dihitung menggunakan eucledian distance.

Langkah-langkah untuk menghitung metode k-nearest neinghbor antara lain

(Muhammad, 2015):

1. Menentukan parameter k (jumlah tetangga paling dekat).

2. Menghitung kuadrat jarak eucledian (query distance) masing-masing objek

terhadap data sampel yang ditentukan.

3. Kemudian mengurutkan jarak eucledian dari terkecil sampai terbesar.

4. Mengumpulkan kategori Y (klasifikasi nearest neighbor)

5. Dengan menggunakan kategori nearest neighbor yang paling banyak, maka

dapat diprediksi kategori objek.

k adalah tetangga terdekat yang digunakan untuk melakukan klasifikasi data

yang baru. Untuk menentukan nilai k mempertimbangkan banyaknya data dan

ukuran dimensi yang berbentuk dari data tersebut. Jika semangkin banyak data,

sebaiknya menggunakan angka k yang semangkin kecil. Namun, jika dimensi data

D3

D1

D2

D2

D3

D1

D1

D2

D3


11

semangkin besar, sebaiknya menggunakan angka k yang tinggi (Advernesia,

2018).

Untuk menghitung jarak antar data menggunakan euclidean distance yang

dirumuskan:

d(x,y) =√∑ (𝑥𝑖 − 𝑦𝑖)²𝑛𝑖=1 (2.5)

Dimana :

xi = data uji atau data testing

yi = sampel data

I = variabel data

d(x,y) = dissimilarity/jarak

n = dimensi data

2.8 Evaluasi

Evaluasi bertujuan untuk menguji tingkat keberhasilan. Pengujian tingkat

keberhasilan suatu sistem merupakan hal penting untuk mengetahui seberapa baik

sistem dalam mengklasifikasi data. Confusion Matrix merupakan salah satu

metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi.

Pada pengukuran kinerja menggunakan Confusion Matrix, terdapat 4 istilah

sebagai representasi hasil proses klasifikasi, yaitu :

Tabel 2.1 Confusion Matrix

Positive Negative

Positive TP(True Positive ) FN(False Negative )

Negative FP(False Positive ) TN(True Negative )


12

Nilai akurasi dapat dihitung dengan persamaan:

Akurasi =𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁𝑋100% (2.6)

Dimana :

TP : Jumlah positive yang diklasifikasi sebagai positive

TN : Jumlah negative yang diklasifikasi sebagai negative

FP : Jumlah negative yang diklasifikasi sebagai positive

FN : Jumlah positive yang diklasifikasi sebagai negative


13

BAB III

METODOLOGI PENELITIAN

Penelitian ini bertujuan untuk mengklasifikasikan data nasabah yang berpotensi

menerima tawaran deposito menggunakan metode k-nearest neighbor. Gambar 3.1

merupakan alur dari tahapan penelitian dijabarkan dalam bentuk gambaran umum

seperti berikut :

Gambar 3.1 Gambaran Umum

3.1 Data

Data yang digunakan pada penelitian ini merupakan data publik yang

diperoleh dari situs UCI Repository Machine Learning pada data bagian

marketing sebuah bank dari Portugis yang diambil dari May 2008 sampai

November 2010 dengan jumlah data 4521 dengan atribut 16 dan satu kelas label.

Berikut adalah penjelasan dari masing-masing atribut:

Klasifikasi K-Nearest Neighbor

Data Seleksi Data

Modeling

Akurasi

Transformasi

Data Testing

Label Training

Data Training

Label Testing


14

Tabel 3.1 Atribut Data Nasabah

No Atribut Keterangan dan Nilai

1 Age Umur nasabah.

2 Job Jenis pekerjaan nasabah

(admin/bluecollar/entrepreneur/housemaid/management/retired/s

elf-employed/services/student/technician/unemployed/unknown).

3 Marital Status perkawinan (divorced/married/single).

4 Education Pendidikan nasabah (primary/secondary/tertiary/unknown).

5 Default Apakah mempunyai kredit gagal/macet? (yes/no).

6 Balance Pendapatan rata-rata pertahun

7 Housing Apakah mempunyai kredit pinjaman rumah? (yes/no).

8 Loan Apakah mempunyai pinjaman pribadi? (yes/no).

9 Contact Jenis komunikasi yang digunakan nasabah

(cellular/telephone/unknown).

10 Day Hari terakhir dihubunggi

11 Month Bulan terakhir menghubungi

nasabah.(jan/feb/mar/apr/may/jun/jul/aug/oct/sep/nov/dec)

12 Duration Durasi terakhir menghubungi nasabah dalam detik.

13 Campaign Berapa kali promosi yang sudah dilakukan pada nasabah ini?

14 Pdays Jumlah hari yang berlalu setelah nasabah terakhir dihubungi untuk

promosi sebelumnya.

15 Previous Jumlah berapa kali dihubungi sebelum melakukan promosi untuk

nasabah ini.

16 Poutcome Hasil dari penawaran marketing sebelumnya

(failure/other/success/unknown).

17 Y Apakah nasabah berlangganan deposito yang ditawarkan (yes/no).


15

Tabel 3.2 Contoh Data Nasabah

Age Job Marital Education Default Balance Housing Loan Contact Day Month Duration Campaign Pdays previous poutcame Y

46 blue-collar married secondary no 668 yes no unknown 15 may 1263 2 -1 0 unknown yes

40 blue-collar married secondary no 1100 yes no unknown 29 may 660 2 -1 0 unknown no

49 blue-collar married secondary no 322 no no cellular 14 aug 356 2 -1 0 unknown no

38 blue-collar married secondary no 1205 yes no cellular 20 apr 45 4 153 1 failure no

32 services single secondary no 473 yes no cellular 7 jul 624 5 -1 0 unknown no

33 services married secondary no -333 yes no cellular 30 jul 329 5 -1 0 unknown no

57

self-

employed married tertiary yes -3313 yes yes unknown 9 may 153 1 -1 0 unknown no

57 technician married secondary no 295 no no cellular 19 aug 151 11 -1 0 unknown no

28 blue-collar married secondary no 1137 no no cellular 6 feb 129 4 211 3 other no

44 entrepreneur single tertiary no 1136 yes yes cellular 3 apr 345 2 249 7 other no

46 blue-collar married secondary no 668 yes no unknown 15 may 1263 2 -1 0 unknown yes


16

3.2 Seleksi data

Seleksi data adalah proses memilih atribut yang relavan dan menghapus atribut

yang kurang berpengaruh dalam penelitian. Dalam menjalankan tahap ini penulis

menggunakan tools yang terdapat pada aplikasi Weka dengan versi 3.8.3 dengan

menerapkan metode Information Gain untuk melakukan perangkingan terhadap

atribut yang ada pada data.

Dalam proses seleksi, dilakukan dilakukan pengujian untuk mengetahui atribut

yang berpengaruh dan berapa persen atribut tersebut berpengaruh. Pengujian

dilakukan oleh aplikasi Weka. Berikut adalah hasil dari perangkingan atribut :

Tabel 3.3 Hasil Uji I Seleksi Atribut

Ranked No kolom Nama atribut

0.10811967 12 duration

0.03758116 16 poutcome

0.03553361 14 Pday

0.0299014 11 Month

0.01633501 9 Contact

0.01622639 15 Previous

0.00999086 2 Job

0.00971603 1 Age

0.00782731 7 Housing

0.00533738 6 Balance

0.0041129 8 Loan

0.00304631 13 Campaign

0.00297254 3 Marital

0.00236554 4 Education

0.00000121 5 Default

0 10 Day


17

Seleksi atribut di atas pada tabel 3.3 menghasilkan atribut yang dominan yang

diurutkan berdasarkan rangking.

3.3 Transformasi data

Setelah melakukan seleksi data, tahap selanjutnya dilakukan transformasi pada

atribut yang memiliki rentang nilai yang terlalu jauh dengan atibut numerik

diskalakan dalam range yang lebih kecil di sini peneliti menggunakan 0 sampai 1

dimana atribut tersebut adalah age, balance,duration, dan pday. Kemudian

menggubah data dari kategorikal ke numerik pada atribut job, marital, education,

default, housing, loan, contact, dan month. Berikut adalah hasil transformasi data :

1. Transformasi pada atribut age :

Transformasi dilakukan menggunakan rumus min-max dengan rentang min

0 dan max 1. Maka langkah-langkah normalisasi min-max adalah sebagai

berikut:

a. Langkah pertama yaitu menentukan skala maksimum (nmax) dan

minimum (nmin) baru yaitu nmax =1 dan nmin = 0.

b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom age

Tabel 3.4 Data Atribut Age

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Age 30 49 68 37 59 20 26 32 32 33 53 58

Berdasarkan tabel 3.4 di atas, maka diperoleh min = 20 dan max = 68.

c. Mengitung normalisasi masing-masing data pada atribut age dengan

Rumus 2.4. berikut hasil perhitungan untuk tiap data :

Data ke – 1 = 30

N1 = (30−20)∗(1−0)

68−20+ 0

N1 = 0,208


18

Data ke – 2 = 49

N2 = (49−20)∗(1−0)

68−20+ 0

N2 = 0,604

Data ke – 3 = 68

N3 = (68−20)∗(1−0)

68−20+ 0

N3 = 1

Data ke – 4 = 37

N4 = (37−20)∗(1−0)

68−20+ 0

N4 = 0,354

Data ke – 5 = 59

N5 = (59−20)∗(1−0)

68−20+ 0

N5 = 0,812

Data ke – 6 = 20

N6 = (20−20)∗(1−0)

68−20+ 0

N6 = 0

Data ke – 7 = 26

N7 = (26−20)∗(1−0)

68−20+ 0

N7 = 0,125

Data ke – 8 = 32

N8 = (32−20)∗(1−0)

68−20+ 0

N8 = 0,25

Data ke – 9 = 32

N9 = (32−20)∗(1−0)

68−20+ 0

N9 = 0,25

Data ke – 10 = 33


19

N10 = (33−20)∗(1−0)

68−20+ 0

N10 = 0,27

Data ke – 11 = 53

N11 = (53−20)∗(1−0)

68−20+ 0

N11 = 0,68

Data ke – 12 = 58

N12 = (58−20)∗(1−0)

68−20+ 0

N12 = 0,791

Berikut adalah hasil dari normalisasi :

Tabel 3.5 Data Hasil Normalisasi Atribut Age

2. Transformasi pada atribut job

Terdapat 12 class label pada atribut job, yaitu:

o Admin : 1

o Blue-collar : 2

o Entrepreneur : 3

o Housemaid : 4

o Management : 5

o Retired : 6

o Self-Employed : 7

o Services : 8

o Student : 9

o Techinician : 10

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Age 0,208 0,604 1 0,354 0,812 0 0,125 0,25 0,25 0,27 0,687 0,781


20

o Unemployed : 11

o Unknown : 12

3. Transformasi pada atribut marital.

Terdapat 3 class label yaitu:

o Divorce : 1

o Married : 2

o Single : 3

4. Transformasi pada atribut education

Terdapat 4 class label yaitu:

o Primary : 1

o Secondary : 2

o Tertiary : 3

o Unknown : 4

5. Transformasi pada atribut default

Terdapat 2 class label yaitu

o Yes : 1

o No : 2

6. Transformasi pada atribut balance

Transformasi dilakukan menggunakan rumus min-max dengan rentang

min 0 dan max 1. Maka langkah-langkah normalisasi min-max adalah

sebagai berikut :



b. Kemudian, cari nilai minimun dan maksimum dari data pada kolom

balance


21

Tabel 3.6 Data Atribut Balance


c. Mengitung normalisasi masing-masing data pada atribut balance

dengan Rumus 2.4. berikut hasil perhitungan untuk tiap data :

Data ke – 1 = 1787

N1 = (1787−0)∗(1−0)

4189−0+ 0

N1 = 0,426

Data ke – 2 = 1235

N2 = (1235−0)∗(1−0)

4189−0+ 0

N2 = 0,294

Data ke – 3 = 4189

N3 = (4189−0)∗(1−0)

4189−0+ 0

N3 = 1

Data ke – 4 = 2317

N4 = (4189−0)∗(1−0)

4189−0+ 0

N4 = 0,553

Data ke – 5 = 0

N5 = (0−0)∗(1−0)

4189−0+ 0

N5 = 0

Data ke – 6 = 502

N6 = (502−0)∗(1−0)

4189−0+ 0

N6 = 0,119

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Balance 1787 1235 4189 2317 0 502 543 2536 2089 3935 2231 3401


22

Data ke – 7 = 543

N7 = (543−0)∗(1−0)

4189−0+ 0

N7 = 0,129

Data ke – 8 = 2536

N8 = (2536−0)∗(1−0)

4189−0+ 0

N8 = 0,605

Data ke – 9 = 2089

N9 = (2089−0)∗(1−0)

4189−0+ 0

N9 = 0,498

Data ke – 10 = 3935

N10 = (3935−0)∗(1−0)

4189−0+ 0

N10 = 0,939

Data ke – 11 = 2231

N11 = (2231−0)∗(1−0)

4189−0+ 0

N11 = 0,532

Data ke – 12 = 3401

N12 = (3401−0)∗(1−0)

4189−0+ 0

N12 = 0,811


Tabel 3.7 Data Hasil Normalisasi Atribut Balance

7. Transformasi pada atribut housing

Terdapat 2 class label, yaitu:

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Balance 0,426 0,294 1 0,553 0 0,119 0,129 0,605 0,498 0,939 0,532 0,811


23

o Yes : 1

o No : 2

8. Tranformasi pada atribut loan


o Yes : 1

o No : 2

9. Transformasi pada atribut contact


o Cellular : 1

o Telephone : 2

o Unknown : 3

10. Tranformasi pada atribut month


o Jan : 1

o Feb : 2

o Mar : 3

o Apr : 4

o May : 5

o Jun : 6

o Jul : 7

o Aug : 8

o Oct : 9

o Sep : 10

o Nov : 11

o Dec : 12


24

11. Tranformasi pada atribut duration

Transformasi dilakukan menggunakan rumus min-max dengan rentang

min 0 dan max 1. Maka langkah-langkah normalisasi min-max adalah

sebagai berikut :




duration

Tabel 3.8 Data Atribut Duration


c. Mengitung normalisasi masing-masing data pada atribut duration

dengan Rumus 2.4. berikut hasil perhitungan untuk tiap data :

Data ke – 1 = 79

N1 = (79−79)∗(1−0)

958−79+ 0

N1 = 0

Data ke – 2 = 354

N2 = (354−79)∗(1−0)

958−79+ 0

N2 = 0,312

Data ke – 3 = 897

N3 = (897−79)∗(1−0)

958−79+ 0

N3 = 0,93

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Duration 79 354 897 114 226 261 169 958 132 765 272 84


25

Data ke – 4 = 114

N6 = 0,207

Data ke – 7 =169

N7 = (169−79)∗(1−0)

958−79+ 0

N7 = 0,102

Data ke – 8 = 958

N8 = (958−79)∗(1−0)

958−79+ 0

N8 = 1

Data ke – 9 = 132

N9 = (132−79)∗(1−0)

958−79+ 0

N9 = 0,06

Data ke – 10 = 765

N10 = (765−79)∗(1−0)

958−79+ 0

N10 = 0,78

Data ke – 11 = 272

N11 = (272−79)∗(1−0)

958−79+ 0

N11 = 0,219

Data ke – 12 = 84

N12 = (84−79)∗(1−0)

958−79+ 0

N12 = 0,005


Tabel 3.9 Data Hasil Normalisasi Atribut Duration

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Duration 0 0,312 0,93 0,039 0,167 0,207 0,102 1 0,06 0,78 0,219 0,005


26

12. Transformasi pada atribut pday :

Transformasi dilakukan menggunakan rumus min-max dengan

rentang min 0 dan max 1. Maka langkah-langkah normalisasi min-max

adalah sebagai berikut :




pday

Tabel 3.10 Data Atribut Pday

Berdasarkan tabel 3.10 di atas, maka diperoleh min = -1 dan max = 342

c. Mengitung normalisasi masing-masing data pada atribut pday dengan

Rumus 2.4. berikut hasil perhitungan untuk tiap data :

Data ke – 1 = -1

N1 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N1 = 0

Data ke – 2 = -1

N2 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N2 = 0

Data ke – 3 = -1

N3 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N3 = 0

Data ke – 4 = 152

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Pday -1 -1 -1 152 -1 -1 -1 -1 -1 342 -1 265


27

N4 = (152−(−1))∗(1−0)

342−(−1)+ 0

N4 = 0,446

Data ke – 5 = -1

N5 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N5 = 0

Data ke – 6 = -1

N6 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N6 = 0

Data ke – 7 = -1

N7 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N7 = 0

Data ke – 8 = -1

N8 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N8 = 0

Data ke – 9 = -1

N9 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N9 = 0,

Data ke – 10 = 342

N10 =(342−(−1))∗(1−0)

342−(−1)+ 0

N10 = 1

Data ke – 11 = -1

N11 = ((−1)−(−1))∗(1−0)

342−(−1)+ 0

N11 = 0

Data ke – 12 = 265

N12 = (265−(−1))∗(1−0)

342−(−1)+ 0


28

N12 = 0,775


Tabel 3.11 Data Hasil Normalisasi Atribut Pday

13. Tranformasi pada atribut Poutcome


o Failure : 1

o Other : 2

o Succes : 3

o Unknown : 4

Atribut Data

1 2 3 4 5 6 7 8 9 10 11 12

Pday 0 0 0 0,446 0 0 0 0 0 1 0 0,775


29

Tabel 3.12 Data Nasabah Hasil Normalisasi

Age Jo

b

Mar

ital

Educa

tion

Def

ault

Bal

ance

Housi

ng

Loan

Conta

ct

Day

Month

Dura

tion

Cam

pai

gn

Pday

s

Pre

vio

us

PO

utc

ame

Y

0.510638 2 2 1 2 0.141066 1 2 3 5 5 0.22549 1 0 0 4 2

0.765957 6 2 4 2 0.157704 2 2 2 17 8 0.086057 1 1 2 1 2

0.531915 7 2 2 2 0.178925 2 1 1 30 7 0.118736 2 0 0 4 2

0.468085 1 2 2 2 0.015192 2 1 1 21 8 0.037037 2 0 0 4 2

0.787234 6 1 2 2 1 2 2 2 14 7 0.933551 2 0 0 4 1

0 10 2 2 2 0.031107 2 2 1 27 8 0.044662 3 0 0 4 2

0.595745 5 2 2 2 0 2 2 1 21 11 0 1 0 0 4 2

0.021277 5 3 3 2 0.601399 1 2 1 26 8 1 6 0 0 4 1

0.382979 10 2 3 2 0.287678 2 2 1 13 8 0.342048 3 0 0 4 1

0.234043 1 1 2 2 0.426573 1 2 3 14 5 0.119826 1 0 0 4 2

1 6 1 1 2 0.045093 2 2 2 22 10 0.062092 1 0 0 4 1

0.021277 2 2 2 2 0.49361 1 2 1 14 11 0.100218 1 0 0 4 1


30

3.4 Klasifikasi K-Nearest Neighbor

Algoritma yang digunakan pada proses klasifikasi data nasabah yang

berpotensi menerima tawaran deposito adalah k-nearest neighbor yang secara

umum dijelaskan flowchart berikut:

Gambar 3.2 Flowchart Proses K-Nearest Neighbor

start

Input

nilai k

Perhitung

euclidean distance

Pengambil k

tetangga terdekat

Penentuan label

mayoritas

sebagai kelas

end

Pengurutan euclidean

distancese secara ascending


31

Sebagain ilustrai bagaimana klasifikasi menggunakan k-nearest neighbor,

diambil contoh klasifikasi menggunakan k = 1, 3, 5, 7 pada Tabel 3.12. Pembagian

data klasifikasi yakni data 5-12 menjadi data training dan data 1-4 menjadi data test,

berikut adalah langkah-langkah klasifikasi k-nearest neighbor:

1. Mengitung jarak menggunakan euclidean distance dengan rumus 2.5 untuk

setiap data train terhadap data test yang diberikan. Pada Tabel 3.12 berikut

merupakan rincian dalam perhitungan jarak pada data train 1 dan data test 8:

Tabel 3.13 Data Training 1 dan data test 8

Atribut Data 1 Data 8

Age 0.510638

0.021277

Job 2

5

Marital 2

3

Education 1

3

Default 2

2

Balance 0.141066

0.601399

Housing 1

1

Loan 2

2

Contact 3

1

Day 5

26

Month 5

8

Duration 0.22549

1

Campaign 1

6

Pdays 0

0

Previous 0

0

POutcame 4

4


32

Maka dihitung euclidean distance data train 1 terhadap data test 8 menggunakan data

pada Tabel 3.4, berikut adalah perhitungannya:

di=

√(0.021277 − 0.510638)2 + (5 − 2)2 + (3 − 2)2 + (3 − 1)2 + (2 − 2)2 + (0.601399 − 0.141066)2 + (1 − 1)2 + (2 − 2)2 + (1 − 3)2 +

√(26 − 5)2 + (8 − 5)2 + (1 − 0.22549)2 + (6 − 1)2 + (0 − 0)2 + (0 − 0)2 + (4 − 4)2

Maka diperoleh euclidean distance yaitu 22.22726. Perhitungan yang sama untuk data

train selanjutnya. Berikut adalah hasil perhitungan euclidean distance untuk setiap

data train terhadap data test:

Tabel 3.14 Hasil Perhitungan Euclidean Distance

Data Train Data Test

5 6 7 8

1 10.35933 23.81818 17.52364 22.22726

2 5.606083 11.81543 6.712768 11.25108

3 16.16797 4.616305 10.15136 6.497373

4 8.937306 10.91876 5.197875 7.903833

9 4.797989 14.04639 10.16096 14.34093

10 5.770354 16.40783 10.35988 14.27762

11 8.758799 7.280144 2.48381 7.625421

12 6.126791 15.72315 7.719048 13.77756

Setelah mendapat hasil dari Euclidean Distance, maka akan dilakukan

pengurutan dari nilai yang terkecil sampai ke terbesar. Jarak terkecil merupakan

tetangga terdekat ke data test. Berikut adalah hasil pengurutan euclidean distance

untuk setiap data test:


33

Tabel 3.15 Pengurutan Euclidean Distance terhadap data test 5

Jarak Data Train Label Train

4.797989 9 Yes

5.606083 2 No

5.770354 10 No

6.126791 12 Yes

8.758799 11 Yes

8.937306 4 No

10.35933 1 No

16.16797 3 No



4.616305 3 No

7.280144 11 Yes

10.91876 4 No

11.81543 2 No

14.04639 9 Yes

15.72315 12 Yes

16.40783 10 No

23.81818 1 No


34



2.48381 11 Yes

5.197875 4 No

6.712768 2 No

7.719048 12 Yes

10.15136 3 No

10.16096 9 Yes

10.35988 10 No

17.52364 1 No



6.497373 3 No

7.625421 11 Yes

7.903833 4 No

11.25108 2 No

13.77756 12 Yes

14.27762 10 No

14.34093 9 Yes

22.22726 1 No

Setelah pengurutan, maka dicari hasil klasifikasi menggunakan k-nearest neighbor.

Untuk hasil klasifikasi diperoleh dari k tetangga terdekat atau nilai jarak yang terkecil

kemudian diperoleh dari label yang sering muncul. Maka diperoleh hasil klasifikasi

k-nearest neighbor dengan k yang digunakan adalah 1 3 5 7, sebagai berikut:


35

Tabel 3.19 Hasil Klasifikasi K-Nearest Neighbor

No

Label

Sebenarnya

Hasil Klasifikasi k-NN

k=1 k=3 k=5 k=7

5 Yes Yes No Yes No

6 No No No No No

7 No Yes No No No

8 Yes No No No No

3.5 Uji Akurasi menggunakan Confusion Matrix

Proses menghitung hasil klasifikasi dengan menggunakan confusion matrix.

Misal menggunakan hasil klasifikasi k-nn dengan nilai k = 5 pada Tabel 3.19,

maka diperoleh hasil confusion matrix sebagai berikut:

Tabel 3.20 Confusion Matrix k=5

Berdasarkan rumus 2.6 diperoleh akurasi k=5 adalah:

Akurasi = 1+2

1+1+0+2𝑥100% = 75%

Dengan langkah yang sama diperoleh akurasi untuk k-nearest neighbor

dengan k =1 3 4 5 7 seperti tabel di bawah ini:

Confusion

Matrix yes no akurasi

yes 1 1 75%

no 0 2


36

Tabel 3.21 Akurasi varian k

k Akurasi

1 50%

3 50%

5 75%

7 50%

Berdasarkan hasil akurasi pada tabel 3.21 di atas, maka diperoleh k yang

memiliki akurasi optimal adalah k=5

3.6 3-fold Cross Validation

Pada sistem ini menggunakan metode 3-fold cross validation yang

mana data dibagi menjadi 3 set data dan bergantian menjadi subset testing

dan subset training. 1/3 data testing dan 2/3 data training di setiap model.

Berikut ada skenario 3-fold yang akan digunakan sistem ini:

Model 1 Model 2

Data ke : 1-1507

Data ke : 1508-3014

Data ke :3015-4521

Model 3

Data ke : 1-1507

Data ke : 1508-3014

Data ke :3015-4521

Keterangan :

Data Test

Data Train

Gambar 3.3 Skenario 3-fold Cross Validation

Data ke : 1-1507

Data ke : 1508-3014

Data ke :3015-4521


37

3.7 Kebutuhan Sistem

Alat yang digunakan untuk perancangan sistem :

1. Perangkat keras :

1.1 komputer :

Processor : Intel Core i5- 7200U CPU @3.1GHz

Memory : 4 GB DDR4

Hard Drive : 1000 GB HDD

2. Perangkat lunak

2.1 Microsoft Windows 2010

2.2 Matlab 2018b

3.8 Perancangan Antar Muka Sistem

Gambar 3.4 Tampilan Menu Utama


38

Gambar 3.4 merupakan tampilan antar muka sistem 3 proses yang

pertama adalah tabel untuk data excel dan proses transformasi, klasifikasi,

dan uji data tunggal.

Pada halaman menu utama proses pertama adalah pada button muat

untuk mengupload data mentah excel berformat.xlsx. atau .xls . Kemudian

pada button transformasi akan melakukan proses transformasi data. Pada

button simpan user dapat menyimpan data yang terdapat pada table ke bentuk

xlsx. Selanjutnya proses k-nearest neighbor pada listbox atribut, user dapat

memilih atribut yang akan digunakan untuk proses klasifikasi kemudian user

dapat menginputkan nilai k, setelah itu user dapat melakukan proses

klasifikasi pada button proses. Hasil klasifikasi akan tampil pada listbox hasil.

Uji data tunggal, digunakan untuk menginput data baru yang akan di

klasifikasi. User dapat menginputkan data sesuai atribut yang digunakan.

Tahap ini akan melakukan proses transformasi kemudian mengklasifikasi

data baru tersebut sehingga menghasilkan label berupa Yes atau No.


39

BAB IV

HASIL DAN ANALISA

Pada bab ini berisi implementasi perangkat lunak yang dibuat serta hasil sistem yang

diperoleh dari proses pengolahan data dan juga pengujian yang dilakukan sesuai

dengan gambaran umum yang telah dijelaskan pada bab sebelumnya.

4.1 Selekasi Data

Pada tahap seleksi atribut ini penulis mencoba menghitung

information gain sebelum melakukan reduksi pada atribut, penulis terlebih

dahulu mengurutkan atribut berdasarkan information gain yang dapat dilihat

pada tabel 4.1:

Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain

Ranked No Kolom Atribut

0.10811967 12 Duration

0.03758116 16 Poutcome

0.03553361 14 Pday

0.0299014 11 Month

0.01633501 9 Contact

0.01622639 15 Previous

0.00999086 2 Job

0.00971603 1 Age

0.00782731 7 Housing

0.00533738 6 Balance

0.0041129 8 Loan

0.00304631 13 Campaign

0.00297254 3 Marital

0.00236554 4 Education

0.00000121 5 Default

0 10 Day

Setelah melakukan perangkingan, menggunakan aplikasi Weka

dilakukan klasifikasi dengan menggunakan algoritma K-Nearest Neighbor


40

dengan data yang sudah ditransformasi dengan melakukan beberapa

percobaan yang dapat dilihat pada tabel 4.2.

Tabel 4.2 Percobaan Seleksi Data

Uji Atribut Jumlah K Akurasi (100%)

1 Duration 1 82.4375

3 86.1535

5 87.5470

7 88.1000

9 88.2769

11 88.1221

13 88.2327

15 88.3212

17 88.5202

19 88.6972

21 88.6751

23 88.6530

25 88.6087

27 88.5424

29 88.5866

31 88.6972

33 88.6087

2 Duration, Poutcome 1 83.4771

3 88.1663

5 88.6530

7 89.2944

9 89.3829

11 89.4492

13 89.3829

15 89.5598

17 89.5156

19 89.4050

21 89.6704

23 89.5377

25 89.6041

27 89.6262

29 89.5820

31 89.5820

33 89.5820


41

3 Duration, Poutcome, Pday 1 84.3397

3 88.4981

5 88.4096

7 89.0953

9 89.2059

11 89.0290

13 89.0953

15 89.1617

17 89.2944

19 89.4050

21 89.5156

23 89.5598

25 89.4935

27 89.4050

29 89.4492

31 89.4714

33 89.4714

4 Duration, Poutcome, Pday,

Month

1 86.1535

3 88.0779

5 89.0732

7 89.0732

9 89.0511

11 89.1617

13 89.2944

15 89.2944

17 89.2502

19 89.2502

21 89.2280

23 89.2502

25 89.2502

27 89.1617

29 89.2723

31 89.2502

33 89.1838


42


Month, Contact

1 86.6622

3 88.3212

5 89.1838

7 89.4050

9 89.6262

11 89.6483

13 89.4492

15 89.3608

17 89.3165

19 89.4271

21 89.3608

23 89.3608

25 89.4050

27 89.2502

29 89.3165

31 89.2944

33 89.2502


Month, Contact, Previous,

1 85.8660

3 88.0115

5 88.8520

7 89.2723

9 89.1617

11 89.2280

13 89.1175

15 89.1175

17 88.9184

19 88.9626

21 88.9847

23 89.0732

25 89.2059

27 89.0511

29 89.0069

31 89.0290

33 89.0511


43


Month, Contact, Previous, Job

1 86.1535

3 88.0779

5 88.3433

7 88.4096

9 88.4760

11 88.3875

13 88.4539

15 88.4096

17 88.5202

19 88.4539

21 88.4760

23 88.4096

25 88.3433

27 88.3433

29 88.3654

31 88.3433

33 88.3433


Month, Contact, Previous, Job,

Age

1 86.1314

3 87.5249

5 88.1663

7 88.1442

9 88.2990

11 88.1885

13 88.2990

15 88.3212

17 88.4318

19 88.3433

21 88.3875

23 88.4760

25 88.3433

27 88.3433

29 88.3654

31 88.3654

33 88.3654


44



Age, Housing

1 86.2199

3 87.9009

5 88.2990

7 88.1442

9 88.1442

11 88.2548

13 88.3212

15 88.2990

17 88.2106

19 88.2769

21 88.2769

23 88.2769

25 88.2769

27 88.2769

29 88.2769

31 88.3654

33 88.3654



Age, Housing, Balance

1 86.2641

3 87.8567

5 88.2327

7 88.1442

9 88.2327

11 88.2327

13 88.2990

15 88.2769

17 88.2548

19 88.2548

21 88.2769

23 88.2769

25 88.2769

27 88.2548

29 88.2548

31 88.3654

33 88.3654


45



Age, Housing, Balance, Loan

1 86.1535

3 87.6797

5 88.2548

7 88.1663

9 88.1885

11 88.1663

13 88.2327

15 88.2548

17 88.1663

19 88.2548

21 88.2990

23 88.2769

25 88.2990

27 88.2769

29 88.2548

31 88.3433

33 88.3654



Age, Housing, Balance, Loan,

Campaign

1 85.5563

3 87.6355

5 87.7682

7 87.9230

9 87.9894

11 88.0557

13 88.1000

15 88.2990

17 88.2548

19 88.2769

21 88.3212

23 88.2548

25 88.2990

27 88.3212

29 88.3654

31 88.4318

33 88.4318


46




Campaign, Marital

1 85.4899

3 87.5249

5 87.7461

7 87.9894

9 88.0336

11 87.9894

13 88.1221

15 88.2106

17 88.1885

19 88.2990

21 88.2548

23 88.2548

25 88.3212

27 88.2990

29 88.3875

31 88.4096

33 88.4096




Campaign, Marital, Education

1 84.4282

3 87.4585

5 87.7240

7 88.0557

9 87.9894

11 88.2106

13 88.4096

15 88.3212

17 88.3433

19 88.2327

21 88.3212

23 88.3212

25 88.3433

27 88.3654

29 88.3433

31 88.3875

33 88.3433


47




Campaign, Marital, Education,

Default

1 84.4282

3 87.5028

5 87.7682

7 88.1000

9 87.9894

11 88.2106

13 88.4096

15 88.3212

17 88.3433

19 88.2327

21 88.3212

23 88.3212

25 88.3433

27 88.3654

29 88.3433

31 88.3875

33 88.3433





Default, Day

1 84.3619

3 87.3701

5 87.6355

7 88.0557

9 88.0336

11 88.3875

13 88.5645

15 88.4760

17 88.4981

19 88.4981

21 88.5202

23 88.4981

25 88.5645

27 88.5424

29 88.5645

31 88.5645

33 88.5202

Hasil pemilihan atribut yang dilakukan klasifikasi dengan

menggunakan metode k-Nearest Neighbor dengan data yang sudah di

eliminasi data outlier menghasilkan jumlah data 2790, melakukan beberapa

percobaan dapat dilihat pada tabel 4.3:


48

Tabel 4.3 Percobaan Seleksi Data

Uji Atribut Jumlah K Akurasi (100%)

1 Duration 1 86.3441

3 92.1505

5 93.0108

7 93.3333

9 93.6559

11 93.8710

13 93.8710

15 93.9427

17 94.0502

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860

2 Duration, Poutcome 1 86.3082

3 92.1505

5 93.0108

7 93.3333

9 93.6559

11 93.8710

13 93.8710

15 93.9427

17 94.0502

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


49

3 Duration, Poutcome, Pday 1 86.3082

3 92.1505

5 93.0108

7 93.3333

9 93.6559

11 93.8710

13 93.8710

15 93.9427

17 94.0502

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


Month

1 90.5735

3 92.9749

5 93.5125

7 93.7276

9 93.7993

11 93.8351

13 93.8710

15 94.1577

17 94.0860

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


50


Month, Contact

1 91.2186

3 93.4409

5 93.7993

7 93.9427

9 94.1935

11 94.1219

13 94.0860

15 94.1935

17 94.1935

19 94.1577

21 94.1219

23 94.1219

25 94.1219

27 94.0502

29 94.0502

31 94.0860

33 94.0860


Month, Contact, Previous,

1 91.2186

3 93.4409

5 93.7993

7 93.9427

9 94.1935

11 94.1219

13 94.0860

15 94.1935

17 94.1935

19 94.1577

21 94.1219

23 94.1219

25 94.1219

27 94.0502

29 94.0502

31 94.1935

33 94.0860


51


Month, Contact, Previous, Job

1 90.7527

3 93.1541

5 94.0143

7 94.0502

9 94.0860

11 94.0860

13 94.0502

15 94.1219

17 94.0860

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860



Age

1 91.1828

3 93.1541

5 93.8351

7 94.0502

9 94.0860

11 94.0860

13 94.0502

15 94.0502

17 94.0502

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


52



Age, Housing

1 92.2581

3 93.4050

5 93.5842

7 94.0502

9 93.9068

11 94.0860

13 94.0502

15 94.0502

17 94.0143

19 94.0143

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860



Age, Housing, Balance

1 92.4014

3 93.4767

5 93.6918

7 93.9427

9 93.9427

11 93.9785

13 94.0502

15 94.0502

17 94.0143

19 94.0502

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


53



Age, Housing, Balance, Loan

1 92.3656

3 93.4767

5 93.5125

7 94.0143

9 94.0143

11 94.0143

13 94.0143

15 94.0143

17 94.0143

19 94.0502

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860




Campaign

1 91.1470

3 93.5484

5 94.0143

7 93.9427

9 94.0143

11 94.0143

13 94.0502

15 94.0860

17 94.0502

19 94.0860

21 94.0502

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


54




Campaign, Marital

1 91.4337

3 93.5842

5 94.0502

7 93.9785

9 94.0143

11 94.0143

13 94.0502

15 94.0502

17 94.0502

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860




Campaign, Marital, Education

1 91.6487

3 93.6559

5 93.9427

7 93.9427

9 94.0502

11 94.0860

13 94.0860

15 94.0860

17 94.0860

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860


55





Default

1 91.7921

3 93.6559

5 93.9427

7 93.9068

9 94.0502

11 94.0860

13 94.0860

15 94.0860

17 94.0860

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860





Default, Day

1 94.1935

3 93.5125

5 93.6918

7 93.7634

9 93.9785

11 94.0860

13 94.0860

15 94.0860

17 94.0860

19 94.0860

21 94.0860

23 94.0860

25 94.0860

27 94.0860

29 94.0860

31 94.0860

33 94.0860

Dari tabel 4.3 di atas, hasil percobaan seleksi atribut terdapat

peningkatan akurasi. Akurasi optimal yang pada percobaan ke 5 pada k=9

dengan atribut adalah Duration, Poutcome, Pday, Month, dan Contact yang

menghasilkan akurasi optimal yaitu 94,1935%.


56

Pada tabel 4.2 peneliti melakukan percobaan menggunakan data yang

belum diidentifikasi outlier, hasil percobaan yang dilakukan dengan menguji

satu persatu atribut untuk mendapatkan akurasi optimal menggunakan

algoritma k-Nearest Neighor yaitu pada percobaan k 5 pada k=11 dengan

atribut Duration, Poutcome, Pday, Month, dan Contact menghasilkan akurasi

optimal yaitu 89.6483%. Diketahui pula bahwa jumlah atribut dan hasil

perangkingan atribut untuk proses klasifikasi sangat berpengaruh terhadap

hasil klasifikasi dan akurasi sistem.

Pengujian terdahulu dilakukan oleh (Febianto,2019) “Klasifikasi Data

Nasabah yang Berpotensi Membuka Simpanan Deposito Menggunakan

Algoritma Backpropagation”. Dengan jumlah data 41188 dengan 20 atribut

dan 1 kelas label melakukan klasifikasi menghasilkan akurasi optimal

80,2109%. Peneliti juga melakukan klasifikasi dengan kasus yang sama tetapi

jumlah data dan atribut yang berbeda dengan algoritma k-Nearest Neighbor

menghasilkan akurasi optimal yaitu 94,1935%. Sehingga terdapat

peningkatan akurasi dengan menggunakan algoritma k-Nearest Neighbor

untuk mengklasifikasi data nasabah yang berpotensi membuka simpanan

deposito.

5 atribut dengan akurasi optimal yang akan digunakan dan telah

diseleksi sebagai berikut:


57

Tabel 4.4 Hasil Seleksi Data

No Atribut

1 Duration

2 POutcome

3 Pday

4 Month

5 Contact

4.2 Klasifikasi K-Nearest Neighbor

Pada tahap ini dilakukan klasifikasi menggunakan k-nearest neigbor

dengan menggunakan 3-fold cross validation yakni data training sejumlah

1860 data dari data keseluruhan dan 930 data testing dari data keseluruhan

pada data yang telah ditransformasi. Data yang digunakan pada proses

klasifikasi ini sebanyak 2790 dengan 5 atribut dari data asli 4521

menggunakan k = 9 dengan akurasi 94,1935%. Berikut hasil confusion matrix

untuk 3-fold cross validation :

Tabel 4.5 Confusion Matrix 1

Luaran Yes No

Yes 9 10

No 46 865

Akurasi =9+865

9+10+46+865𝑥100% =93,9785%


58


Luaran Yes No

Yes 4 2

No 51 873

Akurasi =4+873

4+2+51+873𝑥100% =94,3011%


Luaran Yes No

Yes 9 7

No 46 868

Akurasi =9+7

9+7+46+868𝑥100% =94,3011%

Akurasi total =93,9785+94,3011+94,3011

3𝑥100% =94.1935%

4.3 Uji Data Tunggal

Pada tahap ini digunakan untuk melakukan proses pengujian terhadap

suatu data. Data baru dari data nasabah yang tidak digunakan dalam

klasifikasi, data yang akan diuji diinputkan akan menghasilkan luaran berupa

kelas dengan hasil prediksi yaitu yes atau no. Hasil uji data tunggal

menggunakan 5 ciri yang yang memiliki hasil optimal, sebagaimana dapat

dilihat pada gambar berikut:


59

Gambar 4.1 Uji Data Tunggal


60



61



62



63



64



65


Gambar di atas merupakan hasil pengujian data. Data yang digunakan untuk

menguji sistem tersebut menggunakan data asli yaitu 21 data yang tidak digunakan

pada proses klasfikasi, pada hasil pengujian di atas menghasilkan keluaran yang

sesuai dengan data asli yang diujikan.


66

BAB V

KESIMPULAN

5.1 Kesimpulan

Dari hasil penelitian klasifikasi nasabah yang berpotensi menerima

tawaran deposito menggunakan K-Nearest Neighbor dapat disimpulkan

sebagai berikut:

1. Proses klasifikasi untuk mengklasifikasi nasabah yang berpotensi

menerima tawaran deposito dapat diimplementasikan dengan baik

menggunakan K-Nearest Neighbor.

2. Pengujian yang dilakukan pada 2790 data menghasilkan akurasi

terbaik pada k 9 dengan jumlah atribut adalah 5, dengan atribut dipilih

duration, poutcome, pday, month, dan contact. Hal ini juga sesuai

dengan pemeringkatan atribut menggunakan Weka.

3. Akurasi optimal pada percobaan klasifikasi menggunakan metode k-

nearest neighbor sebesar 94,1935%.

5.2 Saran

Saran yang dapat diberikan untuk peneliitian ini:

1. Sistem ini dapat dikembangkan dengan metode yang lain

2. Pemilihan atribut dapat dilakukan dengan metode lain


67

DAFTAR PUSTAKA

Dendawijaya, Lukman. 2003. Manajemen Perbankan.Jakarta: Ghalua Indonesia.

Febianto, Kevin. 2019. Klasifikasi Nasabah yang Berpotensi Membuka Simpanan

Deposito menggunakan Algoritma Backpropagation.

Gorunescu, F .2011. Data Mining. Concept Model and Techiques. Berlin:

Springer.ISBN 978-3-642-19720-8

Han and Kamber.2006. Data Mining: Concept and Techniques Second Edition,

Morgan Kaufmann Publishers

Kasmir.2012. Analisis Laporan Keuangan .Jakarta. PT. Raja Grafindo.

Kusrini dan Luthfi, E.T. (2009).Algoritme Data Mining. Yogyakarta: ANDI.

Larose, D.T. 2005. Discovering Knowledge In Data. United States Of America: John

Wiley & Sons,Inc.

Muhammad.2015. Manajemen Pemasaran Jasa. Bandung : Alfabeta.

Mustakim, Oktaviani (F).2016. Algoritma K-Nearest Neighbor Classification

sebagai Sistem Prediksi Prestasi Mahasiswa.

Nazir dan Hasanuddin. 2004. Ensikplopedi Ekonomi dan Perbankan Syariah.

Turban, E. 2005, Decision Support System and Intelligent Systems Edisi Bahasa

Indonesia Jilid I. Andi: Yogyakarta.


68

Utami, Christina Widya. 2010. Manajemen Ritel. Jakarta : Salemba Empat.

Prabowo, Rahman.2018. Prediksi Nasabah yang Berpotensi Membuka Simpanan

Deposito menggunakan Naïve Bayes Berbasis Particle Swarm Optimization.

Wijaya dan Muslim. 2016. Peningkatan Akurasi pada Algoritma Support Vector

Machine dengan Penerapan Information Gain untuk Mendiagnosa Chronic

Kidney Disease


PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK …

Documents