PENERAPAN ALGORITME NAIVE BAYES UNTUK KLASIFIKASI
DATA NASABAH YANG BERPOTENSI MEMBUKA SIMPANAN
DEPOSITO
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Informatika
Oleh :
Paulina Mangande
165314098
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
CLASSIFICATION OF COSTUMER DATA THAT POTENTIALS TO
OPEN DEPOSITS USING NAIVE BAYES ALGORITHM
THESIS
Present as Partial Fulfillment of the Requirement
To Obtain Sarjana Komputer Degree
In Informatics Study Program
By :
Paulina Mangande
165314098
INFORMATICS STUDY PROGRAM
DEPARTMENT OF INFORMATICS
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
HALAMAN PERSEMBAHAN
Lakukanlah kewajibanmu dengan setia terhadap TUHAN, Allahmu,
dengan hidup menurut jalan yang ditunjukkan-Nya, dan dengan tetap mengikuti
segala ketetapan, perintah, peraturan dan ketentuan-Nya, seperti yang tertulis
dalam hukum Musa, supaya engkau beruntung dalam segala yang kaulakukan dan
dalam segala yang kautuju,
- 1 Raja-raja 2:3 -
Skripsi ini kupersembahkan buat :
TUHAN YESUS KRISTUS
Keluargaku
Sahabat dan Teman-temanku
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
ABSTRAK
Deposito merupakan simpanan pihak lain pada bank yang penarikannya
hanya dilakukan pada waktu tertentu menurut perjanjian antara penyimpanan
dengan bank yang bersangkutan. Jatuh tempo deposito umumnya terdiri dari 1
bulan, 3 bulan, 6 bulan, atau 12 bulan. Deposito bisa menjadi alternatif bagi nasabah
karena deposito memiliki jangka waktu, tetapi menjadi pertimbangan nasabah
untuk memilih deposito adalah bunga karena bunga yang ditawarkan dideposito
lebih tinggi daripada tabungan biasa. Jika nasabah mengambil dana yang disimpan
sebelum waktunya maka akan terkena denda, sedangkan apabila nasabah
menyimpan uang semakan lama dalam bentuk deposito maka semakin besar bunga
yang ditawarkan.
Para nasabah berasal dari latar belakang yang berbeda-beda antara lain
umur, pekerjaan, pendidikan, status, dan lain sebagainya. Data nasabah tersebut
biasanya hanya disimpan dalam database saja dan belum dimanfaatkan untuk
memperoleh informasi tentang nasabah yang berpotensi membuka deposito. Salah
satu algortima yang dapat diterapkan adalah algoritma Naive Bayes.
Pada penelitian ini algoritma Naive Bayes untuk mengklasifikasikan data
nasabah-nasabah yang berpotensi menerima tawaran simpanan deposito
menggunakan dataset bagian marketing sebuah bank di Portugal. Data yang dipakai
memiliki 20 atribut dan 1 label. Pada saat proses data selection, penulis
menggunakan metode information gain dan dibandingkan dengan pereduksian
atribut secara manual yang dilakukan oleh penulis untuk mencari yang paling
berpengaruh terhadap proses klasifikasi data nasabah yang berpotensi menerima
tawaran deposito dari hasil tersebut didapatlah atribut yang digunakan pada proses
klasifikasi yaitu : Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,
Euribor3m.
Pengujian yang dilakukan terhadap 18559 dari 41188 data menggunakan 3-
fold cross validation menghasilkan tingkat keakuratan sebesar 86,6419%.
Kata kunci : Algoritma Naive Bayes, data mining, Deposito
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
Deposits are deposits of other parties at banks whose withdrawals are only
made at a certain time according to the agreement between the deposit with the bank
concerned. Maturity deposits generally consist of 1 month, 3 months, 6 months, or
12 months. Deposits can be an alternative for customers because they have a time
period, but the consideration of customers to choose deposits is interest because the
interest offered is higher than regular savings. If the customer takes the funds
deposited prematurely it will incur a fine, whereas if the customer saves old deposits
in the form of deposits the greater the interest offered.
Clients come from different backgrounds including age, occupation,
education, status, and so on. Customer data is usually only stored in a database and
has not been used to obtain information about customers who have the potential to
open deposits. One algorithm that can be applied is the Naive Bayes algorithm .
In this study the Naive Bayes algorithm is used to classify data on customers
who have the potential to accept deposits savings offers using the marketing section
dataset of a bank in Portugal. The data used has 20 attributes and 1 label. When the
data selection process , the authors used the information gain method and compared
with the reduction of attributes manually carried out by the author to find the most
influential on the classification process of customer data that has the potential to
accept deposits from these results obtained attributes used in the classification
process, namely : Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,
Euribor3m.
Tests conducted on 18559 of 41188 data using 3- fold cross validation
resulted in an accuracy level of 86,6419%
Keywords : Naive Bayes Algorithm , data mining, Deposits
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
DAFTAR ISI
HALAMAN PERSETUJUAN PEMBIMBING SKRIPSI ................................ ii
HALAMAN PENGESAHAN ........................................................................... iii
HALAMAN PERSEMBAHAN ........................................................................ iv
PENYATAAN KEASLIAN KARYA ................................................................ v
LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS .......................................... vi
ABSTRAK ........................................................................................................ vii
ABSTRACT .................................................................................................... viii
KATA PENGANTAR ....................................................................................... ix
DAFTAR ISI ..................................................................................................... xi
DAFTAR GAMBAR ....................................................................................... xiii
DAFTAR TABEL ........................................................................................... xiv
DAFTAR RUMUS ......................................................................................... xvii
BAB 1 PENDAHULUAN................................................................................... 1
1.1 Latar Belakang Masalah ..................................................................... 1
1.2 Rumusan Masalah ............................................................................... 3
1.3 Tujuan Penelitian................................................................................. 3
1.4 Batasan Masalah .................................................................................. 3
1.5 Manfaat Penelitian ............................................................................... 3
1.6 Sistematika Penulisan .......................................................................... 4
BAB II LANDASAN TEORI ............................................................................. 5
2.1 Deposito ................................................................................................ 5
2.2 Penambangan Data .............................................................................. 5
2.2.1 Pengertian Penambangan data .................................................... 5
2.2.2 Proses Penambangan Data ........................................................... 7
2.3 Naive Bayes ........................................................................................... 8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
2.4 Persamaan Metode Naive Bayes .......................................................... 9
2.5 Information Gain ................................................................................ 10
2.6 Normalisasi Min Max ........................................................................ 12
2.7 RANDOM UNDER SAMPLING ........................................................ 12
2.8 Cross Validation.................................................................................. 13
2.9 Akurasi dengan Matrtiks Confusion. ................................................. 14
BAB III METODOLOGI PENELITIAN ....................................................... 15
3.1 Data .................................................................................................... 15
3.2 Desain Alat Uji ................................................................................... 18
3.3 Data Selection ..................................................................................... 22
3.4 Data Transfromasi ............................................................................. 23
3.5 Data Testing dan Data Training ......................................................... 29
3.6 Pemodelan dengan Algoritma Naive Bayes ....................................... 29
3.7 Akurasi ............................................................................................... 49
3.8 Spesifikasi Sistem ............................................................................... 50
3.9 Desain User Interface ........................................................................ 50
BAB IV HASIL DAN ANALISA ..................................................................... 53
4.1 Preprocessing ..................................................................................... 53
4.1.1 Data Selection ............................................................................. 53
4.2 Klasifikasi ........................................................................................... 65
4.1.2 Uji Data Tunggal................................................................................ 66
BAB V PENUTUP ........................................................................................... 68
5.1 Kesimpulan ........................................................................................ 68
5.2 Saran .................................................................................................. 68
DAFTAR PUSTAKA ....................................................................................... 69
LAMPIRAN ..................................................................................................... 70
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
DAFTAR GAMBAR
Gambar 3.1 Diagram Blok ............................................................................... 18
Gambar 3.2 Diagram Flowchart Sistem ............................................................ 20
Gambar 3.3 Diagram Flowchart Uji Data Tunggal ........................................... 21
Gambar 3.4 Hasil Perangkingan Atribut Menggunakan Information
Gain Pada Weka .............................................................................................. 22
Gambar 3.5 Halaman Utama ............................................................................ 51
Gambar 4.1 Grafik Akurasi Rata-rata ............................................................... 64
Gambar 4.2 Confusion Matrix .......................................................................... 64
Gambar 4.3 Uji Data Tunggal .......................................................................... 67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR TABEL
Tabel 2.1 Confusion Matrix ............................................................................. 14
Tabel 3.1 Data Atribut Nasabah ....................................................................... 15
Tabel 3.2 Contoh Data .................................................................................... 17
Tabel 3.3 Tabel Transfromasi Batas Interval untuk atribut duration ................. 25
Tabel 3.4 Tabel Transfromasi Batas Interval untuk atribut pdays ..................... 26
Tabel 3.5 Contoh dataset sebelum data di transformasi dan dinormalisasi ........ 27
Tabel 3.6 Contoh dataset setelah data di transformasi dan dinormalisasi .......... 28
Tabel 3.7 Nilai Target Output .......................................................................... 29
Tabel 3.8 Pembagian 3-fold cross validation .................................................... 29
Tabel 3.9 Data nasabah sesudah dipreprocessing digunakan dalam percobaan .. 30
Tabel 3.10 Hasil Probabilitas Job ..................................................................... 31
Tabel 3.11 Hasil Probabilitas Marital ............................................................... 32
Tabel 3.12 Hasil Probabilitas Education ........................................................... 32
Tabel 3.13 Hasil Probabilitas Default ............................................................... 32
Tabel 3.14 Hasil Probabilitas Housing ............................................................. 32
Tabel 3.15 Hasil Probabilitas Loan................................................................... 33
Tabel 3.16 Hasil Probabilitas Contact .............................................................. 33
Tabel 3.17 Hasil Probabilitas Month ................................................................ 33
Tabel 3.18 Hasil Probabilitas Day_Of_Week ................................................... 34
Tabel 3.19 Hasil Probabilitas Poutcome ........................................................... 34
Tabel 3.20 Hasil Mean & Standar Deviasi Age ................................................ 34
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
Tabel 3.21 Hasil Mean & Standar Deviasi Duration ......................................... 35
Tabel 3.22 Hasil Mean & Standar Deviasi Pdays ............................................. 35
Tabel 3.23 Hasil Mean & Standar Deviasi Campaign ....................................... 35
Tabel 3.24 Hasil Mean & Standar Deviasi Previous ......................................... 35
Tabel 3.25 Hasil Mean & Standar Deviasi Emp.Var.Rate ................................. 36
Tabel 3.26 Hasil Mean & Standar Deviasi Conf.Price.Idx ................................ 36
Tabel 3.27 Hasil Mean & Standar Deviasi Conf.Conf.Idx ................................ 36
Tabel 3.28 Hasil Mean & Standar Deviasi Euribor3m ...................................... 36
Tabel 3.29 Hasil Mean & Standar Deviasi Nr.Employed .................................. 36
Tabel 3.30 Hasil Probabilitas Kelas .................................................................. 37
Tabel 3.31 Data Training sesusah dipreprocessing digunakan dalam percobaan 3-
fold .................................................................................................................. 41
Tabel 3.32 Data Testing sesudah dipreprocessing digunakan dalam percobaan 3-
fold .................................................................................................................. 42
Tabel 3.33 Hasil Mean & Standar Deviasi Duration ......................................... 42
Tabel 3.34 Hasil Mean & Standar Deviasi Nr.Employed .................................. 42
Tabel 3.35 Hasil Mean & Standar Deviasi Emp.Var.Rate ................................. 43
Tabel 3.36 Hasil Mean & Standar Deviasi Euribor3m ...................................... 43
Tabel 3.37 Probabilitas Setiap Kelas ................................................................ 43
Tabel 3.38 Hasil Klasifikasi ............................................................................. 49
Tabel 3.39 Hasil Confusion Matrix .................................................................. 50
Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain ....................... 53
Tabel 4.2 Hasil Percobaan Seleksi Atribut ....................................................... 54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 4.3 Hasil Percobaan Seleksi Atribut data mentah .................................... 58
Tabel 4.4 Hasil Data Selection ........................................................................ 65
Tabel 4.5 Confusion Matrix 1 .......................................................................... 65
Tabel 4.6 Confusion Matrix 2 ........................................................................... 66
Tabel 4.7 Confusion Matrix 3 .......................................................................... 66
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR RUMUS
Rumus 2.1 Persamaan teorema Naïve Bayes ...................................................... 9
Rumus 2.2 Metode Naïve Bayes ....................................................................... 9
Rumus 2.3 Persamaan Metode Naïve Bayes .................................................... 10
Rumus 2.4 Densitas Gauss .............................................................................. 10
Rumus 2.5 Nilai Probabilitas kategori ............................................................. 10
Rumus 2.6 Information Gain (Han, dkk,2012).................................................. 11
Rumus 2.7 Information Gain ........................................................................... 11
Rumus 2.8 Information gain untuk mengukur efektifitas suatu atribut dalam
pengklasifikasian data ..................................................................................... 11
Rumus 2.9 Normalisasi Min Max ..................................................................... 12
Rumus 2.10 Nilai Akurasi ................................................................................ 14
Rumus 3.1 Nilai Jangkauan Atribut .................................................................. 23
Rumus 3.2 Jumlah Kelas Interval ..................................................................... 24
Rumus 3.3 Panjang Interval Atribut ................................................................. 24
Rumus 3.4 Menghitung Mean .......................................................................... 31
Rumus 3.5 Menghitung Standar Deviasi .......................................................... 31
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Bank merupakan lembaga keuangan berfungsi sebagai perantara
keuangan antara pihak yang kelebihan dana dan pihak yang kekurangan dana.
Melalui bank yang berkelebihan dana tersebut dapat disalurkan kepada pihak-
pihak yang membutuhkan dan memberikan manfaat bagi kedua belah pihak.
Menurut Undang-Undang Republik Indonesia Nomor 10 Tahun
1998 tentang perbangkan, dijelaskan bahwa bank adalah suatu badan usaha
yang menghimpun dana dari masyarakat dalam bentuk simpanan dan
menyalurkan kepada masyarakat dalam bentuk kredit atau bentuk lainnya
dalam meningkatkan taraf hidup masyarakat. Umumnya bank sendiri
membutuhkan dana tambahan dari berbagai pihak diantaranya dari para
nasabah yang dapat digunakan sebagai sumber dana yang berupa nama
rekening giro, tabungan dan deposito.
Deposito merupakan simpanan pihak lain pada bank yang
penarikannya hanya dilakukan pada waktu tertentu menurut perjanjian antara
penyimpanan dengan bank yang bersangkutan. Jatuh tempo deposito
umumnya terdiri dari 1 bulan, 3 bulan, 6 bulan, atau 12 bulan. Deposito bisa
menjadi alternatif bagi nasabah karena deposito memiliki jangka waktu, tetapi
menjadi pertimbangan nasabah untuk memilih deposito adalah bunga karena
bunga yang ditawarkan dideposito lebih tinggi daripada tabungan biasa. Jika
nasabah mengambil dana yang disimpan sebelum waktunya maka akan
terkena denda, sedangkan apabila nasabah menyimpan uang semakan lama
dalam bentuk deposito maka semakin besar bunga yang ditawarkan.
Salah satu dana tambahan dari nasabah yang digunakan sebagai
sumber dana adalah deposito. Para nasabah berasal dari latar belakang yang
berbeda-beda antara lain umur, pekerjaan, pendidikan, status, dan lain
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
sebagainya. Data nasabah tersebut biasanya hanya disimpan dalam database
saja dan belum dimanfaatkan untuk memperoleh informasi tentang nasabah
yang berpotensi membuka deposito. Permasalahannya adalah bagaimana
dapat mengolah data nasabah yang potensial membuka deposito.
Data nasabah yang potensial membuka deposito dapat membantu
bank dalam mempertahankan nasabah, meningkatkan pemasaran langsung
dan menentukan target pemasaran. Penentuan target pemasaran didasarkan
pada data nasabah yang telah di klasifikasi. Harapannya, bank dapat
memprediksi nasabah-nasabah yang potensial membuka tawaran deposito
dengan menggunakan data-data nasabah sehingga menemukan suatu pola
yang biasa disebut proses data mining atau penambangan data. Metode yang
digunakan untuk mengklasifikasi suatu kumpulan data adalah naive bayes.
Metode yang dapat digunakan untuk mengklasifikasi dalam kumpulan
data dari website UCI Repository Machine Learning.(Febianto, 2019) telah
meneliti tentang klasifikasi data nasabah yang berpotensi membuka simpanan
deposito dengan menggunakan algoritme Backpropagation. Hasil dari
penelitian tersebut memiliki akurasi 82,19%. Peneliti tentang klasifikasi data
nasabah berpotensi terkena kredit macet dalam pembayaran tagihan kartu
kredit di bank swasta di Yogyakarta dengan menggunakan metode Naive
Bayes. Hasil dari penelitian tersebut memiliki akurasi 77,28% (Putri,2019).
Berdasarkan uraian tersebut, penulis tertarik melakukan penelitian
tentang penerapan Algoritme Naive Bayes untuk Klasifikasi Data Nasabah
yang Berpotensi Membuka Simpanan Deposito. Data yang digunakan dalam
penelitian ini berasal dari website UCI Repository Mechine Learning.
Penerapan data tersebut menggunakan metode Naive Bayes diharapkan
mampu mendapatkan hasil klasifikasi yang berguna untuk mengetahui
nasabah yang akan berpotensi membuka simpanan deposito.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.2 Rumusan Masalah
1. Bagaimana menerapkan algoritme naive bayes untuk klasifikasi data
nasabah yang membuka simpanan deposito?
2. Berapa akurasi dari algoritme naive bayes untuk klasifikasi data
nasabah yang berpotensi membuka simpanan deposito?
3. Atribut mana saja yang berpengaruh dalam membuka simpanan
deposito?
1.3 Tujuan Penelitian
1. Membangun sistem yang dapat menghasilkan knowledge
(pengetahuan) bagi bank tentang klasifikasi data nasabah yang
berpotensi membuka simpanan deposito.
2. Mengetahui akurasi dari algoritme naive bayes dalam melakukan
klasifikasi data nasabah yang membuka simpanan deposito.
3. Menentukan atribut-atribut yang berpengaruh terhadap akurasi.
1.4 Batasan Masalah
1. Data set yang digunakan adalah data publik yang didapatkan pada
website UCI Repository Mechine Learning yang berjudul “Bank
Marketing Data Set”.
2. Implementasi sistem menggunakan Matlab.
1.5 Manfaat Penelitian
1. Membantu pihak bank dalam klasifikasi data nasabah yang
berpotensi membuka simpanan deposito.
1.6 Sistematika Penulisan
BAB 1 PENDAHULUAN
Bab ini menguraikan tentang latar belakang, rumusan masalah,
batasan masalah, tujuan penelitian dan sistematika penulisan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
BAB II LANDASAN TEORI
Bab ini membahas tentang dasar teori yang digunakan untuk
membangun sistem.
BAB III METODOLOGI PENELITIAN
Bab ini berisi tentang metodologi penelitian yang digunakan pada
penelitian ini yang terdiri dari tahap perancangan dan pengumpulan
data, metode pengembangan sistem, kebutuhan perangkat lunak dan
perangkat keras.
BAB IV ANALISIS DAN PEMBAHASAN
Bab ini berisi tentang analisis hasil yang diperoleh dari pengujian
yang dilakukan.
BAB V PENUTUP
Bab ini berisi tentang kesimpulan dan saran dari keseluruhan
penulisan tugas akhir.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II
LANDASAN TEORI
Bab ini dijelaskan teori yang akan digunakan untuk mendukung penelitian
tugas akhir dalam klasifikasi data nasabah berpotensi membuka deposito. Teori-
teori yang digunakan pada bab ini adalah mengenai bank, deposito, penambangan
data dan naive bayes.
2.1 Deposito
Deposito merupakan prosuk yang ditawarkan olah bank kepada
masyarakat sejenis dengan jasa tabungan yang dijamin pemerintah melalui
Lembaga Penjamin Simpanan (LPS) dengan persyaratan tertentu. Deposito
juga berarti penyimpanan uang di bank dengan sistem penyetoran yang
penarikannya hanya dapat dilakukan pada waktu tertentu (Febianto, 2019)
2.2 Penambangan Data
2.2.1 Pengertian Penambangan data
Penambangan data (data mining) adalah proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak
diketahui secara manual. (Kusrini&Luthfi, 2006).
Istilah data mining dan knowledge discovery in database (KDD)
sering digunakan secara bergantian untuk menjelaskan proses penggalian
informasi tersembunyinya dalam suatu basis data yang besar. Sebenarnya
kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu
sama lain. Salah satu tahapan dalam keseluruhan proses KDD adalah data
mining (Han, Jiawei, dkk. 2012)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
Proses KDD terdiri dari 7 tahap yaitu :
1. Pembersihan data (data cleaning)
Tahap data cleaning dilakukan untuk membersihkan noise dan data
yang inkosisten pada umumnya di tahap ini juga dilakukan
pembersihan data missing values namun data set yang digunakan pada
penelitian ini tidak mengandung missing value.
2. Integrasi data (data integration)
Tahap ini akan dilalukan penggabungan data. Data dari bermacam-
macam tempat penyimpanan data akan digabungkan ke dalam suatu
tempat penyimpanan data yang koheren.
3. Seleksi data (data selection)
Pemilihan (seleksi) adalah proses memilih data atau atribut yang
relavan. Pada tahap ini dilakukan analisis korelasi atribut data.
Atribut-atribut data tersebut dicek apakah relavan atau dilakukan
penambangan data.
4. Transformasi data (data transformation)
Transformasi adalah proses yang dilakukan untuk mengubah bentuk
data menjadi bentuk yang sesuai untuk digunakan. Proses ini dilakkan
untuk mengubah data di atribut yang belum numeric menjadi data
numerik.
5. Penambangan data (data mining)
Data mining adalah proses mencari pola atau infromasi menarik
dalam data terpilih dengan menggunakan teknik atau metode tertentu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
6. Evaluasi Pola (pattern evaluation)
Dalam tahap ini hasil dari teknik data mining berupa pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai.
7. Presentasi pengetahuan (knowledge presentation)
Pada langkah ini informasi yang sudah ditambang akan
divisualisasikan dan direpresentasikan kepada pengguna. Langkah 1
sampai 4 merupakan langkah praproses data dimana data akan
disiapkan terlebih dahulu selanjutnya dilakukan penambangan
2.2.2 Proses Penambangan Data
Penambangan data dibagi menjadi bebrapa kelompok berdasarkan
tugas yang dilakukan, yaitu mining (Kusrini & Luthfi,2009) :
1. Deskripsi
Deskripsi bertujuan mengidentifikasi pola kecenderungan sering
memberikan kemungkinan penjelasan suatu pola atau
kecenderungan.
2. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali
bahwa dalam predikasi nilai dari hasil akan ada di masa mendatang.
Contoh, prediksi harga beras dalam tiga bulan yang akan datang.
3. Estimasi
Estimasi hampir mirip dengan klasifikasi, kecuali variabel target
estiminasi lebih kearah numerik daripada ke arah kategori. Contoh,
nilai indeks prestasi kumulatif mahasiswa program pascasarjana
dengan melihat nilai indeks prestasi mahasiswa tersebut pada saat
mengikuti program sarjana.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
4. Klasifikasi
Klasifikasi adalah proses penemuan model yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan dapat
memperkirakan kelas dari suatu objek yang labelnya belum
diketahui. Contoh, Menentukan apakah suatu transaksi kartu kredit
merupakan transaksi yang curang atau bukan.
5. Pengelompokan (clustering)
Clustering digunakan untuk menghasilkan label kelas untuk
sekelompok data. Berbeda dengan klasifikasi yang menganalisa
dari label kelas yang sudah ditemukan diawal.
6. Asosiasi
Dalam penambangan data, asosiasi digunakan untuk menemukan
aturan atribut yang muncul dalam suatu waktu, dan mengukur
hubungan antara dua atau lebih atribut.
2.3 Naive Bayes
Naive Bayes merupakan sebuah pengklasifikasian probabilistik
sederhana dengan menghitung sekumpulan probabilitas dengan
menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan.
Algoritme menggunakan teorema Bayes dan mengasumsikan semua atribut
independen atau tidak saling ketergantungan yang diberikan oleh nilai pada
variabel kelas (Manalu dkk, 2017).
Naive Bayes merupakan sebuah metode untuk klasifikasi yang
diciptakan oleh Thomas Bayes, yaitu mempredikasi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya (Bustami, 2013). Naive bayes
merupakan metode yang membutuhkan jumlah data pelatihan (training
data) yang kecil untuk menentukan estimasi parameter yang diperlukan
dalam proses pengklasifikasian. Naive bayes sering bekerja jauh lebih baik
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
dalam kebanyakan situasi dunia nyata yang kompleks dari pada yang
diharapkan (Pattekari & Parveen, 2012).
2.4 Persamaan Metode Naive Bayes
Persamaan teorema Bayes adalah :
P(H |X)=𝑃(𝑋 |𝐻).𝑃(𝐻)
𝑃(𝑋) (2.1)
Keterangan :
𝑋 : Data dengan class yang belum diketahui.
𝐻 : Hipotesis data merupakan suatu class spesifik.
𝑃(𝐻 | 𝑋) :Probabilitas hipotesis H berdasarkan kondisi X (probabilitas
posterior)
𝑃(𝑋|𝐻) : Probabilitas berdasarkan kondisi pada hipotesis.
𝑃(𝐻) : Probabilitas hipotesis H (probabilitas prior).
𝑃(𝑋) : Probabilitas X.
Proses klasifikasi memerlukan sejumlah petunjuk untuk
menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut.
Oleh karena itu, Metode Naive Bayes diatas disesuaikan sebagai berikut :
P(C|F1...Fn) = 𝑃(𝐶)𝑃(𝐹1…𝐹𝑛|C)
𝑃(𝐹1…𝐹n) (2.2)
Variabel C mempresentasikan kelas, sementara variabel
𝐹1 … 𝐹𝑛 mempresentasikan karakteristik petunjuk yang dibutuhkan untuk
melakukan klasifikasi. Maka rumus 2.2 tersebut menjelaskan bahwa
peluang terjadinya kelas C (posterior probability) adalah peluang
munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut
prior), dikali dengan peluang kemunculan karakteristik-karakteristik
sampel pada kelas C (likelihood) dibagi dengan peluang kemunculan
karakteristik-karakteristik sampel secara global (disebut juga evidence).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Oleh karena itu rumus 2.2 di atas dapat ditulis secara sederhana sebagai
berikut :
𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑦 = 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑥 𝑝𝑟𝑖𝑜𝑟
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)
Apabila data yang digunakan adalah data kontinu maka perhitungan
klasifikasi menggunakan rumus Densitas Gauss :
𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗)=1
√2𝜋𝜎𝑒−
(𝑥𝑖−𝜇)²
2𝜎² (2.4)
Keterangan :
𝑃 : Peluang
𝑋𝑖 ∶ Atribut ke 𝑖
𝑥𝑖 ∶ Nilai atribut 𝑖
𝑌 ∶ Kelas yang dicari
𝑦𝑖 ∶ Sub kelas 𝑌 yang dicari
μ ∶ Mean, menyatakan rata − rata seluruh atribut
σ ∶ Deviasi standar, menyatakan varian dari seluruh atribut
Nilai Likelihood diperoleh dengan cara mengalikan peluang atribut xi
dengan nilai probabilitas kategori seperti pada rumus 2.5
𝑃(𝑋1) 𝑥 𝑃(𝑋2) 𝑥 𝑃(𝑋3) … . 𝑃(𝑋𝑛) 𝑥 Nilai Probabilitas kategori … (2.5)
2.5 Information Gain
Proses seleksi atribut pada penelitian ini dilakukan menggunakan
Weka Tools 3.8.3. Dalam melakukan seleksi atribut, peneliti melakukan
eksperimen menggunakan metode information gain. Perhitungan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
information gain dapat dilakukan dengan menggunakan rumus di
bawah ini (Han , dkk, 2012):
Info (D)=-∑𝑙=1𝑚 pi log2(pi) (2.6)
Keterangan rumus :
𝐷 : Jumlah seluruh sampel data
𝑚 : Jumlah nilai pada atribut target (jumlah kelas klasifikasi)
𝑖 : Maksimal nilai pada atribut target
𝑝𝑖 : Jumlah sampel untuk kelas i
Info X(D)=-∑𝑗=1𝑣
|𝐷𝑗|
𝐷 x info(Di) (2.7)
Keterangan rumus :
𝑥 : Atribut
𝑣 : Suatu nilai yang mungkin untuk atribut A
𝑗 : Maksimal nilai yang mungkin untuk atribut A
𝐷 : Jumlah seluruh sampel data
|𝐷𝑗| ∶ Jumlah sampel untuk nilai 𝑗
𝐷𝑖 ∶ Jumlah sampel untuk kelas i
Kemudian nilai information gain yang digunakan untuk mengukur
efektifitas suatu atribut dalam pengklasifikasian data dapat dihitung dengan
rumus dibawah ini :
𝐺𝑎𝑖𝑛(𝑋) = |𝐼𝑛𝑓𝑜(𝐷) – 𝐼𝑛𝑓𝑜 𝑋(𝐷)| (2.8)
Keterangan :
𝑋 : Atribut
𝐼𝑛𝑓𝑜(𝐷) : Entropi untuk kelas D
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
𝐼𝑛𝑓𝑜 𝑋(𝐷) : Entropi untuk kelas D pada atribut X
Tahap berikutnya adalah tahap seleksi atribut. Tahap ini dilakukan
untuk mengetahui atribut mana yang berpengaruh dan seberapa persen
pengaruh dan akurasinya. Penulis melakukan percobaan menggunakan
Weka untuk menghilangkan satu persatu atribut yang sudah di rangking.
Penulis menarik kesimpulan atribut mana saja yang berpengaruh.
2.6 Normalisasi Min Max
Normalisasi merupakan salah satu strategis transformasi data.
Normalisasi data dilakukan untuk mencegah jarak antar data yang terlalu
jauh. Misalkan minX dan MaxX adalah nilai minimum dan maksimum
atribut X, maka normalisasi Min-Max akan menghasilkan nilai baru yaitu
Ndata dalam kisaran [minX baru, maks baru], seperti pada rumus 2.9 (Han,
Jiawei, dkk. 2012) :
Ndata = (𝑣−𝑚𝑖𝑛)∗(𝑛𝑀𝑎𝑥−𝑛𝑀𝑖𝑛)
𝑚𝑎𝑥−𝑚𝑖𝑛 + nmin..... (2.9)
Keterangan :
𝑣 : data yang akan dinormalisasi
𝑁𝑑𝑎𝑡𝑎 : Data hasil normalisasi
𝑚𝑖𝑛 : Nilai minimum dari data
𝑚𝑎𝑥 : Nilai maksimum dari data
𝑛𝑀𝑖𝑛 : Batas minimum yang diberikan
𝑛𝑀𝑎𝑥 : Batas maksimum yang diberikan
2.7 Random Under Sampling
Random Under Sampling merupakan salah satu metode resampling
yang digunakan untuk mengalami kesetidakseimbangan kelas(label).
Prinsip utama metode ini adalah membuat jumlah kelas mayoritas sama
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
dengan jumlah kelas minoritas. Implementasi metode random under
sampling adalah memilih data set terlebih dahulu kemudian menghitung
jumlah kelas mayoritas dan minoritas. Kemudian, ambil kelas mayoritas
secara acak yang jumlah datanya sama dengan minoritas. Metode memilih
keunggulan dalam menghemat waktu dalam metode klasifikasi. (Taek,
2019)
2.8 Cross Validation
k-fold cross validation merupakan salah satu metode yang bisa
digunakan untuk menilai atau memvalidasi keakuratan sebuah sistem. Pada
pendekatan ini, semua data yang digunakan dibagi menjadi k partisi secara
acak (𝑃1, 𝑃2, . . . 𝑃𝑘). Misalkan digunakan 3-fold cross validation (k=3) maka
sebanyak 2/3 data dipakai sebagai training dan 1/3 data dipakai sebagai
testing.
Keterangan :
Train Test
Gambar 2.1 3 Fold Validation
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
2.9 Akurasi dengan Matrtiks Confusion.
Matriks confusion merupakan tabel yang mencatat hasil kerja
klasifikasi. Contoh matriks confusion sebagai berikut :
Tabel 2.1 Confusion Matrix
Positif Negatif
Positif TP(True positif) FN(False Negatif)
Negatif False(False Positif) TN(True Negatif)
Nilai Akurasi dapat dihitung dengan persamaan :
Akurasi=𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% (2.10)
Dimana :
TP : Jumlah positif yang diklasifikasi sebagai positif
TN : Jumlah negatif yang diklasifikasi sebagai negatif
FP : Jumlah negatif yang diklasifikasi sebagai positif
FN : Jumlah positif yang diklasifikasi sebagai negatif.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan dijelaskan analisa data dan analisa sistem yang akan
dibuat untuk klasifikasi data nasabah berpotensi membuka simpanan deposito
menggunakan metode Naive Bayes.
3.1 Data
Data yang digunakan dalam penelitian ini adalah data publik yang
diperoleh dari situs UCI Repository Machine Learning berjudul “Bank
Marketing Data Set” yang didapat dari program pemasaran langsung dari
sebuah bank di Portugis dengan jumlah data 41188 dengan 20 atribut dan 1
output.
Data yang diperoleh terdiri dari : age, job, material, education, default,
housing, loan, contact, moth, day of week, duration, campaign, pdays,
previous, poutcome, emp.var.rate, cons.price.idx, cons.idx, euribor3m,
nr.employed, Y/N.
Tabel 3.1 Data Atribut Nasabah
No Data Keterangan dan Nilai
1 Age Umur nasabah bank
2 Job Jenis pekerjaan nasabah bank
(admin/bluecollar,entrepreneur/housemaid/management
/retired/selft-
employed/services/student/technician/unemployed/unkn
own)
3 Material Status pernikahan (divorced/merried/single)
4 Education Pendidikan nasabah (basic 4y/basic 6y/basic 9y/high
school/illiterate/professional course/university
degree/unknown)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
5 Default Apakah mempunyai kredit gagal/macet?
(yes/no/unknown)
6 Housing Apakah mempunyai kredit pinjaman rumah?
(yes/no/unknown)
7 Loan Apakah mempunyai pinjaman pribadi
(yes/no/unknown)
8 Contact Jenis komunikasi yang digunakan nasabah
(cellular/telephone)
9 Month Bulan terakhir menghubungi nasabah
10 Day_of_w
eek
Hari terakhir kontak dengan nasabah
11 Duration Durasi terakhir menghubungi nasabah dalam detik
12 Campaign Jumlah kontak yang dilakukan selama promosi ini dan
untuk nasabah ini
13 Pdays Jumlah hari yang berlalu setelah nasabah terakhir
dihubungi dan promosi sebelumnya
14 Previous Jumlah kontak dilakukan sebelum promosi ini dan
untuk klien ini
15 Poutcome Hasil dari penawaran marketing sebelumnya
(failure/nonexistent/success)
16 Emp.var.r
ate
Variasi tingkat pekerjaan
17 Cons.price
.idx
Indeks harga konsumen
18 Cons.conf.
idx
Indeks kepercayaan konsumen
19 Euribor3m Tingkat eurbor 3 bulan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
20 Nr.employ
ed
Jumlah karyawan
21 Y Apakah nasabah berlangganan deposito yang
ditawarkan (yes/no)
Contoh data yang digunakan dalam penelitian ini :
Tabel 3.2 Contoh Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
3.2 Desain Alat Uji
Gambar 3.1 Diagram Blok
Pada diagram 3.1 diatas dimana data tersebut akan diproses pada
sistem. Tahap prosprocessing pada data tersebut yakni seleksi atribut,
dimana seleksi atribut ini akan memilih atribut mana saja yang akan
digunakan. Dalam sistem kerja tersebut dimana data akan dirangking atau
diurutkan berdasarkan bobotnya yang terpenting. Data tersebut dipilih
menjadi beberapa atribut. Kemudian, data tersebut melalui tahap
normalisasi, tahap ini akan dilakukan dimana data set tersebut terdapat
range data yang cukup jauh dan susah untuk diproses. Data tersebut
dilakukan proses transformasi linear terhadap data asli, proses ini
menggunakan min max. Nilai pada set tersebut diubah skalanya dengan
batas nilai minimum yang diberikan yakni 0 sementara untuk batas
maximum yang diberikan yakni 1. Setelah data melewati proses
preprocessing, data akan masuk ke tahap pembentukan model. Dimana data
akan dibagi terlebih dahulu menjadi 2 bagian yakni data training dan data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
testing. Dipembentukan model, data akan diolah untuk mengetahui nilai
rata-rata (mean) dan standar deviasi. Dimana setiap data pada atribut
terlebih dahulu dihitung jumlah rata-rata dan standar deviasi. Selanjutnya
apabila model telah terbentuk, maka akan dilakukan uji model, dimana pada
uji model ini akan ada data baru yang akan dimasukkan sebagai data test.
Data dimasukkan dan dicari nilai probabilitas setiap atribut dengan
menggunakan hasil modeling. Setelah mencari nilai probabilitas kemudian
menghitung nilai likelihood berdasarkan status kelas, dimana nilai
likelihood tersebut akan digunakan untuk mencari nilai probabilitas hasil.
Nilai probabilias hasil dihitung untuk mengetahui hasil yang akan diketahui
oleh sistem apakah nasabah berlangganan deposito atau tidak berlangganan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
Gambar 3.2 Diagram Flowchart Sistem
Gambar 3.2 Menjelaskan alur proses sistem yang digambarkan dengan
flowchart. Berikut merupakan algoritma umum sistem :
1. Baca dataset.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
2. Data Selection.
3. Data Transformasi menggunakan min max.
4. Data dibagi menjadi 2 bagian data training dan data testing.
5. Hitung jumlah probabilitas, namun apabila data numerik maka :
a. Jika terdapat data numerik, maka temukan nilai mean dan
standar deviasi dari masing-masing atribut.
b. Jika tidak, hitung jumlah data yang sesuai dari atribut yang
sama dibagi dengan jumlah data pada atribut.
6. Hitung probabilitas setiap kelas.
7. Hitung probabilitas posterior, lalu ambil nilai probabilitas tertinggi
untuk dijadikan hasil klasifikasi.
8. Menghitung kesesuaian hasil klasifikasi dengan label testing. Lalu
membuat confusion matrix sebanyak k.
9. Hitung Akurasi total.
Gambar 3.3 Diagram Flowchart Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
Gambar 3.3 Menjelaskan alur proses pengujian data uji tunggal yang
digambarkan dengan flowchart. Berikut merupakan algoritma uji data
tunggal :
1. Baca data training.
2. Input data uji tunggal.
3. Hitung mean dan standar deviasi tiap atribut pada semua kelas.
4. Hitung probabilitas setiap kelas.
5. Hitung probabilitas tiap atribut pada semua kelas.
6. Hitung nilai likelihood pada setiap kelas.
7. Hitung probabilitas posterior, lalu ambil nilai probabilitas tertinggi
untuk dijadikan hasil klasifikasi.
3.3 Data Selection
Data yang digunakan tidak melalui tahap cleaning dan integration karena
tidak terdapat missing value dan data diambil dari UCI Learning Repository. Tahap
berikutnya adalah tahap data selection. Proses data selection adalah memilih data
atau atribut yang relavan untuk penelitian ini. Proses seleksi atribut pada penelitian
ini dilakukan menggunakan Tools Weka 3.8.3. Dalam melakukan seleksi atribut,
penelitian melakukan eksperimen menggunakan metode Information Gain. Berikut
hasil perangkingan atribut menggunakan Weka.
Gambar 3.4 Hasil Perangkingan Atribut Menggunakan
Information Gain pada Weka
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
3.4 Data Transfromasi
Proses transformasi yang dilakukan pada penelitian ini sebagai
berikut.
1. Transformasi data pada atribut duration dan pdays. Atribut
yang bernilai numerik dilakukan transformasi dengan proses
pendistribusian tabel frekuensi berkelompok, dengan
melakukan langkah-langkah :
a. Langkah pertama, memilih atribut yang bernilai data
numerik dan akan dicari intervalnya. Pada data
penelitian, atribut yang mengandung data numerik
adalah duration dan pdays.
b. Kemudian pada masing-masing atribut tersebut dicari
nilai minimum (Xmin) dan nilai Maksimum (Xmax).
Untuk atribut duration, didapat :
Nilai minimum : 0
Nilai maksimum : 4918
Untuk atribut pdays, didapat :
Nilai minimum : 0
Nilai maksimum : 999
c. Setelah mendapatkan nilai minimum (Xmin) dan nilai
maksimum (Xmax)
dari setiap atribut, maka langkah selanjutnya yaitu
menghitung nilai jangkauan dari masing-masing atribut
dengan rumus :
J=Xmax-Xmin (3.1)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Hitung jangkauan untuk atribut duration :
J = 4918 – 0
J = 4918
Hitung jangkauan untuk atribut pdays :
J = 999 – 0
J = 999
d. Selanjutnya menghitung jumlah kelas interval dengan
rumus k = 1 + 3,3 log n. (Zega, dkk. 2019) :
k = 1 + 3,3 log n (3.2)
Keterangan :
k = Banyak kelas interval
n = Banyak data/Jumlah data
Sehingga jumlah interval pada penelitian ini sebagai
berikut :
k = 1 + 3,3 log 41188
k = 1 + 15,228
k = 16,228
k = 17 dibulatkan menjadi 17, sehingga jumlah kelas
interval adalah 17.
e. Kemudian menentukan panjang interval untuk masing-
masing atribut, dengan rumus :
p = 𝑗
𝑘 (3.3)
Keterangan :
p = Panjang interval kelas
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
j = Jangkauan
k = Banyak kelas interval
Panjang kelas interval untuk atribut duration :
P = 𝟒𝟗𝟏𝟖
𝟏𝟕= 289,29
Panjang kelas interval untuk atribut pdays :
P = 𝟗𝟗𝟗
𝟏𝟕= 58,76
f. Langkah terakhir yaitu menentukan batas interval dari
masing-masing atribut yang terpilih :
Tabel 3.3 Transformation Batas Interval untuk atribut
duration
Batas
Interval
Batas
Bawah
Batas Atas Transformasi
1 0 289,29 1
2 289,30 578,59 2
3 578.60 867.88 3
4 867,89 1,158 4
5 1.159 1.447 5
6 1.448 1.736 6
7 1.737 2.205 7
8 2.206 2.314 8
9 2.315 2.603 9
10 2.604 2.892 10
11 2.893 3.181 11
12 3.182 3.469 12
13 3.470 3.759 13
14 3.760 4.048 14
15 4.049 4.337 15
16 4.338 4.626 16
17 4.627 4.915 17
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Tabel 3.4 Transformation Batas Interval untuk atribut
pdays
Batas
Interval
Batas
Bawah
Batas Atas Transformasi
1 0 58,76 1
2 58.77 117.53 2
3 117.54 176.3 3
4 176.4 253.06 4
5 253.07 293.83 5
6 293.84 352.6 6
7 352.7 411.46 7
8 411.47 470.23 8
9 470.24 529 9
10 530 588.76 10
11 588.77 647.53 11
12 647.54 706.3 12
13 706.4 765.16 13
14 765.17 823.93 14
15 823.94 882.7 15
16 882.8 941.56 16
17 941.57 17
2. Setelah itu, dihitung normalisasi tiap data pada kolom Duration dan
Pdays dengan rumus 2.9. Berikut hasil perhitungan data :
Normalisasi data atribut Duration
Ndata = (1−0)∗(1−0)
14−0+ 0 = 0.07142
Normalisasi data atribut Pdays
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Ndata = (1−0)∗(1−0)
17−0+ 0 = 0.058824
Berikut dataset sebelum dan sesudah di transformasi dan di normalisasi
Tabel 3.5 Contoh dataset sebelum data ditransformasi dan dinormalisasi
Age
Job
Mate
rial
Ed
uca
tion
Dafa
ult
Hou
sin
g
Loan
Con
tact
Mon
th
Days_
of_
wee
k,
pou
tcom
e
Du
rati
on
Cam
paig
n
Pd
ays
Pre
vio
us
Pou
tcom
e
57 retired married
university.
degree no yes no
telepho
ne may tue 768 1 999 0 nonexistent
58
blue-
collar
divorce
d basic.4y no yes no
telepho
ne may tue 277 1 999 0 nonexistent
Em
p.
Var.
R
ate
C
on
s.
Pri
ce.
Idx
Con
s.
Con
f.
Idx
Eu
rib
or3
m
Nr.
E
mp
loy
ed
Lab
el
1,1 93,994 -36,4 4,856 5191 no
1,1 93,994 -36,4 4,856 5191 no
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Tabel 3.6 Contoh dataset sesudah data ditransformasi dan dinormalisasi
Age
Job
Mate
rial
Ed
uca
tion
Dafa
ult
Hou
sin
g
Loan
Con
tact
Mon
th
Days_
of_
wee
k,
pou
tcom
e
Du
rati
on
Cam
paig
n
Pd
ays
Pre
vio
us
Pou
tcom
e
57 retired married
university.de
gree no yes no telephone may tue 0,002072 1 1 0
nonexisten
t
58
blue-
collar divorced basic.4y no yes no telephone may tue 0,000691 1 1 0
nonexisten
t
Em
p.V
ar.
Rate
Con
s.P
rice
.
Idx
Con
s.C
on
f.
Idx
Eu
rib
or3
m
Nr.
Em
plo
y
ed
Lab
el
1,1 93,994 -36,4 4,856 5191 0
1,1 93,994 -36,4 4,856 5191 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Nilai luaran akan bernilai 1 atau 0. Berikut representasi luaran dari sistem.
Tabel 3.7 Nilai Target Output
Status Nilai Target Output
Yes 1
No 0
3.5 Data Testing dan Data Training
Tahap ini hasil dari data mining berupa pola khusus yang akan dievaluasi
atau diteliti lagi apakah hasilnya sudah sesuai atau belum. Jadi untuk mengetahui
apakah sistem yang akan dibangun ini sudah baik atau belum, maka perlu dilakukan
pengujian sistem mengunakan metode k-fold cross validation.
Evaluasi sistem pada penelitian ini dilakukan dengan membagi data menjadi data
testing dan data training. Pembagian data dilakukan dengan menerapkan model 3-
fold validation dengan membagi data menjadi 3 bagian seperti data Tabel 3.8
Tabel 3.8 Pembagian 3-fold cross validation
3.6 Pemodelan dengan Algortime Naive Bayes
Pada tahap ini dilakukan proses penambangan data dengan
menggunakan algoritma Naive Bayes. Data yang sudah diolah pada tahap
sebelumnya akan diolah menggunakan perhitungan algoritma. Data yang
diolah adalah data training dan data testing.
Berikut ini merupakan data yang dilakukan untuk mengolah data
nasabah dengan menggunakan metode Naive Bayes :
Model Data Training Data Testing
1 1,2 3
2 1,3 2
3 2,3 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
1. Data yang digunakan merupakan data training dan data testing. Data
training adalah data yang akan digunakan untuk menentukan hasil akhir
atau lebih dari data testing. Sedangkan data testing adalah data yang
dicari hasil akhirnya.
2. Data testing yang sudah siap akan dipisahkan dari labelnya.
3. Data testing yang tidak memiliki tabel akan melakukan perulangan
untuk menghitung nilai probabilitas dari setiap data dengan berdasarkan
data training.
4. Data akan dibagi menjadi data training dan data testing dengan
menggunakan cross validation yaitu k-fold validation. Percobaan yang
dilakukan yang dilakukan menggunakan 3k-fold validation. Data akan
dibagi sesuai dengan jumlah k, dengan jumlah data yang rata. Data yang
sudah dibagi akan menjadi data testing dan training. Setiap percobaan
akan mengambil 1 data testing dan data yang lain akan digunakan
sebagai data training.
Tabel 3.9 Data nasabah sesudah dipreprocessing digunakan dalam
percobaan
Tabel 3.9 data nasabah memperlihatkan data training dan atribut
age, job, marital, education, default, housing, loan, contact, month,
day_of_week, duration, campaign, pdays, previous, poutcome, emp.var.rat,
cons.price.idx, cons.conf.idx, euribor3m, nr.employed sedangkan atribut
kelas adalah nasabah yes dan no.
Berikut ini adalah penyelesaian contoh kasus menggunakan algoritme Naive
Bayes.
Terdapat dua kelas dari klasifikasi yang terbentuk :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
1 : Yes
2 : No
Langkah-langkah perhitungan berikut ini :
a. Menghitung mean dan standar deviasi untuk setiap data atribut.
Menghitung Mean atau nilai rata-rata menggunakan rumus sebagai
berikut:
Nilai rata – rata = jumlah nilai
𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.4)
Sementara untuk menghitung nilai standar deviasi setiap atribut dengan
Rumus :
S = √ ∑𝑖=1
𝑛 (𝑥𝑖−𝑥)²
𝑛−1 (3.5)
b. Menghitung probabilitas kategori kelas untuk atribut duration. Tabel
berikut menunjukkan probabilitas atribut duration pada kategori kelas.
Berikut merupakan hasil dari nilai probabilitas dari atribut sesuai pada tabel
pada 3.10 – 3.19.
Tabel 3.10 Hasil Probabilitas Job
Probabilitas job
Job Probabilitas
Job yes no yes No
admin. 2 1 0,666666667 0,333333333
student 0 1 0 0,333333333
management 0 1 0 0,333333333
housemaid 1 0 0,333333333 0
Jumlah 3 3 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Tabel 3.11 Hasil Probabilitas Marital
Probabilitas marital
marital Probabilitas
marital yes no yes no
married 2 2 0,666666667 0,666666667
single 0 1 0 0,333333333
divorced 1 0 0,333333333 0
Jumlah 3 3 1 1
Tabel 3.12 Hasil Probabilitas Education
Probabilitas education
education Probabilitas
education yes no yes no
university.degree 2 3 0,666666667 1
professional.course 1 0 0,333333333 0
Jumlah 3 3 1 1
Tabel 3.13 Hasil Probabilitas Default
Probabilitas default
default Probabilitas
default yes no yes no
no 3 3 1 1
Jumlah 3 3 1 1
Tabel 3.14 Hasil Probabilitas Housing
Probabilitas housing
housing Probabilitas
housing yes no yes no
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
yes 0 2 0 0,666666667
no 3 1 1 0,333333333
Jumlah 3 3 1 1
Tabel 3.15 Hasil Probabilitas Loan
Probabilitas loan
loan Probabilitas
loan yes no yes no
yes 0 1 0 0,333333333
no 3 2 1 0,666666667
Jumlah 3 3 1 1
Tabel 3.16 Hasil Probabilitas Contact
Probabilitas contact
contact Probabilitas
contact yes no yes no
cellular 2 3 0,666666667 1
telephone 1 0 0,333333333 0
Jumlah 3 3 1 1
Tabel 3.17 Hasil Probabilitas Month
Probabilitas month
month Probabilitas
month yes no yes no
nov 3 3 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Jumlah 3 3 1 1
Tabel 3.18 Hasil Probabilitas Day_of_week
Probabilitas day_of_week
day_of_week Probabilitas
day_of_week yes no yes no
wed 2 2 0,666666667 0,666666667
tue 1 1 0,333333333 0,333333333
Jumlah 3 3 1 1
Tabel 3.19 Hasil Probabilitas Poutcome
Probabilitas poutcome
poutcome Probabilitas
poutcome yes no yes no
nonexistent 1 2 0,333333333 0,666666667
success 1 1 0,333333333 0,333333333
failure 1 0 0,333333333 0
Jumlah 3 3 1 1
Berikut merupakan hasil dari nilai mean dan standar deviasi dari atribut
sesuai pada tabel 3.20– 3.30.
Tabel 3.20 Hasil Mean & Standar Deviasi Age
age
yes no
Mean 41,33333333 33,33333
Standar Deviasi 19,84781846 19,91907
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Tabel 3.21 Hasil Mean & Standar Deviasi Duration
Duration
yes no
Mean 0,002762431 0,000691
Standar Deviasi 0,479833189 0,438077
Tabel 3.22 Hasil Mean & Standar Deviasi Pdays
pdays
yes no
Mean 0,68627451 0,686275
Standar Deviasi 0,49480488 0,509078
Tabel 3.23 Hasil Mean & Standar Deviasi Campaign
campaign
yes no
Mean 1,666666667 1,666667
Standar Deviasi 0,862316499 0,912871
Tabel 3.24 Hasil Mean & Standar Deviasi Previous
Previous
yes no
Mean 0,666666667 0,666667
Standar Deviasi 0,650443636 0,660225
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Tabel 3.25 Hasil Mean & Standar Deviasi Emp.var.rate
emp.var.rate
yes no
Mean -1,1 -1,2
Standar Deviasi 1,243753624 1,191638
Tabel 3.26 Hasil Mean & Standar Deviasi Conf.price.idx
cons.price.idx
yes no
Mean 94,767 93,01633
Standar Deviasi 48,42709882 48,50122
Tabel 3.27 Hasil Mean & Standar Deviasi Conf.conf.idx
cons.conf.idx
yes no
Mean -50,8 -38,0333
Standar Deviasi 23,94342156 23,87116
Tabel 3.28 Hasil Mean & Standar Deviasi Euribor3m
Euribor3m
yes no
Mean 1,031666667 2,985333
Standar Deviasi 1,348963638 1,391309
Tabel 3.29 Hasil Mean & Standar Deviasi Nr.employed
Nr.employed
yes no
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Mean 4963,6 5136,367
Standar Deviasi 2621,060084 2621,134
c. Tabel selanjutnya yakni menunjukkan probabilitas untuk setiap kategori
pada kelas.
Tabel 3.30 Probabilitas setiap kelas
Class Probabilitas Kelas
Class yes no yes no
Jumlah 3 3 0,50 0,50
d. Menghitung probabilitas setiap kategori kelas dengan acuan nilai mean
dan standar deviasi pada halaman 3.21 – 3.30 untuk setiap atributnya.
Dengan rumus:
𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗)=1
√2𝜋𝜎 𝑒−
(𝑥𝑖−𝜇)²
2𝜎²
Data testing :
Untuk atribut Age = 36. Berdasarkan persamaan rumus 2.4:
P(Age) = 36 | kelas =Yes)
=1
√2𝜋(19,84781846) 𝑒
− (36−(41,33333)²
2(19,84781846)² = 0,01938733
P(Age) = 36| kelas = No)
=1
√2𝜋(19,91907) 𝑒
− (36 −33,3333)²
2(19,91907)² = 0,019849
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Untuk atribut Duration = 0,001381215. Berdasarkan persamaan rumus 2.4:
P(Duration) = 0,001381215 | kelas =Yes)
=1
√2𝜋(0,479833189) 𝑒
− (0,001381215 −0,002762431)²
2(0,479833189)² = 0,831415243
P(Duration) = 0,001381215 | kelas = No)
=1
√2𝜋(0,479833189) 𝑒
− (0,001381215 −0,000691)²
2(10,479833189)² = 0,910663
Untuk Pdays = 1. Berdasarkan persamaan rumus 2.4:
P(Pdays = 1 | kelas = Yes)
=1
√2𝜋(0,49480488) 𝑒
−(1−0,68627451)²
2(0,49480488)² = 0,659449848
P(Pdays = 1| kelas = No)
=1
√2𝜋(0,509078) 𝑒
−(1−0,686275)²
2(0,509078)² = 0,648123
Untuk Campaign = 1.Berdasarkan persamaan rumus 2.4:
P(Campaign = 1| kelas = Yes)
=1
√2𝜋(0,862316499) 𝑒
−(1−1,6666667)²
2(0,862316499)² = 0,343126464
P(Campaign = 1| kelas = No)
=1
√2𝜋(0,912871) 𝑒
−(1−1,666667)²
2(0,912871)² = 0,334726
Untuk Previous = 1. Berdasarkan persamaan rumus 2.4:
P(Previous = 1| kelas = Yes)
=1
√2𝜋(0,650443636) 𝑒
−(1−0,666667)²
2(0,650443636)² = 0,537863197
P(Previous = 1| kelas = No)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
=1
√2𝜋(0,660255) 𝑒
−(1−0,666667)²
2(0,660255)² = 0,531945
Untuk Emp.Var.Rate = -0,1. Berdasarkan persamaan rumus 2.4:
P(Emp.Var.Rate = -0,1| kelas = Yes)
=1
√2𝜋(1,243753624) 𝑒
−(−0,1−(−1,1)²
2(1,243753624)² = 0,232167837
P(Emp.Var.Rate = -0,1| kelas = No)
=1
√2𝜋(1,191638)𝑒
−(−0,1−(−1,2)²
2(1,191638)² = 0,218641
Untuk Cons.price.idx = 93,2. Berdasarkan persamaan rumus 2.4:
P(Cons.price.idx = 93,2| kelas = Yes)
=1
√2𝜋(48,42709882) 𝑒
−(93,2−94,767)²
2(48,42709882)² = 0,008233685
P(Cons.price.idx = 93,2| kelas = No)
=1
√2𝜋(48,50122)𝑒
−(93,2−93,01633)²
2(48,50122)² = 0,008225
Untuk Cons.conf.idx = -42. Berdasarkan persamaan rumus 2.4:
P(Cons.conf.idx = -42| kelas = Yes)
=1
√2𝜋(23,94342156) 𝑒
−(−42−(−50,8)²
2(23,94342156)² = 0,015573688
P(Cons.conf.idx = -42| kelas = No)
=1
√2𝜋(23,87116)𝑒
−(−42−(−38,0333)²
2(−38,0333)² = 0,016483
Untuk Nr.employed= 5195,8. Berdasarkan persamaan rumus 2.4:
P(Nr.employed = 5195,8| kelas = Yes)
=1
√2𝜋(2621,060084) 𝑒
−(5195,8−4963,6)²
2(2621,060084)² = 0,00015161
P(Nr.employed = 5195,8| kelas = No)
=1
√2𝜋(2621,134)𝑒
−(5195,8−5136,367)²
2(2621,134)² = 0,000152
Untuk Euribor3m = 4,663. Berdasarkan persamaan rumus 2.4:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
P(Euribor3m = 4,663 | kelas = Yes)
=1
√2𝜋(1,348963638) 𝑒
−(4,663−1,031666667)²
2(1,348963638)² = 0,007894777
P(Euribor3m = 4,663 | kelas = No)
=1
√2𝜋(1,391309)𝑒
−(4,663−2,985333)²
2(1,391309)² = 0,138597
e. Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil
dari nilai perhitungan probabilitas tiap atribut. Nilai likelihood dibagi
menjadi 2 yaitu likelihood Ya dan likelihood No.
Likelihood Yes
P(Age = 36) x P(Job = admin.) x P(Marital = married) x P(Education =
university.degree) x P(Default = no) x P(Housing = no) x P(Loan = no)
x P(Contact = cellular) x P(Month = nov) x P(Day_Of_Week = wed) x
P(Duration = 0,001381215) x P(Campaign = 1) x P(Pdays = 1) x
P(Previous = 1) x P(Poutcome = nonexistent) x P(Emp.Var.Rate = -0,1)
x P(Cons.Price.Idx=93,2) x P(Cons.Conf.Idx = -42) x P(Euribor3m =
04,663) x P(Nr.Employeed = 5195,8)
=(0,01938733)*(0,6666667)*(0,666667)*(0,666667)*(1)*(0)*(1)*(0,6
6667)*(1)*(0,66667)*(0,831415243)*(0,343126464)*(0,659449848)*(
0,537863197)*(0,333333)*(0,23216783)*(0,008233685)*(0,01557368
8)*(0,007894777)*(0,00015161)*(0,50) = 0
Likelihood No
P(Age = 36) x P(Job = admin.) x P(Marital = married) x P(Education =
university.degree) x P(Default = no) x P(Housing = no) x P(Loan = no)
x P(Contact = cellular) x P(Month = nov) x P(Day_Of_Week = wed) x
P(Duration = 0,001381215) x P(Campaign = 1) x P(Pdays = 1) x
P(Previous = 1) x P(Poutcome = nonexistent) x P(Emp.Var.Rate = -0,1)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
x P(Cons.Price.Idx=93,2) x P(Cons.Conf.Idx = -42) x P(Euribor3m =
04,663) x P(Nr.Employeed = 5195,8)
=(0,019849)*(0,3333333)*(0,666667)*(1)*(1)*(0,6666667)*(0,33333
3)*(1)*(1)*(0,66667)*(0,66667)*(0,910667)*(0,334726)*(0,648123)*(
0,531945)*(0,218641)*(0,008225)*(0,016483)*(0,138597)*(0,000152
)* (0,50) = 0,00000000000001429445
Mencari nilai probabilitas dengan menggunakan normalisasi terhadap
likelihood.
Probabilitas Yes = 0
0,0,00000000000001429445 + 0 = 0
Probabilitas No = 0,0,00000000000001429445
0,0,00000000000001429445 + 0 = 1
Hasil tersebut, terlihat bahwa nilai probabilitas tertinggi ada pada
Probabilitas Yes, hasil nilai dari kelas tersebut yakni 1 dapat
disimpulkan nasabah tidak menerima tawaran deposito.
f. Data nasabah menggunakan 3-fold cross validation. Menggunakan 5
atribut yaitu adalah duration, cons.cond.idx, nr.employed, emp.var.rate,
euribor3m dan 1 label berdasarkan perangkingan tabel 3.32 hasil
perangkingan atribut menggunakan information gain.
Tabel 3.31 Data Training sesudah dipreprocessing digunakan dalam
percobaan 3-fold
Duration Cons.Conf.Idx Nr.Employed Emp.Var.Rate Euribor3m Label
0,000690608 -42 5195,8 -0,1 4,12 0
0,000690608 -42 5195,8 -0,1 4,12 0
0,000690608 -30,1 5017,5 -3,4 0,716 0
0,004834254 -50,8 4963,6 -1,1 1,035 1
0,001381215 -50,8 4963,6 -1,1 1,03 1
0,002071823 -50,8 4963,6 -1,1 1,03 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Tabel 3.32 Data Testing sesudah sesudah dipreprocessing digunakan
dalam percobaan
Duration Cons.Conf.Idx Nr.Employed Emp.Var.Rate Euribor3m Label
0,001381215 -42 5195,8 -0,1 4,663 0
0,002071823 -50,8 4963,6 -1,1 1,035 1
0,001381215 -50,8 4963,6 -1,1 1,035 1
g. Menghitung probabilitas kategori kelas untuk atribut duration. Tabel
berikut menunjukkan probabilitas atribut duration pada kategori kelas.
Berikut merupakan hasil dari nilai probabilitas dari atribut sesuai pada
tabel 3.33
Tabel 3.33 Hasil Mean & Standar Deviasi Duration
Tabel 3.34 Hasil Mean & Standar Deviasi Nr.Employed
Nr.Employed
yes no
Mean 4963,6 5136,367
Standar Deviasi 2621,060084 2621,134
Duration
yes no
Mean 0,002762431 0,000691
Standar Deviasi 0,479833189 0,438077
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Tabel 3.35 Hasil Mean & Standar Deviasi Emp.Var.Rate
Emp.Var.Rate
yes no
Mean -1,1 -1,2
Standar Deviasi 1,243753624 1,191638
Tabel 3.36 Hasil Mean & Standar Deviasi Euribor3m
Euribor3m
yes no
Mean 1,031666667 2,985333
Standar Deviasi 1,348963638 1,391309
Tabel 3.37 Probabilitas setiap kelas
Kelas Probabilitas Kelas
Jumlah yes no yes no
3 3 3/6 3/6
Data testing 1
Untuk menghitung Duration = 0,001381215. Berdasarkan rumus 2.4:
P(Duration) = 0,001381215 | kelas =Yes)
=1
√2𝜋(0,479833189) 𝑒
− (0,001381215 −0,002762431)²
2(0,479833189)² = 0,831415243
P(Duration) = 0,001381215 | kelas = No)
=1
√2𝜋(0,479833189) 𝑒
− (10,001381215 −0,000691)²
2(10,479833189)² = 0,910663
Untuk Cons.conf.idx = -42. Berdasarkan persamaan rumus 2.4:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
P(Cons.conf.idx = -42| kelas = Yes)
=1
√2𝜋(23,94342156) 𝑒
−(−42−(−50,8)²
2(23,94342156)² = 0,015573688
P(Cons.conf.idx = -42| kelas = No)
=1
√2𝜋(23,87116)𝑒
−(−42−(−38,0333)²
2(−38,0333)² = 0,016483
Untuk menghitung Nr.Employed = 5195,8 Berdasarkan rumus 2.4:
P(Nr.employed = 5195,8| kelas = Yes)
=1
√2𝜋(2621,060084) 𝑒
−(5195,8−4963,6)²
2(2621,060084)² = 0,00015161
P(Nr.employed = 5195,8| kelas = No)
=1
√2𝜋(2621,134)𝑒
−(5195,8−5136,367)²
2(2621,134)² = 0,000152
Untuk Emp.Var.Rate = -0,1. Berdasarkan persamaan rumus 2.4:
P(Emp.Var.Rate = -0,1| kelas = Yes)
=1
√2𝜋(1,243753624) 𝑒
−(−0,1−(−1,1)²
2(1,243753624)² = 0,232167837
P(Emp.Var.Rate = -0,1| kelas = No)
=1
√2𝜋(1,191638)𝑒
−(−0,1−(−1,2)²
2(1,191638)² = 0,218641
Untuk Euribor3m = 4,663. Berdasarkan persamaan rumus 2.4:
P(Euribor3m = 4,663| kelas = Yes)
=1
√2𝜋(1,348963638) 𝑒
−(4,663−1,031666667)²
2(1,348963638)² = 0,007894777
P(Euribor3m = 4,663| kelas = No)
=1
√2𝜋(1,391309)𝑒
−(4,663−2,985333)²
2(1,391309)² = 0,138597
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil
dari nilai perhitungan probabilitas tiap atribut. Nilai likelihood dibagi
menjadi 2 yaitu likelihood Ya dan likelihood No.
Likelihood Yes
P(Duration = 0,001381215) x P(Cons.Conf.Idx = -42) x
P(Nr.Employeed = 5195,8) x P(Emp.Var.Rate = -0,1) x P(Euribor3m =
04,663)
= (0,831415243) x (0,015573688) x (0,00015161) x (0,218641) x
(0,007894777) x (0,50) = 0,0000000169425500
Likelihood No
P(Duration = 0,001381215) x P(Cons.Conf.Idx = -42) x
P(Nr.Employeed = 5195,8) x P(Emp.Var.Rate = -0,1) x P(Euribor3m =
04,663) =
= (0,910663) x (0,016483) x (0,000152) x (0,218641) x (0,138597) x
(0,50) = 0,000000034569490
Data testing 2
Untuk menghitung Duration = 0,002071823. Berdasarkan rumus 2.4:
P(Duration) = 0,002071823| kelas =Yes)
=1
√2𝜋(0,47983319) 𝑒
− (0,002071823−0,002762431)²
2(0,479833189)² = 0,8314178
P(Duration) = 0,002071823| kelas = No)
=1
√2𝜋(0,479833189) 𝑒
− (0,002071823 −0,000691)²
2(10,479833189)² = 0.9107
Untuk Cons.conf.idx = -50,8. Berdasarkan persamaan rumus 2.4:
P(Cons.conf.idx = -50,8| kelas = Yes)
=1
√2𝜋(23,94342156) 𝑒
−(−50,8−(−50,8)²
2(23,94342156)² = 0,01666187
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
P(Cons.conf.idx = -50,8| kelas = No)
=1
√2𝜋(23,87116)𝑒
−(−50,8−(−38,0333)²
2(−38,0333)² =0,01449
Untuk menghitung Nr.Employed = 4963. Berdasarkan rumus 2.4:
P(Nr.employed = 4963| kelas = Yes)
=1
√2𝜋(2621,060084) 𝑒
−(4963−4963,6)²
2(2621,060084)² = 0,00015221
P(Nr.employed = 4963| kelas = No)
=1
√2𝜋(2621,134)𝑒
−(4963−5136,367)²
2(2621,134)² = 0,00015
Untuk Emp.Var.Rate = -1,1. Berdasarkan persamaan rumus 2.4:
P(Emp.Var.Rate = -1,1| kelas = Yes)
=1
√2𝜋(1,243753624) 𝑒
−(−1,1−(−1,1)²
2(1,243753624)² = 0,32075668
P(Emp.Var.Rate = -1,1| kelas = No)
=1
√2𝜋(1,191638)𝑒
−(−1,1−(−1,2)²
2(1,191638)² = 0,33361
Untuk Euribor3m= 1,065. Berdasarkan persamaan rumus 2.4:
P(Euribor3m = 1,065 | kelas = Yes)
=1
√2𝜋(1,348963638) 𝑒
−(4,663−1,031666667)²
2(1,348963638)² = 0,29573893
P(Euribor3m = 1,065| kelas = No)
=1
√2𝜋(1,391309)𝑒
−(4,663−2,985333)²
2(1,391309)² = 0,10735
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil
dari nilai perhitungan probabilitas tiap atribut. Nilai likelihood dibagi
menjadi 2 yaitu likelihood Ya dan likelihood No.
Likelihood Yes
P(Duration = 0.002071823) x P(Cons.Conf.Idx = -50,8) x
P(Nr.Employeed = 4963) x P(Emp.Var.Rate = -1,1) x P(Euribor3m =
1,035)
= (0,83141783) x (0,01666187) x (0,00015221) x (0,32075668) x
(0,29573893) x (0,50) = 0,000000100093196
Likelihood No
P(Duration = 0.002071823) x P(Cons.Conf.Idx = -50,8) x
P(Nr.Employeed = 4963) x P(Emp.Var.Rate = -1,1) x P(Euribor3m =
1,035)
= (0,91066) x (0,01449) x (0,00015) x (0,33361) x (0,10735) x (0,50) =
0,00000003544217
Data testing 3
Untuk menghitung Duration = 0,001381215. Berdasarkan rumus 2.4:
P(Duration) = 0,001381215| kelas =Yes)
=1
√2𝜋(0,47983319) 𝑒
− (0,001381215−0,002762431)²
2(0,479833189)² = 0,83141524
P(Duration) = 0,001381215| kelas = No)
=1
√2𝜋(0,479833189) 𝑒
− (0,001381215 −0,000691)²
2(10,479833189)² = 0,91067
Untuk Cons.conf.idx = -50,8. Berdasarkan persamaan rumus 2.4:
P(Cons.conf.idx = -50,8| kelas = Yes)
=1
√2𝜋(23,94342156) 𝑒
−(−50,8−(−50,8)²
2(23,94342156)² = 0,01666187
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
P(Cons.conf.idx = -50,8| kelas = No)
=1
√2𝜋(23,87116)𝑒
−(−50,8−(−38,0333)²
2(−38,0333)² = 0,01449
Untuk menghitung Nr.Employed = 4963. Berdasarkan rumus 2.4:
P(Nr.employed = 4963| kelas = Yes)
=1
√2𝜋(2621,060084) 𝑒
−(4963−4963,6)²
2(2621,060084)² = 0,00015221
P(Nr.employed = 4963| kelas = No)
=1
√2𝜋(2621,134)𝑒
−(4963−5136,367)²
2(2621,134)² = 0,00015
Untuk Emp.Var.Rate = -1,1. Berdasarkan persamaan rumus 2.4:
P(Emp.Var.Rate = -1,1| kelas = Yes)
=1
√2𝜋(1,243753624) 𝑒
−(−1,1−(−1,1)²
2(1,243753624)² = 0,32075668
P(Emp.Var.Rate = -1,1| kelas = No)
=1
√2𝜋(1,191638)𝑒
−(−1,1−(−1,2)²
2(1,191638)² = 0,33361
Untuk Euribor3m= 1,065. Berdasarkan persamaan rumus 2.4:
P(Euribor3m = 1,065 | kelas = Yes)
=1
√2𝜋(1,348963638) 𝑒
−(4,663−1,031666667)²
2(1,348963638)² = 0,29573893
P(Euribor3m = 1,065| kelas = No)
=1
√2𝜋(1,391309)𝑒
−(4,663−2,985333)²
2(1,391309)² = 0,10735
Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil
dari nilai perhitungan probabilitas tiap atribut. Nilai likelihood dibagi
menjadi 2 yaitu likelihood Ya dan likelihood No.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Likelihood Yes
P(Duration = 0.002071823) x P(Cons.Conf.Idx = -50,8) x
P(Nr.Employeed = 4963) x P(Emp.Var.Rate = -1,1) x P(Euribor3m =
1,035)
= (0,83141524) x (0,01666187) x (0,00015221) x (0,32075668) x
(0,29573893) x (0,50) = 0,0000001000090080
Likelihood No
P(Duration = 0.002071823) x P(Cons.Conf.Idx = -50,8) x
P(Nr.Employeed = 4963) x P(Emp.Var.Rate = -1,1) x P(Euribor3m =
1,035)
= (0,91067) x (0,01449) x (0,00015) x (0,33361) x (0,10735) x (0,50) =
0,0000000354431071
h. Membandingkan nilai probabilitas setiap kelas
Dari probabilitas diatas, masing-masing nilai akan dibandingkan untuk
dicari nilai terbesarnya. Jika salah satu label memiliki nilai terbesar
maka label tersebut merupakan hasil klasifikasi untuk data testing yang
diuji. Berikut hasil klasifikasi Naive bayes dalam klasifikasi data
nasabah :
Tabel 3.38 Hasil Klasifikasi
Duration Cons.Conf.Idx Nr.Employed Emp.Var.Rate Euribor3m Label
0,001381215 -42 5195,8 -0,1 4,663 0
0,002071823 -50,8 4963,6 -1,1 1,035 1
0,001381215 -50,8 4963,6 -1,1 1,035 1
3.7 Akurasi
Proses menghitung akurasi dengan menggunakan confusion matrix,
yakni dengan menjumlahkan data yang benar dan dibagi dengan semua data
yang benar maupun yang salah dan dikalikan dengan 100%. Pada kasus
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
diatas, jumlah data testing yang digunakan adalah 3, maka perhitungan
dengan confusion matrix adalah sebagai berikut :
Tabel 3.39 Hasil Confusion Matrix
Kelas Yes No
Yes 2 0
No 0 1
= 2+1
2+1+0+0𝑥100% = 100%
Berdasarkan perhitungan dengan menggunakan confusion matrix,
hasil akurasi yang didapatkan adalah 100%.
3.8 Spesifikasi Sistem
Barikut ini adalah alat yang digunakan untuk merancang system ini :
Perangkat Keras
Laptop Asus X541U
Processor : Intel® Core™ i3-6006U CPU@ 2.0GHz
Memory : 4 GB
Hard Drive : 1TB
Perangkat Lunak
Matlab R2018b
3.9 Desain User Interface
Dalam melakukan tahap klasifikasi pada penelitian ini dibuat user
interface. User interface dibuat untuk membantu proses preprocessing,
proses klasifikasi dan proses hasil akurasi. Berikut ini merupakan halaman
utama dalam penelitian ini :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Gambar 3.5 Halaman Utama
Gambar 3.5 merupakan tampilan antar muka sistem yang terbagi
menjadi 3 macam proses yang pertama table untuk data excel,
preprocessing data, klasifikasi, dan uji data tunggal. Berikut merupakan
penjelasan dari setiap proses :
Pada halaman user interface proses pertama yaitu mengupload data
excel kemudian melakukan tahap preprocessing. Terdapat text box jumlah
ciri, sebelum melakukan tahap preprocessing user akan menginputkan
jumlah ciri yang akan digunakan. Jika user telah menginputkan jumlah ciri
maka selanjutnya akan melakukan tahap proses preprocessing.
Tahap preprocessing, pertama data tersebut akan ditransformasi
menggunakan minmax, kemudian data tersebut akan siap dipakai dan data
akan masuk keproses perhitungan menggunakan algoritma naive bayes.
Pertama cari nilai mean dan standar deviasi dari masing-masing parameter
yang merupakan data numerik kemudian cari nilai probabilistik dengan cara
menghitung jumlah data yang sesuai dari kategorikal yang sama dibagi
dengan jumlah data pada kategori tersebut. Mendapatkan nilai dalam tabel
mean dan standar deviasi dan probabilitas kemudian menghasilkan label.
Bagian ini data akan diproses mengguanakan model yang telah dibuat dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
akan menghasilkan akurasi dari sistem, data akan dipecah menjadi 3 set data
dan bergantian menjadi subset testing dan subset training. 1/3 data menjadi
data testing dan 2/3 data menjadi data training di tiap model.
Uji data tunggal, digunakan untuk menginputkan data yang akan di
klasifikasi. Pengguna dapat mengupload file berisi banyak data untuk di
klasifikasi. Tahap ini akan melakukan transformasi menggunakan minmax,
kemudian menghitung menggunakan algorima naive bayes. Jika data
berupa numerik maka akan cari nilai mean dan standar deviasi dari masing-
masing parameter bila data berupa kategorikal maka akan kemudian cari
nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari
kategorikal yang sama dibagi dengan jumlah data pada kategori dan
menghasilkan label berupa Yes atau No.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
BAB IV
HASIL DAN ANALISA
Pada bab ini menjelaskan mengenai hal-hal yang berkaitan dengan hasil
luaran sistem yang diperoleh dari proses pengolahan data pengujian yang
dilakukan.
4.1 Preprocessing
Proses transformasi data dilakukan saat data mentah diambil dari direktori
penyimpanan. Data mentah yang akan diolah adalah file data dengan format
.xlxs. Tahap transformasi data adalah semua nilai atribut baik yang bertipe
string dan numerik.
4.1.1 Data Selection
Tahap seleksi atribut penulis mencoba menghitung information gain
sebelum melakukan pereduksian atribut, penulis terlebih dahulu
mengurutkan atribut berdasarkan information gain yang dapat dilihat
pada tabel 4.1 :
Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain
No Atribut
1 Duration
2 Cons.conf.idx
3 Nr.employed
4 Emp.var.rate
5 Euribor3m
6 Pdays
7 Poutcome
8 Month
9 Previous
10 Cons.price.isd
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
11 Age
12 Contact
13 Job
14 Default
15 Campaign
16 Education
17 Marital
18 Day_of_week
19 Housing
20 Loan
Hasil pemilihan atribut yang dilakukan klasifikasi dengan
menggunakan metode Naive Bayes dengan data mentah, melakukan
beberapa percobaan dapat dilihat pada tabel 4.2 :
Tabel 4.2 Hasil Percobaan Seleksi Atribut
Percobaan Attribut Jumlah
Attribut
Akurasi
1 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week, Housing,
Loan
20 81,7276%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
2 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week, Housing
19 81,7491%
3 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week
18 81,7922%
4 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital
17 81,7222%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
5 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education
16 81,7329%
6 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign
15 81,5443%
7 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job, Default
14 82,3957%
8 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
13 81,9269%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
Previous, Cons.Price.Idx,
Age, Contact, Job
9 Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month, Previous,
Cons.Price.Idx, Age,
Contact
12 81,9269%
10 Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month, Previous,
Cons.Price.Idx, Age,
Contact, Job, Default,
Campaign, Education
11 81,539%
11 Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month, Previous,
Cons.Price.Idx,
10 81,8461%
12 Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month, Previous
9 81,8353%
13 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month
8 82,5466%
14 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
7 82,1155%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Euribor3m, Pdays,
Poutcome
15 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays
6 76,1936%
16 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate, Euribor3m
5 77,2713%
17 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate
4 76,5438%
18 Duration, Cons.Conf.Idx,
Nr.employed
3 85,9414%
19 Duration, Cons.Conf.Idx 2 79,6691%
20 Duration 1 78,4028%
Hasil pemilihan atribut yang dilakukan klasifikasi dengan
menggunakan metode Naive Bayes dengan data yang sudah di
preprocessing, melakukan beberapa percobaan dapat dilihat pada tabel 4.3:
Tabel 4.3 Hasil Percobaan Seleksi Atribut
Percobaan Attribut Jumlah
Attribut
Akurasi
1 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
20 69,1939%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week, Housing,
Loan
2 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week, Housing
19 69,21%
3 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital,
Dat_Of_Week
18 69,2047%
4 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
17 69,2532%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education, Marital
5
Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign,
Education
16 83,6405%
6 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default, Campaign
15 83,5165%
7 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job,
Default
14 83,2525%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
8 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job
13 83,3064%
9 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate, Euribor3m,
Pdays, Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact
12 82,7352%
10 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate, Euribor3m,
Pdays, Poutcome, Month,
Previous, Cons.Price.Idx,
Age, Contact, Job, Default,
Campaign, Education
11 83,6405%
11 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate, Euribor3m,
Pdays, Poutcome, Month,
Previous, Cons.Price.Idx,
10 83,5165%
12 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate, Euribor3m,
Pdays, Poutcome, Month,
Previous
9 83,2525%
13 Duration, Cons.Conf.Idx,
Nr.employed,
8 83,3064%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome, Month
14 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays,
Poutcome
7 82,7352%
15 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m, Pdays
6 83,9099%
16 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate,
Euribor3m
5 86,6419%
17 Duration, Cons.Conf.Idx,
Nr.employed,
Emp.Var.Rate
4 81,3504%
18 Duration, Cons.Conf.Idx,
Nr.employed
3 79,0441%
19 Duration, Cons.Conf.Idx 2 77,018%
20 Duration 1 76,9695%
Pada tabel 4.3 Hasil Percobaan Seleksi Atribut terlihat peningkatan
akurasi ketika dilakukan percobaan pereduksi atribut, penulis mencoba
melakukan pereduksi ulang dengan cara menghapus satu persatu setiap
atribut untuk mendapatkan hasil akurasi yang optimal. Mereduksi 15 atribut
dari 20 atribut dan menjadikan 5 atribut yang akan diolah pada penelitian
ini karena memiliki persentase pengaruh atribut optimal yaitu 86,6419%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
pada percobaan ke-16 dengan atribut Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate, Euribor3m sedangkan untuk akurasi paling
terendah yaitu 69,1939% pada percobaan ke-1 dengan atribut Duration,
Cons.Conf.Idx, Nr.employed, Emp.Var.Rate, Euribor3m, Pdays, Poutcome,
Month, Previous, Cons.Price.Idx, Age, Contact, Job, Default, Campaign,
Education, Marital, Dat_Of_Week, Housing, Loan.
Pada tabel 4.3 peneliti melakukan percobaan menggunakan data
mentah, hasil percobaan melakukan pereduksi ulang dengan cara
menghapus satu persatu setiap atribut untuk mendapatkan hasil akurasi yang
optimal. Mereduksi 17 atribut dari 20 atribut dan menggunakan 3 atribut
karena memiliki persentase pengaruh atribut yang optimal yaitu 85,94%
pada percobaan ke-18 dengan atribut Duration, Cons.Conf.Idx,
Nr.employed sedangkan untuk akurasi paling terendah yaitu 76,1936% pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
percobaan ke-15 dengan atribut Duration, Cons.Conf.Idx,
Nr.employed, Emp.Var.Rate, Euribor3m, Pdays.
Grafik hasil rata-rata akurasi pengujian pada gambar 4.1 :
Gambar 4.2 Confusion Matrix
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Akurasi
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
Attrib
ut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
5 atribut dengan akurasi optimal yang akan digunakan dan telah diseleksi sebagai
berikut :
Tabel 4.4 Hasil Data Selection
No Attribut
1 Duration
2 Cons.Conf.Idx
3 Nr.employed
4 Emp.Var.Rate
5 Euribor3m
4.2 Klasifikasi
Proses klasifikasi data sudah dalam bentuk numerik karena sudah
dilakukannya tahap transformasi dan data juga sudah melalui tahap
normalisasi. Data yang digunakan dalam proses klasifikasi sebanyak 18559
dengan 5 input dari data asli 41118, data training sebanyak 12,372 dan
testing 6,186 dengan 20 input yang memiliki 4640 data bernilai 1 atau yes
dan 13,919 data bernilai 0 atau no, dilakukannya pengurangan data untuk
meningkatkan hasil akurasi dan menyeimbangkan data pada proses
klasifikasi ini digunakan 1:3 perbandingan dari data yes dan no.
Dari hasil percobaan klasifikasi yang dilakukan dengan akurasi
86,6419% input 5, berikut hasil confusion matrix untuk 3-Fold Cross
Validation.
Tabel 4.5 Confusion matrix 1
Luaran Yes No
Yes 3892 692
No 307 1295
Akurasi = 3892 + 1295
3892 + 692 + 307 + 1295 𝑥 100% = 83.850%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
Tabel 4.6 Confusion matrix 2
Luaran Yes No
Yes 4663 298
No 522 703
Akurasi = 4663+ 703
4663 + 298 + 522 + 703 𝑥 100% = 86.744%
Tabel 4.7 Confusion matrix 3
Akurasi = 4257+ 1269
4257 + 383 + 1269 + 1269 𝑥 100% = 89.3307%
Akurasi total = 83.850+86.744+89.3307
3 𝑥 100% = 86.6419%
4.1.2 Uji Data Tunggal
Proses uji data tunggal digunakan untuk melakukan pengujian terhadap
suatu data. Data uji dimasukkan akan menghasilkan keluaran berupa kelas
hasil prediksi yaitu yes atau no. Menu uji data tunggal dapat dilihat pada
gambar 4.3 :
Luaran Yes No
Yes 4257 383
No 277 1269
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
Gambar 4.3 Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
BAB V
PENUTUP
Pada bab ini menjelaskan kesimpulan yang sudah diperoleh dari hasil
percobaan yang dilakukan. Bab ini juga menjelaskan saran perbaikan penelitian
untuk yang akan datang.
5.1 Kesimpulan
Hasil penelitian klasifikasi nasabah yang berpotensi menerima tawaran
deposito menggunakan algoritma Naive Bayes dapat disimpulkan :
1. Algoritma Naive Bayes dapat diterapkan untuk memprediksi data
nasabah yang berpotensi membuka simpanan deposito.
2. Pengujian yang dilakukan terhadap 18559 data menggunakan 3-fold
cross validation menghasilkan tingkat keakuratan sebesar 86,6419%
pada atribut Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,
Euribor3m. Hasil ini dapat disimpulkan bahwa sistem ini dapat
mampu dalam menerapkan metode tersebut, sistem ini juga dapat
melakukan prediksi nasabah yang berpotensi menerima tawaran
deposito dengan akurasi yang cukup optimal.
5.2 Saran
Saran untuk mengembangkan penelitian yang akan datang yaitu :
1. Sistem ini dapat juga dikembangkan dengan menggunakan metode
yang lain.
2. Program dapat menerima masukan file bertipe lain tidak hanya
bertipe file xlsx.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
DAFTAR PUSTAKA
Bustami., 2013, Penerapan Algoritme Naive Bayes Untuk Mengklasifikasi
Data Nasabah Asuransi, TECHSI : Jurnal Penelitian Teknik Informatika,
Vol. 3, No.2, Hal. 127-146.
Febriani, F. (2019). Prediksi Nasabah Yang Berpotensi Membuka Simpanan
Deposito Menggunakan Metode Decision Tree Dengan Penerapan
Algoritme C4.5. Yogyakarta: Universitas Sanata Dharma.
Han, Jiawei, dkk. (2012) Data mining : Concepts and Techniques 3rd Edition.
San Fransisco : Morgan Kaufmann Publishers.
Kusrini dan Luthfi, E.T.(2009). Algoritme Data Mining. Yogyakarta: ANDI.
Manalu dkk (2017). Penerapan Algoritme Naive Bayes Untuk Memprediksi
Jumlah Produksi Barang Berdasarkan Data Persediaan Dan Jumlah
Pemesanan Pada CV. Papadan Mama Pastrie, ISSN 2088-3943, Vol. 1,
No 2, Hal 17-20.
Pattekari, S. A., Parveen, A., 2012, Prediction System for Heart Disease
Using Naive Bayes, International Journal of Advanced Computer and
Mathematical Sciences, ISSN 2230-9624, Vol. 3, No 3, Hal 290-294.
Putri, R. M. Y. (2019). Klasifikasi Data Nasabah Berpotensi Terkena Kredit
Macet Dengan MEnggunakan Metode Naive Bayes. Yogyakarta:
Universitas Sanata Dharma.
Simontika, Y. R. (2014). Penerapan Algoritme Naive Bayes untuk prediksi
lama studi mahasiswa pada jurusan sistem informasi sekolah tinggi
manajemen informatika dan komputer (STMIK) Kadiri. Kediri:
Universitas Nusantara PGRI Kediri.
Siahaan, O. D (2016). Pendekatan Kesamaan Semantik dan Struktur
Dalam Kasus Penggunaan Untuk Mendapatkan Kembali Spesifikasi
Kebutuhan Perangkat Lunak. Surabaya : Institut Teknologi Sepuluh
November.
Taek, R. D. M. C. (2019). Found Detection Pada Transaksi Perbankan
Menggunakan Algoritma C4.5. Yogyakarta : Universitas Sanata Dharma.
Tamara, L. A. (2018). Klasifikasi Data Nasabah Yang Berpotensi Membuka
Simpanan Deposito Menggunakan Algoritme Rough Set. Yogyakarta :
Universitas Sanata Dharma.
Zega, dkk (2019). Prediksi Rating Film Animasi Berdasarkan Elemen Mise
En Scene Menggunakan Neural Network. Batam : Universitas Politeknik
Negri Batam.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
LAMPIRAN
Source code program.
1. Source Code Transformasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
2. Source Code Normalisasi Min Max
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
3. Source Code Klasifikasi Naïve Bayes
a. Naïve Bayes untuk atribut Kategorikal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
b. Naïve Bayes untuk atribut Numerikal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
4. Source Code 3-Fold
5. GUI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI