PENERAPAN ALGORITME NAIVE BAYES UNTUK KLASIFIKASI … · Rumus 3.5 Menghitung Standar Deviasi ..... 31 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang

PENERAPAN ALGORITME NAIVE BAYES UNTUK KLASIFIKASI

DATA NASABAH YANG BERPOTENSI MEMBUKA SIMPANAN

DEPOSITO

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Informatika

Oleh :

Paulina Mangande

165314098

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

CLASSIFICATION OF COSTUMER DATA THAT POTENTIALS TO

OPEN DEPOSITS USING NAIVE BAYES ALGORITHM

THESIS

Present as Partial Fulfillment of the Requirement

To Obtain Sarjana Komputer Degree

In Informatics Study Program

By :

Paulina Mangande

165314098

INFORMATICS STUDY PROGRAM

DEPARTMENT OF INFORMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


iv

HALAMAN PERSEMBAHAN

Lakukanlah kewajibanmu dengan setia terhadap TUHAN, Allahmu,

dengan hidup menurut jalan yang ditunjukkan-Nya, dan dengan tetap mengikuti

segala ketetapan, perintah, peraturan dan ketentuan-Nya, seperti yang tertulis

dalam hukum Musa, supaya engkau beruntung dalam segala yang kaulakukan dan

dalam segala yang kautuju,

- 1 Raja-raja 2:3 -

Skripsi ini kupersembahkan buat :

TUHAN YESUS KRISTUS

Keluargaku

Sahabat dan Teman-temanku


vii

ABSTRAK

Deposito merupakan simpanan pihak lain pada bank yang penarikannya

hanya dilakukan pada waktu tertentu menurut perjanjian antara penyimpanan

dengan bank yang bersangkutan. Jatuh tempo deposito umumnya terdiri dari 1

bulan, 3 bulan, 6 bulan, atau 12 bulan. Deposito bisa menjadi alternatif bagi nasabah

karena deposito memiliki jangka waktu, tetapi menjadi pertimbangan nasabah

untuk memilih deposito adalah bunga karena bunga yang ditawarkan dideposito

lebih tinggi daripada tabungan biasa. Jika nasabah mengambil dana yang disimpan

sebelum waktunya maka akan terkena denda, sedangkan apabila nasabah

menyimpan uang semakan lama dalam bentuk deposito maka semakin besar bunga

yang ditawarkan.

Para nasabah berasal dari latar belakang yang berbeda-beda antara lain

umur, pekerjaan, pendidikan, status, dan lain sebagainya. Data nasabah tersebut

biasanya hanya disimpan dalam database saja dan belum dimanfaatkan untuk

memperoleh informasi tentang nasabah yang berpotensi membuka deposito. Salah

satu algortima yang dapat diterapkan adalah algoritma Naive Bayes.

Pada penelitian ini algoritma Naive Bayes untuk mengklasifikasikan data

nasabah-nasabah yang berpotensi menerima tawaran simpanan deposito

menggunakan dataset bagian marketing sebuah bank di Portugal. Data yang dipakai

memiliki 20 atribut dan 1 label. Pada saat proses data selection, penulis

menggunakan metode information gain dan dibandingkan dengan pereduksian

atribut secara manual yang dilakukan oleh penulis untuk mencari yang paling

berpengaruh terhadap proses klasifikasi data nasabah yang berpotensi menerima

tawaran deposito dari hasil tersebut didapatlah atribut yang digunakan pada proses

klasifikasi yaitu : Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,

Euribor3m.

Pengujian yang dilakukan terhadap 18559 dari 41188 data menggunakan 3-

fold cross validation menghasilkan tingkat keakuratan sebesar 86,6419%.

Kata kunci : Algoritma Naive Bayes, data mining, Deposito


viii

ABSTRACT

Deposits are deposits of other parties at banks whose withdrawals are only

made at a certain time according to the agreement between the deposit with the bank

concerned. Maturity deposits generally consist of 1 month, 3 months, 6 months, or

12 months. Deposits can be an alternative for customers because they have a time

period, but the consideration of customers to choose deposits is interest because the

interest offered is higher than regular savings. If the customer takes the funds

deposited prematurely it will incur a fine, whereas if the customer saves old deposits

in the form of deposits the greater the interest offered.

Clients come from different backgrounds including age, occupation,

education, status, and so on. Customer data is usually only stored in a database and

has not been used to obtain information about customers who have the potential to

open deposits. One algorithm that can be applied is the Naive Bayes algorithm .

In this study the Naive Bayes algorithm is used to classify data on customers

who have the potential to accept deposits savings offers using the marketing section

dataset of a bank in Portugal. The data used has 20 attributes and 1 label. When the

data selection process , the authors used the information gain method and compared

with the reduction of attributes manually carried out by the author to find the most

influential on the classification process of customer data that has the potential to

accept deposits from these results obtained attributes used in the classification

process, namely : Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,

Euribor3m.

Tests conducted on 18559 of 41188 data using 3- fold cross validation

resulted in an accuracy level of 86,6419%

Keywords : Naive Bayes Algorithm , data mining, Deposits


xi

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING SKRIPSI ................................ ii

HALAMAN PENGESAHAN ........................................................................... iii

HALAMAN PERSEMBAHAN ........................................................................ iv

PENYATAAN KEASLIAN KARYA ................................................................ v

LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA

ILMIAH UNTUK KEPENTINGAN AKADEMIS .......................................... vi

ABSTRAK ........................................................................................................ vii

ABSTRACT .................................................................................................... viii

KATA PENGANTAR ....................................................................................... ix

DAFTAR ISI ..................................................................................................... xi

DAFTAR GAMBAR ....................................................................................... xiii

DAFTAR TABEL ........................................................................................... xiv

DAFTAR RUMUS ......................................................................................... xvii

BAB 1 PENDAHULUAN................................................................................... 1

1.1 Latar Belakang Masalah ..................................................................... 1

1.2 Rumusan Masalah ............................................................................... 3

1.3 Tujuan Penelitian................................................................................. 3

1.4 Batasan Masalah .................................................................................. 3

1.5 Manfaat Penelitian ............................................................................... 3

1.6 Sistematika Penulisan .......................................................................... 4

BAB II LANDASAN TEORI ............................................................................. 5

2.1 Deposito ................................................................................................ 5

2.2 Penambangan Data .............................................................................. 5

2.2.1 Pengertian Penambangan data .................................................... 5

2.2.2 Proses Penambangan Data ........................................................... 7

2.3 Naive Bayes ........................................................................................... 8


xii

2.4 Persamaan Metode Naive Bayes .......................................................... 9

2.5 Information Gain ................................................................................ 10

2.6 Normalisasi Min Max ........................................................................ 12

2.7 RANDOM UNDER SAMPLING ........................................................ 12

2.8 Cross Validation.................................................................................. 13

2.9 Akurasi dengan Matrtiks Confusion. ................................................. 14

BAB III METODOLOGI PENELITIAN ....................................................... 15

3.1 Data .................................................................................................... 15

3.2 Desain Alat Uji ................................................................................... 18

3.3 Data Selection ..................................................................................... 22

3.4 Data Transfromasi ............................................................................. 23

3.5 Data Testing dan Data Training ......................................................... 29

3.6 Pemodelan dengan Algoritma Naive Bayes ....................................... 29

3.7 Akurasi ............................................................................................... 49

3.8 Spesifikasi Sistem ............................................................................... 50

3.9 Desain User Interface ........................................................................ 50

BAB IV HASIL DAN ANALISA ..................................................................... 53

4.1 Preprocessing ..................................................................................... 53

4.1.1 Data Selection ............................................................................. 53

4.2 Klasifikasi ........................................................................................... 65

4.1.2 Uji Data Tunggal................................................................................ 66

BAB V PENUTUP ........................................................................................... 68

5.1 Kesimpulan ........................................................................................ 68

5.2 Saran .................................................................................................. 68

DAFTAR PUSTAKA ....................................................................................... 69

LAMPIRAN ..................................................................................................... 70


xiii

DAFTAR GAMBAR

Gambar 3.1 Diagram Blok ............................................................................... 18

Gambar 3.2 Diagram Flowchart Sistem ............................................................ 20

Gambar 3.3 Diagram Flowchart Uji Data Tunggal ........................................... 21

Gambar 3.4 Hasil Perangkingan Atribut Menggunakan Information

Gain Pada Weka .............................................................................................. 22

Gambar 3.5 Halaman Utama ............................................................................ 51

Gambar 4.1 Grafik Akurasi Rata-rata ............................................................... 64

Gambar 4.2 Confusion Matrix .......................................................................... 64

Gambar 4.3 Uji Data Tunggal .......................................................................... 67


xiv

DAFTAR TABEL

Tabel 2.1 Confusion Matrix ............................................................................. 14

Tabel 3.1 Data Atribut Nasabah ....................................................................... 15

Tabel 3.2 Contoh Data .................................................................................... 17

Tabel 3.3 Tabel Transfromasi Batas Interval untuk atribut duration ................. 25

Tabel 3.4 Tabel Transfromasi Batas Interval untuk atribut pdays ..................... 26

Tabel 3.5 Contoh dataset sebelum data di transformasi dan dinormalisasi ........ 27

Tabel 3.6 Contoh dataset setelah data di transformasi dan dinormalisasi .......... 28

Tabel 3.7 Nilai Target Output .......................................................................... 29

Tabel 3.8 Pembagian 3-fold cross validation .................................................... 29

Tabel 3.9 Data nasabah sesudah dipreprocessing digunakan dalam percobaan .. 30

Tabel 3.10 Hasil Probabilitas Job ..................................................................... 31

Tabel 3.11 Hasil Probabilitas Marital ............................................................... 32

Tabel 3.12 Hasil Probabilitas Education ........................................................... 32

Tabel 3.13 Hasil Probabilitas Default ............................................................... 32

Tabel 3.14 Hasil Probabilitas Housing ............................................................. 32

Tabel 3.15 Hasil Probabilitas Loan................................................................... 33

Tabel 3.16 Hasil Probabilitas Contact .............................................................. 33

Tabel 3.17 Hasil Probabilitas Month ................................................................ 33

Tabel 3.18 Hasil Probabilitas Day_Of_Week ................................................... 34

Tabel 3.19 Hasil Probabilitas Poutcome ........................................................... 34

Tabel 3.20 Hasil Mean & Standar Deviasi Age ................................................ 34


xv

Tabel 3.21 Hasil Mean & Standar Deviasi Duration ......................................... 35

Tabel 3.22 Hasil Mean & Standar Deviasi Pdays ............................................. 35

Tabel 3.23 Hasil Mean & Standar Deviasi Campaign ....................................... 35

Tabel 3.24 Hasil Mean & Standar Deviasi Previous ......................................... 35

Tabel 3.25 Hasil Mean & Standar Deviasi Emp.Var.Rate ................................. 36

Tabel 3.26 Hasil Mean & Standar Deviasi Conf.Price.Idx ................................ 36

Tabel 3.27 Hasil Mean & Standar Deviasi Conf.Conf.Idx ................................ 36

Tabel 3.28 Hasil Mean & Standar Deviasi Euribor3m ...................................... 36

Tabel 3.29 Hasil Mean & Standar Deviasi Nr.Employed .................................. 36

Tabel 3.30 Hasil Probabilitas Kelas .................................................................. 37

Tabel 3.31 Data Training sesusah dipreprocessing digunakan dalam percobaan 3-

fold .................................................................................................................. 41

Tabel 3.32 Data Testing sesudah dipreprocessing digunakan dalam percobaan 3-

fold .................................................................................................................. 42

Tabel 3.33 Hasil Mean & Standar Deviasi Duration ......................................... 42

Tabel 3.34 Hasil Mean & Standar Deviasi Nr.Employed .................................. 42

Tabel 3.35 Hasil Mean & Standar Deviasi Emp.Var.Rate ................................. 43

Tabel 3.36 Hasil Mean & Standar Deviasi Euribor3m ...................................... 43

Tabel 3.37 Probabilitas Setiap Kelas ................................................................ 43

Tabel 3.38 Hasil Klasifikasi ............................................................................. 49

Tabel 3.39 Hasil Confusion Matrix .................................................................. 50

Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain ....................... 53

Tabel 4.2 Hasil Percobaan Seleksi Atribut ....................................................... 54


xvi

Tabel 4.3 Hasil Percobaan Seleksi Atribut data mentah .................................... 58

Tabel 4.4 Hasil Data Selection ........................................................................ 65

Tabel 4.5 Confusion Matrix 1 .......................................................................... 65

Tabel 4.6 Confusion Matrix 2 ........................................................................... 66

Tabel 4.7 Confusion Matrix 3 .......................................................................... 66


xvii

DAFTAR RUMUS

Rumus 2.1 Persamaan teorema Naïve Bayes ...................................................... 9

Rumus 2.2 Metode Naïve Bayes ....................................................................... 9

Rumus 2.3 Persamaan Metode Naïve Bayes .................................................... 10

Rumus 2.4 Densitas Gauss .............................................................................. 10

Rumus 2.5 Nilai Probabilitas kategori ............................................................. 10

Rumus 2.6 Information Gain (Han, dkk,2012).................................................. 11

Rumus 2.7 Information Gain ........................................................................... 11

Rumus 2.8 Information gain untuk mengukur efektifitas suatu atribut dalam

pengklasifikasian data ..................................................................................... 11

Rumus 2.9 Normalisasi Min Max ..................................................................... 12

Rumus 2.10 Nilai Akurasi ................................................................................ 14

Rumus 3.1 Nilai Jangkauan Atribut .................................................................. 23

Rumus 3.2 Jumlah Kelas Interval ..................................................................... 24

Rumus 3.3 Panjang Interval Atribut ................................................................. 24

Rumus 3.4 Menghitung Mean .......................................................................... 31

Rumus 3.5 Menghitung Standar Deviasi .......................................................... 31


1

BAB 1

PENDAHULUAN

1.1 Latar Belakang Masalah

Bank merupakan lembaga keuangan berfungsi sebagai perantara

keuangan antara pihak yang kelebihan dana dan pihak yang kekurangan dana.

Melalui bank yang berkelebihan dana tersebut dapat disalurkan kepada pihak-

pihak yang membutuhkan dan memberikan manfaat bagi kedua belah pihak.

Menurut Undang-Undang Republik Indonesia Nomor 10 Tahun

1998 tentang perbangkan, dijelaskan bahwa bank adalah suatu badan usaha

yang menghimpun dana dari masyarakat dalam bentuk simpanan dan

menyalurkan kepada masyarakat dalam bentuk kredit atau bentuk lainnya

dalam meningkatkan taraf hidup masyarakat. Umumnya bank sendiri

membutuhkan dana tambahan dari berbagai pihak diantaranya dari para

nasabah yang dapat digunakan sebagai sumber dana yang berupa nama

rekening giro, tabungan dan deposito.

Deposito merupakan simpanan pihak lain pada bank yang

penarikannya hanya dilakukan pada waktu tertentu menurut perjanjian antara

penyimpanan dengan bank yang bersangkutan. Jatuh tempo deposito

umumnya terdiri dari 1 bulan, 3 bulan, 6 bulan, atau 12 bulan. Deposito bisa

menjadi alternatif bagi nasabah karena deposito memiliki jangka waktu, tetapi

menjadi pertimbangan nasabah untuk memilih deposito adalah bunga karena

bunga yang ditawarkan dideposito lebih tinggi daripada tabungan biasa. Jika

nasabah mengambil dana yang disimpan sebelum waktunya maka akan

terkena denda, sedangkan apabila nasabah menyimpan uang semakan lama

dalam bentuk deposito maka semakin besar bunga yang ditawarkan.

Salah satu dana tambahan dari nasabah yang digunakan sebagai

sumber dana adalah deposito. Para nasabah berasal dari latar belakang yang

berbeda-beda antara lain umur, pekerjaan, pendidikan, status, dan lain


2

sebagainya. Data nasabah tersebut biasanya hanya disimpan dalam database

saja dan belum dimanfaatkan untuk memperoleh informasi tentang nasabah

yang berpotensi membuka deposito. Permasalahannya adalah bagaimana

dapat mengolah data nasabah yang potensial membuka deposito.

Data nasabah yang potensial membuka deposito dapat membantu

bank dalam mempertahankan nasabah, meningkatkan pemasaran langsung

dan menentukan target pemasaran. Penentuan target pemasaran didasarkan

pada data nasabah yang telah di klasifikasi. Harapannya, bank dapat

memprediksi nasabah-nasabah yang potensial membuka tawaran deposito

dengan menggunakan data-data nasabah sehingga menemukan suatu pola

yang biasa disebut proses data mining atau penambangan data. Metode yang

digunakan untuk mengklasifikasi suatu kumpulan data adalah naive bayes.

Metode yang dapat digunakan untuk mengklasifikasi dalam kumpulan

data dari website UCI Repository Machine Learning.(Febianto, 2019) telah

meneliti tentang klasifikasi data nasabah yang berpotensi membuka simpanan

deposito dengan menggunakan algoritme Backpropagation. Hasil dari

penelitian tersebut memiliki akurasi 82,19%. Peneliti tentang klasifikasi data

nasabah berpotensi terkena kredit macet dalam pembayaran tagihan kartu

kredit di bank swasta di Yogyakarta dengan menggunakan metode Naive

Bayes. Hasil dari penelitian tersebut memiliki akurasi 77,28% (Putri,2019).

Berdasarkan uraian tersebut, penulis tertarik melakukan penelitian

tentang penerapan Algoritme Naive Bayes untuk Klasifikasi Data Nasabah

yang Berpotensi Membuka Simpanan Deposito. Data yang digunakan dalam

penelitian ini berasal dari website UCI Repository Mechine Learning.

Penerapan data tersebut menggunakan metode Naive Bayes diharapkan

mampu mendapatkan hasil klasifikasi yang berguna untuk mengetahui

nasabah yang akan berpotensi membuka simpanan deposito.


3

1.2 Rumusan Masalah

1. Bagaimana menerapkan algoritme naive bayes untuk klasifikasi data

nasabah yang membuka simpanan deposito?

2. Berapa akurasi dari algoritme naive bayes untuk klasifikasi data

nasabah yang berpotensi membuka simpanan deposito?

3. Atribut mana saja yang berpengaruh dalam membuka simpanan

deposito?

1.3 Tujuan Penelitian

1. Membangun sistem yang dapat menghasilkan knowledge

(pengetahuan) bagi bank tentang klasifikasi data nasabah yang

berpotensi membuka simpanan deposito.

2. Mengetahui akurasi dari algoritme naive bayes dalam melakukan

klasifikasi data nasabah yang membuka simpanan deposito.

3. Menentukan atribut-atribut yang berpengaruh terhadap akurasi.

1.4 Batasan Masalah

1. Data set yang digunakan adalah data publik yang didapatkan pada

website UCI Repository Mechine Learning yang berjudul “Bank

Marketing Data Set”.

2. Implementasi sistem menggunakan Matlab.

1.5 Manfaat Penelitian

1. Membantu pihak bank dalam klasifikasi data nasabah yang

berpotensi membuka simpanan deposito.

1.6 Sistematika Penulisan

BAB 1 PENDAHULUAN

Bab ini menguraikan tentang latar belakang, rumusan masalah,

batasan masalah, tujuan penelitian dan sistematika penulisan.


4

BAB II LANDASAN TEORI

Bab ini membahas tentang dasar teori yang digunakan untuk

membangun sistem.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang metodologi penelitian yang digunakan pada

penelitian ini yang terdiri dari tahap perancangan dan pengumpulan

data, metode pengembangan sistem, kebutuhan perangkat lunak dan

perangkat keras.

BAB IV ANALISIS DAN PEMBAHASAN

Bab ini berisi tentang analisis hasil yang diperoleh dari pengujian

yang dilakukan.

BAB V PENUTUP

Bab ini berisi tentang kesimpulan dan saran dari keseluruhan

penulisan tugas akhir.


5

BAB II

LANDASAN TEORI

Bab ini dijelaskan teori yang akan digunakan untuk mendukung penelitian

tugas akhir dalam klasifikasi data nasabah berpotensi membuka deposito. Teori-

teori yang digunakan pada bab ini adalah mengenai bank, deposito, penambangan

data dan naive bayes.

2.1 Deposito

Deposito merupakan prosuk yang ditawarkan olah bank kepada

masyarakat sejenis dengan jasa tabungan yang dijamin pemerintah melalui

Lembaga Penjamin Simpanan (LPS) dengan persyaratan tertentu. Deposito

juga berarti penyimpanan uang di bank dengan sistem penyetoran yang

penarikannya hanya dapat dilakukan pada waktu tertentu (Febianto, 2019)

2.2 Penambangan Data

2.2.1 Pengertian Penambangan data

Penambangan data (data mining) adalah proses untuk menggali nilai

tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak

diketahui secara manual. (Kusrini&Luthfi, 2006).

Istilah data mining dan knowledge discovery in database (KDD)

sering digunakan secara bergantian untuk menjelaskan proses penggalian

informasi tersembunyinya dalam suatu basis data yang besar. Sebenarnya

kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu

sama lain. Salah satu tahapan dalam keseluruhan proses KDD adalah data

mining (Han, Jiawei, dkk. 2012)


6

Proses KDD terdiri dari 7 tahap yaitu :

1. Pembersihan data (data cleaning)

Tahap data cleaning dilakukan untuk membersihkan noise dan data

yang inkosisten pada umumnya di tahap ini juga dilakukan

pembersihan data missing values namun data set yang digunakan pada

penelitian ini tidak mengandung missing value.

2. Integrasi data (data integration)

Tahap ini akan dilalukan penggabungan data. Data dari bermacam-

macam tempat penyimpanan data akan digabungkan ke dalam suatu

tempat penyimpanan data yang koheren.

3. Seleksi data (data selection)

Pemilihan (seleksi) adalah proses memilih data atau atribut yang

relavan. Pada tahap ini dilakukan analisis korelasi atribut data.

Atribut-atribut data tersebut dicek apakah relavan atau dilakukan

penambangan data.

4. Transformasi data (data transformation)

Transformasi adalah proses yang dilakukan untuk mengubah bentuk

data menjadi bentuk yang sesuai untuk digunakan. Proses ini dilakkan

untuk mengubah data di atribut yang belum numeric menjadi data

numerik.

5. Penambangan data (data mining)

Data mining adalah proses mencari pola atau infromasi menarik

dalam data terpilih dengan menggunakan teknik atau metode tertentu.


7

6. Evaluasi Pola (pattern evaluation)

Dalam tahap ini hasil dari teknik data mining berupa pola yang khas

maupun model prediksi dievaluasi untuk menilai apakah hipotesa

yang ada memang tercapai.

7. Presentasi pengetahuan (knowledge presentation)

Pada langkah ini informasi yang sudah ditambang akan

divisualisasikan dan direpresentasikan kepada pengguna. Langkah 1

sampai 4 merupakan langkah praproses data dimana data akan

disiapkan terlebih dahulu selanjutnya dilakukan penambangan

2.2.2 Proses Penambangan Data

Penambangan data dibagi menjadi bebrapa kelompok berdasarkan

tugas yang dilakukan, yaitu mining (Kusrini & Luthfi,2009) :

1. Deskripsi

Deskripsi bertujuan mengidentifikasi pola kecenderungan sering

memberikan kemungkinan penjelasan suatu pola atau

kecenderungan.

2. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali

bahwa dalam predikasi nilai dari hasil akan ada di masa mendatang.

Contoh, prediksi harga beras dalam tiga bulan yang akan datang.

3. Estimasi

Estimasi hampir mirip dengan klasifikasi, kecuali variabel target

estiminasi lebih kearah numerik daripada ke arah kategori. Contoh,

nilai indeks prestasi kumulatif mahasiswa program pascasarjana

dengan melihat nilai indeks prestasi mahasiswa tersebut pada saat

mengikuti program sarjana.


8

4. Klasifikasi

Klasifikasi adalah proses penemuan model yang menjelaskan atau

membedakan konsep atau kelas data, dengan tujuan dapat

memperkirakan kelas dari suatu objek yang labelnya belum

diketahui. Contoh, Menentukan apakah suatu transaksi kartu kredit

merupakan transaksi yang curang atau bukan.

5. Pengelompokan (clustering)

Clustering digunakan untuk menghasilkan label kelas untuk

sekelompok data. Berbeda dengan klasifikasi yang menganalisa

dari label kelas yang sudah ditemukan diawal.

6. Asosiasi

Dalam penambangan data, asosiasi digunakan untuk menemukan

aturan atribut yang muncul dalam suatu waktu, dan mengukur

hubungan antara dua atau lebih atribut.

2.3 Naive Bayes

Naive Bayes merupakan sebuah pengklasifikasian probabilistik

sederhana dengan menghitung sekumpulan probabilitas dengan

menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan.

Algoritme menggunakan teorema Bayes dan mengasumsikan semua atribut

independen atau tidak saling ketergantungan yang diberikan oleh nilai pada

variabel kelas (Manalu dkk, 2017).

Naive Bayes merupakan sebuah metode untuk klasifikasi yang

diciptakan oleh Thomas Bayes, yaitu mempredikasi peluang di masa depan

berdasarkan pengalaman di masa sebelumnya (Bustami, 2013). Naive bayes

merupakan metode yang membutuhkan jumlah data pelatihan (training

data) yang kecil untuk menentukan estimasi parameter yang diperlukan

dalam proses pengklasifikasian. Naive bayes sering bekerja jauh lebih baik


9

dalam kebanyakan situasi dunia nyata yang kompleks dari pada yang

diharapkan (Pattekari & Parveen, 2012).

2.4 Persamaan Metode Naive Bayes

Persamaan teorema Bayes adalah :

P(H |X)=𝑃(𝑋 |𝐻).𝑃(𝐻)

𝑃(𝑋) (2.1)

Keterangan :

𝑋 : Data dengan class yang belum diketahui.

𝐻 : Hipotesis data merupakan suatu class spesifik.

𝑃(𝐻 | 𝑋) :Probabilitas hipotesis H berdasarkan kondisi X (probabilitas

posterior)

𝑃(𝑋|𝐻) : Probabilitas berdasarkan kondisi pada hipotesis.

𝑃(𝐻) : Probabilitas hipotesis H (probabilitas prior).

𝑃(𝑋) : Probabilitas X.

Proses klasifikasi memerlukan sejumlah petunjuk untuk

menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut.

Oleh karena itu, Metode Naive Bayes diatas disesuaikan sebagai berikut :

P(C|F1...Fn) = 𝑃(𝐶)𝑃(𝐹1…𝐹𝑛|C)

𝑃(𝐹1…𝐹n) (2.2)

Variabel C mempresentasikan kelas, sementara variabel

𝐹1 … 𝐹𝑛 mempresentasikan karakteristik petunjuk yang dibutuhkan untuk

melakukan klasifikasi. Maka rumus 2.2 tersebut menjelaskan bahwa

peluang terjadinya kelas C (posterior probability) adalah peluang

munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut

prior), dikali dengan peluang kemunculan karakteristik-karakteristik

sampel pada kelas C (likelihood) dibagi dengan peluang kemunculan

karakteristik-karakteristik sampel secara global (disebut juga evidence).


10

Oleh karena itu rumus 2.2 di atas dapat ditulis secara sederhana sebagai

berikut :

𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑦 = 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑥 𝑝𝑟𝑖𝑜𝑟

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)

Apabila data yang digunakan adalah data kontinu maka perhitungan

klasifikasi menggunakan rumus Densitas Gauss :

𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗)=1

√2𝜋𝜎𝑒−

(𝑥𝑖−𝜇)²

2𝜎² (2.4)

Keterangan :

𝑃 : Peluang

𝑋𝑖 ∶ Atribut ke 𝑖

𝑥𝑖 ∶ Nilai atribut 𝑖

𝑌 ∶ Kelas yang dicari

𝑦𝑖 ∶ Sub kelas 𝑌 yang dicari

μ ∶ Mean, menyatakan rata − rata seluruh atribut

σ ∶ Deviasi standar, menyatakan varian dari seluruh atribut

Nilai Likelihood diperoleh dengan cara mengalikan peluang atribut xi

dengan nilai probabilitas kategori seperti pada rumus 2.5

𝑃(𝑋1) 𝑥 𝑃(𝑋2) 𝑥 𝑃(𝑋3) … . 𝑃(𝑋𝑛) 𝑥 Nilai Probabilitas kategori … (2.5)

2.5 Information Gain

Proses seleksi atribut pada penelitian ini dilakukan menggunakan

Weka Tools 3.8.3. Dalam melakukan seleksi atribut, peneliti melakukan

eksperimen menggunakan metode information gain. Perhitungan


11

information gain dapat dilakukan dengan menggunakan rumus di

bawah ini (Han , dkk, 2012):

Info (D)=-∑𝑙=1𝑚 pi log2(pi) (2.6)

Keterangan rumus :

𝐷 : Jumlah seluruh sampel data

𝑚 : Jumlah nilai pada atribut target (jumlah kelas klasifikasi)

𝑖 : Maksimal nilai pada atribut target

𝑝𝑖 : Jumlah sampel untuk kelas i

Info X(D)=-∑𝑗=1𝑣

|𝐷𝑗|

𝐷 x info(Di) (2.7)

Keterangan rumus :

𝑥 : Atribut

𝑣 : Suatu nilai yang mungkin untuk atribut A

𝑗 : Maksimal nilai yang mungkin untuk atribut A

𝐷 : Jumlah seluruh sampel data

|𝐷𝑗| ∶ Jumlah sampel untuk nilai 𝑗

𝐷𝑖 ∶ Jumlah sampel untuk kelas i

Kemudian nilai information gain yang digunakan untuk mengukur

efektifitas suatu atribut dalam pengklasifikasian data dapat dihitung dengan

rumus dibawah ini :

𝐺𝑎𝑖𝑛(𝑋) = |𝐼𝑛𝑓𝑜(𝐷) – 𝐼𝑛𝑓𝑜 𝑋(𝐷)| (2.8)

Keterangan :

𝑋 : Atribut

𝐼𝑛𝑓𝑜(𝐷) : Entropi untuk kelas D


12

𝐼𝑛𝑓𝑜 𝑋(𝐷) : Entropi untuk kelas D pada atribut X

Tahap berikutnya adalah tahap seleksi atribut. Tahap ini dilakukan

untuk mengetahui atribut mana yang berpengaruh dan seberapa persen

pengaruh dan akurasinya. Penulis melakukan percobaan menggunakan

Weka untuk menghilangkan satu persatu atribut yang sudah di rangking.

Penulis menarik kesimpulan atribut mana saja yang berpengaruh.

2.6 Normalisasi Min Max

Normalisasi merupakan salah satu strategis transformasi data.

Normalisasi data dilakukan untuk mencegah jarak antar data yang terlalu

jauh. Misalkan minX dan MaxX adalah nilai minimum dan maksimum

atribut X, maka normalisasi Min-Max akan menghasilkan nilai baru yaitu

Ndata dalam kisaran [minX baru, maks baru], seperti pada rumus 2.9 (Han,

Jiawei, dkk. 2012) :

Ndata = (𝑣−𝑚𝑖𝑛)∗(𝑛𝑀𝑎𝑥−𝑛𝑀𝑖𝑛)

𝑚𝑎𝑥−𝑚𝑖𝑛 + nmin..... (2.9)

Keterangan :

𝑣 : data yang akan dinormalisasi

𝑁𝑑𝑎𝑡𝑎 : Data hasil normalisasi

𝑚𝑖𝑛 : Nilai minimum dari data

𝑚𝑎𝑥 : Nilai maksimum dari data

𝑛𝑀𝑖𝑛 : Batas minimum yang diberikan

𝑛𝑀𝑎𝑥 : Batas maksimum yang diberikan

2.7 Random Under Sampling

Random Under Sampling merupakan salah satu metode resampling

yang digunakan untuk mengalami kesetidakseimbangan kelas(label).

Prinsip utama metode ini adalah membuat jumlah kelas mayoritas sama


13

dengan jumlah kelas minoritas. Implementasi metode random under

sampling adalah memilih data set terlebih dahulu kemudian menghitung

jumlah kelas mayoritas dan minoritas. Kemudian, ambil kelas mayoritas

secara acak yang jumlah datanya sama dengan minoritas. Metode memilih

keunggulan dalam menghemat waktu dalam metode klasifikasi. (Taek,

2019)

2.8 Cross Validation

k-fold cross validation merupakan salah satu metode yang bisa

digunakan untuk menilai atau memvalidasi keakuratan sebuah sistem. Pada

pendekatan ini, semua data yang digunakan dibagi menjadi k partisi secara

acak (𝑃1, 𝑃2, . . . 𝑃𝑘). Misalkan digunakan 3-fold cross validation (k=3) maka

sebanyak 2/3 data dipakai sebagai training dan 1/3 data dipakai sebagai

testing.

Keterangan :

Train Test

Gambar 2.1 3 Fold Validation


14

2.9 Akurasi dengan Matrtiks Confusion.

Matriks confusion merupakan tabel yang mencatat hasil kerja

klasifikasi. Contoh matriks confusion sebagai berikut :

Tabel 2.1 Confusion Matrix

Positif Negatif

Positif TP(True positif) FN(False Negatif)

Negatif False(False Positif) TN(True Negatif)

Nilai Akurasi dapat dihitung dengan persamaan :

Akurasi=𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% (2.10)

Dimana :

TP : Jumlah positif yang diklasifikasi sebagai positif

TN : Jumlah negatif yang diklasifikasi sebagai negatif

FP : Jumlah negatif yang diklasifikasi sebagai positif

FN : Jumlah positif yang diklasifikasi sebagai negatif.


15

BAB III

METODOLOGI PENELITIAN

Pada bab ini akan dijelaskan analisa data dan analisa sistem yang akan

dibuat untuk klasifikasi data nasabah berpotensi membuka simpanan deposito

menggunakan metode Naive Bayes.

3.1 Data

Data yang digunakan dalam penelitian ini adalah data publik yang

diperoleh dari situs UCI Repository Machine Learning berjudul “Bank

Marketing Data Set” yang didapat dari program pemasaran langsung dari

sebuah bank di Portugis dengan jumlah data 41188 dengan 20 atribut dan 1

output.

Data yang diperoleh terdiri dari : age, job, material, education, default,

housing, loan, contact, moth, day of week, duration, campaign, pdays,

previous, poutcome, emp.var.rate, cons.price.idx, cons.idx, euribor3m,

nr.employed, Y/N.

Tabel 3.1 Data Atribut Nasabah

No Data Keterangan dan Nilai

1 Age Umur nasabah bank

2 Job Jenis pekerjaan nasabah bank

(admin/bluecollar,entrepreneur/housemaid/management

/retired/selft-

employed/services/student/technician/unemployed/unkn

own)

3 Material Status pernikahan (divorced/merried/single)

4 Education Pendidikan nasabah (basic 4y/basic 6y/basic 9y/high

school/illiterate/professional course/university

degree/unknown)


16

5 Default Apakah mempunyai kredit gagal/macet?

(yes/no/unknown)

6 Housing Apakah mempunyai kredit pinjaman rumah?

(yes/no/unknown)

7 Loan Apakah mempunyai pinjaman pribadi

(yes/no/unknown)

8 Contact Jenis komunikasi yang digunakan nasabah

(cellular/telephone)

9 Month Bulan terakhir menghubungi nasabah

10 Day_of_w

eek

Hari terakhir kontak dengan nasabah

11 Duration Durasi terakhir menghubungi nasabah dalam detik

12 Campaign Jumlah kontak yang dilakukan selama promosi ini dan

untuk nasabah ini

13 Pdays Jumlah hari yang berlalu setelah nasabah terakhir

dihubungi dan promosi sebelumnya

14 Previous Jumlah kontak dilakukan sebelum promosi ini dan

untuk klien ini

15 Poutcome Hasil dari penawaran marketing sebelumnya

(failure/nonexistent/success)

16 Emp.var.r

ate

Variasi tingkat pekerjaan

17 Cons.price

.idx

Indeks harga konsumen

18 Cons.conf.

idx

Indeks kepercayaan konsumen

19 Euribor3m Tingkat eurbor 3 bulan


17

20 Nr.employ

ed

Jumlah karyawan

21 Y Apakah nasabah berlangganan deposito yang

ditawarkan (yes/no)

Contoh data yang digunakan dalam penelitian ini :

Tabel 3.2 Contoh Data


18

3.2 Desain Alat Uji

Gambar 3.1 Diagram Blok

Pada diagram 3.1 diatas dimana data tersebut akan diproses pada

sistem. Tahap prosprocessing pada data tersebut yakni seleksi atribut,

dimana seleksi atribut ini akan memilih atribut mana saja yang akan

digunakan. Dalam sistem kerja tersebut dimana data akan dirangking atau

diurutkan berdasarkan bobotnya yang terpenting. Data tersebut dipilih

menjadi beberapa atribut. Kemudian, data tersebut melalui tahap

normalisasi, tahap ini akan dilakukan dimana data set tersebut terdapat

range data yang cukup jauh dan susah untuk diproses. Data tersebut

dilakukan proses transformasi linear terhadap data asli, proses ini

menggunakan min max. Nilai pada set tersebut diubah skalanya dengan

batas nilai minimum yang diberikan yakni 0 sementara untuk batas

maximum yang diberikan yakni 1. Setelah data melewati proses

preprocessing, data akan masuk ke tahap pembentukan model. Dimana data

akan dibagi terlebih dahulu menjadi 2 bagian yakni data training dan data


19

testing. Dipembentukan model, data akan diolah untuk mengetahui nilai

rata-rata (mean) dan standar deviasi. Dimana setiap data pada atribut

terlebih dahulu dihitung jumlah rata-rata dan standar deviasi. Selanjutnya

apabila model telah terbentuk, maka akan dilakukan uji model, dimana pada

uji model ini akan ada data baru yang akan dimasukkan sebagai data test.

Data dimasukkan dan dicari nilai probabilitas setiap atribut dengan

menggunakan hasil modeling. Setelah mencari nilai probabilitas kemudian

menghitung nilai likelihood berdasarkan status kelas, dimana nilai

likelihood tersebut akan digunakan untuk mencari nilai probabilitas hasil.

Nilai probabilias hasil dihitung untuk mengetahui hasil yang akan diketahui

oleh sistem apakah nasabah berlangganan deposito atau tidak berlangganan.


20

Gambar 3.2 Diagram Flowchart Sistem

Gambar 3.2 Menjelaskan alur proses sistem yang digambarkan dengan

flowchart. Berikut merupakan algoritma umum sistem :

1. Baca dataset.


21

2. Data Selection.

3. Data Transformasi menggunakan min max.

4. Data dibagi menjadi 2 bagian data training dan data testing.

5. Hitung jumlah probabilitas, namun apabila data numerik maka :

a. Jika terdapat data numerik, maka temukan nilai mean dan

standar deviasi dari masing-masing atribut.

b. Jika tidak, hitung jumlah data yang sesuai dari atribut yang

sama dibagi dengan jumlah data pada atribut.

6. Hitung probabilitas setiap kelas.

7. Hitung probabilitas posterior, lalu ambil nilai probabilitas tertinggi

untuk dijadikan hasil klasifikasi.

8. Menghitung kesesuaian hasil klasifikasi dengan label testing. Lalu

membuat confusion matrix sebanyak k.

9. Hitung Akurasi total.

Gambar 3.3 Diagram Flowchart Uji Data Tunggal


22

Gambar 3.3 Menjelaskan alur proses pengujian data uji tunggal yang

digambarkan dengan flowchart. Berikut merupakan algoritma uji data

tunggal :

1. Baca data training.

2. Input data uji tunggal.

3. Hitung mean dan standar deviasi tiap atribut pada semua kelas.

4. Hitung probabilitas setiap kelas.

5. Hitung probabilitas tiap atribut pada semua kelas.

6. Hitung nilai likelihood pada setiap kelas.

7. Hitung probabilitas posterior, lalu ambil nilai probabilitas tertinggi

untuk dijadikan hasil klasifikasi.

3.3 Data Selection

Data yang digunakan tidak melalui tahap cleaning dan integration karena

tidak terdapat missing value dan data diambil dari UCI Learning Repository. Tahap

berikutnya adalah tahap data selection. Proses data selection adalah memilih data

atau atribut yang relavan untuk penelitian ini. Proses seleksi atribut pada penelitian

ini dilakukan menggunakan Tools Weka 3.8.3. Dalam melakukan seleksi atribut,

penelitian melakukan eksperimen menggunakan metode Information Gain. Berikut

hasil perangkingan atribut menggunakan Weka.

Gambar 3.4 Hasil Perangkingan Atribut Menggunakan

Information Gain pada Weka


23

3.4 Data Transfromasi

Proses transformasi yang dilakukan pada penelitian ini sebagai

berikut.

1. Transformasi data pada atribut duration dan pdays. Atribut

yang bernilai numerik dilakukan transformasi dengan proses

pendistribusian tabel frekuensi berkelompok, dengan

melakukan langkah-langkah :

a. Langkah pertama, memilih atribut yang bernilai data

numerik dan akan dicari intervalnya. Pada data

penelitian, atribut yang mengandung data numerik

adalah duration dan pdays.

b. Kemudian pada masing-masing atribut tersebut dicari

nilai minimum (Xmin) dan nilai Maksimum (Xmax).

Untuk atribut duration, didapat :

Nilai minimum : 0

Nilai maksimum : 4918

Untuk atribut pdays, didapat :

Nilai minimum : 0

Nilai maksimum : 999

c. Setelah mendapatkan nilai minimum (Xmin) dan nilai

maksimum (Xmax)

dari setiap atribut, maka langkah selanjutnya yaitu

menghitung nilai jangkauan dari masing-masing atribut

dengan rumus :

J=Xmax-Xmin (3.1)


24

Hitung jangkauan untuk atribut duration :

J = 4918 – 0

J = 4918

Hitung jangkauan untuk atribut pdays :

J = 999 – 0

J = 999

d. Selanjutnya menghitung jumlah kelas interval dengan

rumus k = 1 + 3,3 log n. (Zega, dkk. 2019) :

k = 1 + 3,3 log n (3.2)

Keterangan :

k = Banyak kelas interval

n = Banyak data/Jumlah data

Sehingga jumlah interval pada penelitian ini sebagai

berikut :

k = 1 + 3,3 log 41188

k = 1 + 15,228

k = 16,228

k = 17 dibulatkan menjadi 17, sehingga jumlah kelas

interval adalah 17.

e. Kemudian menentukan panjang interval untuk masing-

masing atribut, dengan rumus :

p = 𝑗

𝑘 (3.3)

Keterangan :

p = Panjang interval kelas


25

j = Jangkauan

k = Banyak kelas interval

Panjang kelas interval untuk atribut duration :

P = 𝟒𝟗𝟏𝟖

𝟏𝟕= 289,29

Panjang kelas interval untuk atribut pdays :

P = 𝟗𝟗𝟗

𝟏𝟕= 58,76

f. Langkah terakhir yaitu menentukan batas interval dari

masing-masing atribut yang terpilih :

Tabel 3.3 Transformation Batas Interval untuk atribut

duration

Batas

Interval

Batas

Bawah

Batas Atas Transformasi

1 0 289,29 1

2 289,30 578,59 2

3 578.60 867.88 3

4 867,89 1,158 4

5 1.159 1.447 5

6 1.448 1.736 6

7 1.737 2.205 7

8 2.206 2.314 8

9 2.315 2.603 9

10 2.604 2.892 10

11 2.893 3.181 11

12 3.182 3.469 12

13 3.470 3.759 13

14 3.760 4.048 14

15 4.049 4.337 15

16 4.338 4.626 16

17 4.627 4.915 17


26

Tabel 3.4 Transformation Batas Interval untuk atribut

pdays

Batas

Interval

Batas

Bawah

Batas Atas Transformasi

1 0 58,76 1

2 58.77 117.53 2

3 117.54 176.3 3

4 176.4 253.06 4

5 253.07 293.83 5

6 293.84 352.6 6

7 352.7 411.46 7

8 411.47 470.23 8

9 470.24 529 9

10 530 588.76 10

11 588.77 647.53 11

12 647.54 706.3 12

13 706.4 765.16 13

14 765.17 823.93 14

15 823.94 882.7 15

16 882.8 941.56 16

17 941.57 17

2. Setelah itu, dihitung normalisasi tiap data pada kolom Duration dan

Pdays dengan rumus 2.9. Berikut hasil perhitungan data :

Normalisasi data atribut Duration

Ndata = (1−0)∗(1−0)

14−0+ 0 = 0.07142

Normalisasi data atribut Pdays


27

Ndata = (1−0)∗(1−0)

17−0+ 0 = 0.058824

Berikut dataset sebelum dan sesudah di transformasi dan di normalisasi

Tabel 3.5 Contoh dataset sebelum data ditransformasi dan dinormalisasi

Age

Job

Mate

rial

Ed

uca

tion

Dafa

ult

Hou

sin

g

Loan

Con

tact

Mon

th

Days_

of_

wee

k,

pou

tcom

e

Du

rati

on

Cam

paig

n

Pd

ays

Pre

vio

us

Pou

tcom

e

57 retired married

university.

degree no yes no

telepho

ne may tue 768 1 999 0 nonexistent

58

blue-

collar

divorce

d basic.4y no yes no

telepho

ne may tue 277 1 999 0 nonexistent

Em

p.

Var.

R

ate

C

on

s.

Pri

ce.

Idx

Con

s.

Con

f.

Idx

Eu

rib

or3

m

Nr.

E

mp

loy

ed

Lab

el

1,1 93,994 -36,4 4,856 5191 no

1,1 93,994 -36,4 4,856 5191 no


28

Tabel 3.6 Contoh dataset sesudah data ditransformasi dan dinormalisasi

Age

Job

Mate

rial

Ed

uca

tion

Dafa

ult

Hou

sin

g

Loan

Con

tact

Mon

th

Days_

of_

wee

k,

pou

tcom

e

Du

rati

on

Cam

paig

n

Pd

ays

Pre

vio

us

Pou

tcom

e

57 retired married

university.de

gree no yes no telephone may tue 0,002072 1 1 0

nonexisten

t

58

blue-

collar divorced basic.4y no yes no telephone may tue 0,000691 1 1 0

nonexisten

t

Em

p.V

ar.

Rate

Con

s.P

rice

.

Idx

Con

s.C

on

f.

Idx

Eu

rib

or3

m

Nr.

Em

plo

y

ed

Lab

el

1,1 93,994 -36,4 4,856 5191 0

1,1 93,994 -36,4 4,856 5191 0


29

Nilai luaran akan bernilai 1 atau 0. Berikut representasi luaran dari sistem.

Tabel 3.7 Nilai Target Output

Status Nilai Target Output

Yes 1

No 0

3.5 Data Testing dan Data Training

Tahap ini hasil dari data mining berupa pola khusus yang akan dievaluasi

atau diteliti lagi apakah hasilnya sudah sesuai atau belum. Jadi untuk mengetahui

apakah sistem yang akan dibangun ini sudah baik atau belum, maka perlu dilakukan

pengujian sistem mengunakan metode k-fold cross validation.

Evaluasi sistem pada penelitian ini dilakukan dengan membagi data menjadi data

testing dan data training. Pembagian data dilakukan dengan menerapkan model 3-

fold validation dengan membagi data menjadi 3 bagian seperti data Tabel 3.8

Tabel 3.8 Pembagian 3-fold cross validation

3.6 Pemodelan dengan Algortime Naive Bayes

Pada tahap ini dilakukan proses penambangan data dengan

menggunakan algoritma Naive Bayes. Data yang sudah diolah pada tahap

sebelumnya akan diolah menggunakan perhitungan algoritma. Data yang

diolah adalah data training dan data testing.

Berikut ini merupakan data yang dilakukan untuk mengolah data

nasabah dengan menggunakan metode Naive Bayes :

Model Data Training Data Testing

1 1,2 3

2 1,3 2

3 2,3 1


30

1. Data yang digunakan merupakan data training dan data testing. Data

training adalah data yang akan digunakan untuk menentukan hasil akhir

atau lebih dari data testing. Sedangkan data testing adalah data yang

dicari hasil akhirnya.

2. Data testing yang sudah siap akan dipisahkan dari labelnya.

3. Data testing yang tidak memiliki tabel akan melakukan perulangan

untuk menghitung nilai probabilitas dari setiap data dengan berdasarkan

data training.

4. Data akan dibagi menjadi data training dan data testing dengan

menggunakan cross validation yaitu k-fold validation. Percobaan yang

dilakukan yang dilakukan menggunakan 3k-fold validation. Data akan

dibagi sesuai dengan jumlah k, dengan jumlah data yang rata. Data yang

sudah dibagi akan menjadi data testing dan training. Setiap percobaan

akan mengambil 1 data testing dan data yang lain akan digunakan

sebagai data training.

Tabel 3.9 Data nasabah sesudah dipreprocessing digunakan dalam

percobaan

Tabel 3.9 data nasabah memperlihatkan data training dan atribut

age, job, marital, education, default, housing, loan, contact, month,

day_of_week, duration, campaign, pdays, previous, poutcome, emp.var.rat,

cons.price.idx, cons.conf.idx, euribor3m, nr.employed sedangkan atribut

kelas adalah nasabah yes dan no.

Berikut ini adalah penyelesaian contoh kasus menggunakan algoritme Naive

Bayes.

Terdapat dua kelas dari klasifikasi yang terbentuk :


31

1 : Yes

2 : No

Langkah-langkah perhitungan berikut ini :

a. Menghitung mean dan standar deviasi untuk setiap data atribut.

Menghitung Mean atau nilai rata-rata menggunakan rumus sebagai

berikut:

Nilai rata – rata = jumlah nilai

𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.4)

Sementara untuk menghitung nilai standar deviasi setiap atribut dengan

Rumus :

S = √ ∑𝑖=1

𝑛 (𝑥𝑖−𝑥)²

𝑛−1 (3.5)

b. Menghitung probabilitas kategori kelas untuk atribut duration. Tabel

berikut menunjukkan probabilitas atribut duration pada kategori kelas.

Berikut merupakan hasil dari nilai probabilitas dari atribut sesuai pada tabel

pada 3.10 – 3.19.

Tabel 3.10 Hasil Probabilitas Job

Probabilitas job

Job Probabilitas

Job yes no yes No

admin. 2 1 0,666666667 0,333333333

student 0 1 0 0,333333333

management 0 1 0 0,333333333

housemaid 1 0 0,333333333 0

Jumlah 3 3 1 1


32

Tabel 3.11 Hasil Probabilitas Marital

Probabilitas marital

marital Probabilitas

marital yes no yes no

married 2 2 0,666666667 0,666666667

single 0 1 0 0,333333333

divorced 1 0 0,333333333 0

Jumlah 3 3 1 1

Tabel 3.12 Hasil Probabilitas Education

Probabilitas education

education Probabilitas

education yes no yes no

university.degree 2 3 0,666666667 1

professional.course 1 0 0,333333333 0

Jumlah 3 3 1 1

Tabel 3.13 Hasil Probabilitas Default

Probabilitas default

default Probabilitas

default yes no yes no

no 3 3 1 1

Jumlah 3 3 1 1

Tabel 3.14 Hasil Probabilitas Housing

Probabilitas housing

housing Probabilitas

housing yes no yes no


33

yes 0 2 0 0,666666667

no 3 1 1 0,333333333

Jumlah 3 3 1 1

Tabel 3.15 Hasil Probabilitas Loan

Probabilitas loan

loan Probabilitas

loan yes no yes no

yes 0 1 0 0,333333333

no 3 2 1 0,666666667

Jumlah 3 3 1 1

Tabel 3.16 Hasil Probabilitas Contact

Probabilitas contact

contact Probabilitas

contact yes no yes no

cellular 2 3 0,666666667 1

telephone 1 0 0,333333333 0

Jumlah 3 3 1 1

Tabel 3.17 Hasil Probabilitas Month

Probabilitas month

month Probabilitas

month yes no yes no

nov 3 3 1 1


34

Jumlah 3 3 1 1

Tabel 3.18 Hasil Probabilitas Day_of_week

Probabilitas day_of_week

day_of_week Probabilitas

day_of_week yes no yes no

wed 2 2 0,666666667 0,666666667

tue 1 1 0,333333333 0,333333333

Jumlah 3 3 1 1

Tabel 3.19 Hasil Probabilitas Poutcome

Probabilitas poutcome

poutcome Probabilitas

poutcome yes no yes no

nonexistent 1 2 0,333333333 0,666666667

success 1 1 0,333333333 0,333333333

failure 1 0 0,333333333 0

Jumlah 3 3 1 1

Berikut merupakan hasil dari nilai mean dan standar deviasi dari atribut

sesuai pada tabel 3.20– 3.30.

Tabel 3.20 Hasil Mean & Standar Deviasi Age

age

yes no

Mean 41,33333333 33,33333

Standar Deviasi 19,84781846 19,91907


35

Tabel 3.21 Hasil Mean & Standar Deviasi Duration

Duration

yes no

Mean 0,002762431 0,000691

Standar Deviasi 0,479833189 0,438077

Tabel 3.22 Hasil Mean & Standar Deviasi Pdays

pdays

yes no

Mean 0,68627451 0,686275

Standar Deviasi 0,49480488 0,509078

Tabel 3.23 Hasil Mean & Standar Deviasi Campaign

campaign

yes no

Mean 1,666666667 1,666667

Standar Deviasi 0,862316499 0,912871

Tabel 3.24 Hasil Mean & Standar Deviasi Previous

Previous

yes no

Mean 0,666666667 0,666667

Standar Deviasi 0,650443636 0,660225


36

Tabel 3.25 Hasil Mean & Standar Deviasi Emp.var.rate

emp.var.rate

yes no

Mean -1,1 -1,2

Standar Deviasi 1,243753624 1,191638

Tabel 3.26 Hasil Mean & Standar Deviasi Conf.price.idx

cons.price.idx

yes no

Mean 94,767 93,01633

Standar Deviasi 48,42709882 48,50122

Tabel 3.27 Hasil Mean & Standar Deviasi Conf.conf.idx

cons.conf.idx

yes no

Mean -50,8 -38,0333

Standar Deviasi 23,94342156 23,87116

Tabel 3.28 Hasil Mean & Standar Deviasi Euribor3m

Euribor3m

yes no

Mean 1,031666667 2,985333

Standar Deviasi 1,348963638 1,391309

Tabel 3.29 Hasil Mean & Standar Deviasi Nr.employed

Nr.employed

yes no


37

Mean 4963,6 5136,367

Standar Deviasi 2621,060084 2621,134

c. Tabel selanjutnya yakni menunjukkan probabilitas untuk setiap kategori

pada kelas.

Tabel 3.30 Probabilitas setiap kelas

Class Probabilitas Kelas

Class yes no yes no

Jumlah 3 3 0,50 0,50

d. Menghitung probabilitas setiap kategori kelas dengan acuan nilai mean

dan standar deviasi pada halaman 3.21 – 3.30 untuk setiap atributnya.

Dengan rumus:

𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗)=1

√2𝜋𝜎 𝑒−

(𝑥𝑖−𝜇)²

2𝜎²

Data testing :

Untuk atribut Age = 36. Berdasarkan persamaan rumus 2.4:

P(Age) = 36 | kelas =Yes)

=1

√2𝜋(19,84781846) 𝑒

− (36−(41,33333)²

2(19,84781846)² = 0,01938733

P(Age) = 36| kelas = No)

=1

√2𝜋(19,91907) 𝑒

− (36 −33,3333)²

2(19,91907)² = 0,019849


38

Untuk atribut Duration = 0,001381215. Berdasarkan persamaan rumus 2.4:

P(Duration) = 0,001381215 | kelas =Yes)

=1

√2𝜋(0,479833189) 𝑒

− (0,001381215 −0,002762431)²

2(0,479833189)² = 0,831415243

P(Duration) = 0,001381215 | kelas = No)

=1

√2𝜋(0,479833189) 𝑒

− (0,001381215 −0,000691)²

2(10,479833189)² = 0,910663

Untuk Pdays = 1. Berdasarkan persamaan rumus 2.4:

P(Pdays = 1 | kelas = Yes)

=1

√2𝜋(0,49480488) 𝑒

−(1−0,68627451)²

2(0,49480488)² = 0,659449848

P(Pdays = 1| kelas = No)

=1

√2𝜋(0,509078) 𝑒

−(1−0,686275)²

2(0,509078)² = 0,648123

Untuk Campaign = 1.Berdasarkan persamaan rumus 2.4:

P(Campaign = 1| kelas = Yes)

=1

√2𝜋(0,862316499) 𝑒

−(1−1,6666667)²

2(0,862316499)² = 0,343126464

P(Campaign = 1| kelas = No)

=1

√2𝜋(0,912871) 𝑒

−(1−1,666667)²

2(0,912871)² = 0,334726

Untuk Previous = 1. Berdasarkan persamaan rumus 2.4:

P(Previous = 1| kelas = Yes)

=1

√2𝜋(0,650443636) 𝑒

−(1−0,666667)²

2(0,650443636)² = 0,537863197

P(Previous = 1| kelas = No)


39

=1

√2𝜋(0,660255) 𝑒

−(1−0,666667)²

2(0,660255)² = 0,531945

Untuk Emp.Var.Rate = -0,1. Berdasarkan persamaan rumus 2.4:

P(Emp.Var.Rate = -0,1| kelas = Yes)

=1

√2𝜋(1,243753624) 𝑒

−(−0,1−(−1,1)²

2(1,243753624)² = 0,232167837

P(Emp.Var.Rate = -0,1| kelas = No)

=1

√2𝜋(1,191638)𝑒

−(−0,1−(−1,2)²

2(1,191638)² = 0,218641

Untuk Cons.price.idx = 93,2. Berdasarkan persamaan rumus 2.4:

P(Cons.price.idx = 93,2| kelas = Yes)

=1

√2𝜋(48,42709882) 𝑒

−(93,2−94,767)²

2(48,42709882)² = 0,008233685

P(Cons.price.idx = 93,2| kelas = No)

=1

√2𝜋(48,50122)𝑒

−(93,2−93,01633)²

2(48,50122)² = 0,008225

Untuk Cons.conf.idx = -42. Berdasarkan persamaan rumus 2.4:

P(Cons.conf.idx = -42| kelas = Yes)

=1

√2𝜋(23,94342156) 𝑒

−(−42−(−50,8)²

2(23,94342156)² = 0,015573688

P(Cons.conf.idx = -42| kelas = No)

=1

√2𝜋(23,87116)𝑒

−(−42−(−38,0333)²

2(−38,0333)² = 0,016483

Untuk Nr.employed= 5195,8. Berdasarkan persamaan rumus 2.4:

P(Nr.employed = 5195,8| kelas = Yes)

=1

√2𝜋(2621,060084) 𝑒

−(5195,8−4963,6)²

2(2621,060084)² = 0,00015161

P(Nr.employed = 5195,8| kelas = No)

=1

√2𝜋(2621,134)𝑒

−(5195,8−5136,367)²

2(2621,134)² = 0,000152

Untuk Euribor3m = 4,663. Berdasarkan persamaan rumus 2.4:


40

P(Euribor3m = 4,663 | kelas = Yes)

=1

√2𝜋(1,348963638) 𝑒

−(4,663−1,031666667)²

2(1,348963638)² = 0,007894777

P(Euribor3m = 4,663 | kelas = No)

=1

√2𝜋(1,391309)𝑒

−(4,663−2,985333)²

2(1,391309)² = 0,138597

e. Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil

dari nilai perhitungan probabilitas tiap atribut. Nilai likelihood dibagi

menjadi 2 yaitu likelihood Ya dan likelihood No.

Likelihood Yes

P(Age = 36) x P(Job = admin.) x P(Marital = married) x P(Education =

university.degree) x P(Default = no) x P(Housing = no) x P(Loan = no)

x P(Contact = cellular) x P(Month = nov) x P(Day_Of_Week = wed) x

P(Duration = 0,001381215) x P(Campaign = 1) x P(Pdays = 1) x

P(Previous = 1) x P(Poutcome = nonexistent) x P(Emp.Var.Rate = -0,1)

x P(Cons.Price.Idx=93,2) x P(Cons.Conf.Idx = -42) x P(Euribor3m =

04,663) x P(Nr.Employeed = 5195,8)

=(0,01938733)*(0,6666667)*(0,666667)*(0,666667)*(1)*(0)*(1)*(0,6

6667)*(1)*(0,66667)*(0,831415243)*(0,343126464)*(0,659449848)*(

0,537863197)*(0,333333)*(0,23216783)*(0,008233685)*(0,01557368

8)*(0,007894777)*(0,00015161)*(0,50) = 0

Likelihood No

P(Age = 36) x P(Job = admin.) x P(Marital = married) x P(Education =

university.degree) x P(Default = no) x P(Housing = no) x P(Loan = no)

x P(Contact = cellular) x P(Month = nov) x P(Day_Of_Week = wed) x

P(Duration = 0,001381215) x P(Campaign = 1) x P(Pdays = 1) x

P(Previous = 1) x P(Poutcome = nonexistent) x P(Emp.Var.Rate = -0,1)


41

x P(Cons.Price.Idx=93,2) x P(Cons.Conf.Idx = -42) x P(Euribor3m =

04,663) x P(Nr.Employeed = 5195,8)

=(0,019849)*(0,3333333)*(0,666667)*(1)*(1)*(0,6666667)*(0,33333

3)*(1)*(1)*(0,66667)*(0,66667)*(0,910667)*(0,334726)*(0,648123)*(

0,531945)*(0,218641)*(0,008225)*(0,016483)*(0,138597)*(0,000152

)* (0,50) = 0,00000000000001429445

Mencari nilai probabilitas dengan menggunakan normalisasi terhadap

likelihood.

Probabilitas Yes = 0

0,0,00000000000001429445 + 0 = 0

Probabilitas No = 0,0,00000000000001429445

0,0,00000000000001429445 + 0 = 1

Hasil tersebut, terlihat bahwa nilai probabilitas tertinggi ada pada

Probabilitas Yes, hasil nilai dari kelas tersebut yakni 1 dapat

disimpulkan nasabah tidak menerima tawaran deposito.

f. Data nasabah menggunakan 3-fold cross validation. Menggunakan 5

atribut yaitu adalah duration, cons.cond.idx, nr.employed, emp.var.rate,

euribor3m dan 1 label berdasarkan perangkingan tabel 3.32 hasil

perangkingan atribut menggunakan information gain.

Tabel 3.31 Data Training sesudah dipreprocessing digunakan dalam

percobaan 3-fold

Duration Cons.Conf.Idx Nr.Employed Emp.Var.Rate Euribor3m Label

0,000690608 -42 5195,8 -0,1 4,12 0

0,000690608 -42 5195,8 -0,1 4,12 0

0,000690608 -30,1 5017,5 -3,4 0,716 0

0,004834254 -50,8 4963,6 -1,1 1,035 1

0,001381215 -50,8 4963,6 -1,1 1,03 1

0,002071823 -50,8 4963,6 -1,1 1,03 1


42

Tabel 3.32 Data Testing sesudah sesudah dipreprocessing digunakan

dalam percobaan


0,001381215 -42 5195,8 -0,1 4,663 0

0,002071823 -50,8 4963,6 -1,1 1,035 1

0,001381215 -50,8 4963,6 -1,1 1,035 1

g. Menghitung probabilitas kategori kelas untuk atribut duration. Tabel

berikut menunjukkan probabilitas atribut duration pada kategori kelas.

Berikut merupakan hasil dari nilai probabilitas dari atribut sesuai pada

tabel 3.33

Tabel 3.33 Hasil Mean & Standar Deviasi Duration

Tabel 3.34 Hasil Mean & Standar Deviasi Nr.Employed

Nr.Employed

yes no

Mean 4963,6 5136,367

Standar Deviasi 2621,060084 2621,134

Duration

yes no

Mean 0,002762431 0,000691

Standar Deviasi 0,479833189 0,438077


43

Tabel 3.35 Hasil Mean & Standar Deviasi Emp.Var.Rate

Emp.Var.Rate

yes no

Mean -1,1 -1,2

Standar Deviasi 1,243753624 1,191638

Tabel 3.36 Hasil Mean & Standar Deviasi Euribor3m

Euribor3m

yes no

Mean 1,031666667 2,985333

Standar Deviasi 1,348963638 1,391309

Tabel 3.37 Probabilitas setiap kelas

Kelas Probabilitas Kelas

Jumlah yes no yes no

3 3 3/6 3/6

Data testing 1

Untuk menghitung Duration = 0,001381215. Berdasarkan rumus 2.4:

P(Duration) = 0,001381215 | kelas =Yes)

=1

√2𝜋(0,479833189) 𝑒

− (0,001381215 −0,002762431)²

2(0,479833189)² = 0,831415243

P(Duration) = 0,001381215 | kelas = No)

=1

√2𝜋(0,479833189) 𝑒

− (10,001381215 −0,000691)²

2(10,479833189)² = 0,910663

Untuk Cons.conf.idx = -42. Berdasarkan persamaan rumus 2.4:


44

P(Cons.conf.idx = -42| kelas = Yes)

=1

√2𝜋(23,94342156) 𝑒

−(−42−(−50,8)²

2(23,94342156)² = 0,015573688

P(Cons.conf.idx = -42| kelas = No)

=1

√2𝜋(23,87116)𝑒

−(−42−(−38,0333)²

2(−38,0333)² = 0,016483

Untuk menghitung Nr.Employed = 5195,8 Berdasarkan rumus 2.4:

P(Nr.employed = 5195,8| kelas = Yes)

=1

√2𝜋(2621,060084) 𝑒

−(5195,8−4963,6)²

2(2621,060084)² = 0,00015161

P(Nr.employed = 5195,8| kelas = No)

=1

√2𝜋(2621,134)𝑒

−(5195,8−5136,367)²

2(2621,134)² = 0,000152



=1

√2𝜋(1,243753624) 𝑒

−(−0,1−(−1,1)²

2(1,243753624)² = 0,232167837


=1

√2𝜋(1,191638)𝑒

−(−0,1−(−1,2)²

2(1,191638)² = 0,218641

Untuk Euribor3m = 4,663. Berdasarkan persamaan rumus 2.4:

P(Euribor3m = 4,663| kelas = Yes)

=1

√2𝜋(1,348963638) 𝑒

−(4,663−1,031666667)²

2(1,348963638)² = 0,007894777

P(Euribor3m = 4,663| kelas = No)

=1

√2𝜋(1,391309)𝑒

−(4,663−2,985333)²

2(1,391309)² = 0,138597


45

Menghitung nilai likelihood. Menghitung likelihood ini digunakan hasil



Likelihood Yes

P(Duration = 0,001381215) x P(Cons.Conf.Idx = -42) x

P(Nr.Employeed = 5195,8) x P(Emp.Var.Rate = -0,1) x P(Euribor3m =

04,663)

= (0,831415243) x (0,015573688) x (0,00015161) x (0,218641) x

(0,007894777) x (0,50) = 0,0000000169425500

Likelihood No

P(Duration = 0,001381215) x P(Cons.Conf.Idx = -42) x

P(Nr.Employeed = 5195,8) x P(Emp.Var.Rate = -0,1) x P(Euribor3m =

04,663) =

= (0,910663) x (0,016483) x (0,000152) x (0,218641) x (0,138597) x

(0,50) = 0,000000034569490

Data testing 2


P(Duration) = 0,002071823| kelas =Yes)

=1

√2𝜋(0,47983319) 𝑒

− (0,002071823−0,002762431)²

2(0,479833189)² = 0,8314178

P(Duration) = 0,002071823| kelas = No)

=1

√2𝜋(0,479833189) 𝑒

− (0,002071823 −0,000691)²

2(10,479833189)² = 0.9107

Untuk Cons.conf.idx = -50,8. Berdasarkan persamaan rumus 2.4:

P(Cons.conf.idx = -50,8| kelas = Yes)

=1

√2𝜋(23,94342156) 𝑒

−(−50,8−(−50,8)²

2(23,94342156)² = 0,01666187


46

P(Cons.conf.idx = -50,8| kelas = No)

=1

√2𝜋(23,87116)𝑒

−(−50,8−(−38,0333)²

2(−38,0333)² =0,01449

Untuk menghitung Nr.Employed = 4963. Berdasarkan rumus 2.4:

P(Nr.employed = 4963| kelas = Yes)

=1

√2𝜋(2621,060084) 𝑒

−(4963−4963,6)²

2(2621,060084)² = 0,00015221

P(Nr.employed = 4963| kelas = No)

=1

√2𝜋(2621,134)𝑒

−(4963−5136,367)²

2(2621,134)² = 0,00015



=1

√2𝜋(1,243753624) 𝑒

−(−1,1−(−1,1)²

2(1,243753624)² = 0,32075668


=1

√2𝜋(1,191638)𝑒

−(−1,1−(−1,2)²

2(1,191638)² = 0,33361

Untuk Euribor3m= 1,065. Berdasarkan persamaan rumus 2.4:


=1

√2𝜋(1,348963638) 𝑒

−(4,663−1,031666667)²

2(1,348963638)² = 0,29573893


=1

√2𝜋(1,391309)𝑒

−(4,663−2,985333)²

2(1,391309)² = 0,10735


47




Likelihood Yes

P(Duration = 0.002071823) x P(Cons.Conf.Idx = -50,8) x

P(Nr.Employeed = 4963) x P(Emp.Var.Rate = -1,1) x P(Euribor3m =

1,035)

= (0,83141783) x (0,01666187) x (0,00015221) x (0,32075668) x

(0,29573893) x (0,50) = 0,000000100093196

Likelihood No



1,035)

= (0,91066) x (0,01449) x (0,00015) x (0,33361) x (0,10735) x (0,50) =

0,00000003544217

Data testing 3


P(Duration) = 0,001381215| kelas =Yes)

=1

√2𝜋(0,47983319) 𝑒

− (0,001381215−0,002762431)²

2(0,479833189)² = 0,83141524

P(Duration) = 0,001381215| kelas = No)

=1

√2𝜋(0,479833189) 𝑒

− (0,001381215 −0,000691)²

2(10,479833189)² = 0,91067

Untuk Cons.conf.idx = -50,8. Berdasarkan persamaan rumus 2.4:

P(Cons.conf.idx = -50,8| kelas = Yes)

=1

√2𝜋(23,94342156) 𝑒

−(−50,8−(−50,8)²

2(23,94342156)² = 0,01666187


48

P(Cons.conf.idx = -50,8| kelas = No)

=1

√2𝜋(23,87116)𝑒

−(−50,8−(−38,0333)²

2(−38,0333)² = 0,01449

Untuk menghitung Nr.Employed = 4963. Berdasarkan rumus 2.4:

P(Nr.employed = 4963| kelas = Yes)

=1

√2𝜋(2621,060084) 𝑒

−(4963−4963,6)²

2(2621,060084)² = 0,00015221

P(Nr.employed = 4963| kelas = No)

=1

√2𝜋(2621,134)𝑒

−(4963−5136,367)²

2(2621,134)² = 0,00015



=1

√2𝜋(1,243753624) 𝑒

−(−1,1−(−1,1)²

2(1,243753624)² = 0,32075668


=1

√2𝜋(1,191638)𝑒

−(−1,1−(−1,2)²

2(1,191638)² = 0,33361

Untuk Euribor3m= 1,065. Berdasarkan persamaan rumus 2.4:


=1

√2𝜋(1,348963638) 𝑒

−(4,663−1,031666667)²

2(1,348963638)² = 0,29573893


=1

√2𝜋(1,391309)𝑒

−(4,663−2,985333)²

2(1,391309)² = 0,10735





49

Likelihood Yes



1,035)

= (0,83141524) x (0,01666187) x (0,00015221) x (0,32075668) x

(0,29573893) x (0,50) = 0,0000001000090080

Likelihood No



1,035)

= (0,91067) x (0,01449) x (0,00015) x (0,33361) x (0,10735) x (0,50) =

0,0000000354431071

h. Membandingkan nilai probabilitas setiap kelas

Dari probabilitas diatas, masing-masing nilai akan dibandingkan untuk

dicari nilai terbesarnya. Jika salah satu label memiliki nilai terbesar

maka label tersebut merupakan hasil klasifikasi untuk data testing yang

diuji. Berikut hasil klasifikasi Naive bayes dalam klasifikasi data

nasabah :

Tabel 3.38 Hasil Klasifikasi


0,001381215 -42 5195,8 -0,1 4,663 0

0,002071823 -50,8 4963,6 -1,1 1,035 1

0,001381215 -50,8 4963,6 -1,1 1,035 1

3.7 Akurasi

Proses menghitung akurasi dengan menggunakan confusion matrix,

yakni dengan menjumlahkan data yang benar dan dibagi dengan semua data

yang benar maupun yang salah dan dikalikan dengan 100%. Pada kasus


50

diatas, jumlah data testing yang digunakan adalah 3, maka perhitungan

dengan confusion matrix adalah sebagai berikut :

Tabel 3.39 Hasil Confusion Matrix

Kelas Yes No

Yes 2 0

No 0 1

= 2+1

2+1+0+0𝑥100% = 100%

Berdasarkan perhitungan dengan menggunakan confusion matrix,

hasil akurasi yang didapatkan adalah 100%.

3.8 Spesifikasi Sistem

Barikut ini adalah alat yang digunakan untuk merancang system ini :

Perangkat Keras

Laptop Asus X541U

Processor : Intel® Core™ i3-6006U CPU@ 2.0GHz

Memory : 4 GB

Hard Drive : 1TB

Perangkat Lunak

Matlab R2018b

3.9 Desain User Interface

Dalam melakukan tahap klasifikasi pada penelitian ini dibuat user

interface. User interface dibuat untuk membantu proses preprocessing,

proses klasifikasi dan proses hasil akurasi. Berikut ini merupakan halaman

utama dalam penelitian ini :


51

Gambar 3.5 Halaman Utama

Gambar 3.5 merupakan tampilan antar muka sistem yang terbagi

menjadi 3 macam proses yang pertama table untuk data excel,

preprocessing data, klasifikasi, dan uji data tunggal. Berikut merupakan

penjelasan dari setiap proses :

Pada halaman user interface proses pertama yaitu mengupload data

excel kemudian melakukan tahap preprocessing. Terdapat text box jumlah

ciri, sebelum melakukan tahap preprocessing user akan menginputkan

jumlah ciri yang akan digunakan. Jika user telah menginputkan jumlah ciri

maka selanjutnya akan melakukan tahap proses preprocessing.

Tahap preprocessing, pertama data tersebut akan ditransformasi

menggunakan minmax, kemudian data tersebut akan siap dipakai dan data

akan masuk keproses perhitungan menggunakan algoritma naive bayes.

Pertama cari nilai mean dan standar deviasi dari masing-masing parameter

yang merupakan data numerik kemudian cari nilai probabilistik dengan cara

menghitung jumlah data yang sesuai dari kategorikal yang sama dibagi

dengan jumlah data pada kategori tersebut. Mendapatkan nilai dalam tabel

mean dan standar deviasi dan probabilitas kemudian menghasilkan label.

Bagian ini data akan diproses mengguanakan model yang telah dibuat dan


52

akan menghasilkan akurasi dari sistem, data akan dipecah menjadi 3 set data

dan bergantian menjadi subset testing dan subset training. 1/3 data menjadi

data testing dan 2/3 data menjadi data training di tiap model.

Uji data tunggal, digunakan untuk menginputkan data yang akan di

klasifikasi. Pengguna dapat mengupload file berisi banyak data untuk di

klasifikasi. Tahap ini akan melakukan transformasi menggunakan minmax,

kemudian menghitung menggunakan algorima naive bayes. Jika data

berupa numerik maka akan cari nilai mean dan standar deviasi dari masing-

masing parameter bila data berupa kategorikal maka akan kemudian cari

nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari

kategorikal yang sama dibagi dengan jumlah data pada kategori dan

menghasilkan label berupa Yes atau No.


53

BAB IV

HASIL DAN ANALISA

Pada bab ini menjelaskan mengenai hal-hal yang berkaitan dengan hasil

luaran sistem yang diperoleh dari proses pengolahan data pengujian yang

dilakukan.

4.1 Preprocessing

Proses transformasi data dilakukan saat data mentah diambil dari direktori

penyimpanan. Data mentah yang akan diolah adalah file data dengan format

.xlxs. Tahap transformasi data adalah semua nilai atribut baik yang bertipe

string dan numerik.

4.1.1 Data Selection

Tahap seleksi atribut penulis mencoba menghitung information gain

sebelum melakukan pereduksian atribut, penulis terlebih dahulu

mengurutkan atribut berdasarkan information gain yang dapat dilihat

pada tabel 4.1 :

Tabel 4.1 Perangkingan Atribut Berdasarkan Information Gain

No Atribut

1 Duration

2 Cons.conf.idx

3 Nr.employed

4 Emp.var.rate

5 Euribor3m

6 Pdays

7 Poutcome

8 Month

9 Previous

10 Cons.price.isd


54

11 Age

12 Contact

13 Job

14 Default

15 Campaign

16 Education

17 Marital

18 Day_of_week

19 Housing

20 Loan

Hasil pemilihan atribut yang dilakukan klasifikasi dengan

menggunakan metode Naive Bayes dengan data mentah, melakukan

beberapa percobaan dapat dilihat pada tabel 4.2 :

Tabel 4.2 Hasil Percobaan Seleksi Atribut

Percobaan Attribut Jumlah

Attribut

Akurasi

1 Duration, Cons.Conf.Idx,

Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,

Previous, Cons.Price.Idx,

Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week, Housing,

Loan

20 81,7276%


55


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week, Housing

19 81,7491%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week

18 81,7922%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education, Marital

17 81,7222%


56


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education

16 81,7329%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign

15 81,5443%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job, Default

14 82,3957%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,

13 81,9269%


57


Age, Contact, Job


Nr.employed, Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month, Previous,

Cons.Price.Idx, Age,

Contact

12 81,9269%



Euribor3m, Pdays,


Cons.Price.Idx, Age,

Contact, Job, Default,

Campaign, Education

11 81,539%



Euribor3m, Pdays,


Cons.Price.Idx,

10 81,8461%



Euribor3m, Pdays,

Poutcome, Month, Previous

9 81,8353%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month

8 82,5466%


Nr.employed,

Emp.Var.Rate,

7 82,1155%


58

Euribor3m, Pdays,

Poutcome


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays

6 76,1936%


Nr.employed,

Emp.Var.Rate, Euribor3m

5 77,2713%


Nr.employed,

Emp.Var.Rate

4 76,5438%


Nr.employed

3 85,9414%

19 Duration, Cons.Conf.Idx 2 79,6691%

20 Duration 1 78,4028%

Hasil pemilihan atribut yang dilakukan klasifikasi dengan

menggunakan metode Naive Bayes dengan data yang sudah di

preprocessing, melakukan beberapa percobaan dapat dilihat pada tabel 4.3:

Tabel 4.3 Hasil Percobaan Seleksi Atribut

Percobaan Attribut Jumlah

Attribut

Akurasi


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


20 69,1939%


59

Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week, Housing,

Loan


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week, Housing

19 69,21%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education, Marital,

Dat_Of_Week

18 69,2047%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,

17 69,2532%


60


Age, Contact, Job,

Default, Campaign,

Education, Marital

5

Duration, Cons.Conf.Idx,

Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign,

Education

16 83,6405%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default, Campaign

15 83,5165%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job,

Default

14 83,2525%


61


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month,


Age, Contact, Job

13 83,3064%


Nr.employed,

Emp.Var.Rate, Euribor3m,

Pdays, Poutcome, Month,


Age, Contact

12 82,7352%


Nr.employed,




Age, Contact, Job, Default,

Campaign, Education

11 83,6405%


Nr.employed,




10 83,5165%


Nr.employed,



Previous

9 83,2525%


Nr.employed,

8 83,3064%


62

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome, Month


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays,

Poutcome

7 82,7352%


Nr.employed,

Emp.Var.Rate,

Euribor3m, Pdays

6 83,9099%


Nr.employed,

Emp.Var.Rate,

Euribor3m

5 86,6419%


Nr.employed,

Emp.Var.Rate

4 81,3504%


Nr.employed

3 79,0441%

19 Duration, Cons.Conf.Idx 2 77,018%

20 Duration 1 76,9695%

Pada tabel 4.3 Hasil Percobaan Seleksi Atribut terlihat peningkatan

akurasi ketika dilakukan percobaan pereduksi atribut, penulis mencoba

melakukan pereduksi ulang dengan cara menghapus satu persatu setiap

atribut untuk mendapatkan hasil akurasi yang optimal. Mereduksi 15 atribut

dari 20 atribut dan menjadikan 5 atribut yang akan diolah pada penelitian

ini karena memiliki persentase pengaruh atribut optimal yaitu 86,6419%


63

pada percobaan ke-16 dengan atribut Duration, Cons.Conf.Idx,

Nr.employed, Emp.Var.Rate, Euribor3m sedangkan untuk akurasi paling

terendah yaitu 69,1939% pada percobaan ke-1 dengan atribut Duration,

Cons.Conf.Idx, Nr.employed, Emp.Var.Rate, Euribor3m, Pdays, Poutcome,

Month, Previous, Cons.Price.Idx, Age, Contact, Job, Default, Campaign,

Education, Marital, Dat_Of_Week, Housing, Loan.

Pada tabel 4.3 peneliti melakukan percobaan menggunakan data

mentah, hasil percobaan melakukan pereduksi ulang dengan cara

menghapus satu persatu setiap atribut untuk mendapatkan hasil akurasi yang

optimal. Mereduksi 17 atribut dari 20 atribut dan menggunakan 3 atribut

karena memiliki persentase pengaruh atribut yang optimal yaitu 85,94%

pada percobaan ke-18 dengan atribut Duration, Cons.Conf.Idx,

Nr.employed sedangkan untuk akurasi paling terendah yaitu 76,1936% pada


64

percobaan ke-15 dengan atribut Duration, Cons.Conf.Idx,

Nr.employed, Emp.Var.Rate, Euribor3m, Pdays.

Grafik hasil rata-rata akurasi pengujian pada gambar 4.1 :

Gambar 4.2 Confusion Matrix

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Akurasi

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut

Attrib

ut


65

5 atribut dengan akurasi optimal yang akan digunakan dan telah diseleksi sebagai

berikut :

Tabel 4.4 Hasil Data Selection

No Attribut

1 Duration

2 Cons.Conf.Idx

3 Nr.employed

4 Emp.Var.Rate

5 Euribor3m

4.2 Klasifikasi

Proses klasifikasi data sudah dalam bentuk numerik karena sudah

dilakukannya tahap transformasi dan data juga sudah melalui tahap

normalisasi. Data yang digunakan dalam proses klasifikasi sebanyak 18559

dengan 5 input dari data asli 41118, data training sebanyak 12,372 dan

testing 6,186 dengan 20 input yang memiliki 4640 data bernilai 1 atau yes

dan 13,919 data bernilai 0 atau no, dilakukannya pengurangan data untuk

meningkatkan hasil akurasi dan menyeimbangkan data pada proses

klasifikasi ini digunakan 1:3 perbandingan dari data yes dan no.

Dari hasil percobaan klasifikasi yang dilakukan dengan akurasi

86,6419% input 5, berikut hasil confusion matrix untuk 3-Fold Cross

Validation.

Tabel 4.5 Confusion matrix 1

Luaran Yes No

Yes 3892 692

No 307 1295

Akurasi = 3892 + 1295

3892 + 692 + 307 + 1295 𝑥 100% = 83.850%


66


Luaran Yes No

Yes 4663 298

No 522 703

Akurasi = 4663+ 703

4663 + 298 + 522 + 703 𝑥 100% = 86.744%


Akurasi = 4257+ 1269

4257 + 383 + 1269 + 1269 𝑥 100% = 89.3307%

Akurasi total = 83.850+86.744+89.3307

3 𝑥 100% = 86.6419%

4.1.2 Uji Data Tunggal

Proses uji data tunggal digunakan untuk melakukan pengujian terhadap

suatu data. Data uji dimasukkan akan menghasilkan keluaran berupa kelas

hasil prediksi yaitu yes atau no. Menu uji data tunggal dapat dilihat pada

gambar 4.3 :

Luaran Yes No

Yes 4257 383

No 277 1269


67

Gambar 4.3 Uji Data Tunggal


68

BAB V

PENUTUP

Pada bab ini menjelaskan kesimpulan yang sudah diperoleh dari hasil

percobaan yang dilakukan. Bab ini juga menjelaskan saran perbaikan penelitian

untuk yang akan datang.

5.1 Kesimpulan

Hasil penelitian klasifikasi nasabah yang berpotensi menerima tawaran

deposito menggunakan algoritma Naive Bayes dapat disimpulkan :

1. Algoritma Naive Bayes dapat diterapkan untuk memprediksi data

nasabah yang berpotensi membuka simpanan deposito.

2. Pengujian yang dilakukan terhadap 18559 data menggunakan 3-fold

cross validation menghasilkan tingkat keakuratan sebesar 86,6419%

pada atribut Duration, Cons.Conf.Idx, Nr.employed, Emp.Var.Rate,

Euribor3m. Hasil ini dapat disimpulkan bahwa sistem ini dapat

mampu dalam menerapkan metode tersebut, sistem ini juga dapat

melakukan prediksi nasabah yang berpotensi menerima tawaran

deposito dengan akurasi yang cukup optimal.

5.2 Saran

Saran untuk mengembangkan penelitian yang akan datang yaitu :

1. Sistem ini dapat juga dikembangkan dengan menggunakan metode

yang lain.

2. Program dapat menerima masukan file bertipe lain tidak hanya

bertipe file xlsx.


69

DAFTAR PUSTAKA

Bustami., 2013, Penerapan Algoritme Naive Bayes Untuk Mengklasifikasi

Data Nasabah Asuransi, TECHSI : Jurnal Penelitian Teknik Informatika,

Vol. 3, No.2, Hal. 127-146.

Febriani, F. (2019). Prediksi Nasabah Yang Berpotensi Membuka Simpanan

Deposito Menggunakan Metode Decision Tree Dengan Penerapan

Algoritme C4.5. Yogyakarta: Universitas Sanata Dharma.

Han, Jiawei, dkk. (2012) Data mining : Concepts and Techniques 3rd Edition.

San Fransisco : Morgan Kaufmann Publishers.

Kusrini dan Luthfi, E.T.(2009). Algoritme Data Mining. Yogyakarta: ANDI.

Manalu dkk (2017). Penerapan Algoritme Naive Bayes Untuk Memprediksi

Jumlah Produksi Barang Berdasarkan Data Persediaan Dan Jumlah

Pemesanan Pada CV. Papadan Mama Pastrie, ISSN 2088-3943, Vol. 1,

No 2, Hal 17-20.

Pattekari, S. A., Parveen, A., 2012, Prediction System for Heart Disease

Using Naive Bayes, International Journal of Advanced Computer and

Mathematical Sciences, ISSN 2230-9624, Vol. 3, No 3, Hal 290-294.

Putri, R. M. Y. (2019). Klasifikasi Data Nasabah Berpotensi Terkena Kredit

Macet Dengan MEnggunakan Metode Naive Bayes. Yogyakarta:

Universitas Sanata Dharma.

Simontika, Y. R. (2014). Penerapan Algoritme Naive Bayes untuk prediksi

lama studi mahasiswa pada jurusan sistem informasi sekolah tinggi

manajemen informatika dan komputer (STMIK) Kadiri. Kediri:

Universitas Nusantara PGRI Kediri.

Siahaan, O. D (2016). Pendekatan Kesamaan Semantik dan Struktur

Dalam Kasus Penggunaan Untuk Mendapatkan Kembali Spesifikasi

Kebutuhan Perangkat Lunak. Surabaya : Institut Teknologi Sepuluh

November.

Taek, R. D. M. C. (2019). Found Detection Pada Transaksi Perbankan

Menggunakan Algoritma C4.5. Yogyakarta : Universitas Sanata Dharma.

Tamara, L. A. (2018). Klasifikasi Data Nasabah Yang Berpotensi Membuka

Simpanan Deposito Menggunakan Algoritme Rough Set. Yogyakarta :

Universitas Sanata Dharma.

Zega, dkk (2019). Prediksi Rating Film Animasi Berdasarkan Elemen Mise

En Scene Menggunakan Neural Network. Batam : Universitas Politeknik

Negri Batam.


70

LAMPIRAN

Source code program.

1. Source Code Transformasi


71

2. Source Code Normalisasi Min Max


72

3. Source Code Klasifikasi Naïve Bayes

a. Naïve Bayes untuk atribut Kategorikal


73


74


75


76


77


78


79


80


81

b. Naïve Bayes untuk atribut Numerikal


82

4. Source Code 3-Fold

5. GUI


83


84


85


PENERAPAN ALGORITME NAIVE BAYES UNTUK KLASIFIKASI … · Rumus 3.5 Menghitung Standar Deviasi ..... 31 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang

Documents

PENERAPAN ALGORITME NAIVE BAYES UNTUK KLASIFIKASI … · Rumus 3.5 Menghitung Standar Deviasi ..... 31 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang