Page 1
FRAUD DETECTION PADA TRANSAKSI PERBANKAN MENGGUNAKAN
JARINGAN SYARAF TIRUAN BACKPROPAGATION
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh
Gelar Sarjana Komputer Program Studi Teknik Informatika
Oleh:
Elfrida Afentri Manurung
155314109
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 2
ii
FRAUD DETECTION ON BANKING TRANSACTIONS
USING BACKPROPAGATION ARTIFICIAL NEURAL NETWORKS
THESIS
Present as Partial Fulfillment of the Requirement
To Obtain Sarjana Komputer Degree
in Informatics Engineering Study Program
Oleh:
Elfrida Afentri Manurung
155314109
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 3
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 4
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 5
v
HALAMAN PERSEMBAHAN
There hath no temptation taken you but such as is common to man: but God
is faithful, who will not suffer you to be tempted above that ye are able; but will
with the temptation also make a way to escape, that ye may be able to bear it.
- 1 Corinthians 10:13 -
Dengan segala rasa syukur, skripsi ini kupersembahkan kepada
TUHAN YESUS KRISTUS
Sang Juru Selamat Sejati
Papa Mama
Kakak Adik
Almamaterku Universitas Sanata Dharma
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 6
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 7
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 8
viii
ABSTRAK
Fraud secara umum merupakan suatu perbuatan yang melanggar hukum, yang
dilakukan oleh orang – orang dari dalam atau luar organisasi dengan tujuan untuk
mendapatkan keuntungan secara pribadi yang secara langsung merugikan pihak lain.
Dalam dunia perbankan, fraud dapat terjadi dalam berbagai transaksi, dimana semakin
banyak proses transaksi dilakukan maka potensi untuk terjadinya fraud juga akan
semakin tinggi. Untuk menangani fraud, dibutuhkan keahlian khusus untuk memahami
pola oleh auditor dan dibutuhkan waktu yang cukup lama untuk mengelolah data dalam
skala yang besar. Karena membutuhkan waktu yang cukup lama, maka dibutuhkan
suatu pengklasifikasian yang dapat mempermudah untuk mendeteksi fraud. Salah satu
metode yang dapat digunakan untuk melakukan pengklasifikasian adalah
backpropagation.
Pada penelitian ini algoritma backpropagation digunakan untuk
mengklasifikasikan data transaksi. Peneliti membagi transaksi menjadi dua, fraud dan
tidak fraud. Dari hasil pengujian yang dilakukan menggunakan 2730 data dari 13126
data dengan 3-fold cross validation, menghasilkan akurasi sebesar 77.5824 % dengan
struktur jaringan optimal pada satu hidden layer dengan neuron 5 serta menggunakan
fungsi aktivasi logsig dan fungsi training trainlm. Akurasi ini dapat dikatakan cukup
baik, untuk mendeteksi fraud pada data transaksi perbankan.
Kata Kunci: Fraud, Backpropagation¸Akurasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 9
ix
ABSTRACT
Fraud in general is an act that violates the law, which is carried out by people from
inside or outside the organization with the aim of obtaining personal benefits that
directly harm the other side. In the banking world, fraud can occur in various
transactions, where the more transaction processes are carried out, the higher the
potential for fraud. To handle fraud, special expertise is needed to understand patterns
by auditors and it takes a long time to manage data on a large scale. Because it requires
a long time, a classification is needed that can make it easier to detect fraud. One
method that can be used to classify is backpropagation.
In this study the backpropagation algorithm is used to classify transaction data.
The researcher divides the transaction into two, frauds and not fraud. From the results
of testing carried out using 2730 data from 13126 data with 3-fold cross validation, it
produces an accuracy of 77.5824% with optimal network structure in one hidden layer
with neurons 5 and uses the logsig activation function and trainlm training function.
This accuracy can be said to be quite good, to detect fraud in banking transaction data.
Keywords: Fraud, Backpropagation¸ Accuracy.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 10
x
KATA PENGANTAR
Puji dan syukur penulis panjatkan kehadirat Tuhan Yesus Kristus karena atas
berkat dan rahmatnya sehingga penulis dapat menyelesaikan tugas akhir dengan sangat
baik. Tugas akhir ini merupakan salah satu persyaratan wajib guna memperoleh gelar
sarjana Teknik Informatika di Universitas Sanata Dharma Yogyakarta.
Penulis menyadari bahwa pengerjaan tugas akhir ini dapat berjalan dengan baik
atas bimbingan dan bantuan dari banyak pihak. Pada kesempatan ini penulis ingin
mengucapkan terima kasih kepada:
1. Tuhan Yesus Kristus, yang tidak berhentinya memberikan kekuatan, semangat
dan berkat-Nya dalam proses penyelesaian tugas akhir.
2. Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen pembimbing tugas
akhir yang dengan sabar dan penuh perhatian memberikan bimbingan kepada
saya dalam penyusunan tugas akhir.
3. Dr. Anastasia Rita Widiarti, M.Kom., selaku Ketua Program Studi Teknik
Informatika yang selalu memberikan dukungan, perhatian, dan saran kepada
mahasiswa dalam pengerjaan tugas akhir.
4. Kedua orang tua tercinta Bapak Eli Akim Manurung dan Ibu Bertauli Samosir
yang selalu mendoakan dan memberikan dukungan berupa moral maupun
materi kepada penulis.
5. Kedua kakak terkasih Devi Efriani Manurung Am. Keb dan Triana Agustina
Manurung S. Tr. AB dan juga adik terkasih Jojor Nur Intan Manurung yang
selalu memberikan semangat dan tak henti – hentinya memberikan dukungan
sehingga penulis dapat menyelesaikan tugas akhir ini.
6. Yusmidarmawati dan Novita Rini, karena selalu memberikan dukungan dan
doa serta memberikan waktu untuk mendengarkan segala cerita penulis dalam
penyelesaian tugas akhir ini.
7. Untuk Ventya Fernitha (Peng), Clara Maria De Rosario Taek (Unsky), dan
Monica Rinda Christanto (Monca) terimakasih telah menjadi penghibur,
pemberi semangat, dan tempat untuk saling bertukar pikiran serta menjadi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 11
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 12
xii
DAFTAR ISI
HALAMAN JUDUL .......................................................................................... i
TITLE PAGE ..................................................................................................... ii
HALAMAN PERSETUJUAN ........................................................................... iii
HALAMAN PENGESAHAN ............................................................................ iv
HALAMAN PERSEMBAHAN ......................................................................... v
PERNYATAAN KEASLIAN KARYA ............................................................ vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS…………………………… vii
ABSTRAK .........................................................................................................viii
ABSTRACT ........................................................................................................ ix
KATA PENGANTAR ....................................................................................... x
DAFTAR ISI ...................................................................................................... xii
DAFTAR TABEL ..............................................................................................xiv
DAFTAR GAMBAR ......................................................................................... xv
BAB I PENDAHULUAN ............................................................................ 1
1.1. Latar Belakang ............................................................................ 1
1.2. Rumusan Masalah ...................................................................... 2
1.3. Tujuan ......................................................................................... 2
1.4. Luaran ......................................................................................... 3
1.5. Manfaat ....................................................................................... 3
1.6. Batasan Masalah ......................................................................... 3
1.7. Sistematika Penulisan ................................................................. 3
BAB II LANDASAN TEORI ....................................................................... 5
2.1. Fraud .......................................................................................... 5
2.2. Imbalanced Data ........................................................................ 7
2.3. Data Mining ................................................................................ 7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 13
xiii
2.4. Penelitian Sebelumnya ............................................................... 10
2.5. Jaringan Syaraf Tiruan ................................................................ 11
2.5.1. Arsitektur Jaringan ............................................................ 12
2.5.2 Backpropagation ................................................................ 13
2.5.3. Arsitektur .......................................................................... 18
2.5.4 Fungsi Aktivasi ................................................................... 18
2.6. Evaluasi ...................................................................................... 20
BAB III METODOLOGI PENELITIAN ..................................................... 22
3.1. Data ............................................................................................. 22
3.2. Preprocessing ............................................................................. 24
3.3. Imbalanced data .......................................................................... 29
3.4 Model Backpropagation ............................................................... 30
3.4. Kebutuhan Sistem ........................................................................ 31
3.5. Perancangan Antar Muka Sistem ............................................... 31
3.5.1. Panel Tabel Data................................................................ 32
3.5.2. Panel Uji Data Tunggal ..................................................... 33
BAB IV HASIL DAN ANALISIS SISTEM ................................................. 34
4.1. Preprocessing ............................................................................. 34
4.1.1. Data Selection ................................................................... 34
4.2 Klasifikasi ..................................................................................... 38
4.2.1 Satu Hidden Layer .............................................................. 39
4.2.2 Dua Hidden Layer .............................................................. 40
4.2.3. Arsitektur Optimal ............................................................. 41
4.2. Uji Data Tunggal ........................................................................ 42
BAB V KESIMPULAN ................................................................................ 45
5.1. Kesimpulan .................................................................................. 45
5.2. Saran ........................................................................................... 45
DAFTAR PUSTAKA ....................................................................................... 46
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 14
xiv
DAFTAR TABEL
Tabel 2.1. Confusion Matrix ............................................................................... 20
Tabel 3.1. Penjelasan Atribut ............................................................................. 22
Tabel 3.2. Contoh Data Setelah Preprocessing .................................................. 29
Tabel 3.3. Target Luaran Jenis Transaksi ........................................................... 31
Tabel 4.1. Hasil Perankingan Menggunakan Weka ........................................... 34
Tabel 4.2. Percobaan seleksi data ...................................................................... 35
Tabel 4.3. Contoh data setelah di seleksi ............................................................ 37
Tabel 4.4. Fold Pertama ..................................................................................... 41
Tabel 4.5. Fold Kedua ........................................................................................ 41
Tabel 4.6. Fold Ketiga ....................................................................................... 42
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 15
xv
DAFTAR GAMBAR
Gambar 2.1. Proses KDD ................................................................................... 8
Gambar 2.2. Ilustrasi Jaringan Layer Tunggal ................................................... 12
Gambar 2.3. Ilustrasi Jaringan Layer Jamak ...................................................... 13
Gambar 2.4. Jaringan 3 Layer ............................................................................. 18
Gambar 2.5. Grafik Fungsi Sigmoid biner ......................................................... 19
Gambar 2.6. Grafik Fungsi Sigmoid bipolar. ...................................................... 19
Gambar 2.7. K-Fold Cross Validation ............................................................... 20
Gambar 3.1. Gambaran Umum Penelitian .......................................................... 22
Gambar 3.2. Arsitektur Jaringan Untuk Pelatihan ............................................. 30
Gambar 3.3. Tampilan Menu Utama .................................................................. 31
Gambar 4.1. Grafik Variasi Fungsi Aktivasi ...................................................... 38
Gambar 4.2. Grafik Variasi Fungsi Training ..................................................... 39
Gambar 4.3. Grafik Variasi Satu Hidden Layer .................................................. 40
Gambar 4.4. Grafik Variasi Dua Hidden Layer .................................................. 40
Gambar 4.5. Arsitektur Optimal ........................................................................ 41
Gambar 4.6. Uji Data 1 ...................................................................................... 42
Gambar 4.7. Uji Data 2 ...................................................................................... 43
Gambar 4.8. Uji Data 3 ...................................................................................... 43
Gambar 4.9. Uji Data 4 ....................................................................................... 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 16
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Fraud secara umum merupakan suatu perbuatan yang melanggar hukum,
yang dilakukan oleh orang – orang dari dalam atau luar organisasi dengan
tujuan untuk mendapatkan keuntungan secara pribadi yang secara langsung
merugikan pihak lain. Menurut Karyono (2014), fraud adalah penyimpangan
dan perbuatan melanggar hukum (illegal act), yang dilakukan dengan sengaja
untuk tujuan tertentu misalnya menipu atau memberikan gambaran keliru
(mislead) kepada pihak – pihak lain, yang dilakukan oleh orang – orang baik
dari dalam maupun dari luar organisasi. Dalam berbagai organisasi perusahaan
maupun pemerintahan fraud dapat terjadi di berbagai lapisan kerja organisasi
manapun.
Dalam dunia perbankan, fraud dapat terjadi dalam berbagai transaksi,
yang dimana semakin banyak proses transaksi dilakukan maka potensi untuk
terjadinya fraud juga akan semakin tinggi. Sebagai Lembaga keuangan yang
memiliki peran penting dalam menunjang keberhasilan dan menjaga stabilitas
perekonomian, bank memiliki tingkat kompleksitas operasional yang tinggi.
Tingginya tingkat kompleksitas mengakibatkan risiko yang dihadapi akan
meningkat juga. Fraud dalam perbankan dapat mengakibatkan kerugian secara
finansial dan dapat menyebabkan hilangnya kepercayaan dari masyarakat atau
nasabah pada bank, serta memiliki dampak buruk bagi keberlangsungan
kegiatan bank. Pada akhirnya kerugian akibat fraud dapat menyebabkan
kebangkrutan.
Untuk menangani fraud dibutuhkan audit kecurangan (fraud audit) yang
bertujuan untuk menemukan kecurangan (Soejono, 2000). Namun pada
dasarnya akan sulit untuk mendeteksi fraud, karena auditor memerlukan
keahlian khusus untuk memahami pola yang terdapat pada laporan keuangan.
Selain itu dibutuhkan waktu yang cukup untuk mendeteksi fraud pada laporan
keuangan dalam skala yang besar. Dengan banyaknya data yang harus diolah
dan dipahami oleh auditor maka dibutuhkan suatu pengklasifikasian yang dapat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 17
2
mempermudah dalam mendeteksi fraud pada data transaksi. Salah satu metode
yang dapat digunakan untuk melakukan pengklasifikasian adalah
backpropagation. Adapun penelitian terkait metode Backpropagation
dilakukan oleh Nada (2017) mengenai Prediksi Kesehatan Koperasi Dengan
Jaringan Syaraf Tiruan Metode Backpropagation. Pada penelitian tersebut
peneliti menggunakan fungsi transfer layer tan-sigmoid dan fungsi transfer
output purelin. Dari hasil penelitian tersebut, diperoleh model prediksi
kesehatan koperasi dengan dua hidden layer dengan jumlah neuron 20 dan 15
menghasilkan akurasi sebesar 71% untuk model jaringan yang ke-dua.
Berdasarkan pemaparan diatas, penulis tertarik melakukan penelitian
dengan menerapkan teknik penambangan data (data mining) untuk mendeteksi
fraud pada transaksi perbankan menggunakan metode klasifikasi dengan
algoritma Backpropagation.
1.2 Rumusan Masalah
Berdasarkan paparan latar belakang di atas, masalah yang dipecahkan dalam
penelitian ini adalah:
a) Bagaimana menerapkan algoritma Backpropagation agar dapat mendeteksi
fraud pada transaksi perbankan?
b) Berapa besar tingkat akurasi algoritma Backporpagation yang digunakan
untuk mendeteksi fraud pada sebuah transaksi perbankan?
1.3 Tujuan
Sesuai dengan latar belakang dan rumusan masalah di atas, tujuan penelitian
ini adalah:
a) Mampu mendeteksi apakah sebuah transaksi tersebut merupakan transaksi
fraud atau tidak dengan menerapkan algoritma Backpropagation.
b) Mengetahui tingkat akurasi yang dihasilkan dengan menggunakan
algoritma Backpropagation dalam mendeteksi fraud pada transaksi
perbankan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 18
3
1.4 Luaran
Dengan penelitian ini diharapkan mendapat luaran sebagai berikut:
a) Deteksi fraud pada transaksi perbankan dapat dilakukan dan mendapat
akurasi yang baik sehingga luaranya dapat dipertanggung jawabkan.
b) Deteksi fraud dapat dilakukan dengan menggunakan data transaksi
perbankan.
1.5 Manfaat
Manfaat yang diharapkan dengan adanya penelitian ini adalah dapat membantu
pihak bank dalam mendeteksi fraud dalam transaksi. Selain itu penelitian ini
diharapkan dapat memberikan gambaran bagi pembaca mengenai pendeteksian
fraud dalam transaksi dengan menggunakan algoritma Backpropagation.
1.6 Batasan Masalah
a) Penelitian dilakukan dengan menggunakan data transaksi pada salah satu
bank swasta di Indonesia. Data transaksi yang digunakan sebanyak 13.125
data dengan 27 atribut.
b) Penelitian menggunakan format file berupa .xlsx atau xls.
c) Penelitian akan terhenti bila sudah dapat mendeteksi sebuah transaksi dan
memberikan hasil dari deteksi.
d) Penelitian memanfaatkan algoritma Backpropagation sebagai acuan kerja
pada sistem dengan menggunakan aplikasi Matlab.
1.7 Sistematika Penulisan
Struktur penelitian pada penyusunan penulisan ini, adalah:
Bab I : Pendahuluan
Bab ini mengenai pemahaman dasar tentang latar belakang masalah, rumusan
masalah, tujuan penelitian, batasan masalah, dan sistematika penulisan.
Bab II : Landasan Teori
Bab ini berisi tentang teori yang akan digunakan guna menunjang penelitian
dan menjadi dasar atau sumber tertulis dari apa yang akan dilakukan, yaitu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 19
4
berupa pengertian mengenai teori penambangan data, proses penambangan
data, pengertian jaringan syaraf tiruan dan pengertian algoritma
Backpropagation.
Bab III : Metodologi Penelitian
Bab ini berisi mengenai desain perancangan, yang meliputi: gambaran umum,
data, perancangan sistem dengan metode Backpropagation, tahap penelitian
dan spesifikasi alat.
Bab IV : Hasil dan Analisis
Bab ini berisi implementasi dan melakukan analisis dari deteksi fraud pada
transaksi dengan menggunakan metode Backpropagation.
Bab V : Kesimpulan
Bab ini berisi mengenai jawaban singkat dari rumusan masalah atau
kesimpulan dan saran dalam pengembangan serta penyempurnaan penelitian
yang dibuat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 20
5
BAB II
LANDASAN TEORI
Bab ini akan membahas dasar teori serta hasil penelitian terdahulu yang akan
digunakan dalam proses penyusunan dan pembahasan penelitian, yang mencakup
didalamnya bebarapa pengertian mengenai fraud, imbalanced data, data mining,
jaringan syaraf tiruan, dan evaluasi.
2.1 Fraud
Kecurangan atau Fraud terdiri dari berbagai bentuk atau cara yang nantinya
mungkin akan ditemukan oleh auditor dalam suatu audit. Fraud sendiri
didefinisikan dengan berbagai arti oleh para ahli. Menurut Karyono (2013; 4-5)
fraud dapat diistilahkan sebagai kecurangan yang mengandung makna suatu
penyimpangan dan perbuatan melanggar hukum (illegal act), yang dilakukan
dengan sengaja untuk tujuan tertentu misalnya menipu atau memberikan gambaran
keliru (mislead) kepada pihak – pihak lain, yang dilakukan oleh orang – orang baik
dari dalam maupun dari luar organisasi. Kecurangan di rancang untuk
memanfaatkan peluang – peluang secara tidak jujur, yang secara langsung maupun
tidak langsung merugikan pihak lain.
Sedangkan menurut Tuanakotta (2013; 28) fraud ialah:
”Any illegal act characterized by deceit, concealment or violation of
trust, these acts are not dependent upon the application of threats of
violence or physical force. Fraud are perpetrated by individuals, and
organization to obtain money, property or service; to avoid payment
or loss of services; or to secure personal business advantage.”
Pada pernyataan tersebut menjelaskan bahwa fraud adalah setiap tindakan
ilegal yang ditandai dengan tipu daya, penyembunyian atau pelanggaran
kepercayaan. Tindakan ini tidak tergantung pada penerapan ancaman kekerasan
atau kekuatan fisik. Penipuan yang dilakukan oleh individu, dan organisasi untuk
memperoleh uang, kekayaan atau jasa; untuk menghindari pembayaran atau
kerugian jasa; atau untuk mengamankan keutungan bisnis pribadi. Dari beberapa
definisi fraud menurut para ahli dapat disimpulkan bahwa fraud ialah tindakan yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 21
6
dilakukan seseorang individu atau organisasi secara sengaja untuk menipu atau
mendapatkan keuntungan dalam suatu kondisi, yang dimana tindakan tersebut
dapat merugikan pihak lain.
Pada dasarnya fraud tidak akan terjadi begitu saja. Fraud dapat terjadi karena
berbagai penyebab dan kemungkinan yang dapat dijadikan alasan untuk melakukan
tindakan fraud. Alasan yang ada bisa berasal dari dalam maupun luar diri sendiri.
Beberapa hal yang menyebabkan tindakan fraud terjadi yaitu kesempatan
(opportunity), tekanan (pressure), dan rasionalisasi (rationalization). Ketiganya
akan saling mendukung antara satu sama lain dan membentuk suatu segitiga
kecurangan (fraud triangle) Cressey (1950). Berikut adalah penjelasan dari segitiga
kecurangan (fraud triangle) yaitu:
1. Tekanan (Pressure)
Keinginan untuk hidup yang lebih baik dan pemenuhan kebutuhan keuangan
yang tidak dapat diceritakan kepada orang lain merupakan dasar untuk
melakukan suatu tindak kecurangan (fraud).
2. Kesempatan (Opportunity)
Adanya persepsi bahwa terdapat peluang atau kesempatan untuk melakukan
fraud tanpa diketahui oleh orang lain. Menurut Cressey (1950) terdapat dua
komponen dari persepsi mengenai peluang, yaitu:
• General information, yaitu pengetahuan bahwa kedudukan yang
mengandung kepercayaan dapat dilanggar tanpa konsekuensi.
• Technical skill, yaitu keahlian yang dimiliki seorang dan yang
menyebabkan orang tersebut mendapatkan kedudukan.
3. Rasionalisasi (Rationalization)
Pencarian pembenaran dengan berbagai alasan yang rasional untuk menutupi
tindakan pelaku, sehingga membuat tindakan yang dilakukan seolah – olah
dianggap wajar oleh masyarakat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 22
7
2.2 Imbalanced Data
Sebuah kumpulan data dikatakan tidak seimbang (imbalanced) dikarenakan
terdapat satu kelas yang memiliki jumlah data lebih kecil dibandingkan dengan
jumlah data pada kelas lainnya. Ketidak seimbangan tersebut sangat merugikan
bagi peneliti dalam bidang data mining, karena machine learning pada data mining
akan memiliki kesulitan dalam mengklasifikasi kelas dengan jumlah data yang kecil
(minority class) dengan benar. Sehingga jika pengujian dilakukan dengan
menggunakan dataset yang tidak seimbang maka pengujian akan fokus kepada
kelas dengan jumlah data yang besar (majority class) dan akan mengabaikan kelas
minoritas sehingga dapat menyebabkan error pada klasifikasi kelas minoritas.
Dengan kata lain kelas minoritas hanya akan dianggap sebagai noise saja.
Oleh karena itu, untuk mengatasi ketidak seimbangan kelas dapat dilakukan
dengan melakukan sampel ulang (resample) dataset. Adapun cara resample terdiri
dari dua cara yaitu over sampling dan under sampling. Over sampling merupakan
teknik resample yang akan meningkatkan jumlah kelas terkecil dengan cara
mereplikasi data secara acak sehingga memiliki jumlah yang sama dengan kelas
terbesar. Sedangkan under sampling merupakan mekanisme untuk mengurangi
jumlah data pada kelas terbesar secara acak sehingga memiliki jumlah yang sama
dengan kelas terkecil.
2.3 Data Mining
Data Mining adalah suatu istilah yang digunakan untuk menguraikan
penemuan pengetahuan di dalam database. Data Mining adalah proses yang
menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).
Istilah Data Mining dan Knowledge Discovery in Database (KDD) seringkali
digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain dan salah
satu tahap dalam proses KDD adalah data mining. Proses KDD ditunjukan pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 23
8
Gambar 2.1 sebagai urutan iteratif dari langkah – langkah berikut (Han, 2006):
Gambar 2.1 Proses KDD (Han, 2006)
1. Data cleaning
Data cleaning merupakan proses yang mencakup antara lain membuang
duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan penulisan (tipografi).
2. Data integration
Proses penambahan data yang sudah ada dengan data atau informasi lain
yang relevan atau dapat juga disebut sebagai penggabungan data dari
berbagai sumber data yang baru.
3. Data selection
Memilih atau mengambil data yang relevan dengan tugas analisis dari
database.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 24
9
4. Data transformation
Proses mentransformasi atau mengubah data kedalam bentuk yang sesuai
untuk penggalian dengan melakukan operasi summary atau agregasi.
5. Data mining
Proses penting dimana metode cerdas diterapkan untuk mengekstrak pola
data.
6. Pattern evaluation
Mengidentifikasi pola yang benar – benar menarik yang mewakili
pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation
Dimana visualisasi dan teknik representasi pengetahuan digunakan untuk
menyajikan pengetahuan yang digali kepada pengguna.
Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu (Luthfi, 2009):
1. Deskripsi
Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan
penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi
nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan
teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan
(untuk keadaan yang tepat) untuk prediksi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 25
10
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
5. Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek – objek yang memiliki
kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu
dengan yang lainnya dan memiliki ketidak miripan dengan record – record
dalam kluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak
adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba
untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari
variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk
melakukan pembagian terhadap keseluruhan data menjadi kelompok –
kelompok yang memiliki kemiripan (homogen), yang mana kemiripan
record dalam satu kelompok akan berniali maksimal, sedangkan kemiripan
dengan record dalam kelompok lain akan bernilai minimal.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribu yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
2.4 Penelitian Sebelumnya
Pada penelitan yang dilakukan oleh Nada (2017) mengenai Prediksi Kesehatan
Koperasi Dengan Jaringan Syaraf Tiruan Metode Backpropagation peneliti
mengklasifikasi kesehatan koperasi menjadi empat yaitu, sehat, cukup sehat,
kurang sehat dan tidak sehat. Peneliti melakukan uji coba dengan beberapa
kombinasi hidden layer, k-fold, dan metode training untuk mencari akurasi
tertinggi. Pada penelitian tersebut digunakan 5 metode training yaitu trainscg,
traincgf, traingda, traingdx dan trainrp. Percobaan yang dilakukan pertama kali
adalah melakukan percobaan untuk akurasi metode training, yang berfungsi untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 26
11
menentukan metode training yang akan digunakan. Percobaan pertama kali
dilakukan dengan 1 hidden layer menggunakan fungsi transfer tansig, fungsi
aktivasi purelin, epoch = 1000, dan k-fold =5. Akurasi tertinggi didapatkan pada
neuron 20 dengan metode training yaitu trainrp dan tingkat akurasi mencapai 68%.
Karena hasil percobaan masih kurang akurat dalam memprediksi kesehatan
koperasi, maka pengujian dilakukan dengan 2 hidden layer. Pada pengujian
berikutnya setiap metode training diuji satu persatu. Hasil yang diperoleh pada
pengujian terhadap metode training trainscg pada neuron 15 dan 30 menghasilkan
akurasi sebesar 68%, pada metode training traingda dengan menggunakan neuron
30 dan 15 menghasilkan akurasi sebesar 71%, pada metode training traingdx
dengan mengunakan neuron pada layer 2 20, 25, 30 menghasilkan akurasi sebesar
68%, pada metode training trainrp dengan menggunakan neuron 20 dan 20
menghasilkan akurasi sebesar 68%, dan pada metode training traincgf dengan
menggunakan neuron 35 dan 20 menghasilkan akurasi sebesar 64%. Dari beberapa
pengujian pada 2 hidden layer akurasi terbesar didapatkan dengan menggunakan
metode training traingda, dengan akurasi mencapai 71%.
2.5 Jaringan Syaraf Tiruan
Jaringan syaraf tiruan (artificial neural networks) merupakan model yang
mengadopsi cara kerja sistem jaringan syaraf makhluk hidup. Sistem tersebut terdiri
dari jaringan yang sangat kompleks yang terdiri dari neuron yang saling terhubung
(Siang, 2009). Ada tiga tipe neuron (node), yaitu input, hidden, dan output. Dua
buah node akan dihubungkan dalam setiap relasi dengan bobot tertentu dan juga
terdapat arah yang menunjukan aliran data dalam proses.
Input node merupakan layer pertama dalam jaringan syaraf. Hidden node akan
menerima masukan dari input node pada layer pertama atau dari hidden node pada
layer sebelumnya. Hidden node mengkombinasikan semua masukan berdasarkan
bobot dari relasi yang terhubung, melakukan kalkulasi, dan memberi keluaran
untuk layer berikutnya. Output node merupakan representasi atribut yang
diprediksi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 27
12
2.5.1. Arsitektur Jaringan
Beberapa arsitektur jaringan yang sering dipakai dalam jaringan syaraf
tiruan antara lain (Hagan & Demuth, 2014):
a. Jaringan Layer Tunggal (single layer network)
Dalam jaringan ini, sekumpulan input neuron dihubungkan
langsung dengan sekumpulan outputnya. Dalam beberapa model
(missal perceptron), hanya ada sebuah unit neuron output.
Gambar 2.2 Ilustrasi Jaringan Layer Tunggal (Hagan & Demuth,
2014)
Gambar 2.2 menunjukkan arsitektur jaringan dengan r unit input (p₁, p₂,
…, p𝑛) dan s buah unit output (a1, a2, …, as).
Dalam jaringan ini ditunjukkan semua unit input dihubungkan dengan
semua unit output, meskipun dengan bobot yang berbeda – beda. Tidak
ada unit input yang dihubungkan dengan unit input lainnya. Demikian
pula dengan unit output. Bobot – bobot ini saling independent. Selama
proses pelatihan, bobot – bobot tersebut akan dimodifikasi untuk
meningkatkan keakuratan hasil. Model semacam ini tepat digunakan
untuk pengenalan pola karena kesederhanaannya.
b. Jaringan Layer Jamak (multi layer network)
Jaringan layer jamak merupakan perluasan dari layer tunggal.
Dalam jaringan ini, selain unit input dan output, ada uni – unit lain.
Dimungkinkan pula ada beberapa layer tersembunyi. Sama seperti pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 28
13
unit input dan output, unit – unit dalam satu layer tidak saling
berhubungan.
Gambar 2.3 Ilustrasi Jaringan Layer Jamak (Hagan & Demuth, 2014)
Gambar 2.3 adalah jaringan dengan R buah unit input (p₁, p₂, …, pr),
sebuah layar tersembunyi yang terdiri dari w buah unit dan a buah unit
output.
Jaringan layar jamak dapat menyelesaikan masalah yang lebih
kompleks dibandingkan dengan layar tunggal, meskipun kadangkala
proses pelatihan lebih kompleks dan lama.
2.5.2. Backpropagation
Backpropagation melatih jaringan untuk mendapatkan keseimbangan
antara kemampuan jaringan untuk mengenali pola yang digunakan selama
pelatihan serta kemampuan jaringan untuk memberikan respon yang benar
terhadap pola masukan yang serupa (tapi tidak sama) dengan pola yang dipakai
selama pelatihan (Siang, 2009). Pelatihan sebuah jaringan backpropagation
terdiri dari 3 langkah, yaitu: pelatihan pola input secara feedforward,
perhitungan dan backpropagation dari kumpulan kesalahan dan penyesuaian
bobot.
Berikut merupakan penjelasan dari langkah – langkah pelatihan
backpropagation (Siang, 2009):
Pelatihan backpropagation meliputi tiga fase (Siang, 2009). Fase
pertama adalah fase maju, yang dimana pola masukan dihitung maju mulai dari
layar masukan hingga layar keluaran dengan menggunakan fungsi aktivasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 29
14
yang ditentukan. Fase kedua adalah fase mundur, yang dimana selisih antara
keluaran jaringan dengan target yang diinginkan merupakan kesalahan yang
terjadi. Kesalahan tersebut dipropagasikan mundur, yang dimulai dari garis
yang berhubungan langsung dengan unit – unit di layar keluaran. Fase ketiga
adalah modifikasi bobot untuk menurunkan kesalahan yang terjadi.
1. Fase I: Propagasi maju
Selama propagasi maju, sinyal masukan (=𝑥𝑖) dipropagasikan ke layar
tersembunyi menggunakan fungsi aktivasi yang ditentukan. Keluaran dari
setiap unit layar tersembunyi (=𝑧𝑗) tersebut selanjutnya dipropagasikan maju
lagi ke layar tersembunyi di atasnya menggunakan fungsi aktivasi yang
ditentukan. Demikian seterusnya hingga menghasilkan keluaran jaringan
(=𝑦𝑘). Kemudian keluaran jaringan (=𝑦𝑘) dibandingkan dengan target yang
harus dicapai (=𝑡𝑘). Selisih 𝑡𝑘- 𝑦𝑘 adalah kesalahan yang terjadi. Jika kesalahan
lebih kecil dari batas toleransi yang ditentukan, maka iterasi dihentikan. Akan
tetapi apabila kesalahan masih lebih besar dari batas toleransinya, maka bobot
dari setiap garis dalam jaringan akan dimodifikasi untuk mengurangi kesalahan
yang terjadi.
Algoritma propagasi maju pada pelatihan jaringan dengan satu layar
tersembunyi, menggunakan fungsi aktivasi sigmoid biner adalah sebagai
berikut (Siang, 2009):
1. Inisialisasi semua bobot dengan bilangan acak kecil.
2. Jika kondisi penghentian belum terpenuhi, lakukan langkah 3 – 9.
3. Untuk setiap pasang data pelatihan, lakukan langkah 4 – 9.
4. Tiap unit masukan menerima sinyal dan meneruskannya ke unit
tersembunyi di atasnya.
5. Hitung semua keluaran di unit tersembunyi 𝑧𝑗 (j= 1, 2, …, p).
𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗𝑜 + ∑ 𝑥𝑖𝑣𝑗𝑖𝑛𝑖=1 …………………. (2.1)
𝑧𝑗 = 𝑓(𝑧_𝑛𝑒𝑡𝑗) =1
1+𝑒−𝑧_𝑛𝑒𝑡𝑗
………………….. (2.2)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 30
15
Keterangan:
𝑧𝑗= bobot pada unit tersembunyi j.
𝑥𝑖=unit masukan i.
𝑣𝑗𝑖= bias pada unit tersembunyi j.
6. Hitung semua keluaran jaringan di unit 𝑦𝑘 (k= 1, 2, ...., m).
𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘𝑜 + ∑ 𝑧𝑗𝑝𝑗=1 𝑤𝑘𝑗 ………………… (2.3)
𝑦𝑘 = 𝑓(𝑦_𝑛𝑒𝑡𝑘) =1
1+𝑒−𝑦_𝑛𝑒𝑡𝑘 ………………… (2.4)
Keterangan:
𝑦𝑘= unit keluaran k.
𝑤𝑘𝑗= bias pada unit keluaran j.
𝑧𝑗= bobot pada unit tersembunyi j.
2. Fase II: Propagasi mundur
Dari kesalahan 𝑡𝑘- 𝑦𝑘 , dihitung factor 𝛿𝑘 (k=1, 2, …, m) yang dipakai
untuk mendistribusikan kesalahan di unit 𝑦𝑘 ke semua unit tersembunyi yang
terhubung langsung dengan 𝑦𝑘. 𝛿𝑘 juga digunakan untuk mengubah bobot garis
yang berhubungan langsung dengan unit keluaran. Dengan menggunakan cara
yang sama, factor 𝛿𝑗 dihitung disetiap unit di layar tersembunyi sebagai dasar
perubahan bobot semua garis yang berasal dari unit tersembunyi di layar di
bawahnya. Demikian seterusnya hingga semua factor 𝛿 di unit tersembunyi
yang berhubungan langsung dengan unit masukkan dihitung.
Algoritma propagasi mundur pada pelatihan jaringan dengan satu layar
tersembunyi, menggunakan fungsi aktivasi sigmoid biner adalah sebagai
berikut (Siang, 2009):
1. Hitung factor 𝛿 unit keluaran berdasarkan kesalahan di setiap unit
keluaran 𝑦𝑘 (k = 1, 2, …, m).
𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘)𝑓′ (𝑦_𝑛𝑒𝑡𝑘) = (𝑡𝑘 − 𝑦𝑘)𝑦𝑘(1 − 𝑦𝑘) …… (2.5)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 31
16
Keterangan:
𝛿𝑘= nilai koreksi bobot error untuk 𝑤𝑘𝑗 yang disebabkan oleh error
pada unit keluaran 𝑦𝑘.
𝑡𝑘= target yang harus dicapai.
𝑦𝑘= unit keluaran k.
Hitung suku perubahan bobot 𝑤𝑘𝑗 (yang nantinya akan digunakan
untuk mengubah bobot 𝑤𝑘𝑗) dengan laju percepatan 𝛼 .
∆𝑤𝑘𝑗 = 𝛼 𝛿𝑘 𝑧𝑗 ……………………… (2.6)
Keterangan:
∆𝑤𝑘𝑗 = Suku perubahan bobot bias pada unit keluaran j.
𝛼 = learning rate.
𝑧𝑗= bobot pada unit tersembunyi j.
(k = 1, 2, …, m; j = 0, 1, …, p)
2. Hitung factor 𝛿 unit tersembunyi berdasarkan kesalahan setiap unit
tersembunyi 𝑧𝑗 (j= 1, 2, …, p)
𝛿_𝑛𝑒𝑡𝑗 = ∑ 𝛿𝑘𝑚𝑘=1 𝑤𝑘𝑗 …………………. (2.7)
Keterangan:
𝛿𝑘= nilai koreksi bobot error untuk 𝑤𝑘𝑗 yang disebabkan oleh error
pada unit keluaran 𝑦𝑘.
𝑤𝑘𝑗= bias pada unit keluaran j.
Factor 𝛿 unit tersembunyi:
𝛿𝑗 = 𝛿_𝑛𝑒𝑡𝑗 𝑓′(𝑧_𝑛𝑒𝑡𝑗) = 𝛿_𝑛𝑒𝑡𝑗 𝑧𝑗(1 − 𝑧𝑗) …..… (2.8)
Keterangan:
𝛿𝑗= nilai koreksi bobot error untuk yang disebabkan oleh informasi
propagasi balik dari error pada lapis keluaran ke unit tersembunyi 𝑧𝑗.
𝑧𝑗= bobot pada unit tersembunyi j.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 32
17
Hitung suku perubahan bobot 𝑣𝑗𝑖 yang nanti akan digunakan untuk
mengubah bobot 𝑣𝑗𝑖.
∆𝑣𝑗𝑖 = 𝛼 𝛿𝑗 𝑥𝑖 ………………….….. (2.9)
Keterangan:
∆𝑣𝑗𝑖 = Suku perubahan bobot 𝑣𝑗𝑖.
𝛼 = kostanta laju pembelajaran (learning rate).
𝑥𝑖=unit masukan i.
(j = 1, 2, …, p; i = 0, 1, …, n)
3. Fase III: Perubahan bobot
Setelah menghitung semua factor 𝛿, maka dilakukan modifikasi bobot
untuk semua garis secara bersamaan. Perubahan bobot suatu garis berdasarkan
factor 𝛿 neuron di layar atasnya.
Ketiga fase tersebut akan terus diulang hingga kondisi penghentian
dipenuhi. Jumlah iterasi atau kesalahan umumnya dipakai sebagai kondisi
penghentian. Iterasi akan dihentikan jika jumlah iterasi yang dilakukan sudah
melebihi jumlah maksimum iterasi yang ditetapkan, atau jika kesalahan yang
terjadi sudah lebih kecil dari batas toleransi yang diijinkan.
Algoritma perubahan bobot pada pelatihan jaringan dengan satu layer
tersembunyi dan fungsi aktivasi sigmoid biner (Siang,2009):
1. Hitung semua perubahan bobot. Perubahan bobot garis yang menuju
ke unit keluaran:
𝑤𝑘𝑗(𝑏𝑎𝑟𝑢) = 𝑤𝑘𝑗(𝑙𝑎𝑚𝑎) + ∆𝑤𝑘𝑗 ……………. (2.10)
Keterangan:
𝑤𝑘𝑗(𝑏𝑎𝑟𝑢)= bias pada unit keluaran j yang baru.
𝑤𝑘𝑗(𝑙𝑎𝑚𝑎)= bias pada unit keluaran j yang lama.
∆𝑤𝑘𝑗= suku perubahan bobot bias pada unit keluaran j.
(k = 1, 2, …, m; j = 0, 1, …, p)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 33
18
Perubahan bobot garis yang menuju ke unit tersembunyi:
𝑣𝑗𝑖(𝑏𝑎𝑟𝑢) = 𝑣𝑗𝑖(𝑙𝑎𝑚𝑎) + ∆𝑣𝑗𝑖 ………………. (2.11)
Keterangan:
𝑣𝑗𝑖(𝑏𝑎𝑟𝑢)= bias pada unit tersembunyi j yang baru.
𝑣𝑗𝑖(𝑙𝑎𝑚𝑎)= bias pada unit tersembunyi j yang lama.
∆𝑣𝑗𝑖 = Suku perubahan bobot 𝑣𝑗𝑖.
(j = 1, 2, …, p; i = 0, 1, …, n)
2.5.3. Arsitektur
Jaringan syaraf banyak lapisan dengan 3 lapisan dari unit yang
tersembunyi.
Gambar 2.4 Jaringan 3 Layer (Hagan and Beale, 2014)
Ilustrasi klasifikasi menggunakan multilayer perceptron.
2.5.4. Fungsi Aktivasi
Fungsi aktivasi yang digunakan dalam backpropagation harus
memenuhi beberapa syarat yaitu: kontinu, terdiferensial dengan mudah dan
merupakan fungsi yang tidak turun. Fungsi sigmoid biner dengan range (0,1)
merupakan salah satu fungsi yang memenuhi ketiga syarat tersebut.
𝑓(𝑥) =1
1+𝑒−𝑥 …………………………… (2.12)
dengan turunan
𝑓′(𝑥) = 𝑓(𝑥)(1 − 𝑓(𝑥)) …………………….. (2.13)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 34
19
Grafik fungsi pada Gambar 2.5
Gambar 2.5 Grafik Fungsi Sigmoid biner (Siang, 2009)
Fungsi lain yang sering dipakai adalah fungsi sigmoid bipolar yang memiliki
range (-1, 1). Fungsi sigmoid bipolar memiliki bentuk fungsi yang mirip
dengan fungsi sigmoid biner, yang membedakan adalah nilai dari rangenya.
𝑓(𝑥) =2
1+𝑒−𝑥 − 1 …………………………. (2.14)
dengan turunan
𝑓′(𝑥) =(1+𝑓(𝑥))(1−𝑓(𝑥))
2 ……….……………… (2.15)
Grafik fungsi pada Gambar 2.6
Gambar 2.6 Grafik Fungsi Sigmoid bipolar (Siang, 2009)
Fungsi sigmoid memiliki nilai maksimum = 1. Untuk pola yang targetnya > 1,
pola masukan dan keluaran harus terlebih dahulu ditransformasi sehingga
semua polanya memiliki range yang sama seperti fungsi sigmoid yang dipakai.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 35
20
2.6 Evaluasi
Merupakan tahap akhir dalam pengenalan pola. Evaluasi bertujuan untuk
menguji tingkat keberhasilan dari sistem. Untuk menguji keberhasilan dari sistem,
maka dapat digunakan metode K-Fold Cross Validation. Pada Gambar 2.7
merupakan contoh dari K-Fold Cross Validation dengan nilai K=3.
Gambar 2.7 K-Fold Cross Validation
Seluruh data akan dibagi menjadi 3 bagian yang kemudian akan dilakukan 3
kali testing. Fold pertama akan menggunakan bagian 1 dan 2 sebagai model dan
menggunakan bagian 3 sebagai testing. Fold kedua akan menggunakan bagian 2
dan 3 sebagai model dan menggunakan bagian 1 sebagai testing. Fold ketiga akan
menggunakan bagian 1 dan 3 sebagai model dan bagian 2 sebagai testing. Untuk
mengetahui seberapa besar tingkat akurasi dari hasil evaluasi dari masing – masing
fold. Maka digunakan perhitungan Confusion Matrix. Pada Tabel 2.1 merupakan
perhitungan Confusion Matrix yang akan digunakan.
Tabel 2.1 Confusion Matrix
Kelas Prediksi
Positif Negatif
Positif TP (True Positif) FN (False Negatif)
Negatif FP (False Positif) TN (True Negatif)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 36
21
Nilai akurasi dapat dihitung dengan persamaan:
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁𝑥 100% ……………. (2.16)
Keterangan:
TP = Jumlah positif yang diklasifikasi sebagai positif
TN = Jumlah negative yang diklasifikasi sebagai negative
FN = Jumlah negative yang diklasifikasi sebagai positif
FP = Jumlah positif yang diklasifikasi sebagai negative
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 37
22
BAB III
METODOLOGI PENELITIAN
Bab ini akan membahas analisis kebutuhan sistem yang mencakup tahapan –
tahapan pengolahan data dan proses yang akan dibangun untuk melakukan
perhitungan deteksi fraud pada transaksi. Secara umum pembahasan pada bab ini
digambarkan pada Gambar 3.1 berikut ini:
Gambar 3.1 Gambaran Umum Penelitian
3.1 Data
Data yang akan digunakan oleh penulis dalam penelitian ini diperoleh dari
salah satu bank swasta di Indonesia. Data yang ada berfokus pada data transaksi
bank. Jumlah data sebanyak 13.125 record data transaksi yang terdiri dari 27 atribut
dan 1 kelas.
Tabel 3.1 Penjelasan Atribut
No. Atribut Keterangan
1. x Id kartu.
2. id_tanggal_transaksi_awal Id tanggal transaksi dilakukan.
3. tanggal_transaksi_awal Tanggal dilakukannya transaksi.
4. tipe_kartu Tipe kartu saat melakukan transaksi.
(0/1/2/3/4/5/24/28/93/103/104/111/132/138)
5. id_merchant Merchant dimana kartu tersebut bertransaksi.
(-2/1401/1498/1557/1572/1667/…/720990)
6. nama_merchant Merchant dimana kartu tersebut bertransaksi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 38
23
(2/5/7/8/10/11/12/13/14/15/17/19/…/1859)
7. tipe_mesin Tipe Mesin yaitu, mesin ATM (Automated
Teller Machine) atau mesin EDC (Electronic
Data Capture).
(-4/-3/-2/3/7/14/15/25/28/34/42/…/6928943)
8. tipe_transaksi Jenis Transaksi.
(26/58/147/148/153/156/158/159/…/640)
9. nama_transaksi Jenis Transaksi.
(1/2/3/4/5/6/7/8/9/10/11/12/13/14/15/…/20)
10. nilai_transaksi Nilai uang yang tercatat pada saat transaksi.
11. id_negara Negara tempat dilakukannya transaksi.
(-2/45/57/64/73/96/104/149/157/168/…/183)
12. nama_negara Negara tempat dilakukannya transaksi.
(1/4/5/6/7/8/10/11/12/14/15/16)
13. nama_kota Nama kota dilakukannya transaksi.
(1/3/4/5/7/8/9/10/11/13/15/17/19/21/…/293)
14. lokasi_mesin Lokasi dimana mesin beroperasi.
(2/4/7/8/9/10/11/13/14/16/18/19/24/…/8697)
15. pemilik_mesin Pemilik mesin.
(1/2/5/7/9/11/12/14/17/18/19/20/24/…/2688)
16. waktu_transaksi Waktu dilakukanya transaksi.
17. kuartal_transaksi Kuartal waktu transaksi.
(1/2/3/4)
18. kepemilikan_kartu Kepemilikan kartu.
(1/2)
19. nama_channel Kartu via channel apa saat transaksi.
(1/2/3/4/5)
20. id_channel Kartu via channel apa saat transaksi.
(3/4/8/9)
21. flag_transaksi_finansial Jenis transaksi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 39
24
(false)
22. status_transaksi Status transaksi gagal atau berhasil.
(3)
23. bank_pemilik_kartu Kepemilikan kartu yang dimiliki suatu bank.
(999)
24. rata_rata_nilai_transaksi Rata – rata nilai transaki.
25. maksimum_nilai_transaksi Nilai maksimum transaksi.
26. minimum_nilai_transaksi Nilai minimum transaksi.
27. rata_rata_jumlah_transaksi Rata – rata jumlah transaksi.
28. flag_transaksi_fraud Apakah transaksi tergolong fraud atau tidak.
(0/1)
3.2 Preprocessing
1. Data cleaning
Proses data cleaning bertujuan untuk menghilangkan noise dan data yang
tidak konsisten. Pada penelitian ini tahap data cleaning dilakukan karena
ditemukan beberapa atribut yang memiliki nilai missing value. Atribut – atribut
yang memiliki nilai missing value adalah atribut rata_rata_nilai_transaksi,
maksimum_nilai_transaksi, minimum_nilai transaksi, dan
rata_rata_jumlah_transaksi. Untuk mengatasi missing value tersebut dilakukan
dengan mengganti nilai missing value dengan nilai rata – rata dari tiap atribut.
Nilai rata – rata tiap atribut didapatkan dengan menggunakan rumus:
x̅ =x1+x2+⋯+xn
n…………………….. (3.1)
Keterangan:
x̅ = Rata – rata (Mean)
x1 = Nilai data ke-1.
x2 = Nilai data ke-2.
xn = Nilai data ke-n.
n = Banyak data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 40
25
Sehingga didapatkan hasil rata – rata dari setiap atribut yang ada sebagai
berikut:
• Rata_rata_nilai_transaksi = 1364131.82676
• Maksimum_nilai_transaksi = 12287602.94406
• Minimum_nilai_transaksi = 76519.32860
• Rata_rata_jumlah_transaksi = 2.436182
2. Data transformation
Proses data transformation adalah proses mengubah data ke dalam bentuk
yang sesuai untuk ditambang. Pada penelitian ini, proses data transformation
akan dilakukan dengan mengubah data menjadi data numerik untuk beberapa
atribut tertentu. Proses transformasi dilakukan dengan tahap – tahap sebagai
berikut:
1. Memilih atribut mana saja yang datanya akan di transformasi. Pada
penelitian ini atribut yang akan di transformasi adalah
id_tanggal_transaksi_awal, nilai_transaksi, rata_rata_nilai_transaksi,
maksimum_nilai transaksi, minimum_nilai transaksi, dan
rata_rata_jumlah_transaksi. Setelah itu mencari nilai interval pada
masing – masing atribut.
2. Untuk mengetahui interval masing – masing atribut, yang harus
dilakukan adalah dengan mencari nilai minimum dan maksimum pada
atribut.
➢ Id_tanggal_transaksi_awal
Nilai minimum : 2457297
Nilai maksimum : 2457662
➢ nilai_transaksi
Nilai minimum : 1
Nilai maksimum : 75000000
➢ rata_rata_nilai_transaksi
Nilai minimum : 50000
Nilai maksimum : 24666666.67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 41
26
➢ maksimum_nilai_transaksi
Nilai minimum : 38000
Nilai maksimum : 100000000
➢ minimum_nilai_transaksi
Nilai minimum : 1
Nilai maksimum : 75000000
➢ rata_rata_jumlah_transaksi
Nilai minimum : 1
Nilai maksimum : 19.78
3. Setelah nilai minimum dan maksimum diketahui, kemudian Panjang
kelas interval masing – masing atribut dihitung dengan menggunakan
teknik discretization by binning. Teknik discretization by binning
merupakan proses pengelompokan atau pembagian data ke dalam
beberapa kelompok dengan lebar (jarak) yang sama., dengan rumus
yaitu:
𝑊 =𝑀𝑎𝑘𝑠−𝑀𝑖𝑛
𝑘…………………….. (3.2)
Keterangan:
𝑊 = Panjang kelas interval
𝑀𝑎𝑘𝑠 = Nilai maksimum
𝑀𝑖𝑛 = Nilai minimum
𝑘 = jumlah kelompok yang diinginkan
Berdasarkan rumus tersebut, Panjang kelas interval masing – masing
atribut yaitu:
➢ Id_tanggal_transaksi_awal
𝑊 =2457662 − 2457297
12= 30.41667
➢ Nilai_transaksi
𝑊 =75000000 − 1
750= 100000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 42
27
➢ Rata_rata_nilai_transaksi
𝑊 =24666666.67 − 50000
750= 32822.223
➢ Maksimum_nilai_transaksi
𝑊 =100000000 − 38000
750= 133282.6667
➢ Minimum_nilai_transaksi
𝑊 =75000000 − 1
750= 100000
➢ Rata_rata_jumlah_transaksi
𝑊 =19.78 − 1
20= 0.939
Selain atribut diatas terdapat satu atribut lagi yang ditransformasi yaitu
atribut waktu_transaksi. Atribut waktu_transaksi dikelompokan kedalam
4 kelompok dengan pembagian kelompok sebagai berikut:
• 00.00 – 05.59 : 1
• 06.00 – 11.59 : 2
• 12.00 – 17.59 : 3
• 18.00 – 23.59 : 4
3. Data selection
Proses data selection merupakan proses memilih atau mengambil data atau
atribut yang relevan dengan penelitian ini. Pada atribut
flag_transaksi_finansial, status_transaksi, dan bank_pemilik_kartu data
memiliki nilai yang sama sehingga ketiga atribut tersebut tidak akan digunakan
karena tidak terdapat nilai pembanding. Untuk atribut x tidak akan digunakan
karena atribut tersebut merupakan id dari setiap transaksi yang terjadi. Pada
atribut id_tanggal_transaksi_awal dan tanggal_transaksi_awal ditemukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 43
28
bahwa kedua atribut tersebut saling terkait sehingga dapat digunakan salah satu
atribut saja untuk mewakili kedua atribut tersebut. Pada penelitian ini peneliti
menggunakan atribut id_tanggal_transaksi_awal. Selain atribut
id_tanggal_transaksi_awal dan tanggal_transaksi_awal terdapat pula beberapa
atribut lainnya yang saling terkait antara satu dengan yang lain yaitu, atribut
id_merchant dengan nama_merchant dimana peneliti memilih untuk
menggunakan atribut id_merchant. Kemudian atribut tipe_transaksi dengan
nama_transaksi dimana peneliti memilih untuk menggunakan atribut
nama_transaksi. Atribut id_negara dengan nama_negara dimana peneliti
memilih untuk menggunakan id_negara. Atribut id_channel dengan
nama_channel dimana peneliti memilih untuk menggunakan atribut
nama_channel.
Pada atribut tipe_mesin peneliti tidak menggunakannya karena atribut
tersebut merupakan penjelasan tipe dari mesin ATM atau EDC yang ada.
Peneliti juga tidak menggunakan atribut pemilik_mesin karena atribut tersebut
hanya merupakan id dari pemiliki mesin.
Pada penelitian ini aplikasi Weka versi 3.8.3 digunakan untuk melakukan
perankingan terhadap atribut dengan menerapkan information gain. Rumus
untuk menghitung information gain:
InfoA(D) = Σjv |Dj|
|D|xI(Dj)……….………….. (3.3)
Keterangan:
A : Atribut
v : suatu nilai yang mungkin untuk atribut A.
j : maksimal nilai yang mungkin untuk atribut A.
| 𝐷𝑗 | : Jumlah sampel untuk nilai j.
| 𝐷 | : Jumlah seluruh sampel data.
𝐺𝑎𝑖𝑛(𝐴) = 𝐼𝑛𝑓𝑜(𝐷) − 𝐼𝑛𝑓𝑜𝐴(𝐷) …………… (3.4)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 44
29
Keterangan:
A : Atribut
𝐼𝑛𝑓𝑜(𝐷) : Entropi untuk kelas D.
𝐼𝑛𝑓𝑜𝐴(𝐷) : Entropi untuk kelas D pada atribut A.
Berikut merupakan contoh data setelah dilakukan data cleaning¸data
transformation, dan data selection:
Tabel 3.2 Contoh Data Setelah Preprocessing
id_
tan
gg
al_
tran
sak
si_
awal
tip
e_k
artu
id_
mer
chan
t
nam
a_tr
ansa
ksi
nil
ai_
tran
sak
si
id_n
egar
a
nam
a_k
ota
lok
asi_
mes
in
wak
tu_
tran
sak
si
ku
arta
l_tr
ansa
ksi
kep
emil
ikan
_k
artu
nam
a_ch
ann
el
rata
_ra
ta_
nil
ai_tr
ansa
ksi
mak
sim
um
_n
ilai
_tr
ansa
ksi
min
imu
m_
nil
ai_
tran
sak
si
rata
_ra
ta_
jum
lah
_tr
ansa
ksi
lab
el
11 111 -2 10 21 96 265 4137 3 4 2 1 39 72 0 1 0
7 2 -2 12 11 96 101 1283 2 3 1 5 471 749 0 1 0
11 103 75336 6 3 96 239 7049 2 3 2 2 20 51 0 1 0
0 0 -2 10 1 96 69 3425 2 3 2 1 17 18 0 0 0
3 111 -2 11 0 96 128 744 3 4 2 1 6 9 0 0 0
4 111 -2 12 24 96 121 1264 1 2 1 5 40 74 0 1 1
1 111 -2 12 12 96 229 80 2 3 1 5 32 19 0 1 1
8 104 -2 9 4 96 128 5546 1 2 2 1 4 5 0 1 1
4 111 -2 11 2 96 265 1665 1 2 2 1 16 25 0 1 1
3 0 -2 12 0 96 8 66 1 2 1 5 15 135 0 2 1
3.3 Imbalanced data
Dalam penelitian ini tahap imbalanced data dilakukan dengan menggunakan
teknik under sampling pada data yang akan digunakan. Teknik under sampling
dilakukan dengan mengurangi jumlah data pada kelas 0, sehingga jumlah data yang
akan digunakan pada kelas 0 yaitu dua kali lipat dari jumlah data pada kelas 1. Dari
hasil under sampling tersebut total data yang akan digunakan, yaitu 2730 data
dengan 910 data pada kelas 1 dan 1820 data pada kelas 0.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 45
30
3.4 Model Backpropagation
Pada penelitian ini algoritma backpropagation digunakan untuk melakukan
proses klasifikasi dimana nantinya dapat mengklasifikasi data transaksi tergolong
fraud atau tidak. Arsitektur jaringan yang akan digunakan sebagai pelatihan dalam
penelitian ini dapat dilihat pada Gambar 3.2.
Gambar 3.2 Arsitektur Jaringan Untuk Pelatihan
Gambar 3.2 merupakan arsitektur jaringan yang akan digunakan sebagai
pelatihan dari pengklasifikasian transaksi. Fungsi aktivasi yang digunakan adalah
sigmoid biner dengan range (0,1). Berikut merupakan penjelasan mengenai gambar
arsitektur jaringan tersebut:
1. 𝑥1, 𝑥2, … … , 𝑥16 adalah lapisan masukan pada jaringan syaraf tiruan. Masukan
tersebut berupa atribut yang digunakan dalam penelitian. Pada penelitian ini
digunakan 16 atribut yaitu: id_tanggal_transaksi_awal, tipe_kartu,
id_merchant, nama_transaksi, nilai_transaksi, id_negara, nama_kota,
lokasi_mesin, waktu_transaksi, kuartal_transaksi, kepemilikan_kartu,
nama_channel, rata_rata_nilai_transaksi, maksimum_nilai_transaksi,
minimum_nilai_transaksi, rata_rata_jumlah_transaksi.
2. 𝑧1, 𝑧2, … … , 𝑧𝑛 adalah lapisan tersembunyi (hidden layer) yang nantinya akan
digunakan untuk mengelolah nilai dari masukan. Dalam hidden layer ini
nantinya akan dilakukan variasi pada jumlah neuron yang digunakan yaitu 5,
10, 15, 20, 25, 30, 35, 40, 45, dan 50.
3. 𝑌 adalah lapisan luaran yang memiliki satu neuron. Nilai luaran akan bernilai
0 atau 1. Berikut merupakan hasil dari luaran yang diinginkan:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 46
31
Tabel 3.3 Target Luaran Jenis Transaksi
Jenis transaksi Nilai target output
Fraud 1
Non fraud 0
3.5 Kebutuhan Sistem
Alat yang digunakan dalam perancangan sistem:
1. Perangkat Keras
a. Prosesor : Intel® Core™ i3 2348(2.3 GHz)
b. RAM : 10 GB
2. Perangkat Lunak
a. Sistem Operasi : Microsoft Windows 7
b. Micrsoft Excel 2016
c. Matlab R2018a
3.6 Perancangan Antar Muka Sistem
Gambar 3.3 Tampilan Menu Utama
Gambar 3.3 merupakan tampilan antar muka sistem yang terbagi menjadi 3
panel yaitu panel Tabel Data dan panel uji data tunggal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 47
32
3.5.1. Panel Tabel Data
Pada panel tabel data terdapat tombol Pilih Data yang berfungsi untuk
memilih data yang akan digunakan. Panel ini juga terbagi dalam 3 sub
panel, yaitu Panel Data Sebelum Preprocessing, Panel Data Setelah
Preprocessing, dan Panel Klasifikasi. Fungsi dari masing – masing panel
yaitu:
1. Panel Data Sebelum Preprocessing
Panel ini berfungsi untuk menampilkan data yang telah dipilih
sebelumnya. Pada panel ini juga terdapat tombol Preprocessing yang
berfungsi untuk melakukan preprocessing pada data yang telah
dipilih sebelumnya.
2. Panel Data Setelah Preprocessing
Panel ini digunakan sebagai kolom untuk menampilkan hasil dari
preprocessing data.
3. Panel Klasifikasi
Pada panel ini terdapat 3 drop down panel. Drop down panel yang
pertama berfungsi untuk memilih jumlah hidden layer yang akan
digunakan dengan pilihan yaitu 1 Hidden Layer atau 2 Hidden Layer.
Drop down panel kedua berfungsi untuk memilih jumlah neuron yang
akan digunakan untuk 1 Hidden Layer. Sedangkan drop down yang
ketiga akan muncul ketika pilihan pada drop down panel pertama
adalah 2 Hidden Layer. Pada setiap drop down panel neuron yang ada
rentang nilai yang digunakan yaitu 5, 10, 15, 20, 25, 30, 35, 40, 45,
50. Kemudian terdapat tombol Proses yang berfungsi sebagai tombol
eksekusi perintah untuk menjalankan proses klasifikasi, yang dimana
data yang akan digunakan adalah dati dari Panel Data Setelah
Preprocessing. Setelah tombol Proses ditekan maka nantinya akan
muncul text box yang akan menampilkan hasil akurasi dan waktu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 48
33
3.5.2. Panel Uji Data Tunggal
Panel Uji Data Tunggal berisi 8 text box dan 4 drop down yang
digunakan untuk menginputkan data sesuai dengan masing – masing
atribut. Kemudian data tersebut akan diklasifikasikan dengan cara
menekan tombol Proses, sehingga pada text box yang telah disediakan
akan muncul hasil yang menyatakan apakah data tersebut termasuk
kedalam data transaksi fraud atau tidak. Jika transaksi merupakan fraud
maka nantinya akan muncul kata “Transaksi Fraud”. Dan jika transaksi
merupakan non fraud maka akan muncul kata “Transaksi Non Fraud”.
Terdapat satu tombol lagi yaitu tombol Bersihkan. Tombol Bersihkan
berfungsi untuk menghapus data yang telah diuji sebelumnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 49
34
BAB IV
HASIL DAN ANALISIS SISTEM
Pada bab ini akan membahas mengenai uraian dari implementasi perancangan
sistem yang berupa hasil dari penelitian dalam melakukan pengujian kombinasi
penggunaan data, kombinasi neuron dan hidden layer, serta hasil luaran dari sistem.
4.1 Preprocessing
4.1.1 Data Selection
Sebelum melakukan pengujian untuk mencari arsitektur optimal pada
metode backpropagation, peneliti terlebih dahulu melakukan pengujian untuk
menentukan atribut yang akan digunakan berdasarkan hasil perankingan dari
aplikasi weka. Dari penggunaan aplikasi weka dengan menggunakan
information gain untuk melakukan perankingan didapatkan hasil perankingan
atribut yang dapat dilihat pada Tabel 4.1:
Tabel 4.1 Hasil Perankingan Menggunakan Weka
No Atribut
1 nama_channel
2 nama_transaksi
3 kepemilikan_kartu
4 nilai_transaksi
5 lokasi_mesin
6 nama_kota
7 id_merchant
8 minimum_nilai_transaksi
9 id_tanggal_transaksi_awal
10 rata_rata_jumlah_transaksi
11 waktu_transaksi
12 kuartal_transaksi
13 id_negara
14 tipe_kartu
15 maksimum_nilai_transaksi
16 rata_rata_nilai_transaksi
Setelah melakukan perankingan dengan menggunakan Weka, peneliti
melakukan pereduksian atribut yang dimulai dari ranking terbawah. Reduksi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 50
35
atribut dilakukan dengan menggunakan algoritma backpropagation. Hasil
percobaan yang dilakukan dapat dilihat pada tabel 4.2:
Tabel 4.2 Percobaan seleksi data
Percobaan Atribut Hasil
1 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi, kuartal_transaksi,
id_negara, tipe_kartu,
maksimum_nilai_transaksi,
rata_rata_nilai_transaksi
76.63 %
(trainlm)
2 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi, kuartal_transaksi,
id_negara, tipe_kartu,
maksimum_nilai_transaksi
77.2894 %
(trainlm)
3 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi, kuartal_transaksi,
id_negara, tipe_kartu
77.2161 %
(trainlm)
4 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
77.3626 %
(trainlm)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 51
36
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi, kuartal_transaksi,
id_negara
5 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi, kuartal_transaksi
77.5824 %
(trainlm)
6 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi,
waktu_transaksi
76.9597 %
(trainlm)
7 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal,
rata_rata_jumlah_transaksi
76.9597 %
(trainlm)
8 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi,
id_tanggal_transaksi_awal
77.033 %
(trainlm)
9 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota,
id_merchant,
minimum_nilai_transaksi
77.0696 %
(trainlm)
10 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
76.7399 %
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 52
37
lokasi_mesin, nama_kota,
id_merchant
(trainlm)
11 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin, nama_kota
76.7399 %
(trainlm)
12 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaksi,
lokasi_mesin
76.9963 %
(trainlm)
13 nama_channel, nama_transaksi,
kepemilikan_kartu, nilai_transaks
77.1429 %
(trainlm)
14 nama_channel, nama_transaksi,
kepemilikan_kartu
76.63 %
(trainlm)
15 nama_channel, nama_transaksi 76.8498 %
(trainlm)
16 nama_channel 76.8864 %
(trainlm)
Dari tabel diatas, peneliti mereduksi 4 atribut dari 16 atribut. Sehingga
peneliti akan menggunakan 12 atribut, karena setelah melakukan reduksi
atribut diperoleh hasil akurasil tertinggi sebesar 77.5824 % pada percobaan ke-
5. Pada Tabel 4.3 dapat dilihat beberapa contoh data setelah data selection
dilakukan.
Tabel 4.3 Contoh data setelah di seleksi
nam
a_ch
ann
el
nam
a_tr
ansa
ksi
kep
emil
ikan
_k
artu
nil
ai_
tran
sak
si
lok
asi_
mes
in
nam
a_ko
ta
id_
mer
chan
t
min
imu
m_n
ilai
_tr
ansa
ksi
id_
tan
gg
al_
tran
sak
si_
aw
al
rata
_ra
ta_
jum
lah
_tr
ansa
k
si
wak
tu_
tran
sak
si
ku
arta
l_tr
ansa
ksi
lab
el
1 10 2 21 4137 265 -2 0 11 1 3 4 0
5 12 1 24 1264 121 -2 0 4 1 1 2 1
5 12 1 11 1283 101 -2 0 7 1 2 3 0
2 6 2 3 7049 239 75336 0 11 1 2 3 0
1 10 2 1 3425 69 -2 0 0 0 2 3 0
5 12 1 12 80 229 -2 0 1 1 2 3 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 53
38
1 9 2 4 5546 128 -2 0 8 1 1 2 1
1 11 2 2 1665 265 -2 0 4 1 1 2 1
1 11 2 12 1444 265 -2 0 10 0 2 3 0
2 6 2 1 7249 265 568254 9 0 2 1 2 1
4.2 Klasifikasi
Pada proses klasifikasi dengan menggunakan Jaringan Syaraf Tiruan peneliti
melakukan uji coba dengan variasi pada fungsi aktivasi yaitu logsig dan tansig,
variasi pada fungsi training yaitu trainlm, trainrp, trainscg, traincgb, traincgf,
traincgp, trainoss, dan traingdx, hidden layer, dan variasi neuron yaitu 5, 10, 15, 20,
25, 30, 35, 40, 45, serta 50 untuk mendapatkan arsitektur yang optimal.
Percobaan awal yang dilakukan adalah percobaan variasi fungsi aktivasi, untuk
menentukan fungsi aktivasi yang akan digunakan. Pada percobaan awal ini fungsi
training yang digunakan yaitu trainlm, dengan neuron 5.
Gambar 4.1 Grafik Variasi Fungsi Aktivasi
Dari Gambar 4.1 diatas dapat dilihat hasil dari percobaan variasi fungsi aktivasi
yang telah dilakukan. Akurasi tertinggi didapat pada fungsi aktivasi logsig dengan
tingkat akurasi mencapai 77.5824 %.
Setelah menentukan fungsi aktivasi yang akan digunakan, selanjutnya
dilakukan percobaan variasi fungsi training untuk menentukan fungsi training yang
akan digunakan. Pada percobaan ini akan menggunakan fungsi aktivasi logsig dan
neuron 5.
logsig tansig
trainlm, neuron 5 77.5824 76.7033
76
76.4
76.8
77.2
77.6
78
Aku
rasi
Fungsi Aktivasi
Akurasi Fungsi Aktivasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 54
39
Gambar 4.2 Grafik Variasi Fungsi Training
Dapat dilihat pada Gambar 4.2 hasil percobaan variasi fungsi training yang
telah dilakukan. Hasil tertinggi didapatkan pada fungsi training trainlm dengan
akurasi sebesar 77.5824 %.
Setelah menentukan fungsi aktivasi dan fungsi training yang akan digunakan
maka peneliti melakukan percobaan dengan kombinasi pada hidden layer dan
neuron.
4.2.1 Satu Hidden Layer
Percobaan satu hidden layer dilakukan dengan menggunakan 12 input,
algoritma backpropagation dan 1 luaran dengan kombinasi neuron 5, 10, 15,
20, 25, 30, 35, 40, 45, 50.
trainlm trainrp trainscg traincgb traincgf traincgp trainoss traingdx
logsig, neuron 5 77.5824 76.7766 76.8132 76.8132 76.8498 76.7033 76.8864 76.9597
76
76.4
76.8
77.2
77.6
78
Aku
rasi
Fungsi Training
Akurasi Fungsi Training
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 55
40
Gambar 4.3 Grafik Variasi Satu Hidden Layer
Kombinasi neuron pada satu hidden layer menghasilkan nilai tertinggi
pada neuron 5 menggunakan fungsi aktivasi logsig dan fungsi training trainlm
dengan akurasi sebesar 77.5824 %.
4.2.2 Dua Hidden Layer
Percobaan dengan menggunakan 23 input, algoritma Backpropagation,
dua hidden layer dan 1 luaran dengan kombinasi neuron 5, 10, 15, 20, 25, 30,
35, 40, 45, 50 serta menggunaka neuron 5 pada hidden layer pertama.
Gambar 4.4 Grafik Variasi Dua Hidden Layer
5 10 15 20 25 30 35 40 45 50
trainlm, logsig 77.582477.252776.813276.813276.739977.2161 76.63 77.362676.593477.0696
76
76.4
76.8
77.2
77.6
78
Aku
rasi
Neuron
Akurasi 1 Hidden Layer
5 10 15 20 25 30 35 40 45 50
trainlm, logsig 76.3 76.96 76.777 77.253 76.703 76.74 76.044 76.96 76.447 75.824
74.8
75.2
75.6
76
76.4
76.8
77.2
77.6
Aku
rasi
Neuron
Akurasi 2 Hidden Layer
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 56
41
Dari hasil kombinasi neuron pada dua hidden layer menghasilkan nilai
tertinggi pada neuron 20 dengan nilai akurasi 77.2527 %.
4.2.3 Arsitektur Optimal
Gambar 4.5 Arsitektur Optimal
Dari hasil percobaan klasifikasi dengan menggunakan kombinasi fungsi
aktivasi, fungsi training, hidden layer dan neuron didapatkan arsitektur optimal
dengan akurasi sebesar 77.5824 % menggunakan input sebanyak 12 atribut dan
satu hidden layer dengan neuron 5. Pada arsitektur optimal ini algoritma
backpropagation digunakan dengan fungsi aktivasi logsig dan fungsi training
trainlm.
Berikut hasi confusion matrix dari arsitektur optimal untuk 3-Fold Cross
Validation.
Tabel 4.4 Fold Pertama
Label/Luaran 0 1
0 572 34
1 183 121
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 572+121
572+121+183+34𝑥 100% = 76.1538 %
Tabel 4.5 Fold Kedua
Label/Luaran 0 1
0 568 39
1 147 156
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 568+156
568+156+147+39𝑥 100% = 79.5604 %
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 57
42
Tabel 4.6 Fold Ketiga
Label/Luaran 0 1
0 552 55
1 154 149
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 552+149
552+149+154+55𝑥 100% = 77.033 %
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 =76.1538+ 79.5604+77.033
3= 77.5824 %
Dari hasil pemaparan confusion matrix diatas dapat dilihat bahwa
percobaan dengan menggunakan model fold kedua memiliki nilai akurasi
tertinggi sebesar 79.5604 %, yang dimana nantinya model tersebut akan
digunakan untuk memprediksi data tunggal pada data transaksi
perbankan.
4.2 Uji Data Tunggal
Pada pengujian data tunggal data yang akan digunakan sebanyak 4 data, berikut
merupakan hasil uji data tunggal:
• Data 1
Gambar 4.6 Uji Data 1
Pada uji data 1, data berhasil diklasifikasikan dengan benar yaitu dengan
hasil Transaksi Fraud yang berarti data transaksi merupakan data fraud.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 58
43
• Data 2
Gambar 4.7 Uji Data 2
Pada uji data 2, data berhasil diklasifikasikan dengan benar yaitu dengan
hasil Transaksi Non Fraud yang berarti data transaksi merupakan data
tidak fraud.
• Data 3
Gambar 4.8 Uji Data 3
Pada uji data 3, data berhasil diklasifikasikan dengan benar yaitu dengan
hasil Transaksi Fraud yang berarti data transaksi merupakan data fraud.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 59
44
• Data 4
Gambar 4.9 Uji Data 4
Pada uji data 4, data berhasil diklasifikasikan dengan benar yaitu dengan
hasil Transaksi Non Fraud yang berarti data transaksi merupakan data
tidak fraud.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 60
45
BAB V
KESIMPULAN
5.1 Kesimpulan
Dari hasil penelitian klasifikasi untuk mendeteksi fraud pada transaksi
perbankan dengan menggunakan algoritma backpropagation dapat
disimpulkan sebagai berikut:
1. Algoritma bacpropagation dapat diimplementasikan untuk melakukan
klasifikasi dalam mendeteksi fraud pada transaksi perbankan dengan cukup
baik.
2. Pada pengujian yang dilakukan dengan menggunakan 2730 data dan
menggunakan 3-fold cross validation menghasilkan akurasi sebesar
77.5824 % dengan arsitektur optimal pada satu hidden layer menggunakan
neuron 5, dan menggunakan fungsi aktivasi logsig serta fungsi training
trainlm.
5.2 Saran
Saran yang dapat diberikan untuk mengembangkan penelitian yang akan
datang adalah:
1. Program dapat menerima inputan data dalam bentuk format file selain xlsx
atau xls.
2. Penambahan variasi pada k-fold cross validation agar model yang
digunakan lebih banyak.
3. Program dapat melakukan kombinasi yang lebih bervariasi lagi, seperti
menambahkan kombinasi fungsi aktivasi atau fungsi training.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 61
46
Daftar Pustaka
Aritonang, R. (2006). Klasifikasi Imbalanced Data Menggunakan Algoritma
Klasifikasi Voting Feature Intervals. Bogor: Institut Pertanian Bogor.
Astuti, F.H. (2013). Data Mining. Yogyakarta: Andi
E-journal. (2015). Fraud Triangle.
https://www.academia.edu/11731072/Fraud_detection_prevention_and_de
terrence diakses pada tanggal 10 juni 2019.
E-journal (2012). Kajian: Fraud (Kecurangan) Laporan Keuangan.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2
&ved=2ahUKEwiBx5zEkbzjAhWl7HMBHUYHCEUQFjABegQIAxAC
&url=http%3A%2F%2Fdownload.garuda.ristekdikti.go.id%2Farticle.php
%3Farticle%3D418501%26val%3D1233%26title%3DKAJIAN%3A%252
0FRAUD%2520(KECURANGAN)%2520LAPORAN%2520KEUANGA
N&usg=AOvVaw3HO196s33UapewMabJPrfV diakses pada tanggal 10
juni 2019.
E-journal. Pengertian Audit.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=9
&cad=rja&uact=8&ved=2ahUKEwiR2sHulLzjAhUuIbcAHdEQAiQQFjA
IegQIAhAC&url=http%3A%2F%2Frepository.usu.ac.id%2Fbitstream%2
Fhandle%2F123456789%2F40089%2FChapter%2520II.pdf%3Fsequence
%3D4%26isAllowed%3Dy&usg=AOvVaw3mEYVlse4H-fWjfW2LhDUv
diakses pada tanggal 15 mei 2019.
E-journal (2016). Penanganan Ketidakseimbangan kelas pada data set kecil.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8
&cad=rja&uact=8&ved=2ahUKEwirxdeEk7zjAhU48HMBHVzoBToQFj
AHegQIBxAC&url=http%3A%2F%2Fetd.repository.ugm.ac.id%2Fdownl
oadfile%2F97867%2Fpotongan%2FS2-2016-391116-
introduction.pdf&usg=AOvVaw3nv9lDfKrRH7G5uf3rKBRv diakses pada
tanggal 23 april 2019.
Hagan, M. T., & Demuth, H. B. (2014). Neural Network Design 2nd Edition.
Oklahoma: Martin Hagan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Page 62
47
Jiawei, H. (2012). Data Mining Concepts and Tecniques. Waltham: Elsevier Inc.
Karyono (2014). Forensic Fraud. Yogyakarta : CV Andi
Luthfi, E.T. (2009). Algoritma Data Mining. Yogyakarta: C.V ANDI OFFSET.
Nada, A.Y. (2017). Prediksi Kesehatan Koperasi Dengan Jaringan Syaraf Tiruan
Metode Backpropagation. Yogyakarta: Universitas Sanata Dharma.
Purwanta, I. P. (2018). Klasifikasi Buku Berdasarkan Gambar Sampul Buku
Menggunakan Jaringan Syaraf Tiruan Backpropagation. Yogyakarta:
Universitas Sanata Dharma.
Siang J.J. (2009). Jaringan Syaraf Tiruan & Pemrogramannya Menggunakan
MATLAB. Yogyakarta: Andi Offset
Soejono, Karni (2000). Auditing Audit Khusus & Audit Forensik Dalam Praktek.
Lembaga Penerbit Fakultas Ekonomi Universitas Indonesia.
Tamara, L. A. (2018). Klasifikasi Data Nasabah Yang Berpotensi Membuka
Simpanan Deposito Menggunakan Algoritma Rough Set. Yogyakarta:
Universitas Sanata Dharma.
Turban, E. (2005). Decision Support System and Intelligent Systems Edisi Bahasa
Indonesia Jilid 1. Andi: Yogyakarta.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI