perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun oleh : Andriyanto Dwi N NIM. M0508085 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2013
14
Embed
ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN … · “Karena sesungguhnya sesudah kesulitan itu ada kemudahan, sesungguhnya ... dengan Metode Bayesian-Chi Square dan Naïve Bayes
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN
METODE BAYESIAN CHI-SQUARE DAN
NAIVE BAYES CLASSIFIER
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Jurusan Informatika
Disusun oleh :
Andriyanto Dwi N
NIM. M0508085
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2013
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
HALAMAN JUDUL
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE
BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER
ANDRIYANTO DWI NURAHMAT
Jurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret.
ABSTRAK
Spam pada email merupakan hal yang sangat menggangu maka
diperlukan filtering untuk mengklasifikasikan email, terdapat beberapa
metode yang dapat mengklasifikasikan email. Metode tersebut antara lain
Bayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebut
mengklasifikan email secara matematis, untuk mengklasifikasikan email
berdasarkan kata, frasa dan domain yang terdapat didalam email.
Penelitian analisis spam filtering pada mail server ini menggunakan
metode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metode
dibandingkan untuk mengetahui metode yang lebih efektif digunakan pada
spam filtering. Keduanya diintegrasikan dengan mail server, selanjutnya
dilakukan training dengan menggunakan dataset TREC2007 yang telah
diklasifikasikan menjadi ham dan spam. Sampel data diperoleh dengan
mengambil sebagian data secara random dari TREC2007. Pada tahap
pengujian masing-masing bagian, dilakukan pengujian dengan sample data
random yang berjumlah 300 email. Untuk menginputkan data training
dilakukan secara bertahap tahap I data training berjumlah 750 email, tahap II
berjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahap
pengujian, pengujian dilakukan untuk setiap tahap training data di kedua
metode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujian
dengan mengubah threshold antara spam dan ham, sehingga akan diketahui
threshold yang terbaik untuk digunakan.
Hasil penelitian dari serangkaian pengujian menunjukkan metode
Bayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 dan
60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifier
memiliki hasil yang lebih baik dengan required default 5 mampu
menghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi juga
mengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadi
ham yang berakibat mengganggu kinerja server, error kedua adalah ham
menjadi spam akibatnya email yang seharusnya berada diinbox akan kespam
atau terhapus. Untuk metode bayesian chi-square terdapat error unsure
akibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainya
berbanding terbalik dengan akurasi.
Kata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier,
Spam
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
SPAM FILTERING ANALYSIS ON THE MAIL SERVER WITH THE
BAYESIAN CHI-SQUARE METHODS AND
THE NAIVE BAYES CLASSIFIER METHODS
ANDRIYANTO DWI NURAHMAT
Department of Informatic. Mathematic and Science Faculty.
Sebelas Maret University
ABSTRACT
Spam is a very disturbing case, so it is necessary to filtering the classify email
and there are several methods that can classify the email. the methods are Bayesian
Chi-Square and Naïve Bayes Classifier, both are classify the email mathematically
based on words, phrases and domains contained within the email.
this Research of analysing spam filtering on the mail server is using the
Bayesian-Chi Square and Naïve Bayes Classifier methods. Both were compared to
determine which method is more effective on spam filtering. the methods could be
integrated with the mail server, then training using the data set TREC2007 which
have been classified into ham and spam. the Samples obtained take some random
data from TREC2007 . In the testing phase of each pieces, performed testing with
300 sample data of random email. gradually, Input training data first phase up to 750
emails, second phase up to 1050 email, and the last was 1350. next, the testing phase,
the testing is done for each phase of training data in both methods. the Bayesian Chi-
Square test method is done by changing the threshold between spam and ham, so
there will know which is the best threshold to use.
based on test result, the conclusion are the Bayesian Chi-Square method has the
best accuracy threshold at 40 and 60, with the accuracy was 87%. While Naïve
Bayes Classifier method had better results with the required default 5 is able to
produce the best accuracy reaches 92,6%, this high accuracy also resulted in some
type of the error such as errors result in spam being the ham that interfere the
performance of the server, the second error is ham being spam which is the email
that should be in inbox will become spam or deleted. there are error unsure in Chi-
square bayesian that consequently the user must classify email independently but its
value is inversely proportional to accuracy.
Keywords: Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
MOTTO
“Karena sesungguhnya sesudah kesulitan itu ada kemudahan, sesungguhnya
sesudah kesulitan itu ada kemudahan, Maka apabila kamu telah selesai (dari sesuatu
urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain”
(Q.S Alam Nasyrah : 5-7)
“Ingatlah, sesungguhnya pertolongan Allah itu amat dekat”
(Q.S Al-Baqarah : 214)
“Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila kamu
telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh urusan yang
lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap.”
(Q.S. 94 : 6-8)
“Sesuatu yang belum dikerjakan, seringkali tampak mustahil, kita baru yakin kalau
kita telah berhasil melakukannya dengan baik”
(Evelyn Underhill)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
PERSEMBAHAN
Kupersembahkan karya ini kepada :
“Untuk Ayah ibu dan kakak”
yang selalu memberikan perhatian penuh
“untuk sahabatku Monica Tanuhita Putri”
yang selalu sabar untuk mengingatkan
“Teman-teman Informatika UNS khususnya angkatan 2008 untuk kebersamaan
dan dukungannya”
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
KATA PENGANTAR
Bismillahirrahmaanirrahiim
Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang
senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat
menyelesaikan skripsi dengan judul Analisis Spam Filtering pada Mail Server
dengan Metode Bayesian-Chi Square dan Naïve Bayes classifier, yang menjadi salah
satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas
Maret (UNS) Surakarta.
Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak
bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi
ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :
1. Ibu Umi Salamah,S.Si.,M.Kom. selaku Ketua Jurusan S1 Informatika,
2. Bapak Abdul aziz, S.kom, M.Cs. selaku Dosen Pembimbing I yang penuh
kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis
selama proses penyusunan skripsi ini,
3. Bapak Ristu Saptono, S.Si. MT. selaku Dosen Pembimbing II yang penuh
kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis
selama proses penyusunan skripsi ini,
4. Bapak Wiharto, S.T., M.Kom. selaku Pembimbing Akademik yang telah
banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di
Jurusan Informatika FMIPA UNS,
5. Bapak dan Ibu dosen di Jurusan Informatika FMIPA UNS yang telah mengajar
penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini,
6. Ibu, Bapak, dan kakak-kakakku, serta teman-teman yang telah memberikan
bantuan sehingga penyusunan skripsi ini dapat terselesaikan.
Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak
yang berkepentingan.
Surakarta, Mei 2013
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
DAFTAR ISI
HALAMAN JUDUL .................................................................................................... ii
ABSTRAK .................................................................................................................. iv
ABSTRACT ................................................................................................................. v
MOTTO ...................................................................................................................... vi
PERSEMBAHAN ...................................................................................................... vii
KATA PENGANTAR .............................................................................................. viii
DAFTAR ISI ............................................................................................................... ix
DAFTAR TABEL ....................................................................................................... xi
DAFTAR GAMBAR ................................................................................................. xii
DAFTAR LAMPIRAN ............................................................................................. xiii
DAFTAR SIMBOL ................................................................................................... xiv
BAB I PENDAHULUAN ............................................................................................ 2
1.1 Latar Belakang ................................................................................................. 2
1.2 Rumusan Masalah ............................................................................................ 3
1.3 Batasan Masalah ............................................................................................... 4
1.4 Tujuan Penelitian .............................................................................................. 4