BAB IPENDAHULUANA. Latar BelakangPerkembangan teknologi
informasi dan komunikasi mendorong konsumen untuk meningkatkan
intensitas penggunaan teknologi dalam kehidupan sehari-hari.
Teknologi informasi dan komunikasi yang pada awalnya sangat
terbatas dalam menunjang kebutuhan sehari-hari, saat ini telah
menjadi bagian yang tidak terpisahkan atau telah menjadi kebutuhan
hidup.Internet merupakan salah satu perkembangan teknologi
informasi dan komunikasi yang menawarkan sisi kecanggihan,
kepraktisan, dan kemudahan. Informasi yang dapat diperoleh
sangatlah beragam dan untuk mendapatkannya cukup mudah dan praktis.
Komunikasi yang dapat dilakukan dengan menggunakan internet juga
praktis dan mudah, tidak terbatas oleh waktu ataupun
jarak.Perkembanganteknologi informasidankomunikasi merupakan
peluang bisnis yang potensial. PT. Telekomunikasi Indonesia, Tbk
(Telkom) merupakan salah satu perusahaan penyedia jasa
telekomunikasi yang memanfaatkan peluang tersebut. Pemenuhan akan
kebutuhan teknologi internet dijawab dengan dikembangkannya
berbagai produk berbasis pemenuhan kebutuhan terhadap akses
internet salah satunya Speedy. Banyaknya Permintaan menjadi
Pelanggan Speedy di Dunia ini benar benar sangat Berkembang Pesat.
Apa lagi di Kota kota seperti Kota Palangkaraya, berlanggan tetapi
di balik berkembangnya, bertambahnya dan melanjutkan berlangganan,
speedy terdapat juga Pelanggan speedy yang berhenti. Dan untuk itu
untuk mencegah terjadinya berhentinya Berlangan Speedy Pihak Speedy
memberikan sebuah Keuntungan, yaitu bagi yang berlanggan Lama atau
lebih 1 tahun maka Pelanggan Speedy akan di berikan Berlanggan
Gratis Selama 2 Bulan, dan untuk mengetahui siapa saja Pelanggan
yang berlanggan Lebih Lama bisa di lakukan dengan cara klasifikasi
data, untuk melakukan klasifikasi data tersebut maka dapat
dilakukan dengan program atau aplikasi Weka. Salah satu yang kami
gunakan yaitu weka 3.4.6WEKA adalah meja kerja untuk pembelajaran
mesin yang dimaksudkan untuk membuat penerapan teknik pembelajaran
mesin lebih mudah dan intuitif untuk sebuahberbagai masalah di
dunia nyata. Lingkungan target tidak hanya mesinbelajar ahli tetapi
juga spesialis domain. Itulah sebabnya interaktifmodul untuk
pengolahan data, data dan visualisasi model yang terlatih,
databasekoneksi dan cross-validasi disediakan. Mereka pergi bersama
dengan dasarfungsi yang perlu didukung dengan sistem pembelajaran
mesin -klasifikasi dan regresi memprediksi, clustering dan seleksi
atribut.Hal ini dikembangkan di University of Waikato, Selandia
Baru. Proyek inidimulai ketika penulis diperlukan untuk menerapkan
teknik mesin belajar padapertanian masalah. Ini adalah sekitar dua
belas tahun yang lalu. Sekarang versi 3.4.6 adalah tahun tersedia
dan dua yang lalu penulis juga telah menerbitkan sebuah buku [4].
Ini buku mencakup algoritma yang berbeda, poin yang mungkin mereka
lemah dan kuat,semua preprocessing dan mengevaluasi metode. Hal ini
juga mencakup penjelasan rinciuntuk keempat modul grafis dan
beberapa pengenalan dasar tentang caramenggunakan antarmuka Java di
program Anda sendiri. Proyek ini dikembangkan dandidistribusikan di
bawah lisensi GPL dan memiliki subdomain di Sourceforge
B. Rumusan MasalahRumusan masalah yang di ambil dari kasus ini
yaitu bagaimana cara mengklasifikasikan data set tersebut. Dan
dengan metode apa yang di ambil untuk mengklasifikasikan data
pelanggan speedy ?
C. Batasan MasalahDari permasalahan di atas kami dapat membatasi
masalah yang akan kami teliti yaitu1. Kami hanya menggunakan Weka
3.6.4 2. Kami hanya menggunakan metode Nave bayes utuk
mengklasifikasikan data mining tesebut?3. Kami hanyak
mengklasifikasikan data pelanggan speedy yang berhenti dan
lanjut
D. Tujuan WekaTujuan Belajar Weka yaitu untuk meningkatkan
pemahaman mahasiswa terhadap Weka. Dengan Weka mahasiswa dapat
mengklasifikasikan data dengan Metode yang di gunakan
E. Manfaat WekaManfaat Belajar Weka ini yaitu mahasiswa dapat
mengklasifikasin data sehingga data tersebut dapat memberikan hasil
yang di inginkan. Seperti ingin mengetahui nilai yang yang
digunakan dalam data mining.F. Tampilan Weka
Gambar 1. Tampilan WekaPenjelasan1. Explorer digunkan untuk
menggali lebih jauh data dengan aplikasi WEKA2. Experimenter
digunakan untuk melakukan percobaan dengan pengujian statistic
skema belajar3. Knowledge Flow digunakan untuk pengetahuan
pendukung4. Simple CLI antar muka dengan menggunakan tampilan
command-line yang memungkinkan langsung mengeksekusi perintah weka
untuk Sistem Operasi yg tidak menyediakan secara langsung
BAB IILANDASAN TEORIA. Pengertian AnalisisDalam Kamus Bahasa
Indonesia Kontemporer karangan Peter Salim dan Yenni Salim
(2002) menjabarkan pengertian analisis sebagai berikut:
a. Analisis adalah penyelidikan terhadap suatu peristiwa
(perbuatan, karangan dan sebagainya) untuk mendapatkan fakta yang
tepat (asal usul, sebab, penyebab sebenarnya, dan sebagainya).b.
Analisis adalah penguraian pokok persoalan atas bagian-bagian,
penelaahan bagian-bagian tersebut dan hubungan antar bagian untuk
mendapatkan pengertian yang tepat dengan pemahaman secara
keseluruhan.c. Analisis adalah penjabaran (pembentangan) sesuatu
hal, dan sebagainya setelah ditelaah secara seksama.d. Analisis
adalah proses pemecahan masalah yang dimulai dengan hipotesis
(dugaan, dan sebagainya) sampai terbukti kebenarannya melalui
beberapa kepastian (pengamatan, percobaan, dan sebagainya).e.
Analisis adalah proses pemecahan masalah (melalui akal) ke dalam
bagian- bagiannya berdasarkan metode yang konsisten untuk mencapai
pengertian tentang prinsip-prinsip dasarnya.
Dalam KamusBesarBahasaIndonesia karangan Suharsodan Ana
Retnoningsih (2005), analisis adalah penyelidikan terhadap suatu
peristiwa (karangan, perbuatan dan sebagainya) untuk mengetahui
keadaan yang sebenarnya (sebab musabab, duduk perkara dan
sebagainya). Dan kinerja adalah sesuatu yang dicapai.
Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan
Nasional (2005) menjelaskan bahwa analisis adalah penyelidikan
terhadap suatu peristiwa untuk mengetahui keadaan yang sebenarnya.
Kinerja adalah kemampuan kerja, sesuatu yang dicapai, prestasi yang
diperlihatkan.
Dapat disimpulkan bahwa pengertian analisis kinerja dalam tugas
akhir ini adalah penyelidikan terhadap suatu metode (dalam hal ini
metode Canny) untuk mengetahui kemampuan kerja metode tersebut
melalui beberapa percobaan atau pengujian.
B. WekaWeka adalah kumpulan mesin belajar algoritma untuk
tugas-tugas data mining. Algoritma dapat diterapkan secara langsung
ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi
alat untuk data pra-pengolahan, klasifikasi, regresi, clustering,
aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk
mengembangkan skema pembelajaran mesin baru.Weka adalah perangkat
lunak open source yang dikeluarkan di bawah GNU General
PublicLicense Introduction Mesin algoritma pembelajaran berfungsi
untuk mendorong aturanklasifikasi dari Dataset contoh dan dengan
demikian memperluas pengetahuan domain dan pemahaman.
C. Data WarehouseMenurut W.H. Inmon dan Richard D. Hackathorn di
tahun 1994, data warehouse adalah koleksi data yang mempunyai sifat
berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap
dari koleksi data dalam mendukung proses pengambilan keputusan
management.
Menurut Vidette Poe, data warehouse merupakan database yang
bersifat analisis dan read only yang digunakan sebagai fondasi dari
sistem penunjang keputusan.
Menurut Paul Lane, data warehouse merupakan database relasional
yang didesain lebih kepada query dan analisa dari pada proses
transaksi, biasanya mengandung history data dari proses transaksi
dan bisa juga data dari sumber lainnya. Data warehouse memisahkan
beban kerja analisis dari beban kerja transaksi dan memungkinkan
organisasi menggabung/konsolidasi data dari berbagai macam
sumber.
Menurut Ralph Kimball, data warehouse adalah salinan data
transaksi khusus terstruktur untuk query dan analisis.
Jadi, data warehouse merupakan metode dalam perancangan
database, yang menunjang DSS(Decission Support System) dan EIS
(Executive Information System). Secara fisik data warehouse adalah
database, tapi perancangan data warehouse dan database sangat
berbeda. Dalam perancangan database tradisional menggunakan
normalisasi, sedangkan pada data warehouse normalisasi bukanlah
cara yang terbaik.
Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan
data warehouse adalah database yang saling bereaksi yang dapat
digunakan untuk query dan analisisis, bersifat orientasi subjek,
terintegrasi, time-variant,tidak berubah yang digunakan untuk
membantu para pengambil keputusan.
D. Data MiningData mining adalah suatu istilah yang digunakan
untuk menemukan pengetahuan yang tersembunyi di dalam data base.
Data mining merupakan proses yang mengunakan teknik statistic,
matematika, kecerdasan buatan, dan machine learning untuk
mengektraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari berbagai database besar(turban ,
dkk.2005). MenurutGartnerGroupdatamining didefinisikan sebagai
suatu proses menemukanhubunganyangberarti,pola,dan kecenderungan
dengan memeriksa dalamsekumpulanbesardatayangtersimpandalam
penyimpanan dengan menggunakan teknik pengenalan pola seperti
teknik statisik dan
matematika.Selaindefinisidiatasbeberapadefinisijugadiberikanseperti
terteradibawah
ini:Dataminingadalahserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandataberupapengetahuanyangselamainitidakdiketahuisecaramanual.(Pramudiono,2006)Dataminingmerupakanbidangdaribeberapabidangkeilmuanyangmenyatukanteknikdaripembelajaranmesin,pengenalan
pola,statistik,database,danvisualisasiuntukpengenalanpermasalahanpengambilaninformasidaridatabaseyangbesar.(Larose,2005)
Kemajuanluarbiasaygterusberlanjutdalambidangdatamining didorong
oleh beberapa faktor, antara lain
(Larose,2005):1.Pertumbuhanyangcepatdalampengumpulandata.2.Penyimpangandatadalamdatawarehouse,sehinggaseluruh
Perusahaan memiliki akses kedalam database yang handal.3.adanya
peningkatan akses data melalui navigasi web dan
intranet.4.Tekanankompetisibisnisuntukmeningkatkanpenguasaan
pasardalam globalisasi ekonomi.
5.Perkembanganteknologiperangkatlunakuntukdatamining
(ketersediaanteknologi)6.Perkembanganyanghebatdalamkemampuankomputasidanpengembangan
kapasitas media penyimpanan.Dari definisi-definisi yang telah
disampaikan, hal penting yang terkait dengan data mining
adalah:1.Data mining merupakan suatu prosesotomatis terhadap data
Yang sudah
ada.2.Datayangakandiprosesberupadatayangsangatbesar.3.Tujuandataminingadalahmendapatkanhubunganataupola
yang mungkin memberikan indikasi yang bermanfaat.
E.
Tahap-TahapDataminingIstilahdataminingdanknowledgediscoveryindatabases(KDD)seringkali
digunakan secara bergantianuntuk menjelaskan proses pentggalian
informasi tersembunyi dalam suatau basis data yang besar.
Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda,
tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam
keseluruhan proses KDD adalah datamining. ProsesKDD secara garis
besar dapat dijelaskan sebagai berikut:[6]1.
DataSelectionPemilihan(seleksi)datadarisekumpulandataoperasionalperludilakukan
Sebelum tahap
penggalianinformasidalamKDDdimulai.DatahasilseleksiyangAkan
digunakanuntukprosesdatamining,disimpansuatuberkas,terpisahdariBasis
dataoperasional.
2.
Pre-processing/CleaningSebelumprsesdataminingdapatdilaksanakan,perludilakukanprosescleaningpadadatayangmenjadifokusKDD.Prosescleaningmencakupantaralainmembuangduplikasidata,memeriksadatayanginkonsisten,memperbaikikesalahanpadadata,sepertikesalahancetak(tipografi).Jugadilakuakanprosesenrichment,yaituprosesmemperkayadatayangsudahadadengandataatauinformasiyangrelevandandiperlukanuntukKDD,sepertidataatauinformasieksternal.
3.
TransformationCodingadalahprosestransformasipadadatayangtelahdipilih,sehinggadatatersebutsesuaiuntukprosesdatamining.ProsescodingdalamKDDmerupakanproseskreatifdansangattergantungpadajenisataupolainformasiyangakandicaridalambasisdata.
4.
DataminingDataminingadalahprosesmencaripolaatauinformasimenarikdalamdata
terpilihdenganmenggunakanteknikataumetodetertentu.Teknik,metode,ataualgoritmadalamdataminingsangatbervariasipemilihanmetodeataualgoritmayangtepatsangatbergantungpadatujuandanprosesKDDsecarakeseluruhan.
5.
Interpretation/EvaluationPolainformasiyangdihasilkandariprosesdatamining,perluditampilkandalambentukyangmudahdimengertiolehpihakyangberkepentingan.TahapinimerupakanbagiandariprosesKDDyangdisebutinterpretation.Tahapinimencakuppemeriksaanapakahpolaatauinformasiyangditemukanbertntangandenganfaktaatauhipotesisyangadasebelumnya.
F. Teknik Data MeaningTeknik Data Mining yang kami gunakan yaitu
klasifikasi. Klasifikasiadalahprosesuntukmenemukanmodelatau fungsi
yang menjelaskan atau membedakan konsep atau kelas data, Dengan
tujuan untuk dapat memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui.
G. Nave BayesNaive bayesian klasifikasi adalah suatu klasifikasi
berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan
asumsi antar variabel penjelas saling bebas (independen). Dalam hal
ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian
tertentu dari suatu kelompok tidak berhubungan dengan kehadiran
atau ketiadaan dari kejadian lainnya. Naive Bayesian dapat
digunakan untuk berbagai macam keperluan antara lain untuk
klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah
klasifikasi lainnya. Dalam hal ini lebih disorot mengenai
penggunaan teorema Naive Bayesian untuk spam filtering. Dan untuk
menghitung klasifikasi teorema bayes berikut mengggunakan rumus
dibawah ini
Berdasarkan rumus di atas kejadian H merepresentasikan sebuah
kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior
probability H, contoh dalam kasus ini adalah probabilitas kelas
yang mendeklarasikan normal. P(X) merupakan prior probability X,
contoh untuk probabilitas sebuah atribut protocol_type. P(H|X)
adalah posterior probability yang merefleksikan probabilitas
munculnya kelas normal terhadap data atribut protocol_type. P(X|H)
menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada
kelas normal. Dan begitu juga seterusnya untuk proses menghitung
probabilitas ke-empat kelas lainnyaKeuntungan Naive Bayesian :
1.Menangani kuantitatif dan data diskrit 2.Kokoh untuk titik
noise yang diisolasi, misalkan titik yang dirata ratakan ketika
mengestimasi peluang bersyarat data. 3.Hanya memerlukan sejumlah
kecil data pelatihan untuk mengestimasi parameter (rata rata dan
variansi dari variabel) yang dibutuhkan untuk klasifikasi.
4.Menangani nilai yang hilang dengan mengabaikan instansi selama
perhitungan estimasi peluang 5. Cepat dan efisiensi ruang 6. Kokoh
terhadap atribut yang tidak relevan
Kekurangan Naive Bayesian :
1.Tidak berlaku jika probabilitas kondisionalnya adalah nol,
apabila nol maka probabilitas prediksi akan bernilai nol juga 2.
Mengasumsikan variabel bebas
BAB IIIMETODOLOGIA. Kerangka BerpikirDalam gambar di bawah ini
akan diurakan langkah- langkah proses penelitian dalam bentuk
diagram alir, diharapkan dapat diperoleh gambaran yang lengkap dan
menyeluruh tentang tahap-tahap penelitian yang akan di
laksanakan.
Mulai
Pengumpulan data
Identifikasi masalah
Prosesing Data-Clening Data-Seleksi Atribut-Integrasi
data-transpormasi
Data MiningAlgoritma Naivi Bayes
Evaluasi Hasil
SelesaiKnowledge
Gambar 2. Diagram Alir Kerangka BerpikirBerikut Penjelasan
diagram alir diatas sebagai berikut :1. StudiPustaka
Tahapinimerupakanlandasanawaldalampenelitianini,daristudi
pustaka ini banyak mendapatkan referensi yang mendukung penelitian
ini, sekaligus untuk memperkuat pengetahuan dasar dan teori yang
digunakan pada penelitian ini. Adapun beberapa buku dan jurnal yang
menjadi referensi pada penelitian ini adalah:a.
SantosaBudi,2007,DataMiningTeknikPemanfaatanDatauntuk keperluan
Bisnis, Jakarta. Dalam buku ini membantu penulis dalam metode
algoritma data mining yang tepat.b. Jurnal-jurnal data mining dan
lainnya mendukung penelitian ini terutama dengan pembahasan tentang
klasifikasi algoritma Navie Bayes.
2.
PengumpulanDataPadatahapinidatayangakanditelitiiniyaitudatadatapelanggan
Speedy yang berhenti dan lanjut di Telkom Flasa Palangkaraya dan
didapat dataset yang bertipe record, berupa data laporan berhenti
atau tidak pelanggan speedy.
3. DiskusiPadatahapinidilakukanwawancarakepadapihakterkaituntuk
mencari sebuah informasi, dalam hal ini teman-teman yang mengambil
mata kuliah Basis Data Terdistribusi di STMIK Palangkaraya.
4.
IdentifikasiMasalahPadatahapidentifikasimasalahini,dilakukansetelahsemuadatadata
terpenuhi kemudian didapatkan dataset yang sesuai untuk dilakukan
proses pada tahap klasifikasi, sehingga nantinya dari hasil
klasifikasi dapat digunakan untuk menemukan jumlah pelanggan speedy
yang telah berhenti atau lanjut dalam berlangganan.
5.
PreprocessingDataPadatahappemprosesanpendahuluandanpembersihandata
merupakan operasi dasar seperti penghapusan noise dilakukan.
Sebelum proses data mining dapat dilaksanakan ada beberapa cara
yang menjadi fokus tahap KDD yaitu:
a. Cleaning DataPada tahap ini data yang telah terkumpul
selanjutnya mengalami proses pembersihan dengan cara membuang
duplikasi data, memeriksa data yabg inkonsisten, memperbaiki
kesalahan pada data seperti kesalahan cetak (tipografi) dan
mengendalikan data yang hilang. Sehingga akhir yang kita peroleh
mendapatkan data yang tidak mengandung null.
b. Seleksi AtributTahap yang akan dilakukan adalah seleksi
atribut yaitu tahap pemilihan sumber data yang digunakan, karena
ada beberapa atribut yang tidak digunakan sebelum tahap panggilan
informasi dalam KDD dimulai, sehingga kita harus menghapus atribut
yang tidak diperlukan karena atribut tersebut tidak relavan dengan
hasil yang ingin dicapai.
c. Integrasi DataPada tahap ini merupakan proses penggabungan
data dari beberapa sumber yang telah didapat, database pelanggan
speedy berasal dari satu sumber dan data yang didapat sudah
mewakili untuk pencarian sebaran jumlah pelanggan speedy berhenti
atau lanjut tidak digabung dari berbagai sumber karena hanya
didapat dari satu sumber.
d. TransformasiPada langkah ini merubah tipe file data awal tipe
data.xls menjadi data.csv (Comma Separated Values) karena
menggunakan pengolahan data weka classifre atau menjadi data.m
karena menggunakan tools matlab.
6.
KlasifikasiDataMining(AlgoritmaBayes)ProsesKalsifikasiyaituprosesmencaripolaatauinformasidalam
data terpilih dengan menggunakan teknik atau metode tertentu.
Teknik, metode, atau algoritma dalam data mining sangat bervariasi.
Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan. Pemilihan tugas data
mining merupakan tujuan dari prose KDD misalnya klasifikasi,
regresi, clustering, dll.
7.
EvaluasiHasilPadatahapinidilakukanevaluasidariinformasiyangtelah
diperoleh berdasarkan hasil dari proses Klasifikasi menggunakan
algoritma Naivie Bayes dan pastinya telah diuji terlebih dahulu.
Jika hasilnya akhir masih belum sesuai, maka akan diulang kembali
ketahap proses algoritma Naivie Bayes tersebut.
8.
Knowledge(model)TahapinimerupakanbagiandariprosesKDDyangmencakup
pemeriksa apakah pola atau informasi yang dihasilkan data mining
perlu diotampilkan dalam bentuk yang mudah dimengerti oleh pihak
yang berkepentingan.
B. TataLaksanaKegiatan yangdilakukan dalam penelitianini
diantaranya adalah klasifikasiuntuk memperolehalgoritma terbaik
untukpengolahandata laporan berhenti atau tidakyangtelahditentukan
masuk program peminatan berlanggan speedy. Proses dimulai dengan
pendefinisian masalah serta mempelajariperhitungannilaidarisistem
manual yang sedang berjalan. Padatahapselanjutnyamelakukanproses
klasifikasiterhadapdata laporan pelanggan
speedy.Metodologipenelitianinididasarkanpadaempattahapanyang
dilakukan untuk memperoleh algoritma mana yang terbaik untuk
digunakan pada pengolahan data laporan berlanggan speedy apakah
masih lanjut atau berhenti. Adapun peminatnya adalah :
a)Menanganidatayangtidakkonsisten,redundantdanmissingvalueb)Seleksiatributdatasetc)Klasifikasid)Penentuanalgoritmaterbaikyangsesuaidengandataberlangganan
speedy apakah masih lanjut atau berhenti.
Padatahappertama,pemrosesanawaldatalaporanberlangganan speedy
yang telah ditentukan masuk berhenti atau lanjut dilakukan untuk
menghapus data atau record yang tidak konsisten, redundant dan
missing value. Pada tahap kedua, seleksi atribut dalam dataset
untuk mendapatkan atribut atau record yang relavan terhadap
keluaran yang dinginkan. Pada tahap ketiga adalah mengekstrak data
yang akan digunakan. Dan yang keempat adalah melakukan penarikan
kesimpulan untuk menentukan algoritma mana yang terbaik.
C.
BahandanAlatPendukungPadabagianiniakandibahasaplikasi-aplikasiataubahanpendukungyang
digunakan.1.
SoftwareAdapunSoftwareyangdigunakanpadasaatmelakukanpenelitian,yaitu:a.
WEKA(WaikatoEnvironmentforKnowledgeAnalysis)
Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas
data mining. Algoritma dapat diterapkan secara langsung ke dataset
atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk
data pra-pengolahan, klasifikasi, regresi, clustering, aturan
asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan
skema pembelajaran mesin baru.Weka adalah perangkat lunak open
source yang dikeluarkan di bawah GNU General PublicLicense
Introduction Mesin algoritma pembelajaran berfungsi untuk mendorong
aturanklasifikasi dari Dataset contoh dan dengan demikian
memperluas pengetahuan domain dan pemahaman, dan weka yang kami
gunakan yaitu weka 3.4.6
b. MicrosoftExel2007MicrosoftExceladalahbagiandariMSOfficeyang
merupakan salah satu program canggih yang bbekerja dibawah sistem
operasi Windows. Banyak kemudahan yang dapat diperoleh selama
menggunakan Microsoft Excel, seperti bekerja dengan daftar data,
menghitung angka-angka, membuat laporan, diagram, grafik, dan
sebagainya. Sehingga untuk mengolah data ke WEKA membutuhkan
aplikasi pendukung Microsoft Exel karena datta yang digunakan
tersimpan dalam bentuk format Microsoft Exel (.xls) perlu diubah
menjadi bentuk format data.csv ( Comma Separated Values)
toolsdalamweka.
c.
HardwareAdapunhardwareyangdigunakanpadasaatmelakukanpenelitian,yaitu:a.Laptopacer14b.Ram1Gbc.Harddisk250Gbd.MouseLogitec
BAB IVIMPLEMENTASIA. Data MiningSetelah melakukan Transpormasi
data maka langka selanjutnya tinggal memasukan data set ke dalam
Weka. Berikut ini adalah data yang telah di masukan ke dalam Weka
yaitu data pelanggan Speedy yang lajut atau berhenti berlanganan
speedy
Gambar 3. Tampilan Data MiningDan seterusnya sampai 302 data
yang akan ip roses atau klasifikasi .
B. Penerapan Algoritma Bayes Menggunakan aplikasi weka 3.6.4Weka
yang kami gunakan yaitu weka 3.4.6 dan Berikut ini merupakan
tampilan proses klasifikasi bayes dengan menggunakan atribut nave
bayes pada aplikasi Weka 3.6.4
Gambar 4. Tampilan Clasify Pada WekaPada gambar tesebut akan
dijelaskan beberapa fungsi atribut yang terdapat pada aplikasi weka
tersebut.Keterangan1. Choose : berfungsi untuk memilih metode yang
akan di gunakan di klasifikasi tersebut2. Use Traning set : untuk
menggunakan data traning set3. Supplied test set : untuk
menggunakan data testing4. Cross Validation : membagi data menurut
bagian5. Percentage Split : persentase dari perpecahan atau
percabangan
Di dalam Penerapan Disini kami akan menjelaskan tahap
menjalankan Weka yang pertama tahap membuka program.1. Buka Program
Weka
Gambar 5. Tampilan Awal Weka2. Setelah Weka Dibuka Lalu Kita
Masukan data Dengan Mengklik Explore Setelah di klik Explore maka
tampilannya seperti di bawah ini
Gambar 6. Tampilan Weka Setelah Klik Explore3. Setelah Masuk
kedalam tampilan Explore Weka maka setelah itu kita memasukan data
yang akan kita mining atau kita ingin klasifikasikan. Dengan cara1.
Klik Open File
Gambar 7. Tampilan saat Membuka File/Memasukan Data Mining2.
Setelah itu kita pilih data yang akan di classify/klasifikasikan
sehingga menjadi tampilan seperti di bawah ini
Gambar 8. Tampilan Setelah Memasukan Data mining3. Setelah data
di masukan maka selanjutnya kita klasifikasikan data yang sudah di
masukan dengan cara klik Classfy
Gambar 9. Tampilan Pemilihan Classfy4. Setelah di klasifikasikan
maka selanjutnya kita memilih metode yang akan kita gunakan untuk
mengklasifikasikannya, dan metode yang kami gunakan yaitu metode
Nave Bayes5. Setelah Menjelaskan Metode Apa yang di gunakan
selanjutnya kami Menganalisi Weka dengan menggunakan Metode Nave
Bayes tersebut dan untuk menganalisi atau mentes data yang ada maka
kami menggunakan test option dengan pilihan Use Training set,
Supplied test set, cross validation dan percentage split.
a. Use Traning SetUse Traning Set adalah penggunaan atau
pengklasifikasian data mining berdasarkan training. Seperti
tampilan Di bawah ini
Gambar 10. Tampilan Use Training SetDari tanda Biru yang
dilingkari di atas maka kami dapat menjelaskan bahwa itu merupakan
persenan dari data yang di klasifikasikan. Untuk Correctly
Classified Instances merupakan baris yang benar yaitu sebesar 100
%. Yang berarti saat kami melakukan Star dengan Menggunakan Use
Training set tidak ada baris data yang salah, yang artinya data 301
tidak ada yang error. Sedangkan yang Incorrectly Classified
Instances merupakan baris yang salah yaitu sebesar 0%.Dan untuk
memastikan bahwa Baris data 100 persen yang benar kita maka kita
akan mencari dengan cara manual yaitu dengan rumus
= 100%Dari Klasifikasi yang kita gunakan diatas selain Correctly
Classified Instances kami juga akan menjelaskan bagaimana cara
mendapatkan nilai nilai TP Rate, FP Rate, Precision, Recall,
F-Measure,
Gambar 11. Tampilan TP, FP,Precesion Recall dan F-Measure untuk
Use Training
Dari gambar Di atas kami akan menjelaskan kenapa Nilai di dalam
tambel atau Use Training 1 dan 0 dan dari mana dapatnya. Dan untuk
menjelaskannya maka kami melakukan Perhitungan seperti di bawah
inia. TP
RateTingkatPositifbenar(TP)Rateadalahproporsicontohyangdiklasifikasikan
sebagai kelas x, di antara semua contoh yang benar benar memiliki
kelas xyang Bernilai sama denganRecall.
TP Rate (True Positiv) Pada yaitu dengan rumus berikut
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1
berarti nilai di Weka dengan yang manual benar
TP rate(True Positif) pada class Berhenti dapat dirumuskan
dengan rumus berikut Jadi Nilai dari TP rate yang class berhenti
nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan
weka
b. FP
RateTingkatPositifsalah(FP)Rateadalahproporsicontohyangdiklasifikasikan
sebagai kelas x, tetapi masuk kedalam kealas yang berbeda diantara
semuacontoh yangbukandarikelasx.FP Rate. Yaitu pada Class Lanjut
Jadi FP Rate Pada Kelas Lanjut yaitu bernilai 0 yang artinya
nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada
Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP
Rate pada Class Berhenti
Jadi Nilai FN Class Berhenti Bernilai 0
c. PrecesionUntuk Mencari Nilai Precesion Class Lanjut kita
harus menggunakan nilai A1=175 A2=0 Nilai Precesion untuk Class
Lanjut sama dengan 1Untuk Mencari Precesion Kelas Berhenti Kita
Harus Menggunakan Nilai B1=126 B2 =0 Nilai Precesion untuk Class
Berhenti sama dengan 1d. RecallUntuk mencari nilai dari Class
Lanjut yaitu kita menggunakan rumus sebarai berikut:
Nilai Recall untuk class Lanjut sama dengan 1Untuk Mencari Nilai
Class Berhenti kita gunakan Rumus Seperti Berikut :
e. F-measureUntuk mencari nilai F-measure kita harus menggunakan
nilai precesion dan recallDengan rumus sebagai berikut
Selain Menggunakan use training set untuk mengevaluasi kami juga
menggunakan supplied test set untuk mengevaluasi data tesebut.b.
Supplied Test Set
Gambar 12. Tampilan TP, FP,Precesion Recall dan F-Measure untuk
Supplier Test Set
1. TP RateTP Rate (True Positiv) Pada Class Lanjut yaitu dengan
rumus berikut
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1
berarti nilai di Weka dengan yang manual benarTP rate(True Positif)
pada class Berhenti dapat dirumuskan dengan rumus berikut Jadi
Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti
benar dengan nilai yang di cari dengan weka
2. FP RateSetelah TP rate sudah di dapatkan hasilnya maka
selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Lanjut
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya
nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada
Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP
Rate pada Class Berhenti
3. PrecesionUntuk Mencari Nilai Precesion kita harus menggunakan
nilaiA1=175 dan A2=0 dengan rumus : Nilai Precesion untuk Class
Lanjut sama dengan 1Untuk Mencari Precesion Kelas Berhenti Kita
Harus Menggunakan Nilai B1=126 B2 =0 dengan rumus : 4. RecallUntuk
mencari nilai dari Recall kita harus menggunakan nilai dari TP dan
FN dengan rumus sebagai berikut :
Nilai Recall untuk class Lanjut sama dengan 1
5. F-measureUntuk mencari nilai F-measure kita harus menggunakan
nilai precesion dan recallDengan rumus sebagai berikut
Selain Menggunakan use training set untuk mengevaluasi kami juga
menggunakan supplied test set untuk mengevaluasi data tesebut.
c. Cros Validation
Gambar 13. Tampilan TP, FP,Precesion Recall dan F-Measure untuk
Cross Validationa. TP Rate TP Rate (True Positif) Pada Class Lanjut
yaitu dengan rumus berikut
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1
berarti nilai di Weka dengan yang manual benarTN rate(True Negatif)
pada class Berhenti dapat dirumuskan dengan rumus berikut Jadi
Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti
benar dengan nilai yang di cari dengan wekab. FP RateSetelah TP
rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai
FP Rate. Yaitu pada Class Berhenti
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya
nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada
Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP
Rate pada Class Lanjut
c. PrecesionUntuk Mencari Nilai Precesion Lanjut kita harus
menggunakan nilai A1=90 A2=49 dengan rumus : Jadi Nilai Precesion
Class Lanjut adalah 0.604Untuk Mencari Nilai Precesion Berhenti
Kita Menggunakan Nilai B1=67 B2=85
Jadi Nilai Precesion Class Berhenti adalah 0.441
d. RecallUntuk mencari nilai dari Recall kita harus menggunakan
nilai dari TP dan FN dengan rumus sebagai berikut : Jadi Nilai
Recall Untuk Class Lanjut adalah 0.514 e. F-measureUntuk mencari
nilai F-measure kita harus menggunakan nilai precesion dan
recallDengan rumus sebagai berikut
Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556
Jadi Nilai dari F-Measure pada Class Berhenti adalah 0.482d.
Percentage Split
Gambar 14. Tampilan TP, FP,Precesion, Recall dan F-Measure untuk
Percentage Split
a. TP RateTP Rate (True Positif) Pada Class Lanjut yaitu dengan
rumus berikut = 0.667
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 0.667
berarti nilai di Weka dengan yang manual benarTN rate(True Negatif)
pada class Berhenti dapat dirumuskan dengan rumus berikut =
0.479Jadi Nilai dari TN rate yang class berhenti nilainya ada 0.479
yaitu berarti benar dengan nilai yang di cari dengan wekab. FP
RateSetelah TP rate sudah di dapatkan hasilnya maka selanjutnya
kami mencari nilai FP Rate. Yaitu pada Class Berhenti
= 0.333
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0.333 yang
artinya nilainya sama dengan apa yang di munculkan WekaSetelah FP
Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya
mencari FP Rate pada Class Lanjut = 0.521
c. PrecesionUntuk Mencari Nilai Precesion Class lanjut kita
harus menggunakan nilai A1=36 dan A2=25 dengan rumus : = 0.59Untuk
Mencari Nilai Precesion Class Berhenti kita harus menggunakan nilai
B1=23 B2=18 dengan rumus : = 0.561
d. RecallUntuk mencari nilai dari Recall kita harus menggunakan
nilai dari TP dan FN dengan rumus sebagai berikut : = 0.667 Jadi
Nilai Recall Untuk Class Lanjut adalah 0.667 = 0.479Jadi Nilai
Recall untuk Class Berhenti adalah 0.479e. F-measureUntuk mencari
nilai F-measure kita harus menggunakan nilai precesion dan
recallDengan rumus sebagai berikut
= 0.626
Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556
= 0.482
BAB VPENUTUPA. KesimpulanDari penjelasan atau Implementasi di
atas dapat disimpulkan bahwa dengan pengklasifikasian dengan metode
Navie bayes yaitu suatu klasifikasi berpeluang sederhana
berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel
penjelas saling bebas (independen). Dalam hal ini, diasumsikan
bahwa Lanjut atau Berhenti dari suatu kejadian tertentu dari suatu
kelompok tidak berhubungan dengan Lanjut atau Berhenti dari
kejadian lainnya.Dan Juga dapat Disimpulkan bahawa Setiap Tes
Option Memili Correctly Classified Instances, Incorrectly
Classified Instances, Relative absolute error, Root relative
squared error dan Nilai TP, FB, Precesion Recall dan T-Measure yang
berbeda.B. SaranDari data mining di atas bahwa masih terdapat
kekurangan dalam data mining karena masih memili Error dalam test
Option yang di lakukan. Disarankan supaya saat melakukan atau
Membuat Data mining data yang di dalam Format xl atau CSV sebaiknya
di buat lebih baik lagi. Supaya saat dilakukan klasifikasi
menggunakan metode yang digunakan dan dilakukan tes option tidak
mengalami data yang Error
DAFTAR
PUSTAKAhttp://youdhiedoes.blogspot.com/2013/09/metode-bayes-naive-bayes.htmlhttp://totoharyanto.staff.ipb.ac.id/2012/03/27/naive-bayes/http://www.library.upnvj.ac.id/pdf/2s1teknikinformasi/205511005/bab2.pdfhttp://md-niswa.blogspot.com/2011/03/pengertian-data-warehouse-dari-beberapa.htmlhttp://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2362/bab%202%20landasan%20teori.pdf?sequence=4
[Type text]Page 35