Laporan Weka Perbi

BAB IPENDAHULUANA. Latar BelakangPerkembangan teknologi informasi dan komunikasi mendorong konsumen untuk meningkatkan intensitas penggunaan teknologi dalam kehidupan sehari-hari. Teknologi informasi dan komunikasi yang pada awalnya sangat terbatas dalam menunjang kebutuhan sehari-hari, saat ini telah menjadi bagian yang tidak terpisahkan atau telah menjadi kebutuhan hidup.Internet merupakan salah satu perkembangan teknologi informasi dan komunikasi yang menawarkan sisi kecanggihan, kepraktisan, dan kemudahan. Informasi yang dapat diperoleh sangatlah beragam dan untuk mendapatkannya cukup mudah dan praktis. Komunikasi yang dapat dilakukan dengan menggunakan internet juga praktis dan mudah, tidak terbatas oleh waktu ataupun jarak.Perkembanganteknologi informasidankomunikasi merupakan peluang bisnis yang potensial. PT. Telekomunikasi Indonesia, Tbk (Telkom) merupakan salah satu perusahaan penyedia jasa telekomunikasi yang memanfaatkan peluang tersebut. Pemenuhan akan kebutuhan teknologi internet dijawab dengan dikembangkannya berbagai produk berbasis pemenuhan kebutuhan terhadap akses internet salah satunya Speedy. Banyaknya Permintaan menjadi Pelanggan Speedy di Dunia ini benar benar sangat Berkembang Pesat. Apa lagi di Kota kota seperti Kota Palangkaraya, berlanggan tetapi di balik berkembangnya, bertambahnya dan melanjutkan berlangganan, speedy terdapat juga Pelanggan speedy yang berhenti. Dan untuk itu untuk mencegah terjadinya berhentinya Berlangan Speedy Pihak Speedy memberikan sebuah Keuntungan, yaitu bagi yang berlanggan Lama atau lebih 1 tahun maka Pelanggan Speedy akan di berikan Berlanggan Gratis Selama 2 Bulan, dan untuk mengetahui siapa saja Pelanggan yang berlanggan Lebih Lama bisa di lakukan dengan cara klasifikasi data, untuk melakukan klasifikasi data tersebut maka dapat dilakukan dengan program atau aplikasi Weka. Salah satu yang kami gunakan yaitu weka 3.4.6WEKA adalah meja kerja untuk pembelajaran mesin yang dimaksudkan untuk membuat penerapan teknik pembelajaran mesin lebih mudah dan intuitif untuk sebuahberbagai masalah di dunia nyata. Lingkungan target tidak hanya mesinbelajar ahli tetapi juga spesialis domain. Itulah sebabnya interaktifmodul untuk pengolahan data, data dan visualisasi model yang terlatih, databasekoneksi dan cross-validasi disediakan. Mereka pergi bersama dengan dasarfungsi yang perlu didukung dengan sistem pembelajaran mesin -klasifikasi dan regresi memprediksi, clustering dan seleksi atribut.Hal ini dikembangkan di University of Waikato, Selandia Baru. Proyek inidimulai ketika penulis diperlukan untuk menerapkan teknik mesin belajar padapertanian masalah. Ini adalah sekitar dua belas tahun yang lalu. Sekarang versi 3.4.6 adalah tahun tersedia dan dua yang lalu penulis juga telah menerbitkan sebuah buku [4]. Ini buku mencakup algoritma yang berbeda, poin yang mungkin mereka lemah dan kuat,semua preprocessing dan mengevaluasi metode. Hal ini juga mencakup penjelasan rinciuntuk keempat modul grafis dan beberapa pengenalan dasar tentang caramenggunakan antarmuka Java di program Anda sendiri. Proyek ini dikembangkan dandidistribusikan di bawah lisensi GPL dan memiliki subdomain di Sourceforge

B. Rumusan MasalahRumusan masalah yang di ambil dari kasus ini yaitu bagaimana cara mengklasifikasikan data set tersebut. Dan dengan metode apa yang di ambil untuk mengklasifikasikan data pelanggan speedy ?

C. Batasan MasalahDari permasalahan di atas kami dapat membatasi masalah yang akan kami teliti yaitu1. Kami hanya menggunakan Weka 3.6.4 2. Kami hanya menggunakan metode Nave bayes utuk mengklasifikasikan data mining tesebut?3. Kami hanyak mengklasifikasikan data pelanggan speedy yang berhenti dan lanjut

D. Tujuan WekaTujuan Belajar Weka yaitu untuk meningkatkan pemahaman mahasiswa terhadap Weka. Dengan Weka mahasiswa dapat mengklasifikasikan data dengan Metode yang di gunakan

E. Manfaat WekaManfaat Belajar Weka ini yaitu mahasiswa dapat mengklasifikasin data sehingga data tersebut dapat memberikan hasil yang di inginkan. Seperti ingin mengetahui nilai yang yang digunakan dalam data mining.F. Tampilan Weka

Gambar 1. Tampilan WekaPenjelasan1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema belajar3. Knowledge Flow digunakan untuk pengetahuan pendukung4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung

BAB IILANDASAN TEORIA. Pengertian AnalisisDalam Kamus Bahasa Indonesia Kontemporer karangan Peter Salim dan Yenni Salim

(2002) menjabarkan pengertian analisis sebagai berikut:

a. Analisis adalah penyelidikan terhadap suatu peristiwa (perbuatan, karangan dan sebagainya) untuk mendapatkan fakta yang tepat (asal usul, sebab, penyebab sebenarnya, dan sebagainya).b. Analisis adalah penguraian pokok persoalan atas bagian-bagian, penelaahan bagian-bagian tersebut dan hubungan antar bagian untuk mendapatkan pengertian yang tepat dengan pemahaman secara keseluruhan.c. Analisis adalah penjabaran (pembentangan) sesuatu hal, dan sebagainya setelah ditelaah secara seksama.d. Analisis adalah proses pemecahan masalah yang dimulai dengan hipotesis (dugaan, dan sebagainya) sampai terbukti kebenarannya melalui beberapa kepastian (pengamatan, percobaan, dan sebagainya).e. Analisis adalah proses pemecahan masalah (melalui akal) ke dalam bagian- bagiannya berdasarkan metode yang konsisten untuk mencapai pengertian tentang prinsip-prinsip dasarnya.

Dalam KamusBesarBahasaIndonesia karangan Suharsodan Ana Retnoningsih (2005), analisis adalah penyelidikan terhadap suatu peristiwa (karangan, perbuatan dan sebagainya) untuk mengetahui keadaan yang sebenarnya (sebab musabab, duduk perkara dan sebagainya). Dan kinerja adalah sesuatu yang dicapai.

Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional (2005) menjelaskan bahwa analisis adalah penyelidikan terhadap suatu peristiwa untuk mengetahui keadaan yang sebenarnya. Kinerja adalah kemampuan kerja, sesuatu yang dicapai, prestasi yang diperlihatkan.

Dapat disimpulkan bahwa pengertian analisis kinerja dalam tugas akhir ini adalah penyelidikan terhadap suatu metode (dalam hal ini metode Canny) untuk mengetahui kemampuan kerja metode tersebut melalui beberapa percobaan atau pengujian.

B. WekaWeka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining. Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran mesin baru.Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU General PublicLicense Introduction Mesin algoritma pembelajaran berfungsi untuk mendorong aturanklasifikasi dari Dataset contoh dan dengan demikian memperluas pengetahuan domain dan pemahaman.

C. Data WarehouseMenurut W.H. Inmon dan Richard D. Hackathorn di tahun 1994, data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management.

Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan.

Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber.

Menurut Ralph Kimball, data warehouse adalah salinan data transaksi khusus terstruktur untuk query dan analisis.

Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik.

Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan.

D. Data MiningData mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam data base. Data mining merupakan proses yang mengunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengektraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar(turban , dkk.2005). MenurutGartnerGroupdatamining didefinisikan sebagai suatu proses menemukanhubunganyangberarti,pola,dan kecenderungan dengan memeriksa dalamsekumpulanbesardatayangtersimpandalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statisik dan matematika.Selaindefinisidiatasbeberapadefinisijugadiberikanseperti terteradibawah ini:Dataminingadalahserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandataberupapengetahuanyangselamainitidakdiketahuisecaramanual.(Pramudiono,2006)Dataminingmerupakanbidangdaribeberapabidangkeilmuanyangmenyatukanteknikdaripembelajaranmesin,pengenalan pola,statistik,database,danvisualisasiuntukpengenalanpermasalahanpengambilaninformasidaridatabaseyangbesar.(Larose,2005) Kemajuanluarbiasaygterusberlanjutdalambidangdatamining didorong oleh beberapa faktor, antara lain (Larose,2005):1.Pertumbuhanyangcepatdalampengumpulandata.2.Penyimpangandatadalamdatawarehouse,sehinggaseluruh Perusahaan memiliki akses kedalam database yang handal.3.adanya peningkatan akses data melalui navigasi web dan intranet.4.Tekanankompetisibisnisuntukmeningkatkanpenguasaan pasardalam globalisasi ekonomi. 5.Perkembanganteknologiperangkatlunakuntukdatamining (ketersediaanteknologi)6.Perkembanganyanghebatdalamkemampuankomputasidanpengembangan kapasitas media penyimpanan.Dari definisi-definisi yang telah disampaikan, hal penting yang terkait dengan data mining adalah:1.Data mining merupakan suatu prosesotomatis terhadap data Yang sudah ada.2.Datayangakandiprosesberupadatayangsangatbesar.3.Tujuandataminingadalahmendapatkanhubunganataupola yang mungkin memberikan indikasi yang bermanfaat.

E. Tahap-TahapDataminingIstilahdataminingdanknowledgediscoveryindatabases(KDD)seringkali digunakan secara bergantianuntuk menjelaskan proses pentggalian informasi tersembunyi dalam suatau basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah datamining. ProsesKDD secara garis besar dapat dijelaskan sebagai berikut:[6]1. DataSelectionPemilihan(seleksi)datadarisekumpulandataoperasionalperludilakukan Sebelum tahap penggalianinformasidalamKDDdimulai.DatahasilseleksiyangAkan digunakanuntukprosesdatamining,disimpansuatuberkas,terpisahdariBasis dataoperasional.

2. Pre-processing/CleaningSebelumprsesdataminingdapatdilaksanakan,perludilakukanprosescleaningpadadatayangmenjadifokusKDD.Prosescleaningmencakupantaralainmembuangduplikasidata,memeriksadatayanginkonsisten,memperbaikikesalahanpadadata,sepertikesalahancetak(tipografi).Jugadilakuakanprosesenrichment,yaituprosesmemperkayadatayangsudahadadengandataatauinformasiyangrelevandandiperlukanuntukKDD,sepertidataatauinformasieksternal.

3. TransformationCodingadalahprosestransformasipadadatayangtelahdipilih,sehinggadatatersebutsesuaiuntukprosesdatamining.ProsescodingdalamKDDmerupakanproseskreatifdansangattergantungpadajenisataupolainformasiyangakandicaridalambasisdata.

4. DataminingDataminingadalahprosesmencaripolaatauinformasimenarikdalamdata terpilihdenganmenggunakanteknikataumetodetertentu.Teknik,metode,ataualgoritmadalamdataminingsangatbervariasipemilihanmetodeataualgoritmayangtepatsangatbergantungpadatujuandanprosesKDDsecarakeseluruhan.

5. Interpretation/EvaluationPolainformasiyangdihasilkandariprosesdatamining,perluditampilkandalambentukyangmudahdimengertiolehpihakyangberkepentingan.TahapinimerupakanbagiandariprosesKDDyangdisebutinterpretation.Tahapinimencakuppemeriksaanapakahpolaatauinformasiyangditemukanbertntangandenganfaktaatauhipotesisyangadasebelumnya.

F. Teknik Data MeaningTeknik Data Mining yang kami gunakan yaitu klasifikasi. Klasifikasiadalahprosesuntukmenemukanmodelatau fungsi yang menjelaskan atau membedakan konsep atau kelas data, Dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.

G. Nave BayesNaive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya. Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalam hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk spam filtering. Dan untuk menghitung klasifikasi teorema bayes berikut mengggunakan rumus dibawah ini

Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior probability X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas ke-empat kelas lainnyaKeuntungan Naive Bayesian :

1.Menangani kuantitatif dan data diskrit 2.Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata ratakan ketika mengestimasi peluang bersyarat data. 3.Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi. 4.Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang 5. Cepat dan efisiensi ruang 6. Kokoh terhadap atribut yang tidak relevan

Kekurangan Naive Bayesian :

1.Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga 2. Mengasumsikan variabel bebas

BAB IIIMETODOLOGIA. Kerangka BerpikirDalam gambar di bawah ini akan diurakan langkah- langkah proses penelitian dalam bentuk diagram alir, diharapkan dapat diperoleh gambaran yang lengkap dan menyeluruh tentang tahap-tahap penelitian yang akan di laksanakan.

Mulai

Pengumpulan data

Identifikasi masalah

Prosesing Data-Clening Data-Seleksi Atribut-Integrasi data-transpormasi

Data MiningAlgoritma Naivi Bayes

Evaluasi Hasil

SelesaiKnowledge

Gambar 2. Diagram Alir Kerangka BerpikirBerikut Penjelasan diagram alir diatas sebagai berikut :1. StudiPustaka

Tahapinimerupakanlandasanawaldalampenelitianini,daristudi pustaka ini banyak mendapatkan referensi yang mendukung penelitian ini, sekaligus untuk memperkuat pengetahuan dasar dan teori yang digunakan pada penelitian ini. Adapun beberapa buku dan jurnal yang menjadi referensi pada penelitian ini adalah:a. SantosaBudi,2007,DataMiningTeknikPemanfaatanDatauntuk keperluan Bisnis, Jakarta. Dalam buku ini membantu penulis dalam metode algoritma data mining yang tepat.b. Jurnal-jurnal data mining dan lainnya mendukung penelitian ini terutama dengan pembahasan tentang klasifikasi algoritma Navie Bayes.

2. PengumpulanDataPadatahapinidatayangakanditelitiiniyaitudatadatapelanggan Speedy yang berhenti dan lanjut di Telkom Flasa Palangkaraya dan didapat dataset yang bertipe record, berupa data laporan berhenti atau tidak pelanggan speedy.

3. DiskusiPadatahapinidilakukanwawancarakepadapihakterkaituntuk mencari sebuah informasi, dalam hal ini teman-teman yang mengambil mata kuliah Basis Data Terdistribusi di STMIK Palangkaraya.

4. IdentifikasiMasalahPadatahapidentifikasimasalahini,dilakukansetelahsemuadatadata terpenuhi kemudian didapatkan dataset yang sesuai untuk dilakukan proses pada tahap klasifikasi, sehingga nantinya dari hasil klasifikasi dapat digunakan untuk menemukan jumlah pelanggan speedy yang telah berhenti atau lanjut dalam berlangganan.

5. PreprocessingDataPadatahappemprosesanpendahuluandanpembersihandata merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan ada beberapa cara yang menjadi fokus tahap KDD yaitu:

a. Cleaning DataPada tahap ini data yang telah terkumpul selanjutnya mengalami proses pembersihan dengan cara membuang duplikasi data, memeriksa data yabg inkonsisten, memperbaiki kesalahan pada data seperti kesalahan cetak (tipografi) dan mengendalikan data yang hilang. Sehingga akhir yang kita peroleh mendapatkan data yang tidak mengandung null.

b. Seleksi AtributTahap yang akan dilakukan adalah seleksi atribut yaitu tahap pemilihan sumber data yang digunakan, karena ada beberapa atribut yang tidak digunakan sebelum tahap panggilan informasi dalam KDD dimulai, sehingga kita harus menghapus atribut yang tidak diperlukan karena atribut tersebut tidak relavan dengan hasil yang ingin dicapai.

c. Integrasi DataPada tahap ini merupakan proses penggabungan data dari beberapa sumber yang telah didapat, database pelanggan speedy berasal dari satu sumber dan data yang didapat sudah mewakili untuk pencarian sebaran jumlah pelanggan speedy berhenti atau lanjut tidak digabung dari berbagai sumber karena hanya didapat dari satu sumber.

d. TransformasiPada langkah ini merubah tipe file data awal tipe data.xls menjadi data.csv (Comma Separated Values) karena menggunakan pengolahan data weka classifre atau menjadi data.m karena menggunakan tools matlab.

6. KlasifikasiDataMining(AlgoritmaBayes)ProsesKalsifikasiyaituprosesmencaripolaatauinformasidalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Pemilihan tugas data mining merupakan tujuan dari prose KDD misalnya klasifikasi, regresi, clustering, dll.

7. EvaluasiHasilPadatahapinidilakukanevaluasidariinformasiyangtelah diperoleh berdasarkan hasil dari proses Klasifikasi menggunakan algoritma Naivie Bayes dan pastinya telah diuji terlebih dahulu. Jika hasilnya akhir masih belum sesuai, maka akan diulang kembali ketahap proses algoritma Naivie Bayes tersebut.

8. Knowledge(model)TahapinimerupakanbagiandariprosesKDDyangmencakup pemeriksa apakah pola atau informasi yang dihasilkan data mining perlu diotampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.

B. TataLaksanaKegiatan yangdilakukan dalam penelitianini diantaranya adalah klasifikasiuntuk memperolehalgoritma terbaik untukpengolahandata laporan berhenti atau tidakyangtelahditentukan masuk program peminatan berlanggan speedy. Proses dimulai dengan pendefinisian masalah serta mempelajariperhitungannilaidarisistem manual yang sedang berjalan. Padatahapselanjutnyamelakukanproses klasifikasiterhadapdata laporan pelanggan speedy.Metodologipenelitianinididasarkanpadaempattahapanyang dilakukan untuk memperoleh algoritma mana yang terbaik untuk digunakan pada pengolahan data laporan berlanggan speedy apakah masih lanjut atau berhenti. Adapun peminatnya adalah : a)Menanganidatayangtidakkonsisten,redundantdanmissingvalueb)Seleksiatributdatasetc)Klasifikasid)Penentuanalgoritmaterbaikyangsesuaidengandataberlangganan speedy apakah masih lanjut atau berhenti.

Padatahappertama,pemrosesanawaldatalaporanberlangganan speedy yang telah ditentukan masuk berhenti atau lanjut dilakukan untuk menghapus data atau record yang tidak konsisten, redundant dan missing value. Pada tahap kedua, seleksi atribut dalam dataset untuk mendapatkan atribut atau record yang relavan terhadap keluaran yang dinginkan. Pada tahap ketiga adalah mengekstrak data yang akan digunakan. Dan yang keempat adalah melakukan penarikan kesimpulan untuk menentukan algoritma mana yang terbaik.

C. BahandanAlatPendukungPadabagianiniakandibahasaplikasi-aplikasiataubahanpendukungyang digunakan.1. SoftwareAdapunSoftwareyangdigunakanpadasaatmelakukanpenelitian,yaitu:a. WEKA(WaikatoEnvironmentforKnowledgeAnalysis)

Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining. Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran mesin baru.Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU General PublicLicense Introduction Mesin algoritma pembelajaran berfungsi untuk mendorong aturanklasifikasi dari Dataset contoh dan dengan demikian memperluas pengetahuan domain dan pemahaman, dan weka yang kami gunakan yaitu weka 3.4.6

b. MicrosoftExel2007MicrosoftExceladalahbagiandariMSOfficeyang merupakan salah satu program canggih yang bbekerja dibawah sistem operasi Windows. Banyak kemudahan yang dapat diperoleh selama menggunakan Microsoft Excel, seperti bekerja dengan daftar data, menghitung angka-angka, membuat laporan, diagram, grafik, dan sebagainya. Sehingga untuk mengolah data ke WEKA membutuhkan aplikasi pendukung Microsoft Exel karena datta yang digunakan tersimpan dalam bentuk format Microsoft Exel (.xls) perlu diubah menjadi bentuk format data.csv ( Comma Separated Values) toolsdalamweka.

c. HardwareAdapunhardwareyangdigunakanpadasaatmelakukanpenelitian,yaitu:a.Laptopacer14b.Ram1Gbc.Harddisk250Gbd.MouseLogitec

BAB IVIMPLEMENTASIA. Data MiningSetelah melakukan Transpormasi data maka langka selanjutnya tinggal memasukan data set ke dalam Weka. Berikut ini adalah data yang telah di masukan ke dalam Weka yaitu data pelanggan Speedy yang lajut atau berhenti berlanganan speedy

Gambar 3. Tampilan Data MiningDan seterusnya sampai 302 data yang akan ip roses atau klasifikasi .

B. Penerapan Algoritma Bayes Menggunakan aplikasi weka 3.6.4Weka yang kami gunakan yaitu weka 3.4.6 dan Berikut ini merupakan tampilan proses klasifikasi bayes dengan menggunakan atribut nave bayes pada aplikasi Weka 3.6.4

Gambar 4. Tampilan Clasify Pada WekaPada gambar tesebut akan dijelaskan beberapa fungsi atribut yang terdapat pada aplikasi weka tersebut.Keterangan1. Choose : berfungsi untuk memilih metode yang akan di gunakan di klasifikasi tersebut2. Use Traning set : untuk menggunakan data traning set3. Supplied test set : untuk menggunakan data testing4. Cross Validation : membagi data menurut bagian5. Percentage Split : persentase dari perpecahan atau percabangan

Di dalam Penerapan Disini kami akan menjelaskan tahap menjalankan Weka yang pertama tahap membuka program.1. Buka Program Weka

Gambar 5. Tampilan Awal Weka2. Setelah Weka Dibuka Lalu Kita Masukan data Dengan Mengklik Explore Setelah di klik Explore maka tampilannya seperti di bawah ini

Gambar 6. Tampilan Weka Setelah Klik Explore3. Setelah Masuk kedalam tampilan Explore Weka maka setelah itu kita memasukan data yang akan kita mining atau kita ingin klasifikasikan. Dengan cara1. Klik Open File

Gambar 7. Tampilan saat Membuka File/Memasukan Data Mining2. Setelah itu kita pilih data yang akan di classify/klasifikasikan sehingga menjadi tampilan seperti di bawah ini

Gambar 8. Tampilan Setelah Memasukan Data mining3. Setelah data di masukan maka selanjutnya kita klasifikasikan data yang sudah di masukan dengan cara klik Classfy

Gambar 9. Tampilan Pemilihan Classfy4. Setelah di klasifikasikan maka selanjutnya kita memilih metode yang akan kita gunakan untuk mengklasifikasikannya, dan metode yang kami gunakan yaitu metode Nave Bayes5. Setelah Menjelaskan Metode Apa yang di gunakan selanjutnya kami Menganalisi Weka dengan menggunakan Metode Nave Bayes tersebut dan untuk menganalisi atau mentes data yang ada maka kami menggunakan test option dengan pilihan Use Training set, Supplied test set, cross validation dan percentage split.

a. Use Traning SetUse Traning Set adalah penggunaan atau pengklasifikasian data mining berdasarkan training. Seperti tampilan Di bawah ini

Gambar 10. Tampilan Use Training SetDari tanda Biru yang dilingkari di atas maka kami dapat menjelaskan bahwa itu merupakan persenan dari data yang di klasifikasikan. Untuk Correctly Classified Instances merupakan baris yang benar yaitu sebesar 100 %. Yang berarti saat kami melakukan Star dengan Menggunakan Use Training set tidak ada baris data yang salah, yang artinya data 301 tidak ada yang error. Sedangkan yang Incorrectly Classified Instances merupakan baris yang salah yaitu sebesar 0%.Dan untuk memastikan bahwa Baris data 100 persen yang benar kita maka kita akan mencari dengan cara manual yaitu dengan rumus

= 100%Dari Klasifikasi yang kita gunakan diatas selain Correctly Classified Instances kami juga akan menjelaskan bagaimana cara mendapatkan nilai nilai TP Rate, FP Rate, Precision, Recall, F-Measure,

Gambar 11. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Use Training

Dari gambar Di atas kami akan menjelaskan kenapa Nilai di dalam tambel atau Use Training 1 dan 0 dan dari mana dapatnya. Dan untuk menjelaskannya maka kami melakukan Perhitungan seperti di bawah inia. TP RateTingkatPositifbenar(TP)Rateadalahproporsicontohyangdiklasifikasikan sebagai kelas x, di antara semua contoh yang benar benar memiliki kelas xyang Bernilai sama denganRecall.

TP Rate (True Positiv) Pada yaitu dengan rumus berikut

Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benar

TP rate(True Positif) pada class Berhenti dapat dirumuskan dengan rumus berikut Jadi Nilai dari TP rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan weka

b. FP RateTingkatPositifsalah(FP)Rateadalahproporsicontohyangdiklasifikasikan sebagai kelas x, tetapi masuk kedalam kealas yang berbeda diantara semuacontoh yangbukandarikelasx.FP Rate. Yaitu pada Class Lanjut Jadi FP Rate Pada Kelas Lanjut yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Berhenti

Jadi Nilai FN Class Berhenti Bernilai 0

c. PrecesionUntuk Mencari Nilai Precesion Class Lanjut kita harus menggunakan nilai A1=175 A2=0 Nilai Precesion untuk Class Lanjut sama dengan 1Untuk Mencari Precesion Kelas Berhenti Kita Harus Menggunakan Nilai B1=126 B2 =0 Nilai Precesion untuk Class Berhenti sama dengan 1d. RecallUntuk mencari nilai dari Class Lanjut yaitu kita menggunakan rumus sebarai berikut:

Nilai Recall untuk class Lanjut sama dengan 1Untuk Mencari Nilai Class Berhenti kita gunakan Rumus Seperti Berikut :

e. F-measureUntuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recallDengan rumus sebagai berikut

Selain Menggunakan use training set untuk mengevaluasi kami juga menggunakan supplied test set untuk mengevaluasi data tesebut.b. Supplied Test Set

Gambar 12. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Supplier Test Set

1. TP RateTP Rate (True Positiv) Pada Class Lanjut yaitu dengan rumus berikut

Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benarTP rate(True Positif) pada class Berhenti dapat dirumuskan dengan rumus berikut Jadi Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan weka

2. FP RateSetelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Lanjut Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Berhenti

3. PrecesionUntuk Mencari Nilai Precesion kita harus menggunakan nilaiA1=175 dan A2=0 dengan rumus : Nilai Precesion untuk Class Lanjut sama dengan 1Untuk Mencari Precesion Kelas Berhenti Kita Harus Menggunakan Nilai B1=126 B2 =0 dengan rumus : 4. RecallUntuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut :

Nilai Recall untuk class Lanjut sama dengan 1

5. F-measureUntuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recallDengan rumus sebagai berikut

Selain Menggunakan use training set untuk mengevaluasi kami juga menggunakan supplied test set untuk mengevaluasi data tesebut.

c. Cros Validation

Gambar 13. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Cross Validationa. TP Rate TP Rate (True Positif) Pada Class Lanjut yaitu dengan rumus berikut

Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benarTN rate(True Negatif) pada class Berhenti dapat dirumuskan dengan rumus berikut Jadi Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan wekab. FP RateSetelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Berhenti

Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Lanjut

c. PrecesionUntuk Mencari Nilai Precesion Lanjut kita harus menggunakan nilai A1=90 A2=49 dengan rumus : Jadi Nilai Precesion Class Lanjut adalah 0.604Untuk Mencari Nilai Precesion Berhenti Kita Menggunakan Nilai B1=67 B2=85

Jadi Nilai Precesion Class Berhenti adalah 0.441

d. RecallUntuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut : Jadi Nilai Recall Untuk Class Lanjut adalah 0.514 e. F-measureUntuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recallDengan rumus sebagai berikut

Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556

Jadi Nilai dari F-Measure pada Class Berhenti adalah 0.482d. Percentage Split

Gambar 14. Tampilan TP, FP,Precesion, Recall dan F-Measure untuk Percentage Split

a. TP RateTP Rate (True Positif) Pada Class Lanjut yaitu dengan rumus berikut = 0.667

Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 0.667 berarti nilai di Weka dengan yang manual benarTN rate(True Negatif) pada class Berhenti dapat dirumuskan dengan rumus berikut = 0.479Jadi Nilai dari TN rate yang class berhenti nilainya ada 0.479 yaitu berarti benar dengan nilai yang di cari dengan wekab. FP RateSetelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Berhenti

= 0.333

Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0.333 yang artinya nilainya sama dengan apa yang di munculkan WekaSetelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Lanjut = 0.521

c. PrecesionUntuk Mencari Nilai Precesion Class lanjut kita harus menggunakan nilai A1=36 dan A2=25 dengan rumus : = 0.59Untuk Mencari Nilai Precesion Class Berhenti kita harus menggunakan nilai B1=23 B2=18 dengan rumus : = 0.561

d. RecallUntuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut : = 0.667 Jadi Nilai Recall Untuk Class Lanjut adalah 0.667 = 0.479Jadi Nilai Recall untuk Class Berhenti adalah 0.479e. F-measureUntuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recallDengan rumus sebagai berikut

= 0.626

Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556

= 0.482

BAB VPENUTUPA. KesimpulanDari penjelasan atau Implementasi di atas dapat disimpulkan bahwa dengan pengklasifikasian dengan metode Navie bayes yaitu suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa Lanjut atau Berhenti dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan Lanjut atau Berhenti dari kejadian lainnya.Dan Juga dapat Disimpulkan bahawa Setiap Tes Option Memili Correctly Classified Instances, Incorrectly Classified Instances, Relative absolute error, Root relative squared error dan Nilai TP, FB, Precesion Recall dan T-Measure yang berbeda.B. SaranDari data mining di atas bahwa masih terdapat kekurangan dalam data mining karena masih memili Error dalam test Option yang di lakukan. Disarankan supaya saat melakukan atau Membuat Data mining data yang di dalam Format xl atau CSV sebaiknya di buat lebih baik lagi. Supaya saat dilakukan klasifikasi menggunakan metode yang digunakan dan dilakukan tes option tidak mengalami data yang Error

DAFTAR PUSTAKAhttp://youdhiedoes.blogspot.com/2013/09/metode-bayes-naive-bayes.htmlhttp://totoharyanto.staff.ipb.ac.id/2012/03/27/naive-bayes/http://www.library.upnvj.ac.id/pdf/2s1teknikinformasi/205511005/bab2.pdfhttp://md-niswa.blogspot.com/2011/03/pengertian-data-warehouse-dari-beberapa.htmlhttp://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2362/bab%202%20landasan%20teori.pdf?sequence=4

[Type text]Page 35

Laporan Weka Perbi

Documents