-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
PRAKTIKUM 5
PRAKTIKUM KLASIFIKASI
Tujuan Praktikum
1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai
metode pencarian
pengetahuan/pola data dari sejumlah data dengan menggunakan
teknik klasifikasi.
2. Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan
menggunakan/
menerapkan teknik klasifikasi.
Definisi Klasifikasi
Klasifikasi merupakan proses untuk menemukan sekumpulan model
yang menjelaskan dan
membedakan kelas-kelas data, sehingga model tersebut dapat
digunakan untuk memprediksi
nilai suatu kelas yang belum diketahui pada sebuah objek.
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke
dalam label kelas y
Klasifikasi adalah sebuah proses untuk menemukan model yang
menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan,
2004).
Di dalam klasifikasi diberikan sejumlah record yang dinamakan
training set, yang terdiri dari
beberapa atribut, atribut dapat berupa kontinyu ataupun
kategoris, salah satu atribut
menunjukkan kelas untuk record.
Model dalam Klasifikasi (Bertalya, 2009) :
1. Pemodelan Deskriptif
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Sebagai alat penggambaran yang bersifat menjelaskan untuk
membedakan objek2 dari
kelas yang berbeda.
2. Pemodelan Prediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas
untuk record yang belum
diketahui.
Klasifikasi dapat diaplikasikan dalam beberapa bidang antara
lain kesehatan,
perbankan, ritel, dll. Masing-masing memiliki atribut yang
sesuai dengan kasus masing-
masing. Misalnya dalam ritel, kasus yang biasanya digunakan
adalah pemberian
diskon/bonus.
Preprocessing Data
Tahap awal yang dilakukan sebelum proses klasifikasi adalah
melakukan preprocessing data,
terdapat beberapa langkah preprocessing data, yaitu :
1. Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk
menghilangkan noise dan
penanganan terhadap missing value pada suatu record.
2. Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level
yang lebih tinggi.
Misalnya dengan melakukan diskretisasi terhadap atribut degan
nilai kontinyu.
Pembelajaran terhadap data hasil generalisasi dapat mengurangi
kompleksitas
pembelajaran yang harus dilakukan karena ukuran data yang harus
diproses lebih kecil.
Konsep Pembuatan Model Dalam Klasifikasi
Klasifikasi dapat digunakan untuk memprediksi nama atau nilai
kelas dari suatu obyek data.
Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu
:
a. Pembelajaran / Pembangunan Model
Tiap tiap record pada data latih (training set) dianalisis
berdasarkan nilai nilai
atributnya, dengan menggunakan suatu algoritma klasifikasi untuk
mendapatkan model.
b. Klasifikasi
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Pada tahap ini, data uji (test set) digunakan untuk mengetahui
tingkat akurasi dari model
yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai
dengan nilai yang ditentukan,
maka model tersebut dapat digunakan untuk mengklasifikasikan
record pada data yang
baru.
Proses Klasifikasi
Gambar 2. Learning : Training data.
Gambar 2. menjelaskan tahap awal proses klasifikasi yaitu
mendapatkan model klasifikasi
(classifier) dari data latihan (training data) menggunakan
algoritma klasifikasi. Atribut label
kelas adalah Tenured, dan Learned Model atau classifier di
gambarkan pada blok
aturan klasifikasi.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Gambar 3. Classification: Test data.
Pada gambar 3., data uji (test set) digunakan untuk mengetahui
tingkat akurasi dari model
yang dihasilkan (classifier). Jika keakuratan tersebut dianggap
dapat diterima, maka aturan
itu dapat diaplikasikan untuk mengklasifikasikan data
recordsyang baru.
Pembuatan model menguraikan sebuah set dari penentuan
kelas-kelas sebagai:
1. Setiap recorddiasumsikan sudah mempunyai kelas yang dikenal
seperti ditentukan oleh
label kelas atribut,
2. Kumpulan recordyang digunakan untuk membuat model disebut
kumpulan pelatihan
(training set),
3. Model direpresentasikan sebagai classification rules,
decision tree atau formula
matematis.
Penggunaan model menguraikan pengklasifikasian masa yang akan
datang atau obyek yang
belum diketahui, yaitu taksiran keakuratan dari model yang
terdiri dari:
1. Label yang telah diketahui dari contoh tes dibandingkan
dengan hasil klasifikasi dari
model,
2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes
yang diklasifikasikan
secara tepat oleh model,
3. Kumpulan tes tidak terikat pada kumpulan pelatihan,
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
4. Jika akurasi diterima, model dapat digunakan untuk
mengklasifikasikan data recordyang
label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh
algoritma klasifikasi,
dapat dilakukan dengan menghitung jumlah dari test record yang
diprediksi secara benar
(akurasi) dan salah (error rate) oleh model tersebut. Akurasi
dan error rate didefinisikan
sebagai berikut.
Algoritma klasifikasi adalah dapatmenemukan model yang mempunyai
akurasi yang tinggi
atau error rate yang rendah ketika model diterapkan pada test
set.
Algoritma Klasifikasi
Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa
algoritma klasifikasi yang
digunakan, anataralain: pohon keputusan (decision tree), rule
based, neural network, support
vector machine, naive bayes, dan nearest neighbour.
Decision Tree
Salah satu metode teknik klasifikasidata mining yang umum
digunakan adalah decision tree.
Decision tree adalah struktur flowchart yang menyerupai tree
(pohon), dimana setiap simpul
internal menandakan suatu tes pada atribut, setiap cabang
merepresentasikan hasil tes, dan
simpul daun merepresentasikan kelas atau distribusi kelas. Alur
pada decision tree di telusuri
dari simpul akar ke simpul daun yang memegang prediksi kelas
untuk contoh tersebut.
Decision tree mudah untuk dikonversi ke aturan klasifikasi.
Teknik pohon keputusan lebih
mudah digunakan, karena beberapa alasan:
1. Dibandingkan dengan classifier JST atau bayesian, sebuah
pohon keputusan mudah
diinterpretasi/ ditangani oleh manusia.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
2. Sementara training JST dapat menghabiskan banyak waktu dan
ribuan iterasi, pohon
keputusan efisien dan sesuai untuk himpunan data besar.
3. Algoritma dengan pohon keputusan tidak memerlukan informasi
tambahan selain yang
terkandung dalam training data (yaitu, pengetahuan domain dari
distribusi-distribusi
pada data atau kelas-kelas).
4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik
dibandingkan dengan
teknik-teknik yang lainnya.
a. Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan
aturan-aturan keputusan (rule).
Gambar 4. Konsep Decision Tree
b. Tipe Simpul Pada Tree
Tree mempunyai 3 tipe simpul (Arun George Eapen), yaitu:
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih
keluaran edge (tepi),
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau
lebih edge keluaran,
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge
dan tidak ada edge
keluaran.
Pada decision tree setiap simpul daun menandai label kelas.
Simpul yang bukan simpul akhir
terdiri dari akar dan simpul internal yang terdiri dari kondisi
tes atribut pada sebagian record
yang mempunyai karakteristik yang berbeda. Simpul akar dan
simpul internal ditandai
dengan bentuk oval dan simpul daun ditandai dengan bentuk segi
empat.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Gambar 5. Decision treeuntuk masalah klasifikasi
c. Konsep Data Dalam Decision Tree
1. Data dinyatakan dalam bentuk tabel dengan atribut dan
record.
2. Atribut menyatakan suatu parameter yang dibuat sebagai
kriteria dalam pembentukan
tree. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca,
angin dan temperatur. Salah satu atribut merupakan atribut yang
menyatakan data solusi
per-item data yang disebut dengan target atribut.
3. Atribut memiliki nilai-nilai yang dinamakan dengan instance.
Misalkan atribut cuaca
mempunyai instance berupa cerah, berawan dan hujan.
Gambar 6. Contoh data untuk Decision Tree
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Proses Dalam Decision Tree
1. Proses Mengubah Data Menjadi Tree
Gambar 7. Mengubah Data Menjadi Tree
a). Ukuran untuk Memilih Split Terbaik
Dalam membangun sebuah decision tree secara top-down (dari atas
ke bawah), tahap
awal yang dilakukan adalah mengevaluasi semua atribut yang ada
menggunakan suatu
ukuran statistik (yang banyak digunakan adalah information gain)
untuk mengukur
efektifitas suatu atribut dalam mengklasifikasikan suatu
kumpulan sampel data. Atribut
yang diletakkan pada root node adalah atribut yang memiliki
information gain terbesar.
Semua atribut adalah bersifat kategori yang bernilai diskrit.
Atribut dengan nilai
continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu
kita harus mencari nilai
informasi dari data yang merupakan nilai yang diperlukan untuk
mengklasifikasikan
keputusan akhir. Secara matematis dapat dirumuskan dengan:
b) Entropi
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk
dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample
S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan
suatu kelas. Semakin
kecil nilai Entropy maka semakin baik untuk digunakan dalam
mengekstraksi suatu kelas.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Entropi adalah suatu parameter untuk mengukur heterogenitas dari
suatu data. Panjang
kode untuk menyatakan informasi secara optimal adalah p2log bits
untuk messages yang
mempunyai probabilitas p.
Untuk menghitung information gain,terlebih dahulu kita harus
memahami suatu ukuran
lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu
parameter untuk
mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel
data. Jika kumpulan
sampel data semakin heterogen, maka semakin besar nilai entropy.
Secara matematis, nilai
entropy masing-masing instance dirumuskan sebagai berikut:
Keterangan :
S = ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data
sample untuk kriteria tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data
sample untuk kriteria
tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan
dengan:
(c) Information Gain
Setelah kita mendapatkan nilai entropy untuk suatu kumpulan
sampel data, maka kita dapat
mengukur efektifitas suatu atribut dalam mengklasifikasikan
data. Ukuran efektifitas ini
disebut Information Gain. Secara matematis, information gain
dari suatu atribut, dituliskan
sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam
entropy yang disebabkan
oleh pengetahuan nilai pada atribut A. Algoritma menghitung
information gain pada setiap
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes
atribut (simpul akar). Simpul A
dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap
nilai atribut.
Klasifikasi pada umumnya digunakan untuk kasus-kasus pada
kelas-kelas keputusan yang
bernilai diskrit dengan keputusan seperti diterima = ya atau
tidak. Namun jika kita
menemukan kasus yang mempunyai nilai keputusan kontinyu cara
untuk menyelesaikannya
adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-nilai
diskrit dengan cara
mempartisi nilai kontinyu ke dalam interval-interval bernilai
diskrit.
Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK
bernilai kontinyu
Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi
3 nilai diskrit dengan
membentuk interval bagus=[3,00-4,00], cukup=[2,75-3,00] lalu
kembali dengan
melanjutkan langkah-langkah selanjutnya.
2. Mengubah Tree Menjadi Rules
Gambar 8. Mengubah TreeMenjadi Rules
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Gambar 9. Mengubah TreeMenjadi Rules
Nave Bayes
Teorema Bayes dikemukakan oleh seorang pendeta presbyterian
Inggris pada tahun 1763
yang bernama Thomas Bayes. Teorema Bayes digunakan untuk
menghitung probabilitas
terjadinya suatu peristiwa berdasarkan pengaruh yang didapat
dari hasil observasi.
Probabilitas Bayesian adalah suatu interpretasi dari kalkulus
yang memuat konsep
probabilitas sebagai derajat dimana suatu pernyataan dipercaya
benar. Teori Bayesian juga
dapat digunakan sebagai alat pengambilan keputusan untuk
memperbaharui tingkat
kepercayaan dari suatu informasi.
Teori probabilitas Bayesian merupakan satu dari cabang teori
statistik matematik yang
memungkinkan kita untuk membuat satu model ketidakpastian dari
suatu kejadian yang
terjadi dengan menggabungkan pengetahuan umum dengan fakta dari
hasil pengamatan.
Teori Bayesian menurut Grainner (1998), mempunyai beberapa
kelebihan, yaitu:
1. Mudah untuk dipahami.
2. Hanya memerlukan pengkodean yang sederhana.
3. Lebih cepat dalam penghitungan.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang
sederhana berdasarkan aplikasi
teorema Bayes dengan asumsi antar variabel penjelas saling bebas
(independen). Dalam hal
ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu
kejadian tertentu dari suatu
kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari
kejadian lainnya.
Naive Bayesian dapat digunakan untuk berbagai macam keperluan
antara lain untuk
klasifikasi dokumen, deteksi spam atau filtering spam, dan
masalah klasifikasi lainnya.
Keuntungan Naive Bayes :
1. Menangani kuantitatif dan data diskrit
2. Kokoh untuk titik noise yang diisolasi, misalkan titik yang
dirata ratakan ketika
mengestimasi peluang bersyarat data.
3. Hanya memerlukan sejumlah kecil data pelatihan untuk
mengestimasi parameter (rata
rata dan variansi dari variabel) yang dibutuhkan untuk
klasifikasi.
4. Menangani nilai yang hilang dengan mengabaikan instansi
selama perhitungan estimasi
peluang
5. Cepat dan efisiensi ruang
6. Kokoh terhadap atribut yang tidak relevan
Kekurangan Naive Bayes :
1. Tidak berlaku jika probabilitas kondisionalnya adalah nol,
apabila nol maka probabilitas
prediksi akan bernilai nol juga
2. Mengasumsikan variabel bebas
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Contoh Kasus Decision Tree
Langkah -1: Mengubah Data Menjadi Tree.
a. Menentukan Node Terpilih.
Dari data sampel ditentukan node terpilih, yaitu dengan
menghitung nilai entropy masing-
masing atribut. (jumlah beli, harga, dan keadaan barang).
Catatan Node terpilih adalah kriteria dengan Information Gain
yang paling besar.
Entropy untuk harga:
Nilai Informasi untuk data tersebut adalah:
Information Gain (I) =0.9183-0.36 =0.558296
Dengan menggunakan cara yang sama nilai entropy atribut yang
lain adalah sebagai berikut:
Tabel 2. Nilai Entropy untu Jumlah Beli dan keaddan Barang
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Terpilih atribut HARGA sebagai node awal karena memiliki
information gain terbesar
b. Menyusun Tree Awal
Gambar 10. Tree Awal yang Terbentuk
Node berikutnya dapat dipilih pada bagian yang mempunyai nilai +
dan -, pada contoh di atas
hanya harga = sedang yang mempunyai nilai + dan , maka semuanya
pasti mempunyai
internal node. Untuk menyusun internal node lakukan
satu-persatu.
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
c. Internal Node untuk harga = sedang
Tabel 3. Internal Node Harga Sedang
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
d. Menyusun Tree Lanjutan
Gambar 11. Tree Lanjutan 1
Gambar 12. Tree Lanjutan 2
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
e. Hasil Tree Akhir
Gambar 13. Tree Akhir
f. Mengubah Tree Menjadi Rule
Rule yang terbentuk dari hasil tree akhir adalah sebagai
berikut:
R1: IF harga = mahal THEN diskon = ya
R2: IF harga = murah THEN diskon = tidak
R3: IF harga = sedang^Jumlah Beli = sedikit^ THEN diskon =
tidak
R4: IF harga = sedang^ Jumlah Beli = banyak^keadaan
barang=cacat^ THEN diskon = ya
R5: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=baik^
THEN diskon = tidak
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Langkah -5 : Menghitung Error
Hasil Prediksi pada training set adalah sebagai berikut:
Keterangan:
Warna kuning menunjukkan ketidaksesuaian dengan Tingkat Error =
3/18 *100% = 16.67%
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Contoh Kasus Nave Bayes :
Jika terdapat 2 mesin yaitu mesin A dan B, proporsi untuk
produksi pada tiap mesin
adalah 70% dan 30%. Secara sederhana dapat diestimasikan 70 %
kemungkinan cacat produk
disebabkan oleh mesin A. Pada kenyataaannya, tingkat cacat pada
mesin A sebesar 5% dan
mesin B sebesar 10%. Sehingga dari 70% produk yang berasal dari
mesin A terdapat defect
sebesar 70% x 5% = 3,5%, dan dari 30% produk yang berasal dari
mesin B terdapat defect
sebesar 30% x 10% = 3%. Sehingga total probabilitas defect
adalah sebesar 3,5% + 3% =
6,5%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa (3,5%
/ 6,5% = 54% defect)
disebabkan oleh mesin A dan (3% / 6,5% = 46% defect) disebabkan
oleh mesin B.
Gambar 10. Bayes Rule
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
Langkah - langkah Decision Tree dan Nave Bayes dengan Rapid
Miner :
1. Buka software rapid miner, klik New Process
2. Pilih File-Import Data-Import Excel Sheet
3. Pilih file yang akan diproses, kemudian klik Next
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
4. Pilih Sheet (halaman) yang akan diproses, kemudian klik
Next
5. Klik Next
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik
Next.
7. Simpan data di folder yang Anda inginkan kemudian ketik nama
file sesuai keinginan
Anda pada kolom Name, kemudian klik Finish
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
8. Akan muncul tampilan seperti di bawah ini, kemudian klik
icon
9. Drag file klasifikasi ke dalam kotak Main Process
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
10. Cari X-Validation pada kotak search
11. Kemudian drag X-Validation ke dalam kotak Main Process
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
12. Hubungkan (Out) klasifikasi ke (Tra) Validation
13. Klik 2 kali kotak X-Validation, maka akan muncul tampilan
seperti di bawah ini :
14. Cari Naive Bayes pada kotak search
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
15. Kemudian drag algoritma yang akan digunakan (Decision Tree /
Nave Bayes)
misalkanDecision Tree ke dalam kotak Training
16. Cari Apply Model pada kotak search
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
17. Drag Apply Model pada kotak Testing
18. Cari Performance pada kotak search
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
19. Drag Performance pada kotak Testing
20. Hubungkan :
(tra) ke (tra) Decision Tree
(mod) Decision tree ke (mod)
(mod) ke (mod) Apply Model
(tes) ke (unl) Apply Model
(lab) Apply Model ke (lab) Performance
(per) Performance ke (ave)
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
21. Klik kotak Decision Tree maka akan muncul tampilan di bawah
ini, kemudian klik
criterion dan pilih information_gain
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
22. Klik icon , maka akan muncul tampilan seperti di bawah ini
:
23. Hubungkan :
(mod) Validation ke res
(tra) Validation ke res
(ave) Validation ke res
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
24. Kemudian klik icon , maka akan muncul output(decision tree)
seperti di bawah ini :
25. Untuk nave bayes akan muncul output sebagai berikut :
-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program
Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603
Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data
Mining Mulai berlaku : 2014
26. Untuk melihat tingkat akurasi maka klik Performance Vector,
maka akan muncul output
sebagai berikut :