ii
iii
iv
IDENTITAS DAN URAIAN UMUM
1. Judul Penelitian : Deteksi Kemiripan Dokumen Bahasa IndonesiaDengan Menggunakan Model Ruang Vektor
2. Tim Penelitian
No Nama Jabatan BidangKeahlian Prodi Asal Alokasi Waktu
(Jam/Minggu)1. Dr. Titin Winarti,
MMKetua Teknologi
InformasiSistemInformasi
5
2. Drs. WawanSetiawan, MM
Anggota Ekonomi Ekonomi 5
3. Iswoyo, S.Pt., MP Anggota Peternakan TeknologiHasilPertanian
5
4. Endah Pujiastuti,S.H., M.H
Anggota IlmuHukum
Ilmu Hukum 5
3. Objek Penelitian ( jenis material yang akan diteliti dan segi penelitian ) :Dokumen Laporan Kerja Praktek
4. Masa Pelaksanaan : Semester Genap 2018/2019
5. Lokasi Penelitian (lab/studio/lapangan): Lab. Komputer FTIK Semarang
6. Instansi lain yang terlibat (jika ada, dan uraikan apa kontribusinya):Jurusan Teknologi Informasi.
7. Temuan yang ditargetkan (penjelasan gejala atau kaidah, metode, teori, produk, ataurekayasa) : Membuktikan Sebuah Algoritma Ruang Vektor untuk pengujian kesamaandokumen
8. Jurnal ilmiah yang menjadi sasaran (tuliskan nama terbitan berkala ilmiah internasionalbereputasi, nasional terakreditasi, atau nasional tidak terakreditasi dan tahun rencanapublikasi) : Pengembangan Rekayasa Teknologi
9. Rencana luaran HKI, buku, purwarupa atau luaran lainnya yang ditargetkan, tahunrencana perolehan atau penyelesaiannya (jika ada) : HKI Laporan Penelitian
v
DAFTAR ISI
HALAMAN JUDUL ................................................................................................i
HALAMAN PENGESAHAN LAPORAN............................................................. ii
HALAMAN PERSETUJUAN REVIEWER ........................................................ iii
IDENTITAS DAN URAIAN UMUM....................................................................iv
DAFTAR ISI............................................................................................................v
RINGKASAN....................................................................................................... vii
BAB 1. PENDAHULUAN ......................................................................................1
1.1 Latar Belakang ……………………...…………………..…………..……...1
1.2 Perumusan Masalah………………………………………………………...3
1.3 Luaran Yang Dihasilkan.……………………………………………….......3
BAB II Tinjauan Pustaka .........................................................................................4
2.1 Plagiarisme ....................................................................................................4
2.1.1 Pengertian Plagiarisme.......................................................................... 4
2.1.2 Metode Pendeteksi Plagiarisme ........................................................... 5
2.1.3 Kebutuhan Mendasar Algoritma Pendeteksi Plagiarisme .................... 5
2.1.4. Persentase Kata, Kalimat dan Paragraf ............................................... 6
2.2 Information Retrieval.....................................................................................6
2.2.1 Arsitektur Information Retrieval........................................................... 6
2.2.2 Koleksi Dokumen ( Corpus ) ............................................................... 7
2.2.3 Text Preprocessing .............................................................................. 7
2.3 Model dalam Information Retrieval ............................................................14
2.3.1 Model Boolean ................................................................................... 14
2.3.2 Model Probabilistik ............................................................................ 15
2.3.2 Model Ruang Vektor .......................................................................... 15
vi
2.4 Pemrosesan Dokumen .................................................................................19
2.5 Jaccard Coefficient ......................................................................................19
2.6 Algoritma Winnowing.................................................................................20
2.6.1 Pengenalan Algoritma......................................................................... 20
2.6.2 Langkah-langkah Algoritma Winnowing............................................ 20
2.6.2.1 Preprocessing........................................................................... 21
2.6.2.2 Metode K-gram........................................................................ 21
2.6.2.3 Rolling Hash............................................................................ 22
2.6.2.4 Pembentukan Window............................................................ 23
2.7 Peneliti Terdahulu .......................................................................................23
BAB III Tujuan dan Manfaat Penelitian................................................................25
3.1 Tujuan Penelitian .........................................................................................25
3.2 Manfaat Penelitian .......................................................................................25
BAB IV Metodologi Penelitian .............................................................................26
4.1 Identifikasi Masalah.....................................................................................26
4.2 Rumusan Masalah........................................................................................26
4.3 Studi Pustaka ...............................................................................................27
4.4 Hipotesa .......................................................................................................27
4.5 Analisa .........................................................................................................27
4.6 Perancangan Perangkat Lunak.....................................................................31
4.5 Implementasi dan Pengujian ........................................................................31
vii
BAB V Pembahasan ..............................................................................................33
5.1 Pendeteksian Sumber Dokumen ..................................................................33
5.2 Pembuatan Query.........................................................................................34
5.3 Pencarian Informasi dengan Model Ruang Vektor ......................................41
5.4 Algoritma Winnowing dengan Pendekatan biword .....................................45
5.5 Hasil Pengujian............................................................................................69
BAB VI Penutup ....................................................................................................70
6.1 Kesimpulan..................................................................................................70
6.2 Saran ............................................................................................................70
LAMPIRAN
viii
DAFTAR GAMBAR
Gambar 2.1 Arsitektur Information Retrieval..........................................................7
Gambar 2.2 Contoh lima Tahap Indexing................................................................8
Gambar 2.3 Representasi Grafis Sudut Vektor Dokumen dan Query ...................17
Gambar 2.4 Besar Sudut antara vektor query dan vektor dokumen ......................18
Gambar 4.1 Tahapan Penelitian.............................................................................26
Gambar 4.2 Analisa Kerangka Teoritis Penelitian ................................................28
Gambar 5.1 Flowchart Source Detection...............................................................34
Gambar 5.2 Flowchart pembuatan query menggunakan algoritma ..................... 36
stemming Nazief Adriani
Gambar 5.3. Flowchart pembuatan query tanpa menggunakan .......................... 37
Algoritma stemming
Gambar 5.4. Flowchart Preprocessing Dokumen ................................................. 38
Gambar 5.5 Flowchart Stopword Removal .......................................................... 38
Gambar 5.6.Flowchart Algoritma Stemming Nazief Adriani .............................. 39
Gambar 5.7. Flowchart Pembentukan triword, quadword dan pentaword ........... 40
Gambar 5.8 Flowchart Perhitungan Frekuensi triword, quadword dan pentaword 40
Gambar 5.9 Flowchart Pemilihan triword, quadword dan pentaword menjadi query41
Gambar 5.10 Tahapan Preprocessing Dokumen .................................................. 41
Gambar 5.11 Tahapan Preprocessing Query ........................................................ 43
Gambar 5.12 Penerapan Model Ruang Vektor .................................................... 44
Gambar 5.13 Tahapan dalam IR .......................................................................... 45
Gambar 5.14 Flowchart Algoritma Winnowing dengan Pendekatan biword ...... 46
Gambar 5.15 Flowchart Proses Preprocessing .................................................... 47
Gambar 5.16 Flowchart Proses Tokenisasi ......................................................... 48
ix
Gambar 5.17 Flowchart Proses Mendapatkan nilai MD5 ....................................... 48
Gambar 5.18 Flowchart Hitung Nilai hash............................................................... 49
Gambar 5.19 Flowchart proses Pembentukan window............................................. 49
Gambar 5.20 Flowchart Proses Memilih Fingerprint ............................................... 50
Gambar 5.21 Flowchart Proses Hitung Similarity .................................................... 50
x
DAFTAR TABEL
Tabel 2.1. Penelitian Pengukuran Kemiripan .......................................................24
Tabel 5.1 Hasil pembobotan Index Dokumen ...................................................... 56
Tabel 5.2 Hasil pembobotan Index Query ........................................................... 58
Tabel 5.3 Hasil Token Biword ............................................................................ 60
Tabel 5.4 Hasil Hash Token biword.................................................................... 65
Tabel 5.5 Token biword dengan fingerprint yang sama ..................................... 69
xi
ABSTRAK
Plagiarisme merupakan sebuah tindakan penggunaan dan mengutip sebagian isikarya tulisan orang lain tanpa mencantumkan sumber dan kemudian diakui sebagaimiliknya sendiri. Namun pendeteksian plagiarisme yang telah dikembangkan masihmelakukan pendeteksian 1:1 dan tidak dapat menemukan sumber dari dokumen.Penelitian ini menggabungkan antara pendeteksian plagiarisme dan mesinpencarian dengan model ruang vektor, ini bertujuan melakukan pendeteksianplagiarisme terhadap banyak dokumen. Konsep pendeteksian ini, yaitu melakukanpembuatan query terhadap isi dokumen dengan menggunakan word phrasingberbentuk triword, quadword dan pentaword dengan menggunakan stemmingalgoritma Nazief Adriani dan tanpa stemming serta melakukan pemilihan frekuensikemunculan kata tertinggi, terendah dan tengah yang akan digunakan padapencarian model ruang vektor, lalu mengukur kemiripan antara dokumen inputterhadap dokumen yang telah dihasilkan oleh pencarian menggunakan algoritmabiword winnowing. Pengujian akan dilakukan sebanyak lima kali dengandelapan belas konfigurasi pembuatan query berdasarkan kombinasi wordsphrasing. Kesimpulan Dari beberapa pengujian pembuatan query berdasarkanwords phrasing dapat menemukan dokumen yang memiliki kesamaan antaradokumen uji dan dokumen yang ada pada corpus serta dapat menunjukkanpersamaan kutipan antara dua dokumen. Selain itu tahap pengujian mengasumsikanpembuatan query berbentuk triword tanpa stemming dan pemilihan frekuensikemunculan kata tertinggi dapat menghasilkan pencarian yang memiliki rata-ratanilai jaccard coefficient sebesar 15.66% dan stabil disetiap pengujiannya.
Kata kunci : Model Ruang Vektor, Plagiarisme, Words Phrasing
i
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Teknologi menjadi salah satu faktor pendukung untuk berkembangnya suatu
masa, dengan kemajuan teknologi tentunya akan terus memberikan kemudahan bagi
manusia. Namun dengan semakin canggihnya teknologi membuat manusia semakin
malas untuk membuat ide-ide baru, karena pada dasarnya manusia menginginkan
kemudahan dalam segala hal. Salah satu teknologi yang sangat membuat manusia
malas berkreasi dalam menulis adalah internet. Dengan adanya internet kita dapat
mencari sumber referensi yang sudah ada, dan dapat dengan mudah untuk diambil.
Jika hanya menjadikannya sebagai sumber referensi itu tidaklah menjadi suatu
masalah, namun jika kita menyalin dan menggunakan sebagai isi dari tulisan kita
dan tanpa menyertakan sumber yang ada ini bisa dikatakan suatu tindakan
plagiarisme. Plagiarisme merupakan sebuah tindakan penggunaan atau mengutip
sebagian isi karya tulisan orang lain tanpa mencantumkan sumber tulisan yang
kemudian diakui sebagai miliknya sendiri. Plagiarisme mudah untuk dilakukan,
hanya dengan menyalin, menempel, dan memodifikasi pada sebagian isi
dokumen atau keseluruhan isi dokumen (Rafles,2013).
Sejumlah penelitian telah dilakukan dalam membangun sebuah aplikasi
pendeteksian plagiarisme dokumen diantaranya, algoritma biword winnowing
(Ridho, 2013), Pendekatan k-gram berbasis frasa (Rafles, 2013). Algoritma-
algoritma ini dapat diterapkan untuk mendeteksi bentuk plagiarisme seperti
verbatim copy (menyalin kata perkata) atau copy-paste dan pharafrase. Selain itu
ada juga penelitian yang dilakukan dalam membangun sebuah aplikasi
information retrieval diantaranya, algortima model ruang vektor (Syahroni,2012).
Penelitian-penelitian diatas memang sudah teruji untuk melakukan
pendeteksian plagiarisme dokumen dan information retrieval. Namun penelitian
pendeteksian plagiarisme yang telah dilakukan oleh Ridho (2013) dan Rafles
(2013) hanya melakukan pendeteksian 1 : 1 yaitu antara dokumen asli dan
2
dokumen yang dianggap plagiat, sehingga tidak dapat melakukan pendeteksian
dengan banyak dokumen sumber yang ada secara bersamaan. Kelemahan yang
ada juga ada pada penelitian sebelumnya mengenai mesin pencarian (information
retrieval) dengan model ruang vektor yang telah dilakukan oleh Syahroni (2012),
penelitian pencarian ini masih menggunakan manajemen basis data MySQL
sehingga mempengaruhi kecepatan penelusuran pencarian informasi. Untuk
penelitian yang dilakukan oleh Rafles (2013) mengenai pendeteksian plagiarisme
dengan pendekatan k-gram berbasis frasa dalam bentuk biword, triword dan
quadword dapat menemukan kutipan terpanjang yang sama di antara dua
dokumen teks dan mengukur kemiripan dokumen teks.
Dari permasalahan yang ada dan penelitian-penelitian yang telah
dipaparkan penulis mendapatkan sebuah gambaran penelitian baru
menggabungkan metode pendeteksian plagiarisme dan information retrieval. yang
bertujuan mencari sumber referensi dari sebuah dokumen yang diduga melakukan
plagiarisme terhadap dokumen lain yang telah disediakan pada koleksi dokumen
dengan menggunakan words phrasing (frasa) dalam bentuk triword, quadword
dan pentaword dari sebuah dokumen yang diproses dan dianalisa untuk
menghasilkan query yang digunakan pada mesin pencarian menggunakan model
ruang vektor tanpa menggunakan database untuk mendapatkan sumber dokumen
yang diduga relevan terhadap dokumen yang diduga melakukan plagirisme dan
melakukan perbandingan antara dokumen yang telah berhasil didapatkan oleh
mesin pencari terhadap dokumen yang diduga melakukan plagiarisme
menggunakan algoritma biword winnowing untuk mendapatkan fingerprint
dokumen dan melakukan perhitungan similarity menggunakan Jaccard
Coefficient.
Penelitian ini bertujuan untuk dapat membantu mendeteksi satu dokumen
terhadap banyak sumber dokumen yang telah terorganisasi dalam sebuah sistem
dengan menggabungkan mesin pencari sebagai pendeteksi sumber dari sebuah
dokumen dan melakukan pendeteksi plagiarisme.
3
1.2. Perumusan Masalah
Berdasarkan latar belakang permasalahan di atas, maka dirumuskan masalah
penelitian ini, yaitu: “Bagaimana mendeteksi sumber dari sebuah dokumen teks
untuk melakukan pendeteksian plagiarisme terhadap dokumen berdasarkan word
phrasing menggunakan model ruang vektor”.
1.3. Luaran yang DihasilkanLuaran yang diharapkan dari penelitian ini adalah sebagai berikut :
Tabel 1.1 Capaian Luaran
No Jenis Luaran Indikator Capaian
1 Publikasi ilmiah di jurnal/prosiding Submited
2 Pemakalah dalam temu ilmiah Ada
3 Bahan ajar Tidak ada
4
Luaran lainnya jika ada (Teknologi TepatGuna, Model/Purwarupa/Desain/KaryaSeni/Rekayasa Sosial)
Ada(purwarupa aplikasi)
4
BAB II
TINJAUAN PUSTAKA
2.1. Plagiarisme
2.1.1 Pengertian Plagiarisme
Plagiarisme berasal dari kata latin yaitu plagiarius yang berarti pencuri.
Menurut KBBI Plagiarisme adalah penjiplakan atau pengambilan karangan,
pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan
pendapat sendiri (KBBI, Edisi III 2005). Dari arti kata ini, disimpulkan bahwa
melakukan tindakan plagiarisme berarti mencuri hasil karya orang lain.
Plagiarisme juga dapat didefenisikan sebagai perbuatan mengambil hasil karangan
orang lain dan mengakui sebagai hasil karangan sendiri atau mengutip karya
tulisan seseorang tanpa mencatumkan sumber tulisan. Tindakan ini dapat terjadi
dalam berbagai bidang, salah satunya pada bidang pendidikan. Hal ini
dikarenakan karena kurangnya pemahaman siswa, mahasiswa atau elemen
pendidikan lainnya tentang plagiarisme dan pemahaman mengenai penulisan
referensi.
Plagiarisme tidak selalu dilakukan dengan sengaja, ada kalanya perbuatan
ini bersifat tidak disengaja, kebetulan dan dapat mencakup pencurian sendiri (self
stealing). Berikut ini beberapa sifat plagiarisme (Steven, 2009):
1. Kebetulan (accidental)
Praktik plagiarisme ini dapat terjadi karena kurangnya pengetahuan akan
plagiarisme dan pemahaman mengenai penulisan referensi.
2. Tidak disengaja (unintentional)
Ketersediaan informasi dalam jumlah yang sangat besar mempengaruhi
pemikiran sehingga ide yang sama dapat dihasilkan secara tertulis maupun
lisan sebagai milik pribadi.
3. Disengaja (intentional)
Tindakan menyalin sebagian atau keseluruhan hasil karya orang lainsecara sengaja tanpa mengikutsertakan nama pemilik hasil karya.
4. Diri sendiri (self plagiarism)
5
Penggunaan hasil karya yang dibuat diri sendiri dalam bentuk lain tanpa
menunjuk hasil karya asli.
2.1.2 Metode Pendeteksi Plagiarisme
Menurut Wang Tao (2008), untuk mendeteksi plagiarisme dokumen teks
terdapat tiga metode atau pendekatan yang dapat dilakukan, yaitu:
1. Grammar-based method
Metode ini fokus pada struktur tata bahasa dari dokumen dan menggunakan
sebuah pendekatan string-based matching untuk menentukan kemiripan antara
dokumen. Algoritma yang digunakan pada metode ini yaitu algoritma longest
common subsequence, algoritma winnowing dan hashbreaking. Dengan
menggunakan grammar-based method untuk mendeteksi plagiarisme verbatim
copy, maka hasil yang didapatkan akan lebih baik untuk mendeteksi dokumen
teks yang memuat sinonim atau penulisan ulang (rewritten).
2. Semantics-based method
Metode ini menggunakan model ruang vektor yang terdapat pada sistem temu
kembali. Statistik frekuensi kata di dalam sebuah dokumen digunakan untuk
memperoleh fitur vektor dari dokumen, kemudian menggunakan dot product,
cosine, dan sebagainya untuk mengukur fitur vektor dua dokumen. Fitur
vektor ini merupakan kunci dari kemiripan dokumen. Metode ini sulit
menentukan letak atau posisi teks yang telah dijiplak, sehingga kurang efektif
untuk mendeteksi bagian dokumen yang telah diplagiasi .
3. Grammar semantics hybrid method
Metode ini digunakan untuk mendeteksi bentuk plagiarisme verbatim copy
dan pharafrase. Algoritma longest commonly consecutive word sendiri
termasuk pada grammar-based method karena algoritma ini digunakan untuk
mendeteksi plagiarisme verbatim copy (menyalin kata perkata).
2.1.3 Kebutuhan Mendasar Algoritma Pendeteksi Plagiarisme
Kebutuhan mendasar yang harus dipenuhi oleh suatu algoritma untuk
melakukan pendeteksian plagiarisme dokumen (Scheilmer, 2003) adalah:
6
1. Whitespace InsensitivityDalam melakukan pencocokan terhadap dokumen teks seharusnya tidak
terpengaruh oleh spasi, jenis huruf (kapital atau normal), tanda baca dan
sebagainya.
2. Noise Surpression
Menghindari penemuan kecocokan dengan panjang kata yang terlalu kecil
atau kurang relevan, misal: ‘the’. Panjang kata yang ditengarai merupakan
penjiplakan harus cukup untuk membuktikan bahwa kata-kata tersebut telah
dijiplak dan bukan merupakan kata yang umum digunakan.
3. Position Independence
Penemuan kecocokan atau kesamaan tidak harus bergantung pada posisi kata-
kata. Meskipun berada pada posisi yang tidak sama, kecocokan atau kesamaan
harus dapat ditemukan.
2.1.4. Persentase kata, kalimat dan paragraf
Ada tiga macam klasisfikasi plagiarisme berdasarkan proporsi atau
persentase kata, kalimat, kuitpan, paragraf yang digunakan, yaitu plagiarisme
ringan, plagiarisme sedang dan plagiarisme berat. Plagiarisme ringan adalah
plagiarisme yang jumlah persentase kata, kalimat, paragraf yang digunakan tidak
melebihi 30%. Plagiarisme sedang adalah penggunaan kutipan kata, kalimat,
paragraf 30-70% dan Plagiarisme berat adalah penggunaan kutipan kata, kalimat
dan paragraf labih dari 70 % (Winoto,2012).
2.2. Information Retrieval
Information Retrieval merupakan sistem untuk merepresentasikan,
menyimpan, mengorganisasikan, dan memperoleh informasi (Baeza-Yates
dkk,1999). Menurut Information retrieval dikatakan juga sebagai penemuan
informasi (dokumen) pada keadaan yang tidak terstruktur (teks) untuk memenuhi
kebutuhan informasi dalam suatu koleksi yang besar (Manning dkk,2009).
2.2.1 Arsitektur Information Retrieval
Menurut Syahroni (2012), arsitektur information retrieval dapatdigambarkan seperti gambar 2.1 berikut:
7
Gambar 2.1 Arsitektur Information Retrieval (Syahroni, 2010)
Ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan
pre-processing terhadap database dan kemudian menerapkan model tertentu
untuk menghitung kedekatan (relevansi atau similarity) antara dokumen di
dalam database yang telah dipreproses dengan query pengguna.
2.2.2 Koleksi Dokumen (Corpus)
Istilah corpus pada prinsipnya bermakna koleksi dokumen yang diindeks
dan dijadikan target pencarian. Suatu corpus modern memiliki beberapa
karakteristik yakni (McEnery dkk, 2001) :
1. Sampling & representativeness
2. Finite size
3. Machine-readable form
4. A standard reference
Suatu corpus pengujian sistem temu balik informasi terdiri dari:
1. Koleksi dokumen.
2. Topik-topik, yang dapat digunakan sebagai query.
3. Relevance judgement, sebagai daftar dokumen yang relevan dengan topik-
topik yang tersedia.
2.2.3 Text Preprocessing
Pada tahapan preprocessing, query yang dimasukkan pengguna dikonversi
sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan
8
term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi
antara query dan dokumen berdasarkan pada term-term tersebut. Sebagai hasilnya,
sistem mengembalikan suatu daftar dokumen terurut descending (ranking) sesuai
nilai kemiripannya dengan query pengguna (Cios dkk, 2007).
Gambar 2.2 Contoh lima tahap indexing pada sistem berbasis content secaraurut mulai dari markup removal, tokenization, stopwords filtration, stemming
dan weighting
Secara garis besar gambar 2.2 dapat dijelaskan sebagai berikut :
a. Pembangunan Index
Pembangunan index dari koleksi dokumen merupakan tugas pokok pada
tahapan preprocessing di dalam sistem temu balik informasi. Kualitas index
mempengaruhi efektivitas dan efisiensi sistem temu balik informasi. Index dokumen
adalah himpunan term yang menunjukkan isi atau topik yang dikandung oleh
dokumen.
Index akan membedakan suatu dokumen dari dokumen lain yang berada di
dalam koleksi. Ukuran index yang kecil dapat memberikan hasil buruk dan mungkin
beberapa item yang relevan terabaikan. Index yang besar memungkinkan ditemukan
banyak dokumen yang relevan tetapi sekaligus dapat menaikkan
9
jumlah dokumen yang tidak relevan dan menurunkan kecepatan pencarian
(Syahroni, 2012).
Langkah-langkah pembuatan inverted index menurut Manning dkk (2009) yaitu:
1. Penghapusan format dan markup dari dalam dokumen
Tahap ini menghapus semua tag markup dan format khusus dari dokumen,
terutama pada dokumen yang mempunyai banyak tag dan format seperti
dokumen (X)HTML.
2. Pemisahan rangkaian kata (tokenization)
Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,
paragraf atau halaman menjadi token atau potongan kata tunggal atau
termmed word. Tahapan ini juga menghilangkan karakter-karakter
tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil
(lower case).
3. Penyaringan (filtration)
Pada tahapan ini ditentukan term mana yang akan digunakan untuk
merepresentasikan dokumen sehingga dapat mendepenelitiankan isi
dokumen dan membedakan dokumen tersebut dari dokumen lain di
dalam koleksi. Term yang sering digunakan dianggap sebagai stop-word
dan dihapus. Penghapusan stop-word dari dalam suatu koleksi
dokumen pada satu waktu membutuhkan banyak waktu. Solusinya
adalah dengan menyusun suatu pustaka stop-word atau stop-list dari
term yang akan dihapus (Manning, 2009).
4. Konversi term ke bentuk akar (stemming)
Stemming adalah salah satu cara yang digunakan untuk meningkatkan
performa sistem temu balik informasi dengan cara mentransformasi kata-
kata dalam sebuah dokumen teks ke bentuk kata dasarnya, contohnya kata-
kata menyukseskan, tersukseskan dan disukseskan akan ditransformasi ke
stem yang sama yaitu sukses. Algoritma stemming untuk bahasa yang satu
berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh
bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia
sehingga algoritma stemming untuk kedua bahasa tersebut juga
10
berbeda.Tidak banyak algoritma yang dikhususkan untuk stemming bahasa
Indonesia dengan berbagai keterbatasan didalamnya, diantaranya :
a. Algoritma Porter, Algoritma ini membutuhkan waktu yang lebih
singkat dibandingkan dengan stemming menggunakan Algoritma
Nazief & Adriani, namun proses stemming menggunakan Algoritma
Porter memiliki presentase keakuratan (presisi) lebih kecil
dibandingkan dengan stemming menggunakan Algoritma Nazief &
Adriani.
b. Algoritma Nazief Algoritma Nazief & Adriani, algoritma stemming
untuk teks berbahasa Indonesia yang memiliki kemampuan presentase
keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma ini
sangat dibutuhkan dan menentukan dalam proses sistem temu balik
informasi dalam dokumen Indonesia (Augusta, 2009). Algoritma
Nazief & Adriani mengacu pada aturan morfologi bahasa Indonesia
yang mengelompokkan imbuhan, yaitu imbuhan yang diperbolehkan
atau imbuhan yang tidak diperbolehkan. Pengelompokan ini termasuk
imbuhan di depan (awalan), imbuhan kata di belakang (akhiran),
imbuhan kata di tengah (sisipan) dan kombinasi imbuhan pada awal
dan akhir kata (konfiks).
DP + DP + DP + root word + DS + PP + P
Langkah-langkah pada Algoritma Nazief & Adriani adalah:
1. Kata yang belum di-stemming dicari pada kamus. Jika kata itu
langsung ditemukan, berarti kata tersebut adalah kata dasar. Kata
tersebut dikembalikan dan algoritma dihentikan.
2. Hilangkan inflectional suffixes terlebih dahulu. Jika hal ini berhasil
dan suffix adalah partikel (“lah” atau ”kah”), langkah ini dilakukan
lagi untuk menghilangkan inflectional possessive pronoun suffixes
(“ku”, “mu” atau ”nya”).
11
3. Derivational suffix kemudian dihilangkan. Lalu langkah ini
dilanjutkan lagi untuk mengecek apakah masih ada derivational
suffix yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi
maka lakukan langkah selanjutnya.
4. Kemudian derivational prefix dihilangkan. Lalu langkah ini
dilanjutkan lagi untuk mengecek apakah masih ada derivational
prefix yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi
maka lakukan langkah selanjutnya.
5. Setelah tidak ada lagi imbuhan yang tersisa, maka algoritma ini
dihentikan kemudian kata dasar tersebut dicari pada kamus, jika kata
dasar tersebut ketemu berarti algoritma ini berhasil tapi jika kata
dasar tersebut tidak ketemu pada kamus, maka dilakukan recoding.
6. Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak
ditemukan pada kamus juga maka algoritma ini mengembalikan kata
yang asli sebelum dilakukan stemming.
Kelebihan pada algoritma Nazief dan Andriani ini adalah bahwa
algoritma ini memperhatikan kemungkinan adanya partikel-partikel
yang mungkin mengikuti suatu kata berimbuhan. Sehingga kita dapat
melihat pada rumus untuk algoritma ini yaitu adanya penempatan
possesive pronoun dan juga partikel yang mungkin ada pada suatu kata
berimbuhan. Akhir dari algoritma ini yaitu apabila pemotongan semua
imbuhan telah berhasil dan hasil pemotongan imbuhan tersebut
terdapat pada kamus maka algoritma ini dapat dikatan berhasil dalam
penentuan kata dasarnya. Dan apabila sebaliknya bahwa algoritma ini
setelah dilakukan pemotongan kata dan tidak terdapat pada kamus
maka kata berimbuhan yang telah mengalami pemotongan dikembalikan
ke keadaan semula.
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani inimemiliki tahap-tahap sebagai berikut :
12
Cari kata yang akan distemming dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tesebut adalah root word, maka algoritma
berhenti. Inflection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)
dibuang. Jika berupa partikel (“-lah”, “-kah”, “-tah” atau “-pun”) maka
langkah ini diulangi lagi untuk menghapus possesive pronouns (“-ku”,
“-mu”, atau “-nya”), jika ada.
1. Hapus Derivation suffixes (“-i”, “-an” atau “-kan”). Jika kata
ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke
langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut
adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut
ditemukan dalam kamus maka algoritma berhenti. Jika tidak
ditemukan maka lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,
lanjut ke langkah 4.
2. Hapus Derivation prefix. Jika pada langkah 3 ada sufiks yang
dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa daftar kombinasi awalan-akhiran yang tidak diijinkan.
Jika ditemukan maka algoritma berhenti, jika tidak pergi ke
langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan.
Jika root word belum juga ditemukan lakukan langkah 5.
3. Jika sudah maka algoritma berhenti. Catatan: jika awalan kedua
sama dengan awalan pertama maka algoritma berhenti. Melakukan
recoding.
4. Jika semua langkah telah selesai tetapi tidak juga berhasil maka
kata awal diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
13
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe
awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.
5. Pemberian bobot terhadap term (weighting)
Setiap term diberikan bobot sesuai dengan skema pembobotan yang
dipilih, apakah pembobotan lokal, global atau kombinasi keduanya.
b. Pembobotan Kata
Setiap term yang telah di-index diberikan bobot sesuai dengan skema
pembobotan yang dipilih, apakah pembobotan lokal, global atau kombinasi
keduanya. Jika menggunakan pembobotan lokal maka, pembobotan term
diekspresikan sebagai tf (term frequency). Namun, jika pembobotan global yang
digunakan maka, pembobotan term didapatkan melalui nilai idf (inverse document
frequency). Beberapa aplikasi juga ada yang menerapkan pembobotan kombinasi
keduanya yaitu, dengan mengalikan bobot lokal dan global (tf . idf) (Garcia,
2008).
1. Term Frequency
Empat cara yang dapat digunakan untuk memperoleh nilai term frequency
(tf), yaitu:
a. Raw term frequency. Nilai tf sebuah term diperoleh berdasarkan jumlah
kemunculan term tersebut dalam dokumen. Contohnya, jika suatu term
muncul sebanyak tiga kali dalam suatu dokumen maka, nilai tf term
tersebut adalah 3.
b. Logarithm term frequency. Hal ini untuk menghindari dominasi
dokumen yang mengandung sedikit term dalam query, namun
mempunyai frekuensi yang tinggi. Cara ini menggunakan fungsi
logaritmik matematika untuk memperoleh nilai tf.
tf = 1 + log(tf)……….....................................................................(2.1)
c. Binary term frequency. Hanya memperhatikan apakah suatu term ada atau
tidak dalam dokumen. Jika ada, maka tf diberi nilai 1, jika tidak
14
mengandung su
( ) =atu term
…( ) …
(
ada diberi nilai 0. Pada cara ini jumlah kemunculan term dalam
dokumen tidak berpengaruh.
d. Augmented term frequency.
tf=0,5 + 0,5 x tf/ max(tf)…...............................................................(2.2)
Nilai tf adalah jumlah kemunculan suatu term pada sebuah dokumen,
sedangkan nilai max(tf) adalah jumlah kemunculan terbanyak sebuah
term pada dokumen yang sama.
2. Inverse Document Frequency
Inverse document frequency (idf) digunakan untuk memberikan tekanan
terhadap dominasi term yang sering muncul di berbagai dokumen. Hal ini
diperlukan karena term yang banyak muncul di berbagai dokumen, dapat
dianggap sebagai term umum (common term) sehingga tidak penting nilainya.
Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang
inverse document frequency).
………………………………………………(2.3)
Keterangan:
N : jumlah dokumen dalam corpus.
dft : document frequency atau jumlah dokumen dalam corpus yangmengandung term t.
2.3 Model dalam Information Retrieval
Di dalam bidang information retrieval, dikenal berbagai model untuk
menilai secara objektif presisi dari suatu pencarian, antara lain model Boolean
(Boolean Model), model ruang vektor (Vector Space Model) dan model
probabilistik (Probabilistic Model).
2.3.1 Model Boolean
Model Boolean adalah model yang paling awal dikenal dan paling mudah
untuk diimplementasikan. Model Boolean dalam sistem temu kembali merupakan
15
model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar
Boolean. Dokumen adalah himpunan dari istilah (term) dan query adalah pernyataan
Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak.
Model ini menggunakan operator boolean. Istilah (term) dalam sebuah query
dihubungkan dengan menggunakan operator AND, OR atau NOT.
Beberapa karakteristik dari model boolean dalam information retrieval
adalah :
1. Model Boolean merupakan model sederhana yang menggunakan teori
dasar himpunan sehingga mudah diimplementasikan.
2. Model Boolean tidak menggunakan peringkat dokumen yang terambil.
Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan
pernyataan boolean / query yang diberikan Sehingga dokumen yang
terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam
mengambil keputusan
3. Teori himpunan memang mudah, namun tidak demikian halnya dengan
pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus
memiliki pengetahuan banyak mengenai query dengan boolean agar
pencarian menjadi efisien
2.3.2 Model Probabilistik
Model probabilistik adalah model information retrieval yang mengurutkan
dokumen dalam urutan menurun terhadap peluang relevansi sebuah dokumen
terhadap informasi yang dibutuhkan. Beberapa model yang juga dikembangkan
berdasarkan perhitungan probabilistik yaitu, Binary Independence Model, model
Okapi BM25, dan Bayesian Network Model (Manning dkk, 2009).
2.3.3 Model Ruang Vektor
Dalam sistem information retrieval, kemiripan antar dokumen
didefinisikan berdasarkan representasi bag of words dan dikonversikan ke suatu
model ruang vektor (vector space model - VSM). Beberapa karakteristik dari
model ruang vektor dalam sistem temu kembali adalah :
16
1. Model vektor berdasarkan keyterm Model vektor mendukung partial
matching (sebagian sesuai) dan penentuan peringkat dokumen
2. Prinsip dasar model vektor adalah sebagai berikut :
a) Dokumen direpresentasikan dengan menggunkan vektor keyterm
b) Ruang dimensi ditentukan oleh keyterms
c) Query direpresentasikan dengan menggunakan vektor keyterm
d) Kesamaan document keyterm dihitung berdasarkan jarak vector
3. Model ruang vektor memerlukan :
a) Bobot keyterm untuk vektor dokumen
b) Bobot keyterm untuk query
c) Perhitungan jarak untuk vektor document keyterm
4. Kinerja
a) Efisien
b) Mudah dalam representasi
c) Dapat diimplementasikan pada document matching
Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap yaitu :
1. Pengindeks-an dokumen
2. Pembobotan indeks, untuk menghasilkan dokumen yang relevan
3. Memberikan peringkat dokumen berdasarkan ukuran kesamaan (similarity
measure)
Pada model ruang vektor, setiap dokumen di dalam database dan
query pengguna direpresentasikan oleh suatu vektor multi-dimensi (Syahroni,
2012). Prinsip utamanya adalah query diubah menjadi vektor query dan dokumen-
dokumen di dalam koleksi dokumen diubah menjadi vektor-vektor dokumen
(Salton, 1988).
Rumus Relevansi
Penentuan relevansi dokumen dengan query dipandang sebagai
pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor
query. Semakin “sama” suatu vektor dokumen dengan vektor query maka
dokumen dapat dipandang semakin relevan dengan query.
17
relev
(ansiny
) =dal
=h:
………
Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan
perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah
kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh
kedua vektor.
Gambar 2.3 Representasi Grafis Sudut Vektor Dokumen dan Query
Perhitungan kesamaan antara vektor query dan vektor dokumen dilihat
dari sudut yang paling kecil. Sudut yang dibentuk oleh dua buah vektor dapat
dihitung dengan melakukan perkalian dalam (inner product), sehingga rumus
a a a, cos | || | ……………………………………………...(2.4)
Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua
buah vektor dalam ruang berdimensi-n, dan θ adalah sudut yang dibentuk oleh
kedua vektor tersebut. Maka
Q D Q D cos θ …………………………………………………………….(2.5)
seperti pada Gambar 2.3
18
edan
=gkan
∑ ) dan( = ∑ ) …(
seba
(gai
ber
)= ut :
= = ∑ ) 2= 1 ()2 ∑∑= 1 .…)= 1
Gambar 2.4 Besar sudut antara vektor query dan vektor dokumen
dimana Q D adalah hasil perkalian dalam (inner product) kedua vektor,
s
| | | | ……………………..……(2.6)
merupakan panjang vektor atau jarak Euclidean suatu vektor dengan titik nol.
Metode pengukuran kesesuaian ini memiliki beberapa keuntungan, yaitu
adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil pengaruh
panjang dokumen. Jarak Euclidean (panjang) kedua vektor digunakan sebagai
faktor normalisasi. Hal ini diperlukan karena dokumen yang panjang cenderung
mendapatkan nilai yang besar dibandingkan dengan dokumen yang lebih pendek.
Dengan demikian, ukuran kosinus sudut antara kedua vektor dapat dinyatakan
ik, cosdimana :
| || | ∙( ∙ ( …………………...(2.7)
19
mengukur tingkat kemiripan
coefficient: ( ) = ( )∩( )∪ ( )…( ) ……
wqi = bobot pada query ke-i = tf x idf ……………………..........................(2.8)
wdij = bobot pada dokumen ke-i istilah ke-j = tf x idf ……………………...(2.9)
tf = term frequency = frekuensi kemunculan istilah pada dokumen atau query
2.4. Pemrosesan Dokumen
Dalam ilmu sistem temu kembali informasi (Information Retrieval)
khususnya pada algoritma pendeteksi plagiarisme dokumen teks ada beberapa
istilah yang tedapat dalam hal pemrosesan dokumen, diantaranya:
1. Preprocessing atau pembersihan teks
Merupakan tahapan yang dilakukan untuk mengubah data mentah menjadi
data berkualitas yaitu data yang telah memenuhi persyaratan untuk
diekseskusi pada sebuah algoritma. Bentuk pembersihan teks ini dapat
berupa menghilangkan spasi, tanda baca, simbol-simbol, mengubah huruf
kapital menjadi huruf kecil dan menghilangkan karakter-karakter yang
tidak relevan lainnya.
2. Tokenizing merupakan tahap pemotongan kalimat menjadi kata pada
sistem temu kembali informasi. Pemotongan kata ini dapat berbentuk satu
kata (unigram atau uniword), dua kata (bigram atau biword), tiga kata
(trigram atau triword), empat kata (quadgram atau quadword) dan
seterusnya.
3. Irisan (intersection) merupakan tahapan untuk menemukan kata bertalian
yang sama di antara dua dokumen teks.
2.5. Jaccard Coefficient
Jaccard Coefficient merupakan persamaan yang digunakan untuk
antara dua dokumen teks. Berikut persamaan jaccard
, | || | ….……………………………….(2.10)
20
Keterangan:
A(di) : fingerprint dokumen teks 1
B(dj) : fingerprint dokumen teks 2
2.6. Algoritma Winnowing
2.6.1 Pengenalan Algoritma
Algoritma berasal dari kata algorism merupakan nama seorang penulis
buku arab terkenal yaitu Abu Jafar Muhammad Ibnu Musa Al-khuwarizmi (Al-
Khuwarizmi dibaca orang barat menjadi algorism). Kata algorism kemudian
berubah menjadi algorithm karena sering dikaitkan dengan ilmu arithmathic
maka, akhiran -sm berubah menjadi -thm. Dalam bahasa Indonesia, kata algoritm
diserap menjadi algoritma.
Algoritma (Munir, 2007) adalah urutan langkah-langkah dalam memecahkan
atau menyelesaikan suatu permasalahan. Algoritma juga sering disebut sebagai
jantung ilmu komputer atau informatika. Banyak cabang dari ilmu komputer yang
mengacu pada algoritma, misalnya algoritma perutean (routing) pesan di dalam
jaringan komputer, algoritma Knuth-Morris-Pratt untuk mencari pola di dalam teks
dan algoritma winnowing.
2.6.2 Algoritma Winnowing
Algoritma winnowing merupakan urutan langkah-langkah untuk
melakukan proses sidik jari dokumen (document fingerprinting) (Ridho, 2013).
Algoritma ini merupakan salah satu algoritma pendeteksian plagiarisme berbasis
k-gram atau n-gram. Algoritma ini digunakan untuk pendeteksian plagiarism
dokumen teks dengan mengidentifikasi bagian-bagian terkecil yang mirip pada
dokumen teks yang panjang. Algoritma winnowing dapat memberikan hasil lebih
informatif karena terdapat informasi posisi fingerprint dan memberikan jaminan
terdeteksinya dokumen teks sehingga algoritma ini lebih unggul dibandingkan
algoritma dokumen fingerprint lainnya seperti algoritma manber dan algoritma
rabin-karp.
Pengembangan algoritma winnowing telah dilakukan oleh Ridho (2013)
yaitu algoritma biword winnowing. Penelitian ini mencari konfigurasi nilai bilangan
21
prima dan windows yang terbaik yang dapat menghasilkan nilai similaritas tinggi
dua dokumen yang dianggap melakukan plagiarisme.
2.6.2.1 Prepocessing
Menghilangkan karakter yang tidak relevan pada dokumen teks, seperti
tanda baca, tanda spasi dan mengubah huruf besar menjadi kecil.
Contoh:
Diberikan sebuah kalimat “Sistem Informasi adalah salah satu jurusan yang terdapat
di Fakuktas Teknologi Informasi dan Komunikasi”:
Setelah dilakukan proses preprocessing, sehingga terbentuk teks berikut:
“teknikinformatikaadalahsalahsatujurusanyangterdapatdifakultassainsdanteknologi”
2.6.2.2 Metode K-gram
Metode K-gram merupakan metode yang digunakan dalam proses tokenisasi
atau pemisahan teks, dengan cara membentuk substring sepanjang k karakter dari
sebuah string.
Contoh:Memotong string sepanjang k. misalnya nilai k = 7, dari kalimat diatas, sehingga
diperoleh hasil sebagai berikut:
tekniki eknikin knikinf nikinfo ikinfor kinform informa nformat
formati ormatik rmatika matikaa atikaad tikaada ikaadal kaadala
aadalah adalahs dalahsa alahsal lahsala ahsalah hsalahs salahsa
alahsat lahsatu ahsatuj hsatuju satujur atujuru tujurus ujurusa
jurusan urusany rusanya usanyan sanyang anyangt nyangte yangter
angterd ngterda gterdap terdapa erdapat rdapatd dapatdi apatdif
patdifa atdifak tdifaku difakul ifakult fakulta akultas kultass
ultassa ltassai tassain assains ssainsd sainsda ainsdan insdant
nsdante sdantek dantekn antekno nteknol teknolo eknolog knologi
nilai k yang dianjurkan adalah bernilai 30, hal tersebut bertujuan untuk
mendapatkan hasil yang maksimal (Ridho,2013).
22
2.6.2.3 Rolling Hash
Fungsi hash adalah fungsi yang menerima masukan string yang
panjangnya sembarang dan mengkonversinya menjadi string keluaran yang
panjangnya tetap (umumnya berukuran jauh lebih kecil daripada ukuran string
semula). Keluaran fungsi hash disebut juga nilai hash (hash-value) atau pesan
ringkas (message digest).
Nama lain fungsi hash adalah:
- fungsi kompresi/kontraksi (compression function)
- cetak-jari (fingerprint)
- cryptographic checksum
- message integrity check (MIC)
- manipulation detection code (MDC)
Fungsi hash yang banyak dipakai di dalam aplikasi kriptografi adalah
MD5 dan SHA. Fungsi hash sering kali dihubungkan dengan perhitungan jumlah bit
dari segmen pada data komputer yang dikalkulasi sebelum dan sesudah transmisi
atau penyimpanan untuk memastikan bahwa data bebas dari kesalahan (checksum),
pemeriksaan digit, fungsi acak, kode perbaikan kesalahan, dan fungsi hash
kriptografi. Walaupun konsep-konsep tersebut saling melengkapi, setiap konsep
mempunyai kegunaan dan persyaratannya sendiri.
Ada teori dari fungsi hash yang dikenal sebagai fungsi rolling hash.
Rolling hash merupakan teknik yang digunakan untuk mendapatkan nlai hash dari
rangkaian grams yang telah terbentuk dari metode k-grams. Rolling hash
berfungsi untuk mempercepat komputasi nilai hash dari rangkaian grams
selanjutnya yang telah terbentuk. Nilai hash yang baru dapat dengan cepat
dihitung dari nilai hash yang lama dengan cara menghilangkan nilai lama dari
kelompok hash dan menambahkan nilai baru ke dalam kelompok tersebut.
23
Berikut persamaan dari metode hash:
H(c1….ck) = c1 * b(k-1) + c2 * b(k-2) + ….. + c(k-1) * bk + ck ………………………………(2.11)
Keterangan:
c: nilai ascii karakter (desimal)
b: basis (bilangan prima)
k: banyak karakter (indeks karakter)
Keuntungan dari rolling hash adalah untuk nilai hash berikutnya. Untuk
mendapatkan nilai hash dari metode k-grams selanjutnya digunakan persamaan
rolling hash dibawah ini:
H(c2….ck+1) = (H(c1….ck) – c1 * b(k-1)) * b + c(k+1) ………………………….(2.12)
Dengan demikian tidak perlu melakukan iterasi dari indeks pertama
sampai terakhir untuk menghitung nilai hash untuk gram ke-2 sampai terakhir.
Hal ini tentu dapat mengehemat biaya komputasi saat menghitung nilai hash dari
sebuah gram.
2.6.2.4 Pembentukan Window
Nilai-nilai hash yang telah terbentuk, selanjutnya dibentuk dalam beberapa
window dengan ukuran W. Window merupakan pembagian atau pengelompokan
beberapa nilai hash dengan ukuran yang ditentukan. Dari window yang telah
dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk
dijadikan fingerprint tiap dokumen.
2.7. Peneliti Terdahulu
Berikut ini pada tabel 2.1 disajikan perbandingan penelitian kemiripan
dokumen.
24
Tabel 2.1. Penelitian Pengukuran Kemiripan
NoPeneliti,
TahunMetode Kelebihan Kekurangan
1 Saul
Schleimer
2003,Noorzima2005
MenggunakanMetode
Dokumenfingerprintingdengan algoritmaWinnowing.
Hasil yang
ditampilkan lebihinformatif karenaselainmenampilkan hasilfingerprinting, jugamenampilkaninformasi posisidari kata yangsama.
Harus dapatmenentukan nilai kyang tepat, jika salahmenentukan nilai kmempengaruhihasil. Dari segiwaktu, proses yangdigunakan lebih lama.Nilai k adalah nilaiyang dipilih untukpembagian.
2 Parvati Iyer,
2015
MenggunakanMetode
Keyword Similaritydengan teknik dot.Objek Penelitianyang digunakanadalah dokumenberbahasa Inggris.Dokumen yangdigunakan sebanyak20 data.
Menghitung
kemiripan
dokumen denganmembandingkankata dengan katasinonimnya.Database sinonimmenggunakan wordnet
Membandingkan
kata kunci, tidaksemua kata
3 Sinta
Agustina
2018,
Menggunakanmetode
stringmatching
denganalgoritma
Efisiensi waktu
yang baik dalammengukur string
Membandingkan
kalimat dengankalimat pada posisi
4 Hari Bagus F,
2013.
Karp Rabin.Objek
Penelitian yang
digunakan adalah
dokumen berbahasa
Indonesia.
yang memiliki
lebih dari satu pola.
yang sama.
25
BAB IIITUJUAN dan MANFAAT PENELITIAN
3.1. Tujuan Penelitian
Tujuan yang ingin dicapai dalam pembuatan penelitian ini, yaitu: mendeteksi
sumber referensi dari dokumen text digital berdasarkan words phrasing dengan
menggunakan model ruang vektor untuk melakukan pendeteksian plagiarisme
terhadap banyak dokumen.
3.2. Manfaat Penelitian
Adapun manfaat-manfaat yang diharapkan dari penelitian yang dilakukan ini
adalah:
1. Mendeteksi sumber referensi dari dokumen text digital berdasarkan words
phrasing
2. Membuktikan model ruang vektor untuk melakukan pendeteksian plagiarisme
terhadap banyak dokumen.
26
BAB IV
METODOLOGI PENELITIAN
Pada penelitian Penelitian ini ada beberapa tahapan penelitian yang akan
dilakukan seperti yang terlihat pada gambar 4.1:
Identifikasi Masalah Rumusan Masalah Studi Pustaka
Perancangan Analisa Hipotesa
Implementasi Sistem Pengujian Kesimpulan & Saran
Gambar 4.1. Tahapan Penelitian
4.1 Identifikasi Masalah
Pada tahapan ini dilakukan identifikasi permsalahan bahwa sulitnya
mendapatkan sumber referensi dari sebuah dokumen yang diduga melakukan
plagiarisme terhadap dokumen lainnya serta terbatasnya melakukan pendeteksian
plagiarisme dengan perbandingan 1:1.
4.2 Rumusan Masalah
Dari tahapan identifikasi masalah, dapat dirumusakan Bagaimana
mendeteksi sumber dari sebuah dokumen teks untuk melakukan pendeteksian
plagiarisme terhadap banyak dokumen berdasarkan word phrasing menggunakan
model ruang vektor.
27
4.3 Studi Pustaka
Pada tahap ini dilakukan pengumpulan data dengan cara mencari
referensi-referensi terkait yang dibutuhkan untuk penelitian. Referensi tersebut
dapat berupa buku-buku, jurnal-jurnal, tulisan penelitian dan juga artikel-artikel dari
internet yang memiliki kaitan dengan kasus yang sedang dilakukan dalam
penelitian.
4.4 Hipotesa
Metode ini dilakukan dengan memahami pembentukan query berdasarkan
words phrasing dan Algoritma Stemming Nazief Adriani ,sehingga diperoleh
suatu hipotesa berupa pendekatan token berbentuk triword, quadword dan
pentaword serta proses stemming dan non-stemming. Hipotesa awal, pendekatan
token berbentuk triword dengan stemming dengan frekuensi tertinggi bekerja
lebih baik dibanding token berbentuk quadword dan pentaword stemming maupun
non-stemming dalam pembentukan query yang untuk menghasilkan dokumen
relevan dan memiliki nilai jaccard coefficient yang tinggi.
4.5 Analisa
Analisa adalah tahapan yang dilakukan setelah pengumpulan data dari
penelitian Penelitian ini. Analisa berarti metode khusus yang digunakan untuk
menganalisis masalah pada pendeteksian sumber untuk melakukan pendeteksian
plagiarisme terhadap banyak dokumen. Analisa ini dilakukan unutk mengetahui
langkah-langkah apa saja yang akan dilakukan untuk mendapatkan hasil sesuai
dengan hipotesa yang diberikan.
28
StemmingAlgorimt
Nazief Adriani
InputDokumen
Pembuatan Query
Dokumen
Non-Steming
triword
quadwor
d
triword
quadword
pentawor
d
QueryFiltering
Query
Plagiarism System IR System
Preprocessing
Hasil DeteksiPlagiarisme
FingerpringAlgortima Biword Winnowing
SimilirityJaccard Coeficien
Hasil RangkingPencarian(Dokumen)
DatabaseIndexing(Corpus)
ModelRuangVektor
Processing
Gambar 4.2 Analisa Kerangka Teoritis Penelitian
Berdasarkan gambar 4.2 terdapat tiga proses utama yang akan dilakukan padapenelitian source detection ini, diantaranya:
1. Analisa pembentukan query dari dokumen yang dicurigai plagiat
berdasarkan word phrasing. Adapun query yang akan dibentuk,
dibedakan menjadi dua yaitu :
a. Query dengan menggunakan stemming, pada tahap ini akan
dilakukan :
1. Pembersihan teks dokumen.
2. Menghilangkan angka pada dokumen.
29
3. Melakukan pemotongan teks dokumen kedalam token tunggal,
serta melakukan pembuangan stopwords dan stemming,
kemudian menyusun token menjadi triword, quadword dan
pentaword
4. Melakukan perhitungan frekuensi kemunculan triword,
quadword dan pentaword yang sama.
5. Membentuk masing-masing query berdasarkan rangking
frekuensi yaitu 5 triword, quadword dan pentaword dengan
frekuensi tertinggi, 5 frekuensi terendah dan 5 frekuensi
tengah.
b. Query dengan menggunakan tanpa stemming, pada tahap ini akan
dilakukan :
1. Pembersihan teks dokumen.
2. Menghilangkan angka pada dokumen.
3. Melakukan pemotongan teks dokumen kedalam token tunggal,
serta melakukan pembuangan stopwords kemudian menyusun
token menjadi triword, quadword dan pentaword.
4. Melakukan perhitungan frekuensi kemunculan triword,
quadword dan pentaword yang sama.
5. Membentuk masing-masing query berdasarkan rangking
frekuensi yaitu 5 triword, quadword dan pentaword dengan
frekuensi tertinggi, 5 frekuensi terendah dan 5 frekuensi
tengah.
2. Analisa Information Retrieval System
Secara garis besar, ada tiga tahapan yang ditangani oleh sistem ini,
yaitu melakukan preprocessing terhadap dokumen, melakukan
preprocessing terhadap query dan menerapkan metode tertentu dalam
hal ini menggunakan model ruang vektor untuk menghitung kedekatan
(relevansi / similirity) antara dokumen dan query hasil pembuatan di
proses sebelumnya. Adapun tiga tahapan tersebut, yaitu:
30
a. Preprocessing
Melakukan analisa terhadap tahapan preprocessing untuk koleksi
dokumen (korpus) untuk Pembangunan index untuk diterapkan pada
model ruang vektor. Adapun tahapan pembangunan index sebagai
berikut.
1. Mengumpulkan dokumen yang akan di-index
2. Penghapusan format khusus dan markup dari dalam dokumen
3. Pemisahan rangkaian kata (tokenization)
4. Linguistic Preprocessing : Penghapusan stop words
5. indexing
b. Preprocessing Query
Melakukan preprocessing terhadap query yang bertujuan untuk
membersihkan query hingga pembobotan, adapun proses yang akan
dilakukan pada tahap ini adalah sebagai berikut:
1. Menghilangkan tanda baca pada dokumen
2. Mengubah dokumen kebentuk huruf kecil
3. Menerapkan stopword removal
4. Menerapkan stemming ( mengembalikan kata ke kata dasar )
5. Pembobotan setiap istilah query
Pembobotan pada query ini mengacu dari hasil indexing pada
preprocessing dokumen.
c. Penerapan Model Ruang Vektor
Melakukan analisa terhadap persamaan model ruang vektor untuk
menghitung nilai kerelevanan dokumen terhadap query yang dibentuk
dari dokumen inputan sehingga dokumen yang di rangkingkan
berdasarkan nilai kerelevanan yang diperoleh.
3. Analisa Deteksi kemiripan dokumen (plagiarism system) dengan
Algoritma biword winnowing
a. Pembentukan fingerprint dokumen dengan algoritma biword
winnowing. Pada tahap ini akan dilakukan:
1. Melakukan pembersihan teks.
31
2. Melakukan pemotongan teks kedalam
kemudian dienkripsi menggunakan MD5
bentuk biword
3. Menghitung nilai hash
4. Membentuk window dengan ukuran w
5. Mendapatkan nilai fingerprint
b. Menghitung tingkat kemiripan (similirity) dokumen dengan
menggunakan persamaan jaccard coefficient
4.6 Perancangan Perangkat Lunak
Pada tahap ini akan dilakukan perancangan aplikasi, adapun Tahapan
yang dilakukan adalah:
a. Merancang use case diagram untuk menentukan pengguna (actor)
yang terlibat dan proses apa saja yang bisa dilakukan (scenario) terhadap
sistem.
b. Merancang Deksripsi Fungsional pada sistem diantaranya Context
Diagram (CD), Data Flow Diagram (DFD) dan Entity Relationship
Diagram (ERD)
c. Perancangan Struktur Menu
Merancang menu-menu pada aplikasi yang memiliki fungsi masing-
masing sesuai tujuan yang akan dicapai.
d. Perancangan interface aplikasi.
Merancang atau mendesain tampilan antar muka aplikasi dengan
pengguna. Interface yang akan dibangun adalah interface input dan
output. Dengan demikian akan terlihat interface dari sistem dan dapat
memberikan gambaran terhadap sistem yang akan dibangun.
4.7 Implementasi pengujian
Setelah dilakukan perancangan aplikasi, maka akan dilakukan tahap
implementasi. Implementasi merupakan tahap dimana aplikasi siap untuk di
operasikan sesuai dari hasil analisis dan perancangan yang telah dilakukan, sehingga
akan diketahui apakah aplikasi yang dirancang benar-benar dapat menghasilkan
tujuan yang ingin dicapai.
32
Implementasi pengembangan aplikasi deteksi plagiarisme dokumen ini
akan dibangun pada spesifikasi hardware dan software sebagai berikut:
1. Perangkat keras
Processor : Intel® Core™ i3-2328-M CPU 2.20Ghz
Memori (RAM) : 2,00 GB
Harddisk : 500 GB
2. Perangkat Lunak
Sistem operasi : Windows 8 Enterprise 32-bit OS
Bahasa pemrograman : Hypertext Preprocessor (PHP)
DBMS : mySQL
Tool : Notepad++
4.8 Pengujian Sistem
Tahapan pengujian yang akan dilakukan pada sistem pendeteksian sumber
plagiarisme dokumen yang dibangun bertujuan untuk mengetahui kesalahan dan
kemudian memperbaikinya. Pengujian yang akan dilakukan sebagai berikut:
1. Pengujian konfigurasi pembuatan query yaitu proses stemming,
pembentukan frasa kata serta pemilihan hasil frekuensi frasa kata. Hal ini
bertujuan untuk mendapatkan konfigurasi terbaik yang menghasilkan
dokumen yang relevan dengan dokumen yang di-input serta mendapatkan
dokumen dengan similarity jaccard coefficient yang tinggi.
2. Pengujian Kemiripan dokumen input terhadap dokumen yang ada pada
corpus sesuai dengan konfigurasi yang direkomendasikan pada pengujian
pertama. Hal ini dilakukan untuk mengetahui lebih jelas tingkat akurasi
aplikasi source detection dalam mencari sumber dokumen dan kemiripan
terhadap dokumen.
33
BAB VPEMBAHASAN
5.1 Pendeteksian Sumber Dokumen
Pada tahapan ini akan menjelaskan tentang gambaran secara garis besar
terhadap proses yang dilakukan aplikasi source detection pada kasus dokumen
plagiarisme berdasarkan words phrasing dengan menggunakan model ruang vektor.
Proses yang ada pada aplikasi ini terdiri atas tiga proses utama yang saling
berhubungan satu sama lain, diantaranya: pembuatan query, mesin pencari
dengan model ruang vektor dan proses pendeteksian kemiripan dokumen
menggunakan algoritma biword winnowing dan Jaccard Coefficient.
Pada dasarnya setiap proses utama akan melakukan tahapan secara umum
yaitu: input, proses dan output. Proses dimulai ketika user memasukkan sebuah
dokumen teks yang di duga melakukan plagiarisme lalu di proses pada pembuatan
query, pada tahapan pembuatan query dokumen teks akan di proses berdasarkan
words phrasing sehingga akan menghasilkan output berupa query. Setelah
selesai pada proses pembuatan query, proses selanjutnya adalah menggunakan
query hasil dari proses sebelumnya sebagai input pada proses pencarian dengan
model ruang vektor sehingga akan menghasilkan rangking pencarian berdasarkan
tingkat kemiripan dokumen terhadap query. Hasil pencarian tersebut akan di
evaluasi lagi kemiripannya terhadap dokumen yang di input dari awal pembuatan
query menggunakan algoritma biword winnowing yang memiliki tahapan-tahapan
yang cukup kompleks dalam menghitung kemiripan antar dua dokumen yang di
proses.
Pada tahap menghitung kemiripan dokumen menggunakan algoritma biword
winnowing tediri dari dua input yaitu: input awal dari proses pembuatan query
kemudian input berdasarkan dokumen yang telah didapatkan dari hasil
pencarian menggunakan model ruang vektor. Selanjutnya dokumen akan diproses
berdasarkan tahapan yang dimiliki oleh algoritma pendeteksi plagiarisme.
Tahapan tersebut diantaranya adalah tahap preprocessing dan tokenisasi. Proses
34
akan berlanjut dengan perhitungan tingkat similarity dokumen. Setelah proses
utama dilakukan, selanjutnya aplikasi akan menghasilkan output informasi
dokumen berupa hasil similarity dokumen dan kalimat yang telah diplagiasi.
Gambar 5.1 dibawah adalah flowchart yang akan menggambarkan proses-
proses yang akan dilakukan secara keseluruhan:
Start
Input dokumen yang akan diuji
Pembuatan query berdasarkan words phrasing
Menampilkan query
Pencarian menggunakan model ruang vektor
Hasil pencarian >0?
Tidak
Ya
Pendeteksian kemiripan dokumen menggunakanalgoritma biword winnowing
Menampilkan hasil pencarianbeserta smilirity dokumen input
terhadap dokumen hasil pencarian
Finish
Gambar 5.1 Flowchart source detecction
5.2 Pembuatan Query
Pada penelitian ini fokus utama penelitian terletak pada proses pembuatan
query yang bertujuan mengekstrak isi dari sebuah dokumen teks menjadi query yang
bias mewakili dari isi dokumen teks tersebut. Analisa pembentukan query
35
dari dokumen yang dicurigai plagiat berdasarkan words phrasing (frasa kata)
dengan pendekatan triword, quadword dan pentaword. Adapun query yang akan
dibentuk, dibedakan menjadi dua yaitu :
1. Query dengan menggunakan stemming, pada tahap ini akan dilakukan :
a. Pembersihan teks dokumen.
b. Menghilangkan angka pada dokumen.
c. Melakukan pemotongan teks dokumen kedalam token tunggal, serta
melakukan pembuangan stopwords dan stemming, kemudian
menyusun token menjadi triword, quadword dan pentaword
d. Melakukan perhitungan frekuensi kemunculan triword, quadword dan
pentaword yang sama.
e. Membentuk masing-masing query berdasarkan rangking frekuensi
yaitu 5 triword, quadword dan pentaword dengan frekuensi tertinggi,
5 frekuensi terendah dan 5 frekuensi tengah.
2. Query dengan menggunakan tanpa stemming, pada tahap ini akan
dilakukan :
a. Pembersihan teks dokumen.
b. Menghilangkan angka pada dokumen.
c. Melakukan pemotongan teks dokumen kedalam token tunggal, serta
melakukan pembuangan stopwords kemudian menyusun token
menjadi triword, quadword dan pentaword
d. Melakukan perhitungan frekuensi kemunculan triword, quadword dan
pentaword yang sama.
e. Membentuk masing-masing query berdasarkan rangking frekuensi
yaitu 5 triword, quadword dan pentaword dengan frekuensi tertinggi,
5 frekuensi terendah dan 5 frekuensi tengah.
Gambar 5.2 adalah flowchart yang menggambarkan proses-proses yang
dilakukan pada tahapan pembuatan query berdasarkan words phrasing dengan
menggunakan stemming algoritma Nazief & Adriani:
36
Start
Input dokumen yang akan diuji
Proses Utama
Preprocessing
Stopword Removal
Stemming
Tokenization dengan konsep triword (tiga kata),quadword (empat kata) dan pentaword (lima kata)
Menghitung frekuensi kemunculan triword, quadworddan pemtaword
Membentuk query berdasarkan jumlah 5 Jumlahtertinggi, 5 jumlah ditengah dan 5 jumlah terendah
Menampilkan query yang terbentuk
finish
Gambar 5.2 Flowchart pembuatan query menggunakan algoritma
stemming Nazief Adriani.
Gambar 5.3 berikut adalah flowchart yang menggambarkan proses-proses
yang dilakukan pada tahapan pembuatan query berdasarkan words phrasing tanpa
menggunakan stemming:
37
Start
Input dokumen yang akan diuji
Proses Utama
Preprocessing
Stopword Removal
Tokenization dengan konsep triword (tiga kata),quadword (empat kata) dan pentaword (lima kata)
Menghitung frekuensi kemunculan triword, quadworddan pemtaword
Membentuk query berdasarkan jumlah 5 Jumlahtertinggi, 5 jumlah ditengah dan 5 jumlah terendah
Menampilkan query yang terbentuk
finish
Gambar 5.3 Flowchart pembuatan query tanpa menggunakan
Algoritma stemming
Pada gambar 5.2 dan gambar 5.3 diatas dapat dilihati proses pembuatan query
berdasarkan words phrasing. Proses-proses tersebut dapat dijelaskan sebagai
berikut:
1. Input dokumen yang akan yang akan diuji kemiripannya pada aplikasi
yang akan dibangun. Sehingga aplikasi akan memperoleh informasi
dokumen yang akan diuji.
38
2. Dokumen yang telah dimasukkan akan diproses pada tahap
preprocessing, yaitu menghilangkan karakter-karakter yang tidak relevan
seperti membuang tanda baca, mengubah huruf besar menjadi huruf kecil,
menghilangkan spasi dan membuang angka.
Untuk lebih jelasnya, dapat dilihat pada gambar 5.4 berikut:
Start
Input dokumen yang akan diuji
Whitespace intensitivity
Dokumen preprocessing
Finish
Gambar 5.4 Flowchart Preprocessing Dokumen
3. Stopword Removal, pada tahapan ini akan dilakukan pembuangan kata-
kata yang dianggap selalu muncul dalam frekuensi tinggi yang tidak
memberikan informasi secara tepat. Untuk lebih jelasnya dapat melihat
gambar 5.5 berikut:
Start
Teks hasil preprocessing
Stopword Removal
Dokumen Hasil Stopword Removal
Finish
Gambar 5.5 Flowchart Stopword Removal (Pembuangan kata-kata yang tidak
informatif)
39
4. Pada Tahapan ini akan dilakukan stemming atau pengembalian kata
kedalam bentuk kata dasar menggunakan algoritma Nazief & Adriani,
langkah-langkah penggunaan algoritma Nazief Adriani dapat dilihat pada
gambar 5.6 berikut:
Start
Kata berimbuhan
Cek di kamus
Kata Ya
Dasar?
Tidak
Hilangkan inflection sufiks (-lah,-kah,-ku,-mu,-nya)
Hilangkan derivation semua sufiks (-i,-an atau -kan)
Hilangkan semua derivation semua prefiks (-di,-ke,-se,-te,-be,-me atau -pe)
Cek di kamus
KataDasar?
YaKata Dasar
Tidak
Kata Awal
Finish
Gambar 5.6 Flowchart Algoritma Stemming Nazief Adriani
40
5. Pada tahapan ini akan dilakukan proses words phrasing dengan
pendekatan triword, quadword dan pentaword. Untuk lebih jelasnya
tergambar pada flowchart gambar 5.7 berikut:
Start
Teks hasil stemming & stopword removal
Pemotongan teks menjadi tiga kata (triword), empat kata (quadword) danlima kata (pentaword)
Token triword, quadwrod dan pentaword
Finish
Gambar 5.7 Flowchart Pembentukan triword,quadword dan pentaword
6. Pada tahapan ini akan dilakukan perhitungan frekuensi kata yang sama
berdasrkan triword, quadword dan pentaword yang terbentuk. Proses
tersebut tergambar pada flowchart gambar 5.8 berikut:
Start
Token triword, quadword dan pentaword
Menghitung jumlah frekuensi kata yang sama
Mengurutkan token berdasarkan frekuensi tertinggike frekeunsi terendah
Rangking triword, quadword dan pentaword
Finish
Gambar 5.8 Flowchart Perhitungan frekuensi Triword, Quadword dan
Pentaword
41
7. Pada tahapan terakhir ini akan dilakukan proses pemilihan frekuensi
kemunculan triword, quadword dan pentaword berdasarkan lima
frekeunsi tertinggi, terendah dan lima frekuensi tengah.
Start
Token triword, quadword dan pentaword terurut frekuensi
Pemilihan 5 frekuensi teratas atau 5 frekuensi atau 5 frkeunsi tengah
Pembentukan query dari penggabungan 5 frekuensi yang dipilih
Query
Finish
Gambar 5.9 Flowchart Pemilihan triword, quadword dan pentaword
menjadi query
Gambar 5.9 menkelasakan tahapan-tahapan perhitungan kemunculan
frekuensi kata. Proses pembuatan query selesai pada tahapan ini, hasil proses
ini berupa query yang akan terus digunakan pada proses pencarian
menggunakan model ruang vektor.
5.3 Pencarian Informasi dengan Model Ruang Vektor
Secara garis besar, ada tiga tahapan yang ditangani oleh sistem ini, yaitu
melakukan preproses terhadap dokumen, melakukan preproses terhadap query
pengguna dan menerapkan metode tertentu dalam hal ini menggunakan model ruang
vektor untuk menghitung kedekatan (relevansi / similirity) antara dokumen dan
query hasil pembuatan di proses sebelumnya. Adapun tiga tahapan tersebut, yaitu:
1. Preprocessing Dokumen
Gambar 5.10 Tahapan preprocessing dokumen
42
Berdasarkan gambar 5.10 tahapan preprocessing dokumen memiliki
tahapan sebagai berikut:
a. Menyimpan dokumen kedalam koleksi dokumen
Sebelum dilakukan tahapan preproses, semua dokumen yang akan
dicari disimpan dalam sebuah koleksi dokumen. Adapun dokumen
yang akan dijadikan koleksi dokumen adalah landasan teori kerja praktek
dan tugas akhir dengan format pdf, doc dan txt.
b. Menghilangkan tanda baca pada dokumen
Semua tanda baca yang ada pada koleksi dokumen akan dihilangkan.
c. Mengubah dokumen ke bentuk huruf kecil
Tahapan preproses dokumen berikutnya adalah mengubah koleksi
dokumen ke bentuk huruf kecil.
d. Menerapkan stopword removal
Pada tahapan ini, setiap istilah yang tidak menggambarkan isi dari
dokumen akan dihapus, seperti kata penghubung dan kata penunjuk yang
mengacu pada koleksi stopword, misalnya : yang, ini, itu dan lain
sebagainya.
e. Menerapkan stemming ( mengembalikan kata ke kata dasar )
Dengan diterapkannya stemming diharapkan dapat meningkatkan
performansi information retrieval yang akan dibangun. Adapun
algoritma stemming yang akan akan digunakan yaitu algoritma Nazief
& Adriani, lebih jelasnya dapat dilihat pada Gambar 5.6 untuk tahapan
algoritma Nazief & Adriani.
f. Pembobotan setiap istilah pada dokumen
Tahapan akhir dari preproses dokumen adalah pembobotan, dengan
adanya pembobotan ini setiap kata akan diparsing dan dihitung jumlah
kemunculannya.
43
2. Preprocessing Query
Gambar 5.11 Tahapan preprocessing query
Berdasarkan gambar 5.11 preprocessing query memiliki tahapan sebagai
berikut:
a. Menghilangkan tanda baca pada dokumen
b. Mengubah dokumen kebentuk huruf kecil
c. Menerapkan stopword removal
d. Menerapkan stemming ( mengembalikan kata ke kata dasar )
e. Pembobotan setiap istilah query
Pembobotan pada query ini mengacu dari hasil indexing pada
preproses dokumen.
3. Penerapan Model Ruang Vektor
Setelah pemberian bobot setiap istilah pada dokumen dan query, maka pada
tahapan ini akan dilakukan perhitungan kemiripan antar query dan koleksi
dokumen yang tersedia, input pada proses ini adalah query yang telah di
preproses sehingga menjadi query yang tunggal. Tahapan tersebut dapat
dilihat pada flowchart gambar 5.12 berikut:
44
Start
Query yangtelah diproses
Hitung Kemiripan antaraquery dan koleksi dokumen
Tidak Sim >0
Ya
Hasil kemiripan querydan dokumen
DokumenTerakhir?
Tidak
Ya
Rangking Hasil Kemiripanquery dan dokumen
Hasil Rangkingkemiripan query dan
dokumen
Finish
Gambar 5.12 Penerapan Model Ruang Vektor
Berdasarkan gambar 5.12 penerapan model ruang vector memiliki tahapan
sebagai berikut:
a. Hitung panjang vektor setiap dokumen dan query
Sebelum dilakukan penghitungan relevansi dokumen dan query, setiap
dokumen pada koleksi dan query akan dihitung panjang vektornya.
b. Hitung kedekatan (relevansi / similirity) antara dokumen dan query
pengguna.
45
Setelah didapatkan panjang vektor setiap dokumen dan query,
dilakukan penghitungan kedekatan query tersebut terhadap dokumen
yang ada pada koleksi. Dari proses ini didapatkan relevansi / similirity
yang akan dijadikan acuan dalam menentukan dokumen yang relevan
sesuai query yang diinputkan.
c. Simpan hasil relevansi antara dokumen dan query dan lakukan
perangkingan.
Jika hasil dari perhitungan besar dari nol maka data perhitungan tersebut
disimpan, jika tidak maka data perhitungan tidak disimpan.
Berdasarkan analisa dari tiga tahapan yang dilakukan oleh sistem temu
balik informasi, maka dapat diilustrasikan seperti gambar 5.13 berikut.
Hilangkan TandaBaca dan Ubah
Kebentuk Huruf KecilKoleksi
DokumenParsing Dokumen
dan Beri BobotIndex yangBerbobot
Panjang VektorDokumen
Terapkan Stopworddan Stemming
Hilangkan TandaBaca dan Ubah
Kebentuk Huruf Kecil
HitungRelevansi Hasil Pencarian Daftar
Teranking
Query Parsing Query danBeri Bobot
Index yangBerbobot
Panjang VektorQuery Pengguna
Terapkan Stopworddan Stemming
Gambar 5.13 Tahapan dalam Information Retrieval
5.4 Algoritma Winnowing dengan pendekatan biword
Pada penelitian ini dilakukan pengembangan algoritma winnowing dalam
mendeteksi penjiplakan dokumen teks, yaitu dengan penerapan konsep biword.
Algoritma winnowing yang biasanya menggunakan teknik character-based dalam
proses tokenisasi dokumen, sekarang akan dilakukan menggunakan teknik
phrase-based. Dengan demikian, akan terbentuk banyak frasa atau token biword
dari masing-masing dokumen teks untuk perhitungan similarity. Konsep biword
ini merupakan pendekatan k-grams untuk membentuk substring sepanjang k
46
karakter atau kata. Pendekatan k-grams inilah yang digunakan dalam membentuk
token biword.
Secara garis besar ada beberapa tahap dalam melakukan pendeteksian
plagiarisme dokumen menggunakan pendekatan biword winnowing, diantaranya:
1. Melakukan pembersihan teks.
2. Melakukan pemotongan teks kedalam bentuk biword kemudian dienkripsi
menggunakan MD5
3. Menghitung nilai hash
4. Membentuk window dengan ukuran w
5. Mendapatkan nilai fingerprint
6. Menghitung kemiripan dokumen dari nilai fingerprint yang diperoleh.
Berikut adalah flowchart proses-proses yang dilakukan pada algoritma
biword winnowing dalam mendeteksi penjiplakan dokumen teks:
Start
Input dokumen teks yang akan diuji
Proses Utama
Preprocessing
Tokenisasi dengan konsep biword (dua kata)
Mengubah token biword menjadi MD5
Menghitung nilai hashing
Membentuk window dengan ukuran w
Memilih nilai hash minimum (fingerprint)
Perhitungan similarity dokumen
Menampilkan Hasil similarity dan informasi dokumen
Finish
Gambar 5.14 Flowchart algoritma winnowing dengan pendekatan biword
47
Pada gambar 5.14 diatas dapat dilihat proses deteksi plagiarisme dokumen dengan
menerapkan pendekatan biword (dua kata) pada algoritma winnowing. Proses-
proses tersebut dapat dijelaskan sebagai berikut:
1. Input dokumen yang akan yang akan diuji kemiripannya pada aplikasi
yang akan dibangun. Sehingga aplikasi akan memperoleh informasi
dokumen yang akan diuji.
2. Dokumen yang telah dimasukkan akan diproses pada tahap
preprocessing, yaitu menghilangkan karakter-karakter yang tidak relevan
seperti membuang tanda baca, mengubah huruf besar menjadi huruf kecil
dan menghilangkan spasi.
Untuk lebih jelasnya, dapat dilihat pada flowchart gambar 5.15 berikut:
Start
Inputdokumen
Whitespace intensitivity
Dokumenpreprocessin
Finish
Gambar 5.15 Flowchart proses preprocessing
3. Tokenisasi dengan pendekatan biword.
Setelah memperoleh dokumen preprocessing, selanjutnya dilakukan
proses tokenisasi kata menjadi biword.
Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.16 berikut:
48
Start
Teks hasil preprocessing
Pemotongan teks menjadi dua kata (biword)
Token biword
Finish
Gambar 5.16 Flowchart proses tokenisasi
4. Mengubah nilai token menjadi MD5
Setelah mendapatkan token kata biword, selanjutnya akan dilakukan
konversi mengubah nilai token biword menjadi nilai MD5. Hal ini bertujuan
agar token tersebut memiliki panjang karakter yang sama yaitu
32 karakter.
Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.17 berikut:
Start
Token biword
Mengubah nilai token menjadi MD5
Token MD5
Finish
Gambar 5.17 Flowchart proses mendapatkan nilai MD5
5. Menghitung nilai hash masing-masing token.
Token-token yang telah diubah menjadi MD5, selanjutnya akan diproses
menggunakan persamaan rolling hash untuk mendapatkan nilai hash
dokumen. Nilai hash ini nantinya akan dijadikan fingerprint dokumen.
49
Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.18 berikut:
Start
Token MD5
Menghitung nilai hash:Rolling Hash
Token nilai hash
Finish
Gambar 5.18 Flowchart proses hitung nilai hash.
6. Membagi ke dalam beberapa window.
Token-token yang telah diperoleh, akan dibagi dalam beberapa window
dengan ukuran w. Ukuran window ditentukan oleh pengguna aplikasi.
Gambar 5.19 berikut adalah flowchart pembentukan window:
Start
Token Hash
Membagi menjadi window denganukuran W
Window
Finish
Gambar 5.19 Flowchart proses pembentukan window.
7. Mencari nilai hash minimum.
Dari nilai-nilai hash yang telah dibentuk menggunakan persamaan rolling
hash, selanjutnya akan ditelusuri nilai-nilai hash terkecil untuk dijadikan
fingerprint dokumen. Penelusuran nilai hash terkecil adalah dimulai dari
nilai hash yang paling kanan dalam suatu window.
50
∩ ∪
Gambar 5.20 berikut adalah flowchart pencarian nilai hash terkecil:
Start
Token hash dalam window
Telusuri nilai hash paling kanan
Pilih nilai hash terkecil
fingerprint
Finish
Gambar 5.20 Flowchart proses memilih fingerprint.
8. Perhitungan similarity dokumen
Nilai fingerprint yang diperoleh akan digunakan untuk menghitung
similarity dokumen. Proses perhitungan dilakukan menggunakan
persamaan jaccard coefficient.
Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.21 berikut:
Start
Irisan token kata
Similarity =| || |
Hasil similarity
Finish
Gambar 5.21 Flowchart proses hitung similarity
9. Selanjutnya akan diperoleh hasil dari proses utama berupa informasi
dokumen yaitu nama dokumen, ukuran dokumen, waktu proses dan hasil
similarity dokumen teks.
51
Untuk lebih jelasnya, berikut adalah contoh penerapan source detection dokumen:
Terdapat 1 buah dokumen uji dan 3 buah koleksi dokumen sebagai berikut:
a. Dokumen Uji:”Algoritma genetika yang memiliki kehandalan dalam
menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan
masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan
algoritma merupakan permasalahan yang kritis dalam disain sistem yang
memungkinkan temu kembali dengan basis data berukuran besar secara
efektif dan efisien”
b. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam
menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan
masalah tersebut dengan bantuan aplikasi
c. Dokumen d2 = Sistem Pendukung Keputusan SPK adalah sekumpulan
prosedur berbasis model untuk memproses data dan memberikan
pertimbangan bagi manajer dalam mengambil keputusan
d. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan
permasalahan yang kritis dalam disain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien
Tahapan-tahapan yang dilakukan adalah:
Pembuatan Query
1. Whitespace Intensitivity atau preprocessing, yaitu menghilangkan karakter
yang tidak relevan seperti menghilangkan tanda baca dan mengubah huruf
besar menjadi kecil serta menghilangkan angka. Sehingga terbentuk kalimat:
Dokumen Uji:
algoritma genetika yang memiliki kehandalan dalam menghasilkan output
yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut
dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan
permasalahan yang kritis dalam disain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien
2. Tahapan selanjutnya adalah stopword removal, penghilangan kata-kata
yang dianggap tidak relevan, sehingga akan terbentuk kalimat:
52
Dokumen Uji:
algoritma genetika kehandalan menghasilkan output optimal dimanfaatkan
menyelesaikan bantuan aplikasi pemilihan struktur data algoritma
permasalahan kritis disain sistem memungkinkan temu basis data
berukuran efektif efisien
3. Mengembalikan kata kedalam bentuk kata dasar menggunakan algoritma
Naizef & Adriani. Sehingga terbentuk kalimat berikut:
Dokumen Uji:
algoritma genetika kehandalan output optimal manfaat selesai bantu aplikasi
pemilihan struktur data algoritma kritis disain sistem temu basis data
berukuran efektif efisien
Pada penggunaan algoritma Nazeif & Adriani masih terdapat banyak
kesalahan dan kegagalan dalam mengembalikan kedalam bentuk kata
dasar (Syahroni,2012)
4. Proses Berikutnya adalah mengubah kata kedalam bentuk triword,
quadword dan pentaword. Pada contoh ini akan menggunakan bentuk
triword, hasilnya sebagai berikut:
[0] => algoritma genetika kehandalan
[1] => genetika kehandalan output
[2] => kehandalan output optimal
[3] => output optimal manfaat
[4] => optimal manfaat selesai
[5] => manfaat selesai bantu
[6] => selesai bantu aplikasi
[7] => bantu aplikasi pemilihan
[8] => aplikasi pemilihan struktur
[9] => pemilihan struktur data
[10] => struktur data algoritma
[11] => data algoritma kritis
[12] => algoritma kritis disain
53
[13] => kritis disain sistem
[14] => disain sistem temu
[15] => sistem temu basis
[16] => temu basis data
[17] => basis data berukuran
[18] => data berukuran efektif
5. Setelah mendapatkan bentuk triword atau quadword atau pentaword
maka akan dilakukan perhitungan frekuensi kemunculan kata yang sama
sebagai berikut:
[kritis disain sistem] => 1
[algoritma kritis disain] => 1
[data algoritma kritis] => 1
[disain sistem temu] => 1
[sistem temu basis] => 1
[data berukuran efektif] => 1
[basis data berukuran] => 1
[temu basis data] => 1
[struktur data algoritma] => 1
[pemilihan struktur data] => 1
[output optimal manfaat] => 1
[kehandalan output optimal] => 1
[genetika kehandalan output] => 1
[optimal manfaat selesai] => 1
[manfaat selesai bantu] => 1
[aplikasi pemilihan struktur] => 1
[bantu aplikasi pemilihan] => 1
[selesai bantu aplikasi] => 1
[algoritma genetika kehandalan] => 1
54
6. Tahapan berikutnya melakukan pemilihan frasa berdasarkan frekuensinya
yaitu: 5 frekuensi tertinggi, 5 frekuensi tengah dan 5 frekuensi terendah.
Pada contoh ini akan memilih 5 frekuensi tertinggi berdasarkan urutan
kata pada langkah sebelumnya, menghasilkan kata berikut:
[kritis disain sistem] => 1
[algoritma kritis disain] => 1
[data algoritma kritis] => 1
[disain sistem temu] => 1
[sistem temu basis] => 1
7. Langkah terakhir pembuatan query adalah menggabungkan 5 pilihan
frekuensi pada langkah sebelumnya menghasilkan sebuah query baru yang
dianggap mewakili isi dari dokumen uji, hasilnya sebagai berikut:
“kritis disain sistem algoritma data temu basis”
Pencarian Dengan Model Ruang Vektor
Tahapan Preproses Dokumen:
1. Menghilangan tanda baca
a. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam
menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan
masalah tersebut dengan bantuan aplikasi
b. Dokumen d2 = Sistem Pendukung Keputusan SPK adalah sekumpulan
prosedur berbasis model untuk memproses data dan memberikan
pertimbangan bagi manajer dalam mengambil keputusan
c. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan
permasalahan yang kritis dalam disain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien
2. Mengubah istilah ke bentuk huruf kecil
a. Dokumen d1 = algoritma genetika yang memiliki kehandalan dalam
menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan
masalah tersebut dengan bantuan aplikasi
55
b. Dokumen d2 = sistem pendukung keputusan spk adalah sekumpulan
prosedur berbasis model untuk memproses data dan memberikan
pertimbangan bagi manajer dalam mengambil keputusan
c. Dokumen d3 = pemilihan struktur data dan algoritma merupakan
permasalahan yang kritis dalam disain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien
3. Menerapkan stopword removal
Adapun daftar stop word dari tiga contoh dokumen diatas adalah : yang,
dalam, dapat, untuk, tersebut, dengan, adalah, dan, bagi, besar, secara.
a. Dokumen d1 = algoritma genetika memiliki kehandalan menghasilkan
output optimal dimanfaatkan menyelesaikan masalah bantuan aplikasi
b. Dokumen d2 = sistem pendukung keputusan spk sekumpulan prosedur
berbasis model memproses data memberikan pertimbangan bagi manajer
mengambil keputusan
c. Dokumen d3 = pemilihan struktur data algoritma merupakan permasalahan
kritis disain sistem memungkinkan temu kembali basis data berukuran
efektif efisien
1. Menerapkan stemming (mengembalikan kata ke kata dasar)
Adapun daftar stemming dari tiga contoh dokumen diatas adalah : milik, hasil,
manfaat, selesai, bantu, dukung, putus, kumpul, basis, proses, beri, timbang,
ambil, rupa, masalah, mungkin.
a. Dokumen d1 = algoritma genetika milik kehandalan hasil output optimal
manfaat selesai masalah bantu aplikasi
b. Dokumen d2 = sistem dukung putus spk kumpul prosedur basis model
proses data beri timbang bagi manajer ambil putus
c. Dokumen d3 = pemilihan struktur data algoritma rupa masalah kritis disain
sistem mungkin temu kembali basis data berukuran efektif efisien
2. Pembobotan, setelah semua dokumen dipreprocessing tiap term dipisah dan
dimasukkan ke dalam tabel indexing.
Dalam koleksi ini, terdapat tiga dokumen, sehingga diperoleh N = 3 dan
berdasarkan rumus 2.3 maka untuk istilah algoritma dimana istilah algoritma
56
tersebut muncul pada pada 2 dokumen yaitu pada dokumen d1 dan d3 maka
diperoleh df = 2, idf yang didapatkan adalah 0. 176.
Pembobotan untuk istilah algoritma dapat menggunakan rumus 2.9 sehingga
untuk istilah algoritma diperoleh w (bobot) = 0. 176. Dengan penerapan rumus
yang sama idf dan bobot setiap istilah selengkapnya dapat dilihat pada tabel
5.1.
Tabel 5.1 Hasil pembobotan index dokumen
No KataTF
Df Idf Bobotd1 d2 d3 d1 d2 d3
1 algoritma 1 0 1 2 0.1761 0.1761 0.0000 0.17612 ambil 0 1 0 1 0.4771 0.0000 0.4771 0.00003 aplikasi 1 0 0 1 0.4771 0.4771 0.0000 0.00004 bantu 1 0 0 1 0.4771 0.4771 0.0000 0.00005 basis 0 1 1 2 0.1761 0.0000 0.1761 0.17616 beri 0 1 0 1 0.4771 0.0000 0.4771 0.00007 berukuran 0 0 1 1 0.4771 0.0000 0.0000 0.47718 data 0 1 2 2 0.1761 0.0000 0.1761 0.35229 disain 0 0 1 1 0.4771 0.0000 0.0000 0.477110 dukung 0 1 0 1 0.4771 0.0000 0.4771 0.000011 efektif 0 0 1 1 0.4771 0.0000 0.0000 0.477112 efisien 0 0 1 1 0.4771 0.0000 0.0000 0.477113 genetika 1 0 0 1 0.4771 0.4771 0.0000 0.000014 kehandalan 1 0 0 1 0.4771 0.4771 0.0000 0.000015 kritis 0 0 1 1 0.4771 0.0000 0.0000 0.477116 kumpul 0 1 0 1 0.4771 0.0000 0.4771 0.000017 manajer 0 1 0 1 0.4771 0.0000 0.4771 0.000018 manfaat 1 0 0 1 0.4771 0.4771 0.0000 0.000019 model 0 1 0 1 0.4771 0.0000 0.4771 0.000020 optimal 1 0 0 1 0.4771 0.4771 0.0000 0.000021 output 1 0 0 1 0.4771 0.4771 0.0000 0.000022 pemilihan 0 0 1 1 0.4771 0.0000 0.0000 0.477123 prosedur 0 1 0 1 0.4771 0.0000 0.4771 0.000024 putus 0 2 0 1 0.4771 0.0000 0.9542 0.0000
57
Tabel 5.1 Hasil pembobotan index dokumen (lanjutan)
No KataTF
Df IdfBobot
d1 d2 d3 d1 d2 d3
25 rupa 0 0 1 1 0.4771 0.0000 0.0000 0.477126 selesai 1 0 0 1 0.4771 0.4771 0.0000 0.000027 sistem 0 1 1 2 0.1761 0.0000 0.1761 0.176128 spk 0 1 0 1 0.4771 0.0000 0.4771 0.000029 struktur 0 0 1 1 0.4771 0.0000 0.0000 0.477130 temu 0 0 1 1 0.4771 0.0000 0.0000 0.477131 timbang 0 1 0 1 0.4771 0.0000 0.4771 0.0000
Berdasarkan tabel 5.1 diatas dapat dijelaskan kata merupakan kata-kata yang telah
di proses untuk membangun index dari sebuah dokumen, TF (term frequency)
merupakan banyaknya kata yang muncul pada setiap dokumen, DF (document
frecuency) merupakan kemunculan kata pada keseluruhan dokumen, idf (inverse
document frequency) merupakan log (tf/df) seperti persamaan rumus 2.3. Dari
tabel ini mendeskripsikan pengolahan kata sebelum dihitung kemiripanya
menggunakan model ruang vector.
Tahapan Preproses query:
Setelah dilakukan pengindeksan terhadap koleksi dokumen, diinputkan
query yang akan dilakukan pencocokan terhadap koleksi dokumen. query yang
dihasilkan dari pembuatan query adalah “kritis disain sistem algoritma data temu
basis”.
Tahapan – tahapan yang dilakukan
1. Menghilangkan tanda baca
kritis disain sistem algoritma data temu basis
2. Mengubah istilah ke bentuk huruf kecil
kritis disain sistem algoritma data temu basis
3. Menerapkan stopword removal
kritis disain sistem algoritma data temu basis
4. Menerapkan stemming (mengembalikan kata ke kata dasar)
kritis disain sistem algoritma data temu basis
58
5. Pembobotan, query yang telah di preproses dan sesuai dengan istilah
hasil indexing pada koleksi dokumen disimpan ke dalam indexing query.
Pada koleksi dokumen terdapat tiga dokumen, sehingga diperoleh N= 3 dan
berdasarkan rumus 2.3 maka untuk istilah algoritma dimana istilah algoritma
tersebut muncul pada pada 2 dokumen yaitu pada dokumen d1 dan d3 maka
diperoleh df = 2, idf yang didapatkan adalah 0. 176.
Dengan penerapan rumus yang sama maka idf setiap istilah selengkapnya
dapat dilihat pada table 5.2
Tabel 5.2 Hasil pembobotan index query
KataTF
Df Idf BobotQ d1 d2 d3 query
algoritma 1 1 0 1 2 0.1761 0.1761basis 1 0 1 1 2 0.1761 0.1761data 1 0 1 2 2 0.1761 0.1761disain 1 0 0 1 1 0.4771 0.4771kritis 1 0 0 1 1 0.4771 0.4771sistem 1 0 1 1 2 0.1761 0.1761temu 1 0 0 1 1 0.4771 0.4771
Pada tabel 5.2 dilakukan proses pembobotan query terhadap kata kata
yang ada pada index dokumen seperti yang telah dijelaskan pada
tabel 5.1.
59
Dari hasil penghitungan relevansi pada langkah sebelumnya, maka koleksi
dokumen tersebut dapat diurutkan dari yang paling relevan (diurut menurun)
sebagai berikut:
Query yang dimasukkan “kritis disain sistem algoritma data temu basis”. Koleksi
dokumen yang ditampilkan adalah D3, D2, D1
Pendeteksian Kemiripan Dokumen Menggunakan algoritma biword
winnowing dan Jaccard Coefficient
Pada tahapan ini akan dilakukan sebanyak jumlah dokumen yang berhasil
dikembalikan oleh mesin pencari menggunakan model ruang vektor, pendeteksian
akan dilakukan sesuai dengan urutan dokumen yang dihasil kan oleh mesin
pencari yaitu: D3, D2 dan D1 terhadap dokumen uji pada awal pembuatan query.
Tahapan-tahapan yang dilakukan adalah:
1. Whitespace Intensitivity atau preprocessing, yaitu menghilangkan karakter
yang tidak relevan seperti menghilangkan tanda baca dan mengubah huruf
besar menjadi kecil. Sehingga terbentuk kalimat:
Dokumen Uji:
algoritma genetika yang memiliki kehandalan dalam menghasilkan output
yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut
dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan
permasalahan yang kritis dalam disain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien
Dokumen 3:
pemilihan struktur data dan algoritma merupakan permasalahan yang kritis
dalam disain sistem yang memungkinkan temu kembali dengan basis data
berukuran besar secara efektif dan efisien
2. Proses selanjutnya adalah tokenisasi, yaitu pemotongan kata berbentuk
biword. Sehingga terbentuk token kata biword seperti pada tabel 5.3.
60
Token Dokumen Uji Token Dokumen 3
[0] => algoritma genetika
[1] => genetika yang
[2] => yang memiliki
[3] => memiliki kehandalan
[4] => kehandalan dalam
[5] => dalam menghasilkan
[6] => menghasilkan output
[7] => output yang
[8] => yang optimal
[9] => optimal dapat
[10] => dapat dimanfaatkan
[11] => dimanfaatkan untuk
[12] => untuk menyelesaikan
[13] => menyelesaikan masalah
[14] => masalah tersebut
[15] => tersebut dengan
[0] => pemilihan struktur
[1] => struktur data
[2] => data dan
[3] => dan algoritma
[4] => algoritma merupakan
[5] => merupakan permasalahan
[6] => permasalahan yang
[7] => yang kritis [8]
=> kritis dalam [9]
=> dalam disain [10]
=> disain sistem [11]
=> sistem yang
[12] => yang memungkinkan
[13] => memungkinkan temu
[14] => temu kembali
[15] => kembali dengan
Tabel 5.3 Hasil token biword
61
Tabel 5.3 Hasil token biword (lanjutan)
Token Dokumen Uji Token Dokumen 3
[16] => dengan bantuan
[17] => bantuan aplikasi
[18] => aplikasi pemilihan
[19] => pemilihan struktur
[20] => struktur data
[21] => data dan
[22] => dan algoritma
[23] => algoritma merupakan
[24] => merupakan permasalahan
[25] => permasalahan yang
[26] => yang kritis
[27] => kritis dalam
[28] => dalam disain
[29] => disain sistem
[30] => sistem yang
[31] => yang memungkinkan
[32] => memungkinkan temu
[33] => temu kembali
[34] => kembali dengan
[35] => dengan basis
[36] => basis data
[37] => data berukuran
[38] => berukuran besar
[39] => besar secara
[40] => secara efektif
[41] => efektif dan
[42] => dan efisien
[16] => dengan basis
[17] => basis data
[18] => data berukuran
[19] => berukuran besar
[20] => besar secara
[21] => secara efektif
[22] => efektif dan
[23] => dan efisien
62
3. Mengubah token biword menjadi nilai MD5.
Untuk mengubah sebuah token biword menjadi MD5, dapat dilakukan
dengan fungsi MD5 yang terdapat dalam bahasa pemrograman PHP. Setelah
masing-masing token biword diubah menjadi MD5, akan diperoleh hasil sebagai
berikut:
Dokumen Uji:
[0] => 998d2e98c5e38b03a951ee3294c0e553
[1] => 987bf6950cb20c2a1fb2a1e013b814e0
[2] => 83d01da1003236447620e49d25ca7b06
[3] => a531c2469c1103430a1dc95fd7a27e55
[4] => f0ce1a317c8eafa0d7bdbc3830a4ff67
[5] => 967676713e5d0114f3423feaff39acd2
[6] => 2db424971a31301d889fdc26fa25ba65
[7] => c1d893c885690cb45a600abe8d51e0d1
[8] => 625a209fb69c626bbcdbc68991a65137
[9] => 7415643910fb03611d5dac24fcb827e7
[10] => 3828e97b53b817f9d6e47b2610d22376
[11] => 580901301e97f174e26d0488853a2b27
[12] => 5a48a726ad11ea4612b1c43b133d8ab7
[13] => 403a826a8c033176054485f79c80594f
[14] => 573817939946a174c00322f36a8b96d2
[15] => 8f0c0e5ef42449c2a7a54baa46732cad
[16] => 7df7264f35cb214094281492de40e96a
[17] => eb1ed9b3d06370b90aaea8e7c36ffcaf
[18] => 0e8f3083477917e1a300a992f8c71e1e
[19] => 666853446c0a48fe21e1d7fb69c6be57
[20] => ed5435491272fb9b1d06c37556768b92
[21] => bdc7c27d0ea015ba2852311cde4d597b
63
Dokumen Uji (lanjutan):
[22] => f589496c0f5cd4fedf98c150c9f41025
[23] => a2ed243f4090db2f974af40e96b24f24
[24] => 3fbaecb1cede43a9d5802c21e46c053e
[25] => 5c706d3e8c99d2b2ff12a7e7c1af1ed0
[26] => f58a9cb63576c0366fd3a8c0d1966b8e
[27] => b457e902ea3609249fc993037896afe0
[28] => 525bf4a36d99e628db8a1ee78ff4d82c
[29] => 574e7cd71f01a8975b778cd7854e008b
[30] => 53521c2dcbbc4afa378c46b263cba6ef
[31] => 11edddb40dcb570e3f72bcea9583be6a
[32] => d5205afc6f66e43499b4c0c02a893b6d
[33] => 00787c2f6d67ed65f447741795c04c1d
[34] => de81d950e832b9fb26da258f634cd529
[35] => 4df0a258fe93fe7dc23a2fc264d3dd92
[36] => 9d43d6ea63c5b521c0bc19d1da2921be
[37] => 76885860e263060adb2c748f60d612b3
[38] => 1abb9c6c4e8b1c002f8a68cad72a94b4
[39] => d76818c8a52c915e89f78ee600b59fcf
[40] => cb1e4a6819a6cbad921060a06b0b0eae
[41] => 8f19637469846759bde2ff2d169cfd4f
[42] => 7419728e91e3df64274c5a663d3381fa
Dokumen 3:
[0] => 666853446c0a48fe21e1d7fb69c6be57
[1] => ed5435491272fb9b1d06c37556768b92
[2] => bdc7c27d0ea015ba2852311cde4d597b
[3] => f589496c0f5cd4fedf98c150c9f41025
[4] => a2ed243f4090db2f974af40e96b24f24
[5] => 3fbaecb1cede43a9d5802c21e46c053e
64
[6] => 5c706d3e8c99d2b2ff12a7e7c1af1ed0
[7] => f58a9cb63576c0366fd3a8c0d1966b8e
[8] => b457e902ea3609249fc993037896afe0
[9] => 525bf4a36d99e628db8a1ee78ff4d82c
[10] => 574e7cd71f01a8975b778cd7854e008b
[11] => 53521c2dcbbc4afa378c46b263cba6ef
[12] => 11edddb40dcb570e3f72bcea9583be6a
[13] => d5205afc6f66e43499b4c0c02a893b6d
[14] => 00787c2f6d67ed65f447741795c04c1d
[15] => de81d950e832b9fb26da258f634cd529
[16] => 4df0a258fe93fe7dc23a2fc264d3dd92
[17] => 9d43d6ea63c5b521c0bc19d1da2921be
[18] => 76885860e263060adb2c748f60d612b3
[19] => 1abb9c6c4e8b1c002f8a68cad72a94b4
[20] => d76818c8a52c915e89f78ee600b59fcf
[21] => cb1e4a6819a6cbad921060a06b0b0eae
[22] => 8f19637469846759bde2ff2d169cfd4f
[23] => 7419728e91e3df64274c5a663d3381fa
Setelah didapatkan nilai MD5 masing-masing token biword yang
dibentuk, selanjutnya akan dihitung nilai hash menggunakan persamaan Rolling
Hash. Nilai-nilai hash ini akan dipilih nantinya untuk dijadikan fingerprint.
Berikut adalah tabel 5.4 yang merupakan hasil perhitungan nilai hash masing-
masing token biword:
65
Tabel 5.4. Nilai hash token biword
Token Dokumen Uji Token Dokumen 3
[0] => 258247033209[1] => 259631046226[2] => 259774433926[3] => 326142312171[4] => 367663887435[5] => 239205881598[6] => 295388782597[7] => 350204784785[8] => 239032808521[9] => 228 867238637[10] => 233383424288[11] => 228358173027[12] => 281692812831[13] => 232031181210[14] => 229283220218[15] => 300115964114[16] => 309814531481[17] => 398201776708[18] => 282676831411[19] => 232259278917[20] => 380671597868[21] => 407050206300[22] => 336732088481[23] => 357586293296[24] => 323636969615[25] => 281046219092[26] => 351444753101[27] => 330809299098[28] => 244689925959[29] => 247277474850[30] => 228656225616[31] => 264392933473[32] => 331223223744[33] => 217731976722[34] => 387576660737[35] => 307332697348[36] => 294460894349[37] => 235961288743[38] => 307212293792[39] => 333728840732[40] => 388497130971[41] => 285700163806[42] => 230906887617
[0] => 232259278917[1] => 380671597868[2] => 407050206300[3] => 336732088481[4] => 357586293296[5] => 323636969615[6] => 281046219092[7] => 351444753101[8] => 330809299098[9] => 244689925959[10] => 247277474850[11] => 228656225616[12] => 264392933473[13] => 331223223744[14] => 217731976722[15] => 387576660737[16] => 307332697348[17] => 294460894349[18] => 235961288743[19] => 307212293792[20] => 333728840732[21] => 388497130971[22] => 285700163806[23] => 230906887617
Nilai perhitungan pada tabel 5.4 didapatkan berdasarkan persamaan 2.14
berdasarkan nilai enkripsi md5 pada tahapan sebelumya.
66
4. Pembentukan window dari nilai hash yang telah diperoleh.
Misalkan ukuran window w yang digunakan adalah 4, maka diperoleh
hasil pembagian token hash sebagai berikut:
Kalimat 1:
[ 258247033209 259631046226 259774433926 326142312171 ]
[ 259631046226 259774433926 326142312171 367663887435 ]
[ 259774433926 326142312171 367663887435 239205881598 ]
[ 326142312171 367663887435 239205881598 295388782597 ]
[ 367663887435 239205881598 295388782597 350204784785 ]
[ 239205881598 295388782597 350204784785 239032808521 ]
[ 295388782597 350204784785 239032808521 228867238637 ]
[ 350204784785 239032808521 228867238637 233383424288 ]
[ 239032808521 228867238637 233383424288 228358173027 ]
[ 228867238637 233383424288 228358173027 281692812831 ]
[ 233383424288 228358173027 281692812831 232031181210 ]
[ 228358173027 281692812831 232031181210 229283220218 ]
[ 281692812831 232031181210 229283220218 300115964114 ]
[ 232031181210 229283220218 300115964114 309814531481 ]
[ 229283220218 300115964114 309814531481 398201776708 ]
[ 300115964114 309814531481 398201776708 282676831411 ]
[ 309814531481 398201776708 282676831411 232259278917 ]
[ 398201776708 282676831411 232259278917 380671597868 ]
[ 282676831411 232259278917 380671597868 407050206300 ]
[ 232259278917 380671597868 407050206300 336732088481 ]
[ 380671597868 407050206300 336732088481 357586293296 ]
67
[ 407050206300 336732088481 357586293296 323636969615 ]
[ 336732088481 357586293296 323636969615 281046219092 ]
[ 357586293296 323636969615 281046219092 351444753101 ]
[ 323636969615 281046219092 351444753101 330809299098 ]
[ 281046219092 351444753101 330809299098 244689925959 ]
[ 351444753101 330809299098 244689925959 247277474850 ]
[ 330809299098 244689925959 247277474850 228656225616 ]
[ 244689925959 247277474850 228656225616 264392933473 ]
[ 247277474850 228656225616 264392933473 331223223744 ]
[ 228656225616 264392933473 331223223744 217731976722 ]
[ 264392933473 331223223744 217731976722 387576660737 ]
[ 331223223744 217731976722 387576660737 307332697348 ]
[ 217731976722 387576660737 307332697348 294460894349 ]
[ 387576660737 307332697348 294460894349 235961288743 ]
[ 307332697348 294460894349 235961288743 307212293792 ]
[ 294460894349 235961288743 307212293792 333728840732 ]
[ 235961288743 307212293792 333728840732 388497130971 ]
[ 307212293792 333728840732 388497130971 285700163806 ]
[ 333728840732 388497130971 285700163806 230906887617 ]
Dokumen 3:
[ 232259278917 380671597868 407050206300 336732088481 ]
[ 380671597868 407050206300 336732088481 357586293296 ]
[ 407050206300 336732088481 357586293296 323636969615 ]
[ 336732088481 357586293296 323636969615 281046219092 ]
[ 357586293296 323636969615 281046219092 351444753101 ]
[ 323636969615 281046219092 351444753101 330809299098 ]
[ 281046219092 351444753101 330809299098 244689925959 ]
[ 351444753101 330809299098 244689925959 247277474850 ]
68
[ 330809299098 244689925959 247277474850 228656225616 ]
[ 244689925959 247277474850 228656225616 264392933473 ]
[ 247277474850 228656225616 264392933473 331223223744 ]
[ 228656225616 264392933473 331223223744 217731976722 ]
[ 264392933473 331223223744 217731976722 387576660737 ]
[ 331223223744 217731976722 387576660737 307332697348 ]
[ 217731976722 387576660737 307332697348 294460894349 ]
[ 387576660737 307332697348 294460894349 235961288743 ]
[ 307332697348 294460894349 235961288743 307212293792 ]
[ 294460894349 235961288743 307212293792 333728840732 ]
[ 235961288743 307212293792 333728840732 388497130971 ]
[ 307212293792 333728840732 388497130971 285700163806 ]
[ 333728840732 388497130971 285700163806 230906887617 ]
Nilai hash yang dicetak tebal adalah nilai hash terkecil yang dipilih pada setiap
window untuk menjadi fingerprint dokumen.
Maka diperoleh nilai hash minimum masing-masing dokumen:
Dokumen Uji:
[258247033209,0] [259631046226,1] [239205881598,5]
[239032808521,8] [228867238637,9] [228358173027,11]
[229283220218,14] [282676831411,18] [232259278917,19]
[336732088481,22] [323636969615,24] [281046219092,25]
[244689925959,28] [228656225616,30] [217731976722,33]
[235961288743,37] [285700163806,41] [230906887617,42]
Dokumen 3:
[232259278917,0][336732088481,3] [323636969615,5]
[281046219092,6][244689925959,9][228656225616,11]
[217731976722,14][235961288743,18][285700163806,22]
[230906887617,23]
Nilai-nilai hash minimum (fingerprint) yang diperoleh berdasarkan
posisi indeks nya, jika diubah kembali menjadi token biword akan terlihat frasa
mana yang memiliki fingerprint yang sama antara kedua kalimat yang diuji.
Berikut ini adalah biword yang dianggap memiliki nilai fingerprint yang sama.
69
i fin
Tabel 5.5 Token biword dengan fingerprint yang sama
Dokumen Uji Dokumen 3
[19] pemilihan struktur
[22] dan algoritma
[24] merupakan permasalahan
[25] permasalahan yang
[28] dalam disain
[30] sistem yang
[33] temu kembali
[37] data berukuran
[41] efektif dan
[42] dan efisien
[0] pemilihan struktur
[3] dan algoritma
[5] merupakan permasalahan
[6] permasalahan yang
[9] dalam disain
[11] sistem yang
[14] temu kembali
[18] data berukuran
[22] efektif dan
[23] dan efisien
Pada tabel 5.5 menjelaskan biword yang sama antar kedua dokumen, nilai didepan
kata menyatakan urutan biword yang terbentuk.
5. Proses selanjutnya adalah menghuitung similarity. Perhitungan similarity
dapat dilakukan dari hasil pemilihan nila gerprint setiap dokumen.
Similaritas(duji,d3) = 55,5%
Similaritas(duji,d2) = 0 %
Similaritas(duji,d1) = 38,88 %
5.5 Hasil Pengujian
Hasil pengujian yang telah dilakukan adalah sebagai berikut :
1. Pengujian yang telah dilakukan menggunakan pendekatan quadword lebih baik
daripada triword dan biword untuk dokumen yang memiliki tingkat kemiripan tinggi.
Hal ini dikarenakan quadword dapat memperkecil kecocokan .
2. Berdasarkan pengujian yang telah dilakukan, semakin besar kata yang digunakan
dalam mendeteksi kemiripan dokumen teks maka tingkat kemiripan yang dihasilkan
semakin berkurang. Hal ini , dikarenakan pembentukan quadword lebih sedikit
daripada triword dan biword
70
BAB VI
PENUTUP
6.1 Kesimpulan
Kesimpulan penelitian ini adalah sebagai berikut:
a. Mendeteksi sumber dokumen berdasarkan model ruang vektor dan
melakukan pendeteksian kemiripan terhadap banyak dokumen (corpus)
sesuai dengan pengujian kemiripan teks menggunakan algoritma biword
winnowing.
b. Pada ouput hasil pengujian, aplikasi ini memberikan informasi
kemiripan query terhadap dokumen corpus dan kemiripan dokumen uji
terhadap dokumen corpus serta cuplikan kata-kata yang sama sesuai
dengan perhitungan algoritma biword winnowing.
c. Pembentukan query dengan pendekatan triword, quadword dan pentaword
dengan stemming dan tanpa stemming serta pemilihan frekuensi frase
tertinggi, terendah dan tengah dapat digunakan untuk mendeteksi sumber
dan melakukan pendeteksian plagiarism terhaddap banyak dokumen.
d. Pembentukan query dengan pendekatan triword tanpa stemming dan
pemilihan frekuensi frase tertinggi dapat memberikan hasil yang stabil
dalam beberapa pengujian dan mendapatkan nilai similarity jaccard
coefficient dengan rata-rata 15.66%.
6.2 Saran
Untuk pengembangan aplikasi ini di masa yang akan datang, maka
diberikan beberapa saran sebagai berikut:
a. Aplikasi pendeteksi sumber dokumen dan kemiripan dokumen teks ini dapat
dikembangkan dalam Bahasa inggris atau Bahasa lainnya dengan
menerapkan stemming.
71
b. Aplikasi ini dapat dikembangkan dengan menggunakan corpus yang
dinamis dari hasil pencarian google.
c. Pendeteksian kemiripan dokumen dapat mengenali persamaan kata
(sinonin).
72
DAFTAR PUSTAKA
Augusta, Lady. 2009. “Perbandingan Algoritma Stemming Porter Dengan AlgoritmaNazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia”.Konferensi Nasional Sistem dan Informatika 2009, Bali, November 14, 2009.
Baeza-Yates, R. & Ribeiro-Neto, B. 1999. “Modern Information Retrieval”.Addison-Wesley.
Cios, Krzysztof J. Etc. (2009) “Data Mining A Knowledge Discovery Approach”,
Springer.
Garcia, E “Document Indexing Tutorial for Information Retrieval Students andSearch Engine Marketers” Desember. 2005.
McEnery T,Wilson A. 2001. Corpus Linguistic 2nd Edition Edinburgh UniversityPress.
Manning, Christopher D., Prabhakar Raghavan dan Hinrich Schütze. An Introductionto Information Retrieval. England: Cambridge University Press. 2009
Munir, Rinaldi. Algoritma Dan Pemograman. Bandung: Informatika Bandung.2007
Rafles, Adek, “Pengembangan Aplikasi Pendeteksi Plagiarisme Dokumen DenganPendekatan k-gram Berbasis Frasa,” Tugas Akhir Teknik Informatika, 2013.
Ridho, Muhammad, “Rancang Bangun Aplikasi Pendeteksi PenjiplakanDokumen Menggunakan Algoritma Biword Winnowing,” Tugas Akhir TeknikInformatika, 2013.
Salton, Gerard, dan Christopher Buckley. “Term-Weighting Approaches In AutomaticText Retrieval,” Department of Computer Science, Cornell University, 19November 1987. (Rev. 26 Januari 1988).
Schleimer, Saul, Daniel S. Wilkerson, dan Alex Aiken. Winnowing: Local Algorithmsfor Document Fingerprinting. San Diego: In Proceedings of the ACMSIGMOD International Conference On Management Of Data.2003
Steven. Perancangan Program Aplikasi Pendeteksian Plagiarisme Dokumen BerbasisTeks Menggunakan Algoritma Rabin-Karp. Jakarta: Tugas Akhir ProgramGanda Teknik Informatika Dan Matematika, Universitas Bina Nusantara.2009.
73
Syahroni, Raja, “Sistem Temu Balik Informasi (Stbi) Laporan Kerja Praktek DanTugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus : TeknikInformatika),” Tugas Akhir Teknik Informatika, 2012.
Wang Tao, Fan Xiao-Zhong, Liu Jie, Plagiarism Detection in Chinese Based on Chunkand Paragraph Weight. Kunming: in Proceedings of the Seventh InternationalConference on Machine Learning and Cybernetics. 2008
Winoto, Hendro, “Dekeksi Kemiripan isi Dokumen Teks Menggunakan AlgoritmaLevenshiten Distance” Tugas Akhir Teknik Informatika UIN Maulana MalikIbrahim, 2012.
Lampiran 1. Biodata Ketua dan Anggota Tim Pengusul
USM
BIODATA KETUA PELAKSANA
IDENTITAS DIRI
Nama Lengkap : Dr. Titin Winarti, S. Kom., M.M.Jabatan Fungsional : Lektor Kepala/ IV CJabatan Struktural : Ka. Lab. OracleNIS/NIDN : 06557003102049/0627116901Tempat, Tanggal Lahir : Jakarta, 27 November 1969Perguruan Tinggi : Universitas SemarangAlamat : Jl. Soekarno Hatta TlogosariTelp./Faks : 024-6702757 / 024-6702272Alamat Rumah : Taman Suryo Kusumo IV No. 58Telp./Faks : 085640328082Alamat e-mail : [email protected] Kuliah yangDiampu
:1. Basis Data2. Algoritma dan Pemrograman3. Struktur Data4. Algoritma dan Struktur Data5. Oracle WDP
B. Riwayat Pendidikan Perguruan Tinggi
S1 S2 S3Nama PT Univ Gunadarma Univ
GunadarmaUnivGunadarma
Bidang Ilmu Sistem Informasi SistemInformasiBisnis
TeknologiInformasi
Tahun Masuk-Lulus 1988 1994 2017
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir
Tahun Judul Penelitian / Pengabdian KepadaMasyarakat
Ketua/AnggotaTim
SumberDana
2016 Aplikasi Pengukuran Kemiripan DokumenMenggunakan Cosine Similarity
Titin Winarti USM
D. Pengalaman Penulisan Jurnal dan Prosiding Dalam 5 Tahun TerakhirTahun Judul Penelitian Nama
Jurnal/ProsidingPenerbit/
Penyelenggara2015 Model of Document Similarity
Measurement System byFingerprint Method Utilizationwith Natural LanguageProcessing Approach
The 5 th Uzbekistan –Indonesia InternationalJoint Conference onGlobalization,Economic
UniversitasGunadarma
Page 205 Development, andNation CharacterBuilding
2016 Plagiarism Detection SystemFor Indonesia Text BasedDocument by FingerprintMethod and Natural LanguageProcessing Approach
The 4th InternationalConference onInternet ServicesTechnology andInformationEngineering 2016
LembagaTelematikaIndonesia,
E. Pengalaman Pengabdian Kepada Masyarakat Dalam 5 Tahun TerakhirJenis Tahun Nama Kegiatan Tempat
Pelatihan 2016 Pengembangan Bahan AjarMenggunakan Media PembelajaranInteraktif (Mpi)Pada SMK NU 03 KaliwunguKabupaten Kendal
SMK NU 03KaliwunguKabupaten Kendal
F. Pengalaman Pembicara/InstrukturJenis Tahun Nama Kegiatan Sebagai
Conference 2015 The 5 th Uzbekistan – IndonesiaInternational Joint Conference onGlobalization, Economic Development,and Nation Character Building
Pemakalah
Conference 2016 The 4th International Conference onInternet Services Technology andInformation Engineering 2016
Pemakalah
Pelatihan 2016 Pengembangan Bahan AjarMenggunakan Media PembelajaranInteraktif (Mpi)Pada SMK NU 03 KaliwunguKabupaten Kendal
Instruktur
Demikian biodata ini saya buat dengan sebenarnya untuk memenuhi salah satu persyaratandalam usulan pengabdian kepada masyarakat.
Semarang, 9 September 2019Ketua
Dr. Titin Winarti, S. Kom., M.M.
Biodata Anggota Tim Penelitian
A. Identitas Diri Anggota
1 Nama Lengkap (dengan gelar) Drs. Wawan Setiawan, MM2 Jenis Kelamin L / P3 Jabatan Fungsional Penata Tingkat I/III C4 NIP / NIK / Identitas lainnya 065570005040035 NIDN 06041065016 Tempat dan Tanggal Lahir Sukabumi, 4 Oktober 1965
E-Mail [email protected] Telepon/HP 08122923424Alamat Kantor Jl. Arteri Sukarno Hatta SemarangNomor Telepon / faks 024-6702757 / 021-6702272Lulusan yang Telah Dihasilkan 44 OrangMata Kuliah yang Diampu 1. Pendidikan Kewarganegaraan
2. Pendidikan Pancasila
B. Riwayat PendidikanS-1 S
-2
Nama Perguruan Tinggi IKIP Semarang Universitas SemarangBidang Ilmu Pendidikan Kepelatihan ManajemenTahun Masuk-Lulus 1985-1989 2000-2002Judul Skripsi/ Tesis Pengaruh Latihan Memukul
Bola Naik dan Bola TurunTerhadap Prestasi Memukulpada Permainan Softball
Studi Atribut Diferensiasipada Bisnis Perhotelan
Nama Pembimbing Studi Atribut Diferensiasi padaHotel Patra Jasa Semarang
Prof.Dr.Agusty FerdinanProf.Dr.Ir.JohannesHutabarat, MSc.
C. Pengalaman Penelitian Dalam 5 Tahun TerakhirNo Tahun Judul Penelitian Pedanaan
Sumber Jml (JutaRp)
1 2012 Pengaruh Identitas Nasionalterhadap Perilaku BudayaDemokrasi
UniversitasSemarang
2,5 Juta
2. 2013 “Faktor-Faktor YangMempengaruhi PerilakuKepatuhan Wajib Pajak Badan diKota Semarang
UniversitasSemarang
2,5 Juta
3 2014 “Penerapan Nilai-Nilai PancasilaDalam Mengatasi ProblematikaPendidikan Guna MencapaiTujuan Nasional Di Dinas KotaSemarang
UniversitasSemarang
2,5 Juta
4 2015 Analisis Penerimaan PenggunaAkhir Dengan MenggunakanTechnology Acceptance ModelDan End User ComputingSatisfaction Terhadap PenerapanCore Banking System
Hibah Dikti 50 Juta
5 2016 Pengaruh Gaya Kepemimpinan,Budaya Etis dan KomitmenOrganisasi Serta PenegakanHukum Terhadap “FraudAccounting System” PadaBerbagai Instansi/LembagaPemerintahan Di Kota Semarang.
UniversitasSemarang
5 Juta
6 2017 Model Pengembangan KlasterUKM Berbasis TeknologiInformasi Untuk MendapatkanNilai Tambah Produk (CompetitiveAdvantage) Bagi UKM di JawaTengah
Hibah Dikti 50 Juta
7 2018 Pengembangan Sistem InformasiOrganisasi Amateur RadioIndonesia (ORARI) LokalSemarang Berbasis TeknologiInformasi.
UniversitasSemarang
5 Juta
D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun Terakhir
No Thn Judul Pengabdian KepadaMasyarakat
Pedanaan
Sumber Jml (jutaRp)
1 2009 Sosialisasi Program NasionalPemberdayaan MasyarakatMandiri Th.2009
UniversitasSemarang
1,5 Juta
2 2012 Pelatihan Komposting diKecamatan Semarang Barat
UniversitasSemarang
1,5 Juta
3 2013 Pelatihan Kewirausahaanberbasis Business Plan padaUsaha Kecil Batik LaweyanSurakarta
UniversitasSemarang
1,5 Juta
4 2013 Pelatihan Pengolahan SampahRumah Tangga dengan MetodeTakakura bagi Ibu-Ibu PKK diKelurahan Mangunharjo Kec.Tembalang Kota semarang
UniversitasSemarang
1,5 Juta
5 2013 Pelatihan Pasar Modal berbasis“Online Tradinga” di KantorPelayanan Pajak KPP GayamsariSemarang
Pojok BursaFakultas EkonomiUniversitasSemarang
2,5 Juta
6 2014 Peningkatan PemahamanMengenai Pancasila SebagaiDasar Pengembangan IlmuPengetahuan Dan TeknologiInformasi Dan Komunikasi
UniversitasSemarang
1,5 Juta
7 2014 Pelatihan Penulisan KaryaIlmiah Bagi Guru SekolahMenengah Atas AtauSederajad di KecamatanMijen Kota Semarang.KOTA SEMARANG
UniversitasSemarang
1,5 Juta
8 2015 Pelatihan Pasar ModalOnline Bagi Pelaku UsahaMikro,Kecil dan Menengah(UMKM) se KecamatanTembalang Kota Semarang
Mandiri 2 Juta
9 2016 Pelatihan Perencanaan PajakPenghasilan Dan Tata CaraPengelolaan KeuanganUsaha Bagi Para PelakuUsaha Kecil Dan MenengahDi Kecamatan TembalangKota Semarang
UniversitasSemarang
3 Juta
10 2018 Upaya PeningkatanKeterampilan Berorganisasidan Keterampilan MembatikUMKM Batik DurenanIndah KelurahanMangunharjo KecamatanTembalang Kota Semarang.
UniversitasSemarang
3 Juta
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapatdipertanggungjawabkan secara hukum. Apabila dikemudian hari ternyata dijumpaiketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata inisaya buat dengan sebenarnya untuk memenuhi satu persyaratan dalam pengajuan UsulanPenelitian Hibah Internal Universitas Semarang.
Semarang, 9 September 2019Pengusul,
Drs. Wawan Setiawan, MMNIDN. 0604106501
B. Identitas Diri
1 NamaLengkap (dengangelar) Iswoyo, S.Pt., M.P.2 JenisKelamin L/P3 JabatanFungsional Lektor4 NIP / NIK / Identitaslainnya 065570021010325 NIDN 06061268016 TempatdanTanggalLahir Semarang, 6 Desember 19687 E-Mail [email protected] NomorTelepon/HP 0813263579109 Alamat Kantor Jl. Arteri Sukarno Hatta Semarang10 NomorTelepon / faks (024) 6702757 / (024) 670227211 Lulusan yang Telah Dihasilkan 3212 Mata Kuliah yang Diampu 1. Statistik
2. Metodologi Penelitian3. Ilmu Alamiah Dasar4. Lingkungan dan Pengelolaan
Limbah5. Kewirausahaan
A. Riwayat PendidikanS-1 S-2
Nama Perguruan Tinggi Universitas JenderalSoedirman
Universitas GadjahMada
Bidang Ilmu Peternakan PeternakanTahun Masuk-Lulus 1988 - 1993 1995 – 1997Judul Skripsi/ Tesis Pengaruh Pemberian
Hormon OvalumonProgesteron danProvestin terhadapkinerja ReproduksiSapi PO pasca beranak
Deteksi kebuntingandini Sapi PFH Laktasimelalui HormonProgesteron SusuLaktasi
Nama Pembimbing Prof. Dr. TaswinRahman Tagana, MS
Prof. Dr. SoenarjoKeman, M.Sc
B. Pengalaman Penelitian Dalam 5 Tahun Terakhir
No Tahun JudulPenelitian PendanaanSumber Jml (JutaRp)
1 2010 Substitusi Daging Sapi dengan Daging Kelinciterhadap Kualitas Bakso
UniversitasSemarang
2.500.000
2 2010 Analisis Faktor-faktor yang mempengaruhipemberdayaan wanita
DinasPendidikanJawaTengah
10.000.000
3 2010 Analisis pengaruh lingkungan kerja, motivasi,kepemimpinan, komunikasi dan keterampilan
KopertisWilayah VI
7.500.000
terhadap Pemberdayaan KUB wanita nelayanMinasari di Pemalang
JawaTengah
4 2010 Kajian Peraturan Daerah Dalam PeningkatanInvestasi Di Kota Semarang
BappedaKotaSemarang
25.000.000
5 2012 Melakukan Penelitian dengan Judul Hubungan LamaPemerahan Ambing Kuartir Depan dan Belakangterhadap Produksi Susu Sapi PFH Laktasi
UniversitasSemarang
2.500.000
6 2013 Penelitian Dengan Judul : Performans ReproduksiSapi PFH Di KTT Sidomulyo KecamatanGunungpati Kota Semarang (Sebagai Ketua)
UniversitasSemarang
2.500.000
7 2014 Penelitian Dengan Judul : Uji Kualitas TelurKonsumsi di beberapa Pasar Tradisional di KotaSemarang (Sebagai Anggota)
UniversitasSemarang
2.500.000
8 2014 Analisis Pola Distribusi Semen Beku TerhadapTingkat Keberhasilam IB Dalam MendukungProduksi dan Produktivitas Sapi Perah di KTTSidomulyo Kelurahan Nongkosawit, KecamatanGunung Pati Semarang
PemprovJateng
40.000.000
C. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun Terakhir
No Thn JudulPengabdianKepadaMasyarakat PedanaanSumber Jml (jutaRp)
1 2009 Kajian Ekonomi Pemanfaatan BiobriketLimbah Sapi Perah Sebagai BahanBakar Alternatif
Dikti 25.000.000
2 2009 Pemanfaatan Biobriket Limbah SapiPerah sebagai Bahan Bakar Alternatif
UniversitasSemarang
2.500.000
3 2009 Sosialisasi Flu Babi dan DampaknyaBagi Kesehatan Manusia
UniversitasSemarang
2.500.000
4 2010 Pemanfatan Kotoran Kelinci SebagaiKompos
UniversitasSemarang
2.500.000
5 2012 Melakukan Pengabdian kepadaMasyarakat dengan Judul : IntroduksiTeknologi Pengawetan Hijauan PakanTernak Kambing di KelurahanWonolopo, Kecamatan Mijen,Semarang
UniversitasSemarang
2.500.000
6 2013 Program KKN Vokasi TeknologiPengomposan
DinasPendidikanJateng
25.000.000
7 2013 Program KKN Vokasi Teknologi Prosesdan Pengemasan Produk Pangan
DinasPendidikanJateng
25.000.000
8 2014 Sosialisasi Kriteria Daging Ayam yangsehat dan Berkualitas pada Ibu Ibu PKKdan SMA Abdi Negara Kecamatan
UniversitasSemarang
2.500.000
Karangtengah Kabupaten Demak(Sebagai Anggota)
D. Publikasi Artikel Ilmiah Dalam Jurnal dalam 5 Tahun Terakhir
No JudulArtikelJurnalIlmiah NamaJurnal Volume/Nomor/Tahun
1 Response, Effectiveness AndAccuracy Of. Different SelectionMethods AndIntensities In Dairy Cattle”
(Jurnal Produksi TernakAnimal ProductionTerakreditasi DIKTI No.65a/DIKTI/Kep/2008 ISSN :1411-2027
No. 1, Januari 2009Vol. 11 Hal. 65-70)
E. Pemakalah Seminar Ilmiah (Oral Presentation) dalam 5 Tahun Terakhir
No Nama Pertemuan Ilmiah/ Seminar
Judul Artikel Ilmiah Waktu danTempat
1 Seminar Penelitian Kajian Ekonomi Pemanfaatan BiobriketLimbah Sapi Perah Sebagai Bahan BakarAlternatif
2009, Dikti
2 Seminar Penelitian Pemanfaatan Biobriket Limbah Sapi Perahsebagai Bahan Bakar Alternatif
2009,UniversitasSemarang
4 Seminar Penelitian Analisis pengaruh lingkungan kerja, motivasi,kepemimpinan, komunikasi dan keterampilanterhadap Pemberdayaan KUB wanita nelayanMinasari di Pemalang
2010, KopertisVI JawaTengah
5 Seminar Penelitian Substitusi Daging Sapi dengan DagingKelinci terhadap Kualitas Bakso
2010,UniversitasSemarang
6 Seminar Penelitian Analisis Faktor-faktor yang mempengaruhipemberdayaan wanita
2010, DinasPendidikanJawa Tengah
7 Seminar Penelitian Kajian Peraturan Daerah Dalam PeningkatanInvestasi Di Kota Semarang
2010, BappedaKota Semarang
8 Seminar Penelitian Hubungan Lama Pemerahan Ambing KuartirDepan dan Belakang terhadap Produksi SusuSapi PFH Laktasi
2012,UniversitasSemarang
9 Seminar Penelitian Performans Reproduksi Sapi PFH Di KTTSidomulyo Kecamatan Gunungpati KotaSemarang (Sebagai Ketua)
2013,UniversitasSemarang
10 Seminar Penelitian Uji Kualitas Telur Konsumsi di beberapaPasar Tradisional di Kota Semarang (SebagaiAnggota)
2014,UniversitasSemarang
11 Seminar Penelitian Analisis Pola Distribusi Semen BekuTerhadap Tingkat Keberhasilam IB DalamMendukung Produksi dan Produktivitas SapiPerah di KTT Sidomulyo KelurahanNongkosawit, Kecamatan Gunung PatiSemarang
2014, PemprovJateng
12 Seminar PengabdianKepada Masyarakat
Introduksi Teknologi Pengawetan HijauanPakan Ternak Kambing di KelurahanWonolopo, Kecamatan Mijen, Semarang
2012,UniversitasSemarang
13 Seminar PengabdianKepada Masyarakat
Teknologi Pengomposan 2013, DinasPendidikanJateng
14 Seminar PengabdianKepada Masyarakat
Teknologi Proses dan Pengemasan ProdukPangan
2013, DinasPendidikanJateng
15 Seminar PengabdianKepada Masyarakat
Sosialisasi Kriteria Daging Ayam yang sehatdan Berkualitas pada Ibu Ibu PKK dan SMAAbdi Negara Kecamatan KarangtengahKabupaten Demak (Sebagai Anggota)
2014,UniversitasSemarang
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat
dipertanggungjawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai
ketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi.
Demikian biodata ini saya buat dengan sebenarnya untuk memenuhi salah satu persyaratan
dalam pengajuan Penelitian Universitas Semarang.
Semarang, 9 September 2015
Iswoyo, S.Pt. M.P
C.Identitas Diri Anggota
1 Nama Lengkap Endah Pujiastuti, S.H., M.H.2 Jenis Kelamin Perempuan3 Jabatan Fungsional Lektor Kepala4 NIS 065570038010155 NIDN 06121268016 Tempat/tanggal lahir Pati, 12 Desember 19687 Alamat e-mail [email protected] NomorTelp/HP 0852004559499 Alamat Kantor Jl. Sukarno Hatta, Semarang
10 Nomor Telp /Fax 024-6702757 / 024-670227211 Lulusan yang telah dihasilkan S1 = 260 orang; S2 = 0 orang; S3 = 0 orang12 Mata Kuliah yang Diampu 1. Pengantar Hukum Indonesia
2. Hukum Administrasi Negara3. Hukum Ketenagakerjaan4. Hukum Perizinan
A. Pengalaman Penelitian 5 Tahun TerakhirNo.
Tahun Judul Penelitian PendanaanSumber Jumlah
(Juta Rp)1 2018 Optimalisasi Perlindungan Hukum bagi Konsumen
dalam Jual Beli On Line di Jawa TengahDIKTI 118.000000
2 2017 Pengawasan dan Penerapan Sanksi AdministratifTerhadap Pelanggaran Perizinan BidangPerlindungan dan Pengelolaan Lingkungan Hidupbagi Usaha Industri Kecil pada Kabupaten/Kota diWilayah Provinsi Jawa Tengah (Tahun Kedua)
DIKTI 70.000.000
3 2017 Kebijakan Perluasan Alat Bukti Hukum AcaraPidana dalamUpaya mewujudkan Kepastian HukumBerkeadilan
USM 5.000.000
4 2016 Pengawasan dan Penerapan Sanksi AdministratifTerhadap Pelanggaran Perizinan BidangPerlindungan dan Pengelolaan Lingkungan Hidupbagi Usaha Industri Kecil pada Kabupaten/Kota diWilayah Provinsi Jawa Tengah (Tahun Pertama)
DIKTI 50.000.000
5 2015 Kebijakan Pengawasan Terhadap AktifitasPerusahaan Penyedia Jasa Pekerja/Buruh MelaluiOptimalisasi Klausul Laporan Ketenagakerjaan.(Tahun Kedua)
DIKTI 61.000.000
6 2014 Kebijakan Pengawasan Terhadap AktifitasPerusahaan Penyedia Jasa Pekerja/Buruh MelaluiOptimalisasi Laporan Ketenagakerjaa (TahunPertama)
DIKTI 57.500.000
7 2014 Pengembangan Kawasan Industri dalamMemaksimalkan Penerimaan Anggaran Daerah(PAD) di Kota Semarang : Suatu Perspektif KonsepPembangunan Berkelanjutan
USM 2.500.000
B. Pengalaman Pengabdian kepada Masyarakat 5 Tahun TerakhirNo. Tahun Judul Pengabdian Pendanaan
Sumber Jumlah(Juta Rp)
1 2017 Peningkatan Pemahaman Siswa SMA N 1 BojaTerhadap Aspek Hukum Penyalahgunaan Narkotikadi Kalangan Remaja
USM 3.000.000
2 2016 Peningkatan Pemahaman Siswa SMK Tlogosaritentang Bendera, Bahasa, dan Lambang Negara,serta Lagu Kebangsaan dalam Rangka MemperkuatKarakter Nasionalis Generasi Muda
USM 3.000.000
3 2015 Peningkatan Pemahaman Siswa SMA dalamPemberian Bantuan Hukum secara Cuma-Cuma
USM 3.000.000
4 2015 Peningkatan Pemahaman Pentingnya HukumPerjanjian : Jual Beli Online bagi Siswa MAN YPIKlambu Godong Grobogan
USM 3.000.000
5 2014 Peningkatan Pemahaman Siswa SMA/SMK di KotaSemarang mengenai Asuransi Penumpang danAsuransi Kecelakaan Lalu Lintas Jalan Raya
USM 1.500.000
6 2014 Peningkatan Pemahaman Siswa SMK Tlogosaritentang Perjanjian Kerja dalam Rangka PersiapanMemasuki Pasar Kerja
USM 1.500.000
E. Publikasi Artikel Dalam Jurnal dalam 5 Tahun Terakhir
No Judul Artikel Ilmiah Nama JurnalVolume/ Nomor/
Tahun1. Pengawasan Terhadap Perusahaan
Penyedia Jasa Pekerja/BuruhProsiding SeminarNasional HasilPenelitian danPKM : Sosial,Ekonomi, danHumaniora
Volume 4, No. 1, Tahun2014, ISSN 2089-3590http://proceeding.unisba.ac.id/index.php/sosial/article/view/174
2 Kebijakan PemerintahKabupaten/Kota dalam MelakukanPengawasan Terhadap AktifitasPerusahaan Penyedia JasaPekerja/Buruh
Prosiding SeminarNasional “Peluang,Tantangan Dosendan PerguruanTinggi MenghadapiMasyarakatEkonomi ASEAN2015”
Volume 4B Tahun 2015,ISSN 2302-4135halaman 438-444
3 Reposisi Kedudukan Janda (CeraiMati) Dalam Hukum Waris AdatBatak Dalam Perspektif Gender
Jurnal DinamikaSosial Budaya
JDSB 2015, Vol 17,No.2, ISSN : 1410-9859http://journals.usm.ac.id/index.php/jdsb/article/view/469/278
4 Kajian Normatif KeberadaanToko Modern Di KotaSemarang
Humani VOL. 5 No. 3 tahun 2015P-ISSN : 1411-3066E-ISSN : 2580-8516
http://journals.usm.ac.id/index.php/humani/article/view/946
5 Perlindungan Hukum TerhadapHak-Hak Pekerja Migran : StudiKasus Satinah Sebagai Mantan TkiDi Arab Saudi
Humani VOL. 5 No. 3 tahun 2015P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/945
6 Kebijakan Perlindungan DanPengelolaan Lingkungan HidupPada Kabupaten/Kota Di WilayahProvinsi Jawa Tengah
Prosiding SeminarNasional “SNPK –Penguatan DaerahPerbatasanBerbasisKemaritiman”
Volume 1, Tahun 2016,ISSN 2540-783Xhttps://s3.amazonaws.com/academia.edu.documents/50799337/ISI_PROSIDING_LENGKAP.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1537728678&Signature=H%2BvdMVI3UtlAxFdtqXD2HRwhKA0%3D&response-content-disposition=inline%3B%20filename%3DISI_PROSIDING_LENGKAP.pdf.pdf#page=133
7 Administrative Sanction ForViolation Taken By The EmployeeProvider Company
ProceedingInternationalConference on “theAdministration ofJusstice”
ISBN : 978-602-7386-55-2
8 Legal Politics Of Employment InTerm Of Part Of Task Handover ToOther Companies In Indonesia
ProceedingInternationalConference on““IndonesianClean ofCorruption in2020”
ISBN 978-602-1145-41-8http://jurnal.unissula.ac.id/index.php/the2ndproceeding/article/view/1093
9 Kendala Dalam PelaksanaanPelimpahan Pemungutan RetribusiPerpanjangan Izin MempekerjakanTenaga Kerja Asing (Imta) DariPemerintah Pusat KepadaPemerintah Kota Semarang
Jurnal DinamikaSosial Budaya
Volume 18 Nomor 1Tahun 2016ISSN : 1410-9859http://journals.usm.ac.id/index.php/jdsb/article/view/558/369
10 Penerapan Konsep Trias PoliticaDalam Sistem PemerintahanRepublik Indonesia : StudiKomparatif Atas Undang–Undang
Jurnal DinamikaSosial Budaya
Vol. 18 No. 2 Tahun2016ISSN : 1410-9859
Dasar Tahun 1945 Sebelum DanSesudah Amandemen
http://journals.usm.ac.id/index.php/jdsb/article/view/580/390
111. Konsep Penanaman ModalSebagai Upaya MestimulasiPeningkatan PerekonomianIndonesia
Humani Volume 7 Nomor 1Tahun 2017P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/953
122. Kajian Normatif MengenaiPenggunaan DiscrecionaryPower Bagi Pejabat PemerintahDalam Upaya MeningkatkanKualitas PenyelenggaraanPemerintahan
Humani Volume 7 Nomor 1Tahun 2017P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/956
133. Contributions of Islamic LawEnactment of Criminal LawAgainst Dead in Indonesia (AnOverview Implementation inFrame Pancasila)
Proceeding The2017 InternationalConference On“Globalization ofLaw and LocalWisdom”
Vol 1, No. 4 Tahun 2017ISSN: 978-602-142373-9http://www.icglow-uns.com/index.php/icglow2017/article/view/85
14 4. Administrative Sanctions OfLicence Violation In TheField Of Protection AndEnvironmental ManagementOn District/ City In CentralJava Province
Jurnal DinamikaHukum
Volume 18, No. 1, ISSN2407-6562 (Online)http://dinamikahukum.fh.unsoed.ac.id/index.php/JDH/article/view/604/555
152. Labor supervision policy
in Indonesian legalsystem based onPancasila
IOP Series http://iopscience.iop.org/article/10.1088/1755-1315/175/1/012192/metahttp://iopscience.iop.org/article/10.1088/1755-1315/175/1/012192/pdf
16 1. Legal Protection for Consumersin On Sale Purchase Agreement
InternationalConference On“ICol GaS”
SHS Web of Conferences 54,06011 (2018)14 November 2018eISSN: 2261-2424https://www.shs-conferences.org/articles/shsconf/abs/2018/15/shsconf_icolgas2018_06011/shsconf_icolgas2018_06011.html
F. Pemakalah Seminar Ilmiah (Oral Presetation) dalam 5 Tahun terakhir
NoNama PertemuanIlmiah/ Seminar Jurnal Artikel Ilmiah
Waktu danTempat
1 Seminar NasionalPenelitian dan PKM2014
Pengawasan Terhadap PerusahaanPenyedia Jasa Pekerja/Buruh
29 - 30 Oktober2014Unisba Bandung
2 Seminar ProposalPenelitian dan PKM
Peningkatan Pemahaman Siswa SMKTlogosari tentang Perjanjian Kerjadalam Rangka Persiapan MemasukiPasar Kerja
13 Agustus2014USM Semarang
3 Seminar HasilPenelitian dan PKM
Implementasi Kebijakan wajib LaporKetenagakerjaan di Perusahaan
11 – 12 Agustus2014USM Semarang
4 Seminar HasilPenelitian dan PKM
Peningkatan Pemahaman Siswa SMKTlogosari tentang PemenuhanPersyaratan Administrasi dalamBerlalu lintas
3 – 4 Februari2014USM Semarang
5 Seminar Nasional HasilPenelitian dan PKM :Sosial, Ekonomi, danHumaniora
Pengawasan Terhadap PerusahaanPenyedia Jasa Pekerja/Buruh
UniversitasIslam Bandung29 Oktober2014.
6 Seminar NasionalIndustrialisasi Madura“Peluang, TantanganDosen dan PerguruanTinggi MenghadapiMasyarakat EkonomiASEAN 2015” ,
Kebijakan PemerintahKabupaten/Kota dalam MelakukanPengawasan Terhadap AktifitasPerusahaan Penyedia JasaPekerja/Buruh
UniversitasTrunojoyoMadura,Bangkalan, 29September2015.
7 Seminar Nasional“SNPK – PenguatanDaerah PerbatasanBerbasis Kemaritiman”
Kebijakan Perlindungan DanPengelolaan Lingkungan Hidup PadaKabupaten/Kota Di Wilayah ProvinsiJawa Tengah
UniversitasMaritim RajaAli HajiTanjung Pinang26 September2016.
8 InternasionalConference “theAdministration ofJusstice”
Administrative Sanction For ViolationTaken By The Employee ProviderCompany
UNS Solo19 - 20November 2016
9 InternationalConference on““Indonesian Clean ofCorruption in 2020”
Legal Politics Of Employment InTerm Of Part Of Task Handover ToOther Companies In Indonesia
UnisullaSemarang9-10 Desember2016
10 Konferensi NasionalPerbandingan HukumIndonesia 2017
Perkembangan Kebijakan PengelolaanLingkungan Hidup di Indonesia
Unair Surabaya20 – 21 Juli2017
11 InternationalConference ICOL GaS2018
Legal Protection for Consumers in OnSale Purchase Agreement
UnsoedPurwokerto25 – 27September 2018
12 InternationalConference ICLECH2018
Implementatio of Mandatory LaborReport Policy in Distric/Cities inCentral Java
Unib Bengkulu11 – 12 Oktober2018
G. Karya Buku dalam 5 Tahun TerakhirNo Judul Buku Tahun Jumlah
halamanPenerbit
1 Pengantar HukumKetenagakerjaan (Edisi Revisi) 2014 76
SemarangUniversity
Press2 Outsourcing – Regulasi Perizinan
di Indonesia 2015 106SemarangUniversity
Press
H. Perolehan HKI dalam 5-10 Tahun TerakhirNo Judul Tema HKI Tahun Jenis Nomor P/ID1 Pengantar Hukum
Ketenagakerjaan2015 Hak Cipta 000109325/EC00201813784
2 Optimalisasi PerlindunganHukum Bagi Konsumendalam Jual Beli Online diJawa Tengah
2018 Hak Cipta 000121644/EC00201850918
Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapatdipertanggungjawabkan secara hukum. apabila di kemudian hari ternyata dijumpaiketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi.
Demikian biodata ini saya buat dengan sebenar-benarnya.
Semarang, 9 September 2019Tim Peneliti,
Endah Pujiastuti, S.H., M.H.
Lampiran 2. Surat Penyataan Ketua Peneliti
USM
SURAT PERNYATAAN KETUA PENELITI
Yang bertanda tangan di bawah ini :Nama : Dr. Titin Winarti, S.Kom, MMNIDN : 0627116901Pangkat / Golongan : Pembina Utama Muda /IV CJabatan Fungsional : Lektor KepalaDengan ini menyatakan bahwa Laporan penelitian saya dengan judul :Yang diusulkan Tahun Akademik 2018/2019 bersifat orisinil dan belum pernah dibiayai olehlembaga / sumber dana lain.Bilamana di kemudian hari ditemukan ketidaksesuaian dengan pernyataan ini, maka sayabersedia dituntut dan diproses sesuai dengan ketentuan yang berlaku dan mengembalikanseluruh biaya penelitian yang sudah diterima ke Universitas Semarang.Demikian pernyataan ini dibuat dengan sesungguhnya dan dengan sebenar-benarnya.
MengetahuiKetua LPPM USM ,
Iswoyo, S.Pt. MPNIDN 0606126801
Semarang, 9 September 2019Yang Menyatakan,
Ketua Peneliti,
Titin Winarti, S. Kom, MMNIDN. 0627116901
Lampiran 3. Kontrak Penelitian
USM
L24
L25
Lampiran 4. Hasil Reviewer
USM
L26
L27
L28
Lampiran 5. Jurnal
USM
L29
PEMILIHAN FITUR UNTUK OPTIMASI NAÏVE BAYESTitin Winarti 1)
1)Fakultas Teknologi Informasi dan Komunikasi
e-mail: [email protected])
Abstrak
Naïve Bayes merupakan salah satu metode data mining yang digunakan dalam klasifikasidokumen berbasis text. Kelebihan dari metode ini adalah algoritmanya sederhana dengankompleksitas perhitungan yang rendah. Akan tetapi, pada metode Naïve Bayes terdapatkelemahan dimana sifat independensi dari fitur Naïve Bayes tidak dapat selalu diterapkan sehinggaakan berpengaruh pada tingkat akurasi perhitungan. Maka dari itu, metode Naïve Bayes perludioptimasi dengan cara pemberian bobot mengunakan Gain Ratio. Namun, pemberian bobot padaNaïve Bayes menimbulkan permasalahan pada penghitungan probabilitas setiap dokumen,dimana fitur yang tidak merepresentasikan kelas yang diuji banyak muncul sehingga terjadikesalahan klasifikasi. Oleh karena itu, pembobotan Naïve Bayes masih belum optimal. Paperini mengusulkan optimasi metode Naïve Bayes mengunakan pembobotan Gain Ratio yangditambahkan dengan metode pemilihan fitur pada kasus klasifikasi teks. Hasil penelitian inimenunjukkan bahwa optimasi metode Naïve Bayes menggunakan pemilihan fitur dan pembobotanGain Ratio menghasilkan akurasi sebesar 94%.
Kata Kunci : Naïve Bayes, Weighted Naïve Bayes, Gain Ratio, Pemilihan Fitur.
AbstractNaïve Bayes is one of data mining methods that are commonly used in text-based
document classification. The advantage of this method is a simple algorithm with low computationcomplexity. However, there is weaknesses on Naïve Bayes methods where independence of NaïveBayes features can’t be always implemented that would affect the accuracy of the calculation.Therefore, Naïve Bayes methods need to be optimized by assigning weights using Gain Ratio on itsfeatures. However, assigning weights on Naïve Bayes’s features cause problems in calculating theprobability of each document which is caused by there are many features in the document that notrepresent the tested class. Therefore, the weighting Naïve Bayes is still not optimal. This paperproposes optimization of Naïve Bayes method using weighted by Gain Ratio and feature selectionmethod in the case of text classification. Results of this study pointed-out that Naïve Bayesoptimization using feature selection and weighting produces accuracy of 94%.
Keywords : Naïve Bayes, Weighted Naïve Bayes, Gain Ratio, Feature Selection.
1. PendahuluanKlasifikasi merupakan proses pengidentifikasian obyek ke dalam sebuah kelas, kelompok, ataukategori berdasarkan prosedur, karakteristik dan definisi yang telah ditentukan sebelumnya [1]. Salahsatu bentuk klasifikasi yaitu klasifikasi dokumen atau teks. Klasifikasi dokumen atau teks adalahbidang penelitian dalam pengolahan informasi. Tujuan dari klasifikasi dokumen adalahmengembangkan sebuah metode dalam menentukan atau mengkategorikan suatu dokumen kedalam satu atau lebih kelompok secara otomatis berdasarkan isi dokumen [2]. Pada era inipengelompokkan teks atau dokumen digunakan untuk proses pencarian sebuah dokumen. Makadari itu, kebutuhan untuk pengelompokan dokumen secara cepat dan mudah sangat penting.Sedangkan saat ini, pengelompokkan dokumen masih menggunakan cara manual.
Pengelompokkan dokumen dilakukan dengan cara pemberian label terhadap kategoridokumen. Dibutuhkan waktu yang cukup lama dalam mengklasifikasikan dokumen. Maka dariitu, dibutuhkan metode yang dapat digunakan dalam proses klasifikasi atau pengelompokkandokumen secara cepat dan akurat.
L30
Salah satu metode klasifikasi yang biasa digunakan adalah Naïve Bayes. Klasifikasi Naïve Bayespertama kali dikemukakan oleh Revered Thomas Bayes. Penggunaan metode Naïve Bayessudah dikenalkan sejak tahun 1702-1761. Naive Bayes (atau dikenal sebagai Simple Bayes)menurut Lewis, Hand dan Yu merupakan pendekatan yang sangat sederhana dan sangat efektifuntuk classification learning [3][4]. Sedangkan menurut Kononenko dan Langley menyimpulkanbahwa Naïve Bayes merupakan kemungkinan label kelas data atau bisa diasumsikan sebagaiatribut kelas yang diberi label [5][6].
Menurut Hamzah Naïve Bayes memiliki beberapa kelebihan, yaitu algoritma yang sederhana,lebih cepat dalam penghitungan dan berakurasi tinggi [7]. Akan tetapi, pada metode Naïve Bayesjuga memiliki kelemahan dimana sebuah probabilitas tidak bisa mengukur seberapa besar tingkatkeakuratan sebuah prediksi. Maka dari itu, metode Naïve Bayes perlu dioptimasi dengan carapemberian bobot mengunakan Gain Ratio. Pemberian bobot pada Naïve Bayes menimbulkanpermasalahan pada penghitungan probabilitas setiap dokumen. Dimana fitur yang tidakmerepresentasikan kelas yang diuji banyak muncul sehingga terjadi kesalahan klasifikasi.Oleh karena itu, pembobotan Naïve Bayes masih belum optimal.
Maka dari itu, Paper ini mengusulkan optimasi metode Naïve Bayes mengunakan pembobotanGain Ratio yang ditambahkan dengan metode pemilihan fitur pada kasus pemilihan teks.
2. Metode Penelitian
Metode Naïve Bayes merupakan salah satu algoritma yang efektif dan efisien dalam prosesklasifikasi [3][4]. Pada Gambar 1 menampilkan metode usulan Weighted Naïve Bayes denganmenggunakan Gain Ratio.
Gambar 1. Alur Metode Penelitian
2.1 DatasetDataset yang digunakan dalam penelitian ini diambil dari media online yaitu kompas, detik, dantempo. Kemudian dilakukan proses penentuan kata dasar, penentuan kata umum yang seringmuncul atau stopwords, dan penentuan kategori. Proses pengolahan dataset dapat dilihat padaGambar 2.
Inisiasi Kata Dasar Inisiasi Stopwords Inisiasi Kategori
Gambar 2. Dataset
2.2 PreprocessingPreprocessing adalah proses awal pada klasifikasi dokumen yang bertujuan untuk menyiapkandata agar menjadi terstruktur. Hasil dari preprocessing akan berupa nilai numerik sehingga dapatdijadikan sebagai sumber data yang dapat diolah lebih lanjut. Preprocessing ini terbagi menjadibeberapa proses yang terdiri dari case folding, tokenizing, filtering, stemming dan perhitungan
Dataset PreprocessingFitur Selection( Ambil nilai Rkata tertinggi)
Hitung Bobotdengan Gain
Ratio( Persamaan 5 )
Hitung WeightedNaive Bayes
( Persamaan 4 )
Pilih nilai Maxdari probabilitas( Persamaan 3 )
L31
a
bobot kata.
Pada Gambar 3 terdapat proses preprocessing. Case folding merupakan tahap awal daripreprocessing text yang mengubah karakter huruf teks menjadi huruf kecil semua [8]. Karakteryang diterima hanya ‘a’ hingga ‘z’. Karakter selain huruf akan dihilangkan dan dianggap sebagaidelimiter. Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yangmenyusunnya [9]. Filtering adalah proses menentukan kata-kata (terms) apa saja yang akandigunakan untuk merepresentasikan dokumen. Selain untuk menggambarkan isi dokumen, termini juga berguna untuk membedakan dokumen yang satu dengan dokumen lainnya pada koleksidokumen. Proses ini dilakukan dengan mengambil kata-kata penting dari hasil token danmenghapus stopwords. Stopwords adalah kata-kata yang tidak deskriptif sehingga dapatdibuang atau dihilangkan dan tidak berpengaruh ke dalam proses [8]. Dalam bahasa Indonesia,contoh stopwords seperti “yang”, “dan”, “dari”, “di”, “seperti” dan lainnya. Tahap stemming adalahtahap mencari root (akar) kata dari kata hasil filtering. Pada tahap ini dilakukan prosespengambilan berbagai bentukan kata ke dalam suatu representasi yang sama. Stem (akar kata)merupakan bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan danakhiran). Contoh kata beri adalah stem dari memberi, diberikan, memberikan dan pemberian.
2.3 Penghitungan bobota. Naive Bayes
Naive bayes adalah metode yang digunakan dalam statistika untuk menghitung peluang darisuatu hipotesis, Naïve Bayes menghitung peluang suatu kelas berdasarkan pada atribut yangdimiliki dan menentukan kelas yang memiliki probabilitas paling tinggi. Naive bayesmengklasifikasikan kelas berdasarkan pada probabilitas sederhana dengan mangasumsikanbahwa setiap atribut dalam data tersebut bersifat saling terpisah. Metode Naive Bayesmerupakan salah satu metode yang banyak digunakan berdasarkan beberapa sifatnya yangsederhana, metode Naive Bayes mengklasifikasikan data berdasarkan probabilitas P atribut xdari setiap kelas y data. Pada model probablitas setiap kelas k dan jumlah atribut a yang dapatdituliskan seperti Persamaan (1) [2] berikut.
P(yk | x1, x2 ,....xa ) .............................................................(1)
Penghitungan Naïve Bayes yaitu probabilitas dari kemunculan dokumen xa pada kategori kelasyk P(xa|yk), dikali dengan probabilitas kategori kelas P(yk). Dari hasil kali tersebut kemudiandilakuan pembagian terhadap probabilitas kemunculan dokumen P(xa). Sehingga didapatkanrumus penghitungan Naïve Bayes dituliskan pada Persamaan (2) [2].
....................................................................(2)
Kemudian dilakukan proses pemilihan kelas yang optimal maka dipilih nilai peluang terbesardari setiap probabilitas kelas yang ada. Sehingga didapatkan rumus untuk memilih nilai terbesarpada Persamaan (3) [10].
y(xi ) arg max P(y)i1P(xi | y) .................................................(3)
L32
i1 i
w
b. Weighted Naive Bayes
Menurut Hilden, Ferreira, dan Hall pembobotan atribut kelas dapat meningkatkan pengaruhprediksi [11][12][13]. Dengan memperhitungkan bobot atribut terhadap kelas, maka yang menjadidasar ketepatan klasisifikasi bukan hanya probabilitas melainkan juga dari bobot setiap atributterhadap kelas. Pembobotan Naïve Bayes dihitung dengan cara menambahkan bobot wi padasetiap atribut. Sehingga didapatkan rumus untuk pembobotan Naïve Bayes dituliskan padaPersamaan (4).
P(y, x) P(y)a P(x | y) i ...................................................(4)
Pembobotan dapat dirumuskan menggunakan Gain Ratio [10]. Dimana dari setiap atribut GainRatio dikali jumlah data n kemudian dibagi dengan rata-rata Gain Ratio semua atribut.
......................................................(5)
Atribut dari Gain Ratio sendiri merupakan hasil bagi dari Mutual Information dan Entropy.Mutual Information (MI) merupakan nilai ukur yang menyatakan keterikatan atauketergantungan antara dua variabel atau lebih. Unit pengukur yang umum digunakan untukmenghitung MI adalah bit, sehingga menggunakan logaritma (log) basis 2. Secara formal, MIdigunakan antara 2 variabel A dan B yang didefinisikan oleh Kulback dan Leibler [14], Rényi[15]. Selain MI, Entropy digunakan sebagai pembagi dari MI yang digunakan untuk menentukanatribut mana yang terbaik atau optimal. Penghitungan Mutual Information dituliskan padaPersamaan 6 [14][15].
................................................(6)
Sebelum mendapatkan nilai Gain Ratio dilakukan pencarian nilai Entropy E. Entropy digunakanuntuk menentukan seberapa informatif sebuah masukan atribut untuk menghasilkan keluaranatribut. Penghitungan Entropy dengan menjumlahkan probabilitas dituliskan pada Persamaan(7).
.............................................................(7)Maka dari itu penghitungan Gain Ratio adalah hasil dari penghitungan Mutual Information dibagidengan hasil penghitungan Entropy Penghitungan Gain Ratio dituliskan pada Persamaan (8).
....................................................(8)
Proses penghitungan Weighted Naïve Bayes menggunakan Gain Ratio dibagi menjadi duatahap. Tahap pertama adalah proses training (pelatihan). Pada proses training diambil data latihkemudian dilakukan preprocessing. Setelah itu hitung peluang kata (term) perkategori dan hitungpeluang kategori (class). Kemudian dicari nilai Gain Ratio menggunakan Persamaan 8. Prosestraining dapat dilihat pada Gambar 4.
L33
Mulai
Data Latih
Preprocess ing
Hitung Peluang KataPerkategori
Hitung Peluang Kategori
Hitung Gain Ratio
Nilai Gain Ratio
Selesai
Gambar 4. Proses Training
Tahap kedua adalah proses testing (pelatihan). Pada proses testing diambil data uji kemudiandilakukan preprocessing. Setelah itu ambil nilai Gain Ratio tiap kata dan kategori. Setelah itu,dilakukan proses perankingan kata sebanyak R (jumlah kata yang ditentukan). Dari katasebanyak R yang diambil dilakukakn proses penghitungan Gain Ratio. Kemudian dicari nilaiWeighted Naïve Bayes menggunakan Persamaan 4. Proses testing dapat dilihat pada Gambar5.
Mulai
Data Uji
Preprocessing
Ambil Peluang Gain RatioKata dan Kategori
Ambil nilai R Kata Tertinggi
Hitung Gain Ratio
HitungWeighted NaïveBayes
HasilWeightedNaïve Bayes
Selesai
Gambar 5. Proses Testing
L34
c. Metode Evaluasi
Pada tahap evaluasi bertujuan untuk mengetahui tingkat akurasi dari hasil penggunaan metodeWeighted Naïve Bayes. Dari evaluasi akan tersedia informasi mengenai seberapa besar akurasiyang telah dicapai. Pada proses pengujian dikenal sebagai Matriks Confusion yangmerepresentasikan kebenaran dari sebuah klasifikasi. Tabel Matriks Confusion dapat dilihatpada Tabel 1.
True Positive (TP) menunjukkan bahwa dokumen yang termasuk dalam hasilpengelompokkan oleh sistem memang merupakan anggota kelas.
False Positive (FP) menunjukkan bahwa dokumen yang termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya bukan merupakan anggota kelas.
False Negative (FN) menunjukkan bahwa dokumen yang tidak termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya merupakan anggota kelas.
True Negative (TN) menunjukkan bahwa dokumen yang tidak termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya bukan merupakan anggota kelas.
Untuk menghitung tingkat akurasi digunakan Persamaan 9 [16].
Akurasi TP TN
TP TN FP FN...........................................(9)
L35
3. Eksperimen dan HasilPengujian hasil menggunakan metode Wighted Naïve Bayes dilakukan denganmembandingkan hasil percobaan Naïve Bayes tanpa menggunakan pembobotan.Perbandingan dilakukan terhadap dokumen berita sejumlah 65 dokumen pada uji coba 1 dan145 dokumen pada uji coba 2. Hasil yang dibandingkan adalah akurasi data yang dihasilkandengan menghitung selisih antara Weighted Naïve Bayes dan Naïve Bayes biasa.Penghitungan akurasi tersebut dapat dilihat pada Persamaan 9.
Dilakukan uji coba 1 terhadap metode usulan dengan menggunakan data latih sebanyak 35dokumen dan data uji sebanyak 30 dokumen. Pada uji coba 2, data uji yang digunkan sebanyak110 dokumen dan data latih yang digunakan sama seperti uji coba 1. Dimana, pada data latihterdapat 7 kategori, yaitu Sepak Bola, Otomotif, Kesehatan, Teknologi, Ekonomi, Politik, danHukum. Pada masing-masing kategori berisi 5 dokumen.
Dari hasil uji coba 1 didapatkan hasil akurasi Naïve Bayes sebesar 92% sedangkan padaWeighted Naïve Bayes sebesar 94%. Selain itu, dari hasil uji coba 2 didapatkan hasil akurasiNaïve Bayes sebesar 92% dan Weighted Naïve Bayes sebesar 84%. Hasil akurasi dapat dilihatpada Tabel 2.
Berdasarkan uji coba 2, dilakukan proses pemilihan fitur sebanyak R (50, 30, dan 10 termterbaik). Dari hasil pemilihan fitur menggunakan 50 dan 30 term terbaik didapatkan akurasisebesar 91% untuk metode usulan dan 95% untuk metode Naïve Bayes biasa. Sedangkan ketikamenggunakan 10 term terbaik didapatkan akurasi sebesar 94% untuk metode usulan dan91% untuk metode Naïve Bayes biasa. Hasil uji coba terhadap pemilihan fitur dapat dilihat padaTabel 3.
4. Pembahasan
Dari hasil uji coba 1 didapatkan nilai akurasi Naïve Bayes sebesar 92% sedangkan nilai akurasiuntuk metode yang diusulkan atau Weighted Naïve Bayes sebesar 94%. Hasil metode yangdiusulkan lebih tinggi disebabkan oleh pemberian bobot pada probabilitas dari setiap kata padadokumen terhadap kategori. Pemberian bobot pada probabilitas mengakibatkan jarak antarpeluang satu kata terhadap kategori semakin jauh. Hasil dari penelitian yang diusulkan sesuaidengan penelitian Hilden, Ferreira dan Hall yang berpendapat bahwa pembobotan atribut kelasdapat meningkatkan pengaruh prediksi [11][12][13].
Akan tetapi pada uji coba 2, akurasi pada metode yang diusulkan cenderung rendahdibandingkan dengan Naïve Bayes biasa. Hal ini dikarenakan term yang sering muncul padaseluruh kategori dokumen menghasilkan nilai Gain Ratio yang tinggi dan mengakibatkanterjadinya kesalahan klasifikasi. Setelah diketahui hasil akurasi pada uji coba 2 rendah. Maka,dilakukan proses pemilihan fitur terbaik untuk mengatasi kesalahan klasifikasi yang disebabkanoleh sering munculnya term pada seluruh dokumen. Dari hasil uji coba pemilihan fitur
L36
menggunakan 50 dan 30 term terbaik didapatkan akurasi sebesar 91% untuk metode usulandan 95% untuk metode Naïve Bayes biasa. Hal ini dikarenakan term yang sering muncul padakelas lain terdapat pula pada kelas yang diuji. Sedangkan ketika menggunakan 10 term terbaikdidapatkan akurasi sebesar 94% untuk metode usulan dan 91% untuk metode Naïve Bayesbiasa. Hal ini dikarenakan term yang digunakan pada kelas yang diuji merepresentasikan kelastersebut. Sehingga pada uji coba ini diketahui bahwa pemilihan fitur terbaik dapat mengurangijumlah term yang sering muncul pada kelas lain.
5. Kesimpulan
Metode Weighted Naïve Bayes dapat mengoptimalkan nilai akurasi metode Naïve Bayes biasa.Hal ini dapat dilihat dari hasil akurasi Weighted Naïve Bayes sebesar 94% dibandingkandengan Naïve Bayes biasa sebesar 92%. Weighted Naïve Bayes dapat menghasilkan tingkatakurasi yang lebih tinggi dikarenakan setiap probabilitas dari atribut diberi bobot yangmenghasilkan nilai yang lebih tinggi. Ketika dilakukan pemilihan fitur mengunkan 10 term terbaikdidapatkan akurasi sebesar 94% untuk metode usulan dan 91% untuk metode Naïve Bayesbiasa. Hal ini dapat disimpulkan bahwa pemilihan fitur dapat mengatasi kesalahan klasifikasi.
Daftar Pustaka
[1] U.S. Fish dan Wildlife Service. 2013. “Definitions of terms and phrases”. February 8, 2013.http://www.fws.gov/stand/defterms.html, diakses tanggal 12 Des 2015
[2] Tenenboim, L., Shapira, B., dan Shoval, P. “Ontology-based classification of news in anelectronic newspaper”. Intelligent Information and Engineering Systems Conference. Varna,Bulgaria: 2008.
[3] D. Lewis. “Naive Bayes at forty: The independence assumption in information retrieval.ECML-98: Proceedings of the Tenth European Conference on Machine Learning”. Berlin.April 1998: 4–15.
[4] J. Hand dan K. Yu. “Idiot’s Bayes - not so stupid after all? International Statistical Review”.2001; 69 (3):385–398.
[5] Kononenko, I. “Comparison of inductive and naive Bayesian learning approaches to automaticknowledge acquisition. Current Trends in Knowledge Adquisition 1990: 190-197.
[6] Langley dan S. Sage. Induction of selective Bayesian classifiers. In Proceedings of theTenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann. 1994: 399–406.
[7] Hamzah, A. Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk PengelompokkanTeks Berita dan Abstrak Akademik. Prociding Seminar Nasional Aplikasi Sains & Teknologi(SNAST) Periode III. Yogyakarta: 3 November 2012.
[8] Garcia, S. Search Engine Optimisation Using Past Queries. School of Computer Scienceand Information Technology. Science Engineering and Technology for Portfolio. RMITUniversity: 2007.
[9] Baldi, P., Frasconi, P., dan Smyth, P. Modelling The Internet and The Web – ProbabilisticMethods and Algorithms. Wiley Online Library: 2003.
[10] Zhang, H. dan Sheng, S. Learning Weighted Naive Bayes with Accurate Ranking.Proceedings of the Fourth IEEE International Conference on Data Mining: 2004.
[11] Hilden dan B. Bjerregaard. Computer-aided diagnosis and the atypical case. InDecision Making and Medical Care: Can Information Science Help. North-HollandPublishing Company. 1976: 365–378.
[12] T. A. S. Ferreira, D. G. T. Denison, dan D. J. Hand. Weighted naive Bayes modellingfor data mining. 2001
[13] A. Hall. A decision tree-based attribute weighting filter for naive Bayes. Knowledge-Based
Systems, 2007; 20:120–126.[14] Kullback, S., dan Leibler, R. A., On Information and Sufficiency, The Annalsof
Mathematical Statistics, 1951; 22(1): 79-86.[15] Rényi, A. On Measures of Information and Entropy. Proceedings of the 4th
Berkeley symposium on Mathematics, Statistics and Probability, 1961: 547-561.[16] Hermaduanti, N. dan Kusumadewi, S. Sistem Pendukung Keputusan Berbasis Sms
Untuk Menentukan Status Gizi Dengan Metode K-Nearest Neighbor. Seminar NasionalAplikasi Teknologi Informasi: 2008.
SURAT PERNYATAAN KETUA PENELITI
Yang bertanda tangan di bawah ini :Nama : Dr. Titin Winarti, S.Kom, MMNIDN : 0627116901Pangkat / Golongan : Pembina Utama Muda /IV CJabatan Fungsional : Lektor KepalaDengan ini menyatakan bahwa Laporan penelitian saya dengan judul :Yang diusulkan Tahun Akademik 2018/2019 bersifat orisinil dan belum pernah dibiayai olehlembaga / sumber dana lain.Bilamana di kemudian hari ditemukan ketidaksesuaian dengan pernyataan ini, maka sayabersedia dituntut dan diproses sesuai dengan ketentuan yang berlaku dan mengembalikanseluruh biaya penelitian yang sudah diterima ke Universitas Semarang.Demikian pernyataan ini dibuat dengan sesungguhnya dan dengan sebenar-benarnya.
MengetahuiKetua LPPM USM ,
Iswoyo, S.Pt. MPNIDN 0606126801
Semarang, 9 September 2019Yang Menyatakan,
Ketua Peneliti,
Titin Winarti, S. Kom, MMNIDN. 0627116901