Top Banner
123

ii - Home | Repository USM

Dec 01, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: ii - Home | Repository USM
Page 2: ii - Home | Repository USM

ii

Page 3: ii - Home | Repository USM

iii

Page 4: ii - Home | Repository USM

iv

IDENTITAS DAN URAIAN UMUM

1. Judul Penelitian : Deteksi Kemiripan Dokumen Bahasa IndonesiaDengan Menggunakan Model Ruang Vektor

2. Tim Penelitian

No Nama Jabatan BidangKeahlian Prodi Asal Alokasi Waktu

(Jam/Minggu)1. Dr. Titin Winarti,

MMKetua Teknologi

InformasiSistemInformasi

5

2. Drs. WawanSetiawan, MM

Anggota Ekonomi Ekonomi 5

3. Iswoyo, S.Pt., MP Anggota Peternakan TeknologiHasilPertanian

5

4. Endah Pujiastuti,S.H., M.H

Anggota IlmuHukum

Ilmu Hukum 5

3. Objek Penelitian ( jenis material yang akan diteliti dan segi penelitian ) :Dokumen Laporan Kerja Praktek

4. Masa Pelaksanaan : Semester Genap 2018/2019

5. Lokasi Penelitian (lab/studio/lapangan): Lab. Komputer FTIK Semarang

6. Instansi lain yang terlibat (jika ada, dan uraikan apa kontribusinya):Jurusan Teknologi Informasi.

7. Temuan yang ditargetkan (penjelasan gejala atau kaidah, metode, teori, produk, ataurekayasa) : Membuktikan Sebuah Algoritma Ruang Vektor untuk pengujian kesamaandokumen

8. Jurnal ilmiah yang menjadi sasaran (tuliskan nama terbitan berkala ilmiah internasionalbereputasi, nasional terakreditasi, atau nasional tidak terakreditasi dan tahun rencanapublikasi) : Pengembangan Rekayasa Teknologi

9. Rencana luaran HKI, buku, purwarupa atau luaran lainnya yang ditargetkan, tahunrencana perolehan atau penyelesaiannya (jika ada) : HKI Laporan Penelitian

Page 5: ii - Home | Repository USM

v

DAFTAR ISI

HALAMAN JUDUL ................................................................................................i

HALAMAN PENGESAHAN LAPORAN............................................................. ii

HALAMAN PERSETUJUAN REVIEWER ........................................................ iii

IDENTITAS DAN URAIAN UMUM....................................................................iv

DAFTAR ISI............................................................................................................v

RINGKASAN....................................................................................................... vii

BAB 1. PENDAHULUAN ......................................................................................1

1.1 Latar Belakang ……………………...…………………..…………..……...1

1.2 Perumusan Masalah………………………………………………………...3

1.3 Luaran Yang Dihasilkan.……………………………………………….......3

BAB II Tinjauan Pustaka .........................................................................................4

2.1 Plagiarisme ....................................................................................................4

2.1.1 Pengertian Plagiarisme.......................................................................... 4

2.1.2 Metode Pendeteksi Plagiarisme ........................................................... 5

2.1.3 Kebutuhan Mendasar Algoritma Pendeteksi Plagiarisme .................... 5

2.1.4. Persentase Kata, Kalimat dan Paragraf ............................................... 6

2.2 Information Retrieval.....................................................................................6

2.2.1 Arsitektur Information Retrieval........................................................... 6

2.2.2 Koleksi Dokumen ( Corpus ) ............................................................... 7

2.2.3 Text Preprocessing .............................................................................. 7

2.3 Model dalam Information Retrieval ............................................................14

2.3.1 Model Boolean ................................................................................... 14

2.3.2 Model Probabilistik ............................................................................ 15

2.3.2 Model Ruang Vektor .......................................................................... 15

Page 6: ii - Home | Repository USM

vi

2.4 Pemrosesan Dokumen .................................................................................19

2.5 Jaccard Coefficient ......................................................................................19

2.6 Algoritma Winnowing.................................................................................20

2.6.1 Pengenalan Algoritma......................................................................... 20

2.6.2 Langkah-langkah Algoritma Winnowing............................................ 20

2.6.2.1 Preprocessing........................................................................... 21

2.6.2.2 Metode K-gram........................................................................ 21

2.6.2.3 Rolling Hash............................................................................ 22

2.6.2.4 Pembentukan Window............................................................ 23

2.7 Peneliti Terdahulu .......................................................................................23

BAB III Tujuan dan Manfaat Penelitian................................................................25

3.1 Tujuan Penelitian .........................................................................................25

3.2 Manfaat Penelitian .......................................................................................25

BAB IV Metodologi Penelitian .............................................................................26

4.1 Identifikasi Masalah.....................................................................................26

4.2 Rumusan Masalah........................................................................................26

4.3 Studi Pustaka ...............................................................................................27

4.4 Hipotesa .......................................................................................................27

4.5 Analisa .........................................................................................................27

4.6 Perancangan Perangkat Lunak.....................................................................31

4.5 Implementasi dan Pengujian ........................................................................31

Page 7: ii - Home | Repository USM

vii

BAB V Pembahasan ..............................................................................................33

5.1 Pendeteksian Sumber Dokumen ..................................................................33

5.2 Pembuatan Query.........................................................................................34

5.3 Pencarian Informasi dengan Model Ruang Vektor ......................................41

5.4 Algoritma Winnowing dengan Pendekatan biword .....................................45

5.5 Hasil Pengujian............................................................................................69

BAB VI Penutup ....................................................................................................70

6.1 Kesimpulan..................................................................................................70

6.2 Saran ............................................................................................................70

LAMPIRAN

Page 8: ii - Home | Repository USM

viii

DAFTAR GAMBAR

Gambar 2.1 Arsitektur Information Retrieval..........................................................7

Gambar 2.2 Contoh lima Tahap Indexing................................................................8

Gambar 2.3 Representasi Grafis Sudut Vektor Dokumen dan Query ...................17

Gambar 2.4 Besar Sudut antara vektor query dan vektor dokumen ......................18

Gambar 4.1 Tahapan Penelitian.............................................................................26

Gambar 4.2 Analisa Kerangka Teoritis Penelitian ................................................28

Gambar 5.1 Flowchart Source Detection...............................................................34

Gambar 5.2 Flowchart pembuatan query menggunakan algoritma ..................... 36

stemming Nazief Adriani

Gambar 5.3. Flowchart pembuatan query tanpa menggunakan .......................... 37

Algoritma stemming

Gambar 5.4. Flowchart Preprocessing Dokumen ................................................. 38

Gambar 5.5 Flowchart Stopword Removal .......................................................... 38

Gambar 5.6.Flowchart Algoritma Stemming Nazief Adriani .............................. 39

Gambar 5.7. Flowchart Pembentukan triword, quadword dan pentaword ........... 40

Gambar 5.8 Flowchart Perhitungan Frekuensi triword, quadword dan pentaword 40

Gambar 5.9 Flowchart Pemilihan triword, quadword dan pentaword menjadi query41

Gambar 5.10 Tahapan Preprocessing Dokumen .................................................. 41

Gambar 5.11 Tahapan Preprocessing Query ........................................................ 43

Gambar 5.12 Penerapan Model Ruang Vektor .................................................... 44

Gambar 5.13 Tahapan dalam IR .......................................................................... 45

Gambar 5.14 Flowchart Algoritma Winnowing dengan Pendekatan biword ...... 46

Gambar 5.15 Flowchart Proses Preprocessing .................................................... 47

Gambar 5.16 Flowchart Proses Tokenisasi ......................................................... 48

Page 9: ii - Home | Repository USM

ix

Gambar 5.17 Flowchart Proses Mendapatkan nilai MD5 ....................................... 48

Gambar 5.18 Flowchart Hitung Nilai hash............................................................... 49

Gambar 5.19 Flowchart proses Pembentukan window............................................. 49

Gambar 5.20 Flowchart Proses Memilih Fingerprint ............................................... 50

Gambar 5.21 Flowchart Proses Hitung Similarity .................................................... 50

Page 10: ii - Home | Repository USM

x

DAFTAR TABEL

Tabel 2.1. Penelitian Pengukuran Kemiripan .......................................................24

Tabel 5.1 Hasil pembobotan Index Dokumen ...................................................... 56

Tabel 5.2 Hasil pembobotan Index Query ........................................................... 58

Tabel 5.3 Hasil Token Biword ............................................................................ 60

Tabel 5.4 Hasil Hash Token biword.................................................................... 65

Tabel 5.5 Token biword dengan fingerprint yang sama ..................................... 69

Page 11: ii - Home | Repository USM

xi

ABSTRAK

Plagiarisme merupakan sebuah tindakan penggunaan dan mengutip sebagian isikarya tulisan orang lain tanpa mencantumkan sumber dan kemudian diakui sebagaimiliknya sendiri. Namun pendeteksian plagiarisme yang telah dikembangkan masihmelakukan pendeteksian 1:1 dan tidak dapat menemukan sumber dari dokumen.Penelitian ini menggabungkan antara pendeteksian plagiarisme dan mesinpencarian dengan model ruang vektor, ini bertujuan melakukan pendeteksianplagiarisme terhadap banyak dokumen. Konsep pendeteksian ini, yaitu melakukanpembuatan query terhadap isi dokumen dengan menggunakan word phrasingberbentuk triword, quadword dan pentaword dengan menggunakan stemmingalgoritma Nazief Adriani dan tanpa stemming serta melakukan pemilihan frekuensikemunculan kata tertinggi, terendah dan tengah yang akan digunakan padapencarian model ruang vektor, lalu mengukur kemiripan antara dokumen inputterhadap dokumen yang telah dihasilkan oleh pencarian menggunakan algoritmabiword winnowing. Pengujian akan dilakukan sebanyak lima kali dengandelapan belas konfigurasi pembuatan query berdasarkan kombinasi wordsphrasing. Kesimpulan Dari beberapa pengujian pembuatan query berdasarkanwords phrasing dapat menemukan dokumen yang memiliki kesamaan antaradokumen uji dan dokumen yang ada pada corpus serta dapat menunjukkanpersamaan kutipan antara dua dokumen. Selain itu tahap pengujian mengasumsikanpembuatan query berbentuk triword tanpa stemming dan pemilihan frekuensikemunculan kata tertinggi dapat menghasilkan pencarian yang memiliki rata-ratanilai jaccard coefficient sebesar 15.66% dan stabil disetiap pengujiannya.

Kata kunci : Model Ruang Vektor, Plagiarisme, Words Phrasing

Page 12: ii - Home | Repository USM

i

Page 13: ii - Home | Repository USM

1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Teknologi menjadi salah satu faktor pendukung untuk berkembangnya suatu

masa, dengan kemajuan teknologi tentunya akan terus memberikan kemudahan bagi

manusia. Namun dengan semakin canggihnya teknologi membuat manusia semakin

malas untuk membuat ide-ide baru, karena pada dasarnya manusia menginginkan

kemudahan dalam segala hal. Salah satu teknologi yang sangat membuat manusia

malas berkreasi dalam menulis adalah internet. Dengan adanya internet kita dapat

mencari sumber referensi yang sudah ada, dan dapat dengan mudah untuk diambil.

Jika hanya menjadikannya sebagai sumber referensi itu tidaklah menjadi suatu

masalah, namun jika kita menyalin dan menggunakan sebagai isi dari tulisan kita

dan tanpa menyertakan sumber yang ada ini bisa dikatakan suatu tindakan

plagiarisme. Plagiarisme merupakan sebuah tindakan penggunaan atau mengutip

sebagian isi karya tulisan orang lain tanpa mencantumkan sumber tulisan yang

kemudian diakui sebagai miliknya sendiri. Plagiarisme mudah untuk dilakukan,

hanya dengan menyalin, menempel, dan memodifikasi pada sebagian isi

dokumen atau keseluruhan isi dokumen (Rafles,2013).

Sejumlah penelitian telah dilakukan dalam membangun sebuah aplikasi

pendeteksian plagiarisme dokumen diantaranya, algoritma biword winnowing

(Ridho, 2013), Pendekatan k-gram berbasis frasa (Rafles, 2013). Algoritma-

algoritma ini dapat diterapkan untuk mendeteksi bentuk plagiarisme seperti

verbatim copy (menyalin kata perkata) atau copy-paste dan pharafrase. Selain itu

ada juga penelitian yang dilakukan dalam membangun sebuah aplikasi

information retrieval diantaranya, algortima model ruang vektor (Syahroni,2012).

Penelitian-penelitian diatas memang sudah teruji untuk melakukan

pendeteksian plagiarisme dokumen dan information retrieval. Namun penelitian

pendeteksian plagiarisme yang telah dilakukan oleh Ridho (2013) dan Rafles

(2013) hanya melakukan pendeteksian 1 : 1 yaitu antara dokumen asli dan

Page 14: ii - Home | Repository USM

2

dokumen yang dianggap plagiat, sehingga tidak dapat melakukan pendeteksian

dengan banyak dokumen sumber yang ada secara bersamaan. Kelemahan yang

ada juga ada pada penelitian sebelumnya mengenai mesin pencarian (information

retrieval) dengan model ruang vektor yang telah dilakukan oleh Syahroni (2012),

penelitian pencarian ini masih menggunakan manajemen basis data MySQL

sehingga mempengaruhi kecepatan penelusuran pencarian informasi. Untuk

penelitian yang dilakukan oleh Rafles (2013) mengenai pendeteksian plagiarisme

dengan pendekatan k-gram berbasis frasa dalam bentuk biword, triword dan

quadword dapat menemukan kutipan terpanjang yang sama di antara dua

dokumen teks dan mengukur kemiripan dokumen teks.

Dari permasalahan yang ada dan penelitian-penelitian yang telah

dipaparkan penulis mendapatkan sebuah gambaran penelitian baru

menggabungkan metode pendeteksian plagiarisme dan information retrieval. yang

bertujuan mencari sumber referensi dari sebuah dokumen yang diduga melakukan

plagiarisme terhadap dokumen lain yang telah disediakan pada koleksi dokumen

dengan menggunakan words phrasing (frasa) dalam bentuk triword, quadword

dan pentaword dari sebuah dokumen yang diproses dan dianalisa untuk

menghasilkan query yang digunakan pada mesin pencarian menggunakan model

ruang vektor tanpa menggunakan database untuk mendapatkan sumber dokumen

yang diduga relevan terhadap dokumen yang diduga melakukan plagirisme dan

melakukan perbandingan antara dokumen yang telah berhasil didapatkan oleh

mesin pencari terhadap dokumen yang diduga melakukan plagiarisme

menggunakan algoritma biword winnowing untuk mendapatkan fingerprint

dokumen dan melakukan perhitungan similarity menggunakan Jaccard

Coefficient.

Penelitian ini bertujuan untuk dapat membantu mendeteksi satu dokumen

terhadap banyak sumber dokumen yang telah terorganisasi dalam sebuah sistem

dengan menggabungkan mesin pencari sebagai pendeteksi sumber dari sebuah

dokumen dan melakukan pendeteksi plagiarisme.

Page 15: ii - Home | Repository USM

3

1.2. Perumusan Masalah

Berdasarkan latar belakang permasalahan di atas, maka dirumuskan masalah

penelitian ini, yaitu: “Bagaimana mendeteksi sumber dari sebuah dokumen teks

untuk melakukan pendeteksian plagiarisme terhadap dokumen berdasarkan word

phrasing menggunakan model ruang vektor”.

1.3. Luaran yang DihasilkanLuaran yang diharapkan dari penelitian ini adalah sebagai berikut :

Tabel 1.1 Capaian Luaran

No Jenis Luaran Indikator Capaian

1 Publikasi ilmiah di jurnal/prosiding Submited

2 Pemakalah dalam temu ilmiah Ada

3 Bahan ajar Tidak ada

4

Luaran lainnya jika ada (Teknologi TepatGuna, Model/Purwarupa/Desain/KaryaSeni/Rekayasa Sosial)

Ada(purwarupa aplikasi)

Page 16: ii - Home | Repository USM

4

BAB II

TINJAUAN PUSTAKA

2.1. Plagiarisme

2.1.1 Pengertian Plagiarisme

Plagiarisme berasal dari kata latin yaitu plagiarius yang berarti pencuri.

Menurut KBBI Plagiarisme adalah penjiplakan atau pengambilan karangan,

pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan

pendapat sendiri (KBBI, Edisi III 2005). Dari arti kata ini, disimpulkan bahwa

melakukan tindakan plagiarisme berarti mencuri hasil karya orang lain.

Plagiarisme juga dapat didefenisikan sebagai perbuatan mengambil hasil karangan

orang lain dan mengakui sebagai hasil karangan sendiri atau mengutip karya

tulisan seseorang tanpa mencatumkan sumber tulisan. Tindakan ini dapat terjadi

dalam berbagai bidang, salah satunya pada bidang pendidikan. Hal ini

dikarenakan karena kurangnya pemahaman siswa, mahasiswa atau elemen

pendidikan lainnya tentang plagiarisme dan pemahaman mengenai penulisan

referensi.

Plagiarisme tidak selalu dilakukan dengan sengaja, ada kalanya perbuatan

ini bersifat tidak disengaja, kebetulan dan dapat mencakup pencurian sendiri (self

stealing). Berikut ini beberapa sifat plagiarisme (Steven, 2009):

1. Kebetulan (accidental)

Praktik plagiarisme ini dapat terjadi karena kurangnya pengetahuan akan

plagiarisme dan pemahaman mengenai penulisan referensi.

2. Tidak disengaja (unintentional)

Ketersediaan informasi dalam jumlah yang sangat besar mempengaruhi

pemikiran sehingga ide yang sama dapat dihasilkan secara tertulis maupun

lisan sebagai milik pribadi.

3. Disengaja (intentional)

Tindakan menyalin sebagian atau keseluruhan hasil karya orang lainsecara sengaja tanpa mengikutsertakan nama pemilik hasil karya.

4. Diri sendiri (self plagiarism)

Page 17: ii - Home | Repository USM

5

Penggunaan hasil karya yang dibuat diri sendiri dalam bentuk lain tanpa

menunjuk hasil karya asli.

2.1.2 Metode Pendeteksi Plagiarisme

Menurut Wang Tao (2008), untuk mendeteksi plagiarisme dokumen teks

terdapat tiga metode atau pendekatan yang dapat dilakukan, yaitu:

1. Grammar-based method

Metode ini fokus pada struktur tata bahasa dari dokumen dan menggunakan

sebuah pendekatan string-based matching untuk menentukan kemiripan antara

dokumen. Algoritma yang digunakan pada metode ini yaitu algoritma longest

common subsequence, algoritma winnowing dan hashbreaking. Dengan

menggunakan grammar-based method untuk mendeteksi plagiarisme verbatim

copy, maka hasil yang didapatkan akan lebih baik untuk mendeteksi dokumen

teks yang memuat sinonim atau penulisan ulang (rewritten).

2. Semantics-based method

Metode ini menggunakan model ruang vektor yang terdapat pada sistem temu

kembali. Statistik frekuensi kata di dalam sebuah dokumen digunakan untuk

memperoleh fitur vektor dari dokumen, kemudian menggunakan dot product,

cosine, dan sebagainya untuk mengukur fitur vektor dua dokumen. Fitur

vektor ini merupakan kunci dari kemiripan dokumen. Metode ini sulit

menentukan letak atau posisi teks yang telah dijiplak, sehingga kurang efektif

untuk mendeteksi bagian dokumen yang telah diplagiasi .

3. Grammar semantics hybrid method

Metode ini digunakan untuk mendeteksi bentuk plagiarisme verbatim copy

dan pharafrase. Algoritma longest commonly consecutive word sendiri

termasuk pada grammar-based method karena algoritma ini digunakan untuk

mendeteksi plagiarisme verbatim copy (menyalin kata perkata).

2.1.3 Kebutuhan Mendasar Algoritma Pendeteksi Plagiarisme

Kebutuhan mendasar yang harus dipenuhi oleh suatu algoritma untuk

melakukan pendeteksian plagiarisme dokumen (Scheilmer, 2003) adalah:

Page 18: ii - Home | Repository USM

6

1. Whitespace InsensitivityDalam melakukan pencocokan terhadap dokumen teks seharusnya tidak

terpengaruh oleh spasi, jenis huruf (kapital atau normal), tanda baca dan

sebagainya.

2. Noise Surpression

Menghindari penemuan kecocokan dengan panjang kata yang terlalu kecil

atau kurang relevan, misal: ‘the’. Panjang kata yang ditengarai merupakan

penjiplakan harus cukup untuk membuktikan bahwa kata-kata tersebut telah

dijiplak dan bukan merupakan kata yang umum digunakan.

3. Position Independence

Penemuan kecocokan atau kesamaan tidak harus bergantung pada posisi kata-

kata. Meskipun berada pada posisi yang tidak sama, kecocokan atau kesamaan

harus dapat ditemukan.

2.1.4. Persentase kata, kalimat dan paragraf

Ada tiga macam klasisfikasi plagiarisme berdasarkan proporsi atau

persentase kata, kalimat, kuitpan, paragraf yang digunakan, yaitu plagiarisme

ringan, plagiarisme sedang dan plagiarisme berat. Plagiarisme ringan adalah

plagiarisme yang jumlah persentase kata, kalimat, paragraf yang digunakan tidak

melebihi 30%. Plagiarisme sedang adalah penggunaan kutipan kata, kalimat,

paragraf 30-70% dan Plagiarisme berat adalah penggunaan kutipan kata, kalimat

dan paragraf labih dari 70 % (Winoto,2012).

2.2. Information Retrieval

Information Retrieval merupakan sistem untuk merepresentasikan,

menyimpan, mengorganisasikan, dan memperoleh informasi (Baeza-Yates

dkk,1999). Menurut Information retrieval dikatakan juga sebagai penemuan

informasi (dokumen) pada keadaan yang tidak terstruktur (teks) untuk memenuhi

kebutuhan informasi dalam suatu koleksi yang besar (Manning dkk,2009).

2.2.1 Arsitektur Information Retrieval

Menurut Syahroni (2012), arsitektur information retrieval dapatdigambarkan seperti gambar 2.1 berikut:

Page 19: ii - Home | Repository USM

7

Gambar 2.1 Arsitektur Information Retrieval (Syahroni, 2010)

Ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan

pre-processing terhadap database dan kemudian menerapkan model tertentu

untuk menghitung kedekatan (relevansi atau similarity) antara dokumen di

dalam database yang telah dipreproses dengan query pengguna.

2.2.2 Koleksi Dokumen (Corpus)

Istilah corpus pada prinsipnya bermakna koleksi dokumen yang diindeks

dan dijadikan target pencarian. Suatu corpus modern memiliki beberapa

karakteristik yakni (McEnery dkk, 2001) :

1. Sampling & representativeness

2. Finite size

3. Machine-readable form

4. A standard reference

Suatu corpus pengujian sistem temu balik informasi terdiri dari:

1. Koleksi dokumen.

2. Topik-topik, yang dapat digunakan sebagai query.

3. Relevance judgement, sebagai daftar dokumen yang relevan dengan topik-

topik yang tersedia.

2.2.3 Text Preprocessing

Pada tahapan preprocessing, query yang dimasukkan pengguna dikonversi

sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan

Page 20: ii - Home | Repository USM

8

term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi

antara query dan dokumen berdasarkan pada term-term tersebut. Sebagai hasilnya,

sistem mengembalikan suatu daftar dokumen terurut descending (ranking) sesuai

nilai kemiripannya dengan query pengguna (Cios dkk, 2007).

Gambar 2.2 Contoh lima tahap indexing pada sistem berbasis content secaraurut mulai dari markup removal, tokenization, stopwords filtration, stemming

dan weighting

Secara garis besar gambar 2.2 dapat dijelaskan sebagai berikut :

a. Pembangunan Index

Pembangunan index dari koleksi dokumen merupakan tugas pokok pada

tahapan preprocessing di dalam sistem temu balik informasi. Kualitas index

mempengaruhi efektivitas dan efisiensi sistem temu balik informasi. Index dokumen

adalah himpunan term yang menunjukkan isi atau topik yang dikandung oleh

dokumen.

Index akan membedakan suatu dokumen dari dokumen lain yang berada di

dalam koleksi. Ukuran index yang kecil dapat memberikan hasil buruk dan mungkin

beberapa item yang relevan terabaikan. Index yang besar memungkinkan ditemukan

banyak dokumen yang relevan tetapi sekaligus dapat menaikkan

Page 21: ii - Home | Repository USM

9

jumlah dokumen yang tidak relevan dan menurunkan kecepatan pencarian

(Syahroni, 2012).

Langkah-langkah pembuatan inverted index menurut Manning dkk (2009) yaitu:

1. Penghapusan format dan markup dari dalam dokumen

Tahap ini menghapus semua tag markup dan format khusus dari dokumen,

terutama pada dokumen yang mempunyai banyak tag dan format seperti

dokumen (X)HTML.

2. Pemisahan rangkaian kata (tokenization)

Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,

paragraf atau halaman menjadi token atau potongan kata tunggal atau

termmed word. Tahapan ini juga menghilangkan karakter-karakter

tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil

(lower case).

3. Penyaringan (filtration)

Pada tahapan ini ditentukan term mana yang akan digunakan untuk

merepresentasikan dokumen sehingga dapat mendepenelitiankan isi

dokumen dan membedakan dokumen tersebut dari dokumen lain di

dalam koleksi. Term yang sering digunakan dianggap sebagai stop-word

dan dihapus. Penghapusan stop-word dari dalam suatu koleksi

dokumen pada satu waktu membutuhkan banyak waktu. Solusinya

adalah dengan menyusun suatu pustaka stop-word atau stop-list dari

term yang akan dihapus (Manning, 2009).

4. Konversi term ke bentuk akar (stemming)

Stemming adalah salah satu cara yang digunakan untuk meningkatkan

performa sistem temu balik informasi dengan cara mentransformasi kata-

kata dalam sebuah dokumen teks ke bentuk kata dasarnya, contohnya kata-

kata menyukseskan, tersukseskan dan disukseskan akan ditransformasi ke

stem yang sama yaitu sukses. Algoritma stemming untuk bahasa yang satu

berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh

bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia

sehingga algoritma stemming untuk kedua bahasa tersebut juga

Page 22: ii - Home | Repository USM

10

berbeda.Tidak banyak algoritma yang dikhususkan untuk stemming bahasa

Indonesia dengan berbagai keterbatasan didalamnya, diantaranya :

a. Algoritma Porter, Algoritma ini membutuhkan waktu yang lebih

singkat dibandingkan dengan stemming menggunakan Algoritma

Nazief & Adriani, namun proses stemming menggunakan Algoritma

Porter memiliki presentase keakuratan (presisi) lebih kecil

dibandingkan dengan stemming menggunakan Algoritma Nazief &

Adriani.

b. Algoritma Nazief Algoritma Nazief & Adriani, algoritma stemming

untuk teks berbahasa Indonesia yang memiliki kemampuan presentase

keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma ini

sangat dibutuhkan dan menentukan dalam proses sistem temu balik

informasi dalam dokumen Indonesia (Augusta, 2009). Algoritma

Nazief & Adriani mengacu pada aturan morfologi bahasa Indonesia

yang mengelompokkan imbuhan, yaitu imbuhan yang diperbolehkan

atau imbuhan yang tidak diperbolehkan. Pengelompokan ini termasuk

imbuhan di depan (awalan), imbuhan kata di belakang (akhiran),

imbuhan kata di tengah (sisipan) dan kombinasi imbuhan pada awal

dan akhir kata (konfiks).

DP + DP + DP + root word + DS + PP + P

Langkah-langkah pada Algoritma Nazief & Adriani adalah:

1. Kata yang belum di-stemming dicari pada kamus. Jika kata itu

langsung ditemukan, berarti kata tersebut adalah kata dasar. Kata

tersebut dikembalikan dan algoritma dihentikan.

2. Hilangkan inflectional suffixes terlebih dahulu. Jika hal ini berhasil

dan suffix adalah partikel (“lah” atau ”kah”), langkah ini dilakukan

lagi untuk menghilangkan inflectional possessive pronoun suffixes

(“ku”, “mu” atau ”nya”).

Page 23: ii - Home | Repository USM

11

3. Derivational suffix kemudian dihilangkan. Lalu langkah ini

dilanjutkan lagi untuk mengecek apakah masih ada derivational

suffix yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi

maka lakukan langkah selanjutnya.

4. Kemudian derivational prefix dihilangkan. Lalu langkah ini

dilanjutkan lagi untuk mengecek apakah masih ada derivational

prefix yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi

maka lakukan langkah selanjutnya.

5. Setelah tidak ada lagi imbuhan yang tersisa, maka algoritma ini

dihentikan kemudian kata dasar tersebut dicari pada kamus, jika kata

dasar tersebut ketemu berarti algoritma ini berhasil tapi jika kata

dasar tersebut tidak ketemu pada kamus, maka dilakukan recoding.

6. Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak

ditemukan pada kamus juga maka algoritma ini mengembalikan kata

yang asli sebelum dilakukan stemming.

Kelebihan pada algoritma Nazief dan Andriani ini adalah bahwa

algoritma ini memperhatikan kemungkinan adanya partikel-partikel

yang mungkin mengikuti suatu kata berimbuhan. Sehingga kita dapat

melihat pada rumus untuk algoritma ini yaitu adanya penempatan

possesive pronoun dan juga partikel yang mungkin ada pada suatu kata

berimbuhan. Akhir dari algoritma ini yaitu apabila pemotongan semua

imbuhan telah berhasil dan hasil pemotongan imbuhan tersebut

terdapat pada kamus maka algoritma ini dapat dikatan berhasil dalam

penentuan kata dasarnya. Dan apabila sebaliknya bahwa algoritma ini

setelah dilakukan pemotongan kata dan tidak terdapat pada kamus

maka kata berimbuhan yang telah mengalami pemotongan dikembalikan

ke keadaan semula.

Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani inimemiliki tahap-tahap sebagai berikut :

Page 24: ii - Home | Repository USM

12

Cari kata yang akan distemming dalam kamus. Jika ditemukan maka

diasumsikan bahwa kata tesebut adalah root word, maka algoritma

berhenti. Inflection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)

dibuang. Jika berupa partikel (“-lah”, “-kah”, “-tah” atau “-pun”) maka

langkah ini diulangi lagi untuk menghapus possesive pronouns (“-ku”,

“-mu”, atau “-nya”), jika ada.

1. Hapus Derivation suffixes (“-i”, “-an” atau “-kan”). Jika kata

ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke

langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut

adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut

ditemukan dalam kamus maka algoritma berhenti. Jika tidak

ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,

lanjut ke langkah 4.

2. Hapus Derivation prefix. Jika pada langkah 3 ada sufiks yang

dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa daftar kombinasi awalan-akhiran yang tidak diijinkan.

Jika ditemukan maka algoritma berhenti, jika tidak pergi ke

langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan.

Jika root word belum juga ditemukan lakukan langkah 5.

3. Jika sudah maka algoritma berhenti. Catatan: jika awalan kedua

sama dengan awalan pertama maka algoritma berhenti. Melakukan

recoding.

4. Jika semua langkah telah selesai tetapi tidak juga berhasil maka

kata awal diasumsikan sebagai root word. Proses selesai.

Tipe awalan ditentukan melalui langkah-langkah berikut:

Page 25: ii - Home | Repository USM

13

1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe

awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.

5. Pemberian bobot terhadap term (weighting)

Setiap term diberikan bobot sesuai dengan skema pembobotan yang

dipilih, apakah pembobotan lokal, global atau kombinasi keduanya.

b. Pembobotan Kata

Setiap term yang telah di-index diberikan bobot sesuai dengan skema

pembobotan yang dipilih, apakah pembobotan lokal, global atau kombinasi

keduanya. Jika menggunakan pembobotan lokal maka, pembobotan term

diekspresikan sebagai tf (term frequency). Namun, jika pembobotan global yang

digunakan maka, pembobotan term didapatkan melalui nilai idf (inverse document

frequency). Beberapa aplikasi juga ada yang menerapkan pembobotan kombinasi

keduanya yaitu, dengan mengalikan bobot lokal dan global (tf . idf) (Garcia,

2008).

1. Term Frequency

Empat cara yang dapat digunakan untuk memperoleh nilai term frequency

(tf), yaitu:

a. Raw term frequency. Nilai tf sebuah term diperoleh berdasarkan jumlah

kemunculan term tersebut dalam dokumen. Contohnya, jika suatu term

muncul sebanyak tiga kali dalam suatu dokumen maka, nilai tf term

tersebut adalah 3.

b. Logarithm term frequency. Hal ini untuk menghindari dominasi

dokumen yang mengandung sedikit term dalam query, namun

mempunyai frekuensi yang tinggi. Cara ini menggunakan fungsi

logaritmik matematika untuk memperoleh nilai tf.

tf = 1 + log(tf)……….....................................................................(2.1)

c. Binary term frequency. Hanya memperhatikan apakah suatu term ada atau

tidak dalam dokumen. Jika ada, maka tf diberi nilai 1, jika tidak

Page 26: ii - Home | Repository USM

14

mengandung su

( ) =atu term

…( ) …

(

ada diberi nilai 0. Pada cara ini jumlah kemunculan term dalam

dokumen tidak berpengaruh.

d. Augmented term frequency.

tf=0,5 + 0,5 x tf/ max(tf)…...............................................................(2.2)

Nilai tf adalah jumlah kemunculan suatu term pada sebuah dokumen,

sedangkan nilai max(tf) adalah jumlah kemunculan terbanyak sebuah

term pada dokumen yang sama.

2. Inverse Document Frequency

Inverse document frequency (idf) digunakan untuk memberikan tekanan

terhadap dominasi term yang sering muncul di berbagai dokumen. Hal ini

diperlukan karena term yang banyak muncul di berbagai dokumen, dapat

dianggap sebagai term umum (common term) sehingga tidak penting nilainya.

Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang

inverse document frequency).

………………………………………………(2.3)

Keterangan:

N : jumlah dokumen dalam corpus.

dft : document frequency atau jumlah dokumen dalam corpus yangmengandung term t.

2.3 Model dalam Information Retrieval

Di dalam bidang information retrieval, dikenal berbagai model untuk

menilai secara objektif presisi dari suatu pencarian, antara lain model Boolean

(Boolean Model), model ruang vektor (Vector Space Model) dan model

probabilistik (Probabilistic Model).

2.3.1 Model Boolean

Model Boolean adalah model yang paling awal dikenal dan paling mudah

untuk diimplementasikan. Model Boolean dalam sistem temu kembali merupakan

Page 27: ii - Home | Repository USM

15

model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar

Boolean. Dokumen adalah himpunan dari istilah (term) dan query adalah pernyataan

Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak.

Model ini menggunakan operator boolean. Istilah (term) dalam sebuah query

dihubungkan dengan menggunakan operator AND, OR atau NOT.

Beberapa karakteristik dari model boolean dalam information retrieval

adalah :

1. Model Boolean merupakan model sederhana yang menggunakan teori

dasar himpunan sehingga mudah diimplementasikan.

2. Model Boolean tidak menggunakan peringkat dokumen yang terambil.

Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan

pernyataan boolean / query yang diberikan Sehingga dokumen yang

terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam

mengambil keputusan

3. Teori himpunan memang mudah, namun tidak demikian halnya dengan

pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus

memiliki pengetahuan banyak mengenai query dengan boolean agar

pencarian menjadi efisien

2.3.2 Model Probabilistik

Model probabilistik adalah model information retrieval yang mengurutkan

dokumen dalam urutan menurun terhadap peluang relevansi sebuah dokumen

terhadap informasi yang dibutuhkan. Beberapa model yang juga dikembangkan

berdasarkan perhitungan probabilistik yaitu, Binary Independence Model, model

Okapi BM25, dan Bayesian Network Model (Manning dkk, 2009).

2.3.3 Model Ruang Vektor

Dalam sistem information retrieval, kemiripan antar dokumen

didefinisikan berdasarkan representasi bag of words dan dikonversikan ke suatu

model ruang vektor (vector space model - VSM). Beberapa karakteristik dari

model ruang vektor dalam sistem temu kembali adalah :

Page 28: ii - Home | Repository USM

16

1. Model vektor berdasarkan keyterm Model vektor mendukung partial

matching (sebagian sesuai) dan penentuan peringkat dokumen

2. Prinsip dasar model vektor adalah sebagai berikut :

a) Dokumen direpresentasikan dengan menggunkan vektor keyterm

b) Ruang dimensi ditentukan oleh keyterms

c) Query direpresentasikan dengan menggunakan vektor keyterm

d) Kesamaan document keyterm dihitung berdasarkan jarak vector

3. Model ruang vektor memerlukan :

a) Bobot keyterm untuk vektor dokumen

b) Bobot keyterm untuk query

c) Perhitungan jarak untuk vektor document keyterm

4. Kinerja

a) Efisien

b) Mudah dalam representasi

c) Dapat diimplementasikan pada document matching

Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap yaitu :

1. Pengindeks-an dokumen

2. Pembobotan indeks, untuk menghasilkan dokumen yang relevan

3. Memberikan peringkat dokumen berdasarkan ukuran kesamaan (similarity

measure)

Pada model ruang vektor, setiap dokumen di dalam database dan

query pengguna direpresentasikan oleh suatu vektor multi-dimensi (Syahroni,

2012). Prinsip utamanya adalah query diubah menjadi vektor query dan dokumen-

dokumen di dalam koleksi dokumen diubah menjadi vektor-vektor dokumen

(Salton, 1988).

Rumus Relevansi

Penentuan relevansi dokumen dengan query dipandang sebagai

pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor

query. Semakin “sama” suatu vektor dokumen dengan vektor query maka

dokumen dapat dipandang semakin relevan dengan query.

Page 29: ii - Home | Repository USM

17

relev

(ansiny

) =dal

=h:

………

Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan

perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah

kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh

kedua vektor.

Gambar 2.3 Representasi Grafis Sudut Vektor Dokumen dan Query

Perhitungan kesamaan antara vektor query dan vektor dokumen dilihat

dari sudut yang paling kecil. Sudut yang dibentuk oleh dua buah vektor dapat

dihitung dengan melakukan perkalian dalam (inner product), sehingga rumus

a a a, cos | || | ……………………………………………...(2.4)

Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua

buah vektor dalam ruang berdimensi-n, dan θ adalah sudut yang dibentuk oleh

kedua vektor tersebut. Maka

Q D Q D cos θ …………………………………………………………….(2.5)

seperti pada Gambar 2.3

Page 30: ii - Home | Repository USM

18

edan

=gkan

∑ ) dan( = ∑ ) …(

seba

(gai

ber

)= ut :

= = ∑ ) 2= 1 ()2 ∑∑= 1 .…)= 1

Gambar 2.4 Besar sudut antara vektor query dan vektor dokumen

dimana Q D adalah hasil perkalian dalam (inner product) kedua vektor,

s

| | | | ……………………..……(2.6)

merupakan panjang vektor atau jarak Euclidean suatu vektor dengan titik nol.

Metode pengukuran kesesuaian ini memiliki beberapa keuntungan, yaitu

adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil pengaruh

panjang dokumen. Jarak Euclidean (panjang) kedua vektor digunakan sebagai

faktor normalisasi. Hal ini diperlukan karena dokumen yang panjang cenderung

mendapatkan nilai yang besar dibandingkan dengan dokumen yang lebih pendek.

Dengan demikian, ukuran kosinus sudut antara kedua vektor dapat dinyatakan

ik, cosdimana :

| || | ∙( ∙ ( …………………...(2.7)

Page 31: ii - Home | Repository USM

19

mengukur tingkat kemiripan

coefficient: ( ) = ( )∩( )∪ ( )…( ) ……

wqi = bobot pada query ke-i = tf x idf ……………………..........................(2.8)

wdij = bobot pada dokumen ke-i istilah ke-j = tf x idf ……………………...(2.9)

tf = term frequency = frekuensi kemunculan istilah pada dokumen atau query

2.4. Pemrosesan Dokumen

Dalam ilmu sistem temu kembali informasi (Information Retrieval)

khususnya pada algoritma pendeteksi plagiarisme dokumen teks ada beberapa

istilah yang tedapat dalam hal pemrosesan dokumen, diantaranya:

1. Preprocessing atau pembersihan teks

Merupakan tahapan yang dilakukan untuk mengubah data mentah menjadi

data berkualitas yaitu data yang telah memenuhi persyaratan untuk

diekseskusi pada sebuah algoritma. Bentuk pembersihan teks ini dapat

berupa menghilangkan spasi, tanda baca, simbol-simbol, mengubah huruf

kapital menjadi huruf kecil dan menghilangkan karakter-karakter yang

tidak relevan lainnya.

2. Tokenizing merupakan tahap pemotongan kalimat menjadi kata pada

sistem temu kembali informasi. Pemotongan kata ini dapat berbentuk satu

kata (unigram atau uniword), dua kata (bigram atau biword), tiga kata

(trigram atau triword), empat kata (quadgram atau quadword) dan

seterusnya.

3. Irisan (intersection) merupakan tahapan untuk menemukan kata bertalian

yang sama di antara dua dokumen teks.

2.5. Jaccard Coefficient

Jaccard Coefficient merupakan persamaan yang digunakan untuk

antara dua dokumen teks. Berikut persamaan jaccard

, | || | ….……………………………….(2.10)

Page 32: ii - Home | Repository USM

20

Keterangan:

A(di) : fingerprint dokumen teks 1

B(dj) : fingerprint dokumen teks 2

2.6. Algoritma Winnowing

2.6.1 Pengenalan Algoritma

Algoritma berasal dari kata algorism merupakan nama seorang penulis

buku arab terkenal yaitu Abu Jafar Muhammad Ibnu Musa Al-khuwarizmi (Al-

Khuwarizmi dibaca orang barat menjadi algorism). Kata algorism kemudian

berubah menjadi algorithm karena sering dikaitkan dengan ilmu arithmathic

maka, akhiran -sm berubah menjadi -thm. Dalam bahasa Indonesia, kata algoritm

diserap menjadi algoritma.

Algoritma (Munir, 2007) adalah urutan langkah-langkah dalam memecahkan

atau menyelesaikan suatu permasalahan. Algoritma juga sering disebut sebagai

jantung ilmu komputer atau informatika. Banyak cabang dari ilmu komputer yang

mengacu pada algoritma, misalnya algoritma perutean (routing) pesan di dalam

jaringan komputer, algoritma Knuth-Morris-Pratt untuk mencari pola di dalam teks

dan algoritma winnowing.

2.6.2 Algoritma Winnowing

Algoritma winnowing merupakan urutan langkah-langkah untuk

melakukan proses sidik jari dokumen (document fingerprinting) (Ridho, 2013).

Algoritma ini merupakan salah satu algoritma pendeteksian plagiarisme berbasis

k-gram atau n-gram. Algoritma ini digunakan untuk pendeteksian plagiarism

dokumen teks dengan mengidentifikasi bagian-bagian terkecil yang mirip pada

dokumen teks yang panjang. Algoritma winnowing dapat memberikan hasil lebih

informatif karena terdapat informasi posisi fingerprint dan memberikan jaminan

terdeteksinya dokumen teks sehingga algoritma ini lebih unggul dibandingkan

algoritma dokumen fingerprint lainnya seperti algoritma manber dan algoritma

rabin-karp.

Pengembangan algoritma winnowing telah dilakukan oleh Ridho (2013)

yaitu algoritma biword winnowing. Penelitian ini mencari konfigurasi nilai bilangan

Page 33: ii - Home | Repository USM

21

prima dan windows yang terbaik yang dapat menghasilkan nilai similaritas tinggi

dua dokumen yang dianggap melakukan plagiarisme.

2.6.2.1 Prepocessing

Menghilangkan karakter yang tidak relevan pada dokumen teks, seperti

tanda baca, tanda spasi dan mengubah huruf besar menjadi kecil.

Contoh:

Diberikan sebuah kalimat “Sistem Informasi adalah salah satu jurusan yang terdapat

di Fakuktas Teknologi Informasi dan Komunikasi”:

Setelah dilakukan proses preprocessing, sehingga terbentuk teks berikut:

“teknikinformatikaadalahsalahsatujurusanyangterdapatdifakultassainsdanteknologi”

2.6.2.2 Metode K-gram

Metode K-gram merupakan metode yang digunakan dalam proses tokenisasi

atau pemisahan teks, dengan cara membentuk substring sepanjang k karakter dari

sebuah string.

Contoh:Memotong string sepanjang k. misalnya nilai k = 7, dari kalimat diatas, sehingga

diperoleh hasil sebagai berikut:

tekniki eknikin knikinf nikinfo ikinfor kinform informa nformat

formati ormatik rmatika matikaa atikaad tikaada ikaadal kaadala

aadalah adalahs dalahsa alahsal lahsala ahsalah hsalahs salahsa

alahsat lahsatu ahsatuj hsatuju satujur atujuru tujurus ujurusa

jurusan urusany rusanya usanyan sanyang anyangt nyangte yangter

angterd ngterda gterdap terdapa erdapat rdapatd dapatdi apatdif

patdifa atdifak tdifaku difakul ifakult fakulta akultas kultass

ultassa ltassai tassain assains ssainsd sainsda ainsdan insdant

nsdante sdantek dantekn antekno nteknol teknolo eknolog knologi

nilai k yang dianjurkan adalah bernilai 30, hal tersebut bertujuan untuk

mendapatkan hasil yang maksimal (Ridho,2013).

Page 34: ii - Home | Repository USM

22

2.6.2.3 Rolling Hash

Fungsi hash adalah fungsi yang menerima masukan string yang

panjangnya sembarang dan mengkonversinya menjadi string keluaran yang

panjangnya tetap (umumnya berukuran jauh lebih kecil daripada ukuran string

semula). Keluaran fungsi hash disebut juga nilai hash (hash-value) atau pesan

ringkas (message digest).

Nama lain fungsi hash adalah:

- fungsi kompresi/kontraksi (compression function)

- cetak-jari (fingerprint)

- cryptographic checksum

- message integrity check (MIC)

- manipulation detection code (MDC)

Fungsi hash yang banyak dipakai di dalam aplikasi kriptografi adalah

MD5 dan SHA. Fungsi hash sering kali dihubungkan dengan perhitungan jumlah bit

dari segmen pada data komputer yang dikalkulasi sebelum dan sesudah transmisi

atau penyimpanan untuk memastikan bahwa data bebas dari kesalahan (checksum),

pemeriksaan digit, fungsi acak, kode perbaikan kesalahan, dan fungsi hash

kriptografi. Walaupun konsep-konsep tersebut saling melengkapi, setiap konsep

mempunyai kegunaan dan persyaratannya sendiri.

Ada teori dari fungsi hash yang dikenal sebagai fungsi rolling hash.

Rolling hash merupakan teknik yang digunakan untuk mendapatkan nlai hash dari

rangkaian grams yang telah terbentuk dari metode k-grams. Rolling hash

berfungsi untuk mempercepat komputasi nilai hash dari rangkaian grams

selanjutnya yang telah terbentuk. Nilai hash yang baru dapat dengan cepat

dihitung dari nilai hash yang lama dengan cara menghilangkan nilai lama dari

kelompok hash dan menambahkan nilai baru ke dalam kelompok tersebut.

Page 35: ii - Home | Repository USM

23

Berikut persamaan dari metode hash:

H(c1….ck) = c1 * b(k-1) + c2 * b(k-2) + ….. + c(k-1) * bk + ck ………………………………(2.11)

Keterangan:

c: nilai ascii karakter (desimal)

b: basis (bilangan prima)

k: banyak karakter (indeks karakter)

Keuntungan dari rolling hash adalah untuk nilai hash berikutnya. Untuk

mendapatkan nilai hash dari metode k-grams selanjutnya digunakan persamaan

rolling hash dibawah ini:

H(c2….ck+1) = (H(c1….ck) – c1 * b(k-1)) * b + c(k+1) ………………………….(2.12)

Dengan demikian tidak perlu melakukan iterasi dari indeks pertama

sampai terakhir untuk menghitung nilai hash untuk gram ke-2 sampai terakhir.

Hal ini tentu dapat mengehemat biaya komputasi saat menghitung nilai hash dari

sebuah gram.

2.6.2.4 Pembentukan Window

Nilai-nilai hash yang telah terbentuk, selanjutnya dibentuk dalam beberapa

window dengan ukuran W. Window merupakan pembagian atau pengelompokan

beberapa nilai hash dengan ukuran yang ditentukan. Dari window yang telah

dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk

dijadikan fingerprint tiap dokumen.

2.7. Peneliti Terdahulu

Berikut ini pada tabel 2.1 disajikan perbandingan penelitian kemiripan

dokumen.

Page 36: ii - Home | Repository USM

24

Tabel 2.1. Penelitian Pengukuran Kemiripan

NoPeneliti,

TahunMetode Kelebihan Kekurangan

1 Saul

Schleimer

2003,Noorzima2005

MenggunakanMetode

Dokumenfingerprintingdengan algoritmaWinnowing.

Hasil yang

ditampilkan lebihinformatif karenaselainmenampilkan hasilfingerprinting, jugamenampilkaninformasi posisidari kata yangsama.

Harus dapatmenentukan nilai kyang tepat, jika salahmenentukan nilai kmempengaruhihasil. Dari segiwaktu, proses yangdigunakan lebih lama.Nilai k adalah nilaiyang dipilih untukpembagian.

2 Parvati Iyer,

2015

MenggunakanMetode

Keyword Similaritydengan teknik dot.Objek Penelitianyang digunakanadalah dokumenberbahasa Inggris.Dokumen yangdigunakan sebanyak20 data.

Menghitung

kemiripan

dokumen denganmembandingkankata dengan katasinonimnya.Database sinonimmenggunakan wordnet

Membandingkan

kata kunci, tidaksemua kata

3 Sinta

Agustina

2018,

Menggunakanmetode

stringmatching

denganalgoritma

Efisiensi waktu

yang baik dalammengukur string

Membandingkan

kalimat dengankalimat pada posisi

4 Hari Bagus F,

2013.

Karp Rabin.Objek

Penelitian yang

digunakan adalah

dokumen berbahasa

Indonesia.

yang memiliki

lebih dari satu pola.

yang sama.

Page 37: ii - Home | Repository USM

25

BAB IIITUJUAN dan MANFAAT PENELITIAN

3.1. Tujuan Penelitian

Tujuan yang ingin dicapai dalam pembuatan penelitian ini, yaitu: mendeteksi

sumber referensi dari dokumen text digital berdasarkan words phrasing dengan

menggunakan model ruang vektor untuk melakukan pendeteksian plagiarisme

terhadap banyak dokumen.

3.2. Manfaat Penelitian

Adapun manfaat-manfaat yang diharapkan dari penelitian yang dilakukan ini

adalah:

1. Mendeteksi sumber referensi dari dokumen text digital berdasarkan words

phrasing

2. Membuktikan model ruang vektor untuk melakukan pendeteksian plagiarisme

terhadap banyak dokumen.

Page 38: ii - Home | Repository USM

26

BAB IV

METODOLOGI PENELITIAN

Pada penelitian Penelitian ini ada beberapa tahapan penelitian yang akan

dilakukan seperti yang terlihat pada gambar 4.1:

Identifikasi Masalah Rumusan Masalah Studi Pustaka

Perancangan Analisa Hipotesa

Implementasi Sistem Pengujian Kesimpulan & Saran

Gambar 4.1. Tahapan Penelitian

4.1 Identifikasi Masalah

Pada tahapan ini dilakukan identifikasi permsalahan bahwa sulitnya

mendapatkan sumber referensi dari sebuah dokumen yang diduga melakukan

plagiarisme terhadap dokumen lainnya serta terbatasnya melakukan pendeteksian

plagiarisme dengan perbandingan 1:1.

4.2 Rumusan Masalah

Dari tahapan identifikasi masalah, dapat dirumusakan Bagaimana

mendeteksi sumber dari sebuah dokumen teks untuk melakukan pendeteksian

plagiarisme terhadap banyak dokumen berdasarkan word phrasing menggunakan

model ruang vektor.

Page 39: ii - Home | Repository USM

27

4.3 Studi Pustaka

Pada tahap ini dilakukan pengumpulan data dengan cara mencari

referensi-referensi terkait yang dibutuhkan untuk penelitian. Referensi tersebut

dapat berupa buku-buku, jurnal-jurnal, tulisan penelitian dan juga artikel-artikel dari

internet yang memiliki kaitan dengan kasus yang sedang dilakukan dalam

penelitian.

4.4 Hipotesa

Metode ini dilakukan dengan memahami pembentukan query berdasarkan

words phrasing dan Algoritma Stemming Nazief Adriani ,sehingga diperoleh

suatu hipotesa berupa pendekatan token berbentuk triword, quadword dan

pentaword serta proses stemming dan non-stemming. Hipotesa awal, pendekatan

token berbentuk triword dengan stemming dengan frekuensi tertinggi bekerja

lebih baik dibanding token berbentuk quadword dan pentaword stemming maupun

non-stemming dalam pembentukan query yang untuk menghasilkan dokumen

relevan dan memiliki nilai jaccard coefficient yang tinggi.

4.5 Analisa

Analisa adalah tahapan yang dilakukan setelah pengumpulan data dari

penelitian Penelitian ini. Analisa berarti metode khusus yang digunakan untuk

menganalisis masalah pada pendeteksian sumber untuk melakukan pendeteksian

plagiarisme terhadap banyak dokumen. Analisa ini dilakukan unutk mengetahui

langkah-langkah apa saja yang akan dilakukan untuk mendapatkan hasil sesuai

dengan hipotesa yang diberikan.

Page 40: ii - Home | Repository USM

28

StemmingAlgorimt

Nazief Adriani

InputDokumen

Pembuatan Query

Dokumen

Non-Steming

triword

quadwor

d

triword

quadword

pentawor

d

QueryFiltering

Query

Plagiarism System IR System

Preprocessing

Hasil DeteksiPlagiarisme

FingerpringAlgortima Biword Winnowing

SimilirityJaccard Coeficien

Hasil RangkingPencarian(Dokumen)

DatabaseIndexing(Corpus)

ModelRuangVektor

Processing

Gambar 4.2 Analisa Kerangka Teoritis Penelitian

Berdasarkan gambar 4.2 terdapat tiga proses utama yang akan dilakukan padapenelitian source detection ini, diantaranya:

1. Analisa pembentukan query dari dokumen yang dicurigai plagiat

berdasarkan word phrasing. Adapun query yang akan dibentuk,

dibedakan menjadi dua yaitu :

a. Query dengan menggunakan stemming, pada tahap ini akan

dilakukan :

1. Pembersihan teks dokumen.

2. Menghilangkan angka pada dokumen.

Page 41: ii - Home | Repository USM

29

3. Melakukan pemotongan teks dokumen kedalam token tunggal,

serta melakukan pembuangan stopwords dan stemming,

kemudian menyusun token menjadi triword, quadword dan

pentaword

4. Melakukan perhitungan frekuensi kemunculan triword,

quadword dan pentaword yang sama.

5. Membentuk masing-masing query berdasarkan rangking

frekuensi yaitu 5 triword, quadword dan pentaword dengan

frekuensi tertinggi, 5 frekuensi terendah dan 5 frekuensi

tengah.

b. Query dengan menggunakan tanpa stemming, pada tahap ini akan

dilakukan :

1. Pembersihan teks dokumen.

2. Menghilangkan angka pada dokumen.

3. Melakukan pemotongan teks dokumen kedalam token tunggal,

serta melakukan pembuangan stopwords kemudian menyusun

token menjadi triword, quadword dan pentaword.

4. Melakukan perhitungan frekuensi kemunculan triword,

quadword dan pentaword yang sama.

5. Membentuk masing-masing query berdasarkan rangking

frekuensi yaitu 5 triword, quadword dan pentaword dengan

frekuensi tertinggi, 5 frekuensi terendah dan 5 frekuensi

tengah.

2. Analisa Information Retrieval System

Secara garis besar, ada tiga tahapan yang ditangani oleh sistem ini,

yaitu melakukan preprocessing terhadap dokumen, melakukan

preprocessing terhadap query dan menerapkan metode tertentu dalam

hal ini menggunakan model ruang vektor untuk menghitung kedekatan

(relevansi / similirity) antara dokumen dan query hasil pembuatan di

proses sebelumnya. Adapun tiga tahapan tersebut, yaitu:

Page 42: ii - Home | Repository USM

30

a. Preprocessing

Melakukan analisa terhadap tahapan preprocessing untuk koleksi

dokumen (korpus) untuk Pembangunan index untuk diterapkan pada

model ruang vektor. Adapun tahapan pembangunan index sebagai

berikut.

1. Mengumpulkan dokumen yang akan di-index

2. Penghapusan format khusus dan markup dari dalam dokumen

3. Pemisahan rangkaian kata (tokenization)

4. Linguistic Preprocessing : Penghapusan stop words

5. indexing

b. Preprocessing Query

Melakukan preprocessing terhadap query yang bertujuan untuk

membersihkan query hingga pembobotan, adapun proses yang akan

dilakukan pada tahap ini adalah sebagai berikut:

1. Menghilangkan tanda baca pada dokumen

2. Mengubah dokumen kebentuk huruf kecil

3. Menerapkan stopword removal

4. Menerapkan stemming ( mengembalikan kata ke kata dasar )

5. Pembobotan setiap istilah query

Pembobotan pada query ini mengacu dari hasil indexing pada

preprocessing dokumen.

c. Penerapan Model Ruang Vektor

Melakukan analisa terhadap persamaan model ruang vektor untuk

menghitung nilai kerelevanan dokumen terhadap query yang dibentuk

dari dokumen inputan sehingga dokumen yang di rangkingkan

berdasarkan nilai kerelevanan yang diperoleh.

3. Analisa Deteksi kemiripan dokumen (plagiarism system) dengan

Algoritma biword winnowing

a. Pembentukan fingerprint dokumen dengan algoritma biword

winnowing. Pada tahap ini akan dilakukan:

1. Melakukan pembersihan teks.

Page 43: ii - Home | Repository USM

31

2. Melakukan pemotongan teks kedalam

kemudian dienkripsi menggunakan MD5

bentuk biword

3. Menghitung nilai hash

4. Membentuk window dengan ukuran w

5. Mendapatkan nilai fingerprint

b. Menghitung tingkat kemiripan (similirity) dokumen dengan

menggunakan persamaan jaccard coefficient

4.6 Perancangan Perangkat Lunak

Pada tahap ini akan dilakukan perancangan aplikasi, adapun Tahapan

yang dilakukan adalah:

a. Merancang use case diagram untuk menentukan pengguna (actor)

yang terlibat dan proses apa saja yang bisa dilakukan (scenario) terhadap

sistem.

b. Merancang Deksripsi Fungsional pada sistem diantaranya Context

Diagram (CD), Data Flow Diagram (DFD) dan Entity Relationship

Diagram (ERD)

c. Perancangan Struktur Menu

Merancang menu-menu pada aplikasi yang memiliki fungsi masing-

masing sesuai tujuan yang akan dicapai.

d. Perancangan interface aplikasi.

Merancang atau mendesain tampilan antar muka aplikasi dengan

pengguna. Interface yang akan dibangun adalah interface input dan

output. Dengan demikian akan terlihat interface dari sistem dan dapat

memberikan gambaran terhadap sistem yang akan dibangun.

4.7 Implementasi pengujian

Setelah dilakukan perancangan aplikasi, maka akan dilakukan tahap

implementasi. Implementasi merupakan tahap dimana aplikasi siap untuk di

operasikan sesuai dari hasil analisis dan perancangan yang telah dilakukan, sehingga

akan diketahui apakah aplikasi yang dirancang benar-benar dapat menghasilkan

tujuan yang ingin dicapai.

Page 44: ii - Home | Repository USM

32

Implementasi pengembangan aplikasi deteksi plagiarisme dokumen ini

akan dibangun pada spesifikasi hardware dan software sebagai berikut:

1. Perangkat keras

Processor : Intel® Core™ i3-2328-M CPU 2.20Ghz

Memori (RAM) : 2,00 GB

Harddisk : 500 GB

2. Perangkat Lunak

Sistem operasi : Windows 8 Enterprise 32-bit OS

Bahasa pemrograman : Hypertext Preprocessor (PHP)

DBMS : mySQL

Tool : Notepad++

4.8 Pengujian Sistem

Tahapan pengujian yang akan dilakukan pada sistem pendeteksian sumber

plagiarisme dokumen yang dibangun bertujuan untuk mengetahui kesalahan dan

kemudian memperbaikinya. Pengujian yang akan dilakukan sebagai berikut:

1. Pengujian konfigurasi pembuatan query yaitu proses stemming,

pembentukan frasa kata serta pemilihan hasil frekuensi frasa kata. Hal ini

bertujuan untuk mendapatkan konfigurasi terbaik yang menghasilkan

dokumen yang relevan dengan dokumen yang di-input serta mendapatkan

dokumen dengan similarity jaccard coefficient yang tinggi.

2. Pengujian Kemiripan dokumen input terhadap dokumen yang ada pada

corpus sesuai dengan konfigurasi yang direkomendasikan pada pengujian

pertama. Hal ini dilakukan untuk mengetahui lebih jelas tingkat akurasi

aplikasi source detection dalam mencari sumber dokumen dan kemiripan

terhadap dokumen.

Page 45: ii - Home | Repository USM

33

BAB VPEMBAHASAN

5.1 Pendeteksian Sumber Dokumen

Pada tahapan ini akan menjelaskan tentang gambaran secara garis besar

terhadap proses yang dilakukan aplikasi source detection pada kasus dokumen

plagiarisme berdasarkan words phrasing dengan menggunakan model ruang vektor.

Proses yang ada pada aplikasi ini terdiri atas tiga proses utama yang saling

berhubungan satu sama lain, diantaranya: pembuatan query, mesin pencari

dengan model ruang vektor dan proses pendeteksian kemiripan dokumen

menggunakan algoritma biword winnowing dan Jaccard Coefficient.

Pada dasarnya setiap proses utama akan melakukan tahapan secara umum

yaitu: input, proses dan output. Proses dimulai ketika user memasukkan sebuah

dokumen teks yang di duga melakukan plagiarisme lalu di proses pada pembuatan

query, pada tahapan pembuatan query dokumen teks akan di proses berdasarkan

words phrasing sehingga akan menghasilkan output berupa query. Setelah

selesai pada proses pembuatan query, proses selanjutnya adalah menggunakan

query hasil dari proses sebelumnya sebagai input pada proses pencarian dengan

model ruang vektor sehingga akan menghasilkan rangking pencarian berdasarkan

tingkat kemiripan dokumen terhadap query. Hasil pencarian tersebut akan di

evaluasi lagi kemiripannya terhadap dokumen yang di input dari awal pembuatan

query menggunakan algoritma biword winnowing yang memiliki tahapan-tahapan

yang cukup kompleks dalam menghitung kemiripan antar dua dokumen yang di

proses.

Pada tahap menghitung kemiripan dokumen menggunakan algoritma biword

winnowing tediri dari dua input yaitu: input awal dari proses pembuatan query

kemudian input berdasarkan dokumen yang telah didapatkan dari hasil

pencarian menggunakan model ruang vektor. Selanjutnya dokumen akan diproses

berdasarkan tahapan yang dimiliki oleh algoritma pendeteksi plagiarisme.

Tahapan tersebut diantaranya adalah tahap preprocessing dan tokenisasi. Proses

Page 46: ii - Home | Repository USM

34

akan berlanjut dengan perhitungan tingkat similarity dokumen. Setelah proses

utama dilakukan, selanjutnya aplikasi akan menghasilkan output informasi

dokumen berupa hasil similarity dokumen dan kalimat yang telah diplagiasi.

Gambar 5.1 dibawah adalah flowchart yang akan menggambarkan proses-

proses yang akan dilakukan secara keseluruhan:

Start

Input dokumen yang akan diuji

Pembuatan query berdasarkan words phrasing

Menampilkan query

Pencarian menggunakan model ruang vektor

Hasil pencarian >0?

Tidak

Ya

Pendeteksian kemiripan dokumen menggunakanalgoritma biword winnowing

Menampilkan hasil pencarianbeserta smilirity dokumen input

terhadap dokumen hasil pencarian

Finish

Gambar 5.1 Flowchart source detecction

5.2 Pembuatan Query

Pada penelitian ini fokus utama penelitian terletak pada proses pembuatan

query yang bertujuan mengekstrak isi dari sebuah dokumen teks menjadi query yang

bias mewakili dari isi dokumen teks tersebut. Analisa pembentukan query

Page 47: ii - Home | Repository USM

35

dari dokumen yang dicurigai plagiat berdasarkan words phrasing (frasa kata)

dengan pendekatan triword, quadword dan pentaword. Adapun query yang akan

dibentuk, dibedakan menjadi dua yaitu :

1. Query dengan menggunakan stemming, pada tahap ini akan dilakukan :

a. Pembersihan teks dokumen.

b. Menghilangkan angka pada dokumen.

c. Melakukan pemotongan teks dokumen kedalam token tunggal, serta

melakukan pembuangan stopwords dan stemming, kemudian

menyusun token menjadi triword, quadword dan pentaword

d. Melakukan perhitungan frekuensi kemunculan triword, quadword dan

pentaword yang sama.

e. Membentuk masing-masing query berdasarkan rangking frekuensi

yaitu 5 triword, quadword dan pentaword dengan frekuensi tertinggi,

5 frekuensi terendah dan 5 frekuensi tengah.

2. Query dengan menggunakan tanpa stemming, pada tahap ini akan

dilakukan :

a. Pembersihan teks dokumen.

b. Menghilangkan angka pada dokumen.

c. Melakukan pemotongan teks dokumen kedalam token tunggal, serta

melakukan pembuangan stopwords kemudian menyusun token

menjadi triword, quadword dan pentaword

d. Melakukan perhitungan frekuensi kemunculan triword, quadword dan

pentaword yang sama.

e. Membentuk masing-masing query berdasarkan rangking frekuensi

yaitu 5 triword, quadword dan pentaword dengan frekuensi tertinggi,

5 frekuensi terendah dan 5 frekuensi tengah.

Gambar 5.2 adalah flowchart yang menggambarkan proses-proses yang

dilakukan pada tahapan pembuatan query berdasarkan words phrasing dengan

menggunakan stemming algoritma Nazief & Adriani:

Page 48: ii - Home | Repository USM

36

Start

Input dokumen yang akan diuji

Proses Utama

Preprocessing

Stopword Removal

Stemming

Tokenization dengan konsep triword (tiga kata),quadword (empat kata) dan pentaword (lima kata)

Menghitung frekuensi kemunculan triword, quadworddan pemtaword

Membentuk query berdasarkan jumlah 5 Jumlahtertinggi, 5 jumlah ditengah dan 5 jumlah terendah

Menampilkan query yang terbentuk

finish

Gambar 5.2 Flowchart pembuatan query menggunakan algoritma

stemming Nazief Adriani.

Gambar 5.3 berikut adalah flowchart yang menggambarkan proses-proses

yang dilakukan pada tahapan pembuatan query berdasarkan words phrasing tanpa

menggunakan stemming:

Page 49: ii - Home | Repository USM

37

Start

Input dokumen yang akan diuji

Proses Utama

Preprocessing

Stopword Removal

Tokenization dengan konsep triword (tiga kata),quadword (empat kata) dan pentaword (lima kata)

Menghitung frekuensi kemunculan triword, quadworddan pemtaword

Membentuk query berdasarkan jumlah 5 Jumlahtertinggi, 5 jumlah ditengah dan 5 jumlah terendah

Menampilkan query yang terbentuk

finish

Gambar 5.3 Flowchart pembuatan query tanpa menggunakan

Algoritma stemming

Pada gambar 5.2 dan gambar 5.3 diatas dapat dilihati proses pembuatan query

berdasarkan words phrasing. Proses-proses tersebut dapat dijelaskan sebagai

berikut:

1. Input dokumen yang akan yang akan diuji kemiripannya pada aplikasi

yang akan dibangun. Sehingga aplikasi akan memperoleh informasi

dokumen yang akan diuji.

Page 50: ii - Home | Repository USM

38

2. Dokumen yang telah dimasukkan akan diproses pada tahap

preprocessing, yaitu menghilangkan karakter-karakter yang tidak relevan

seperti membuang tanda baca, mengubah huruf besar menjadi huruf kecil,

menghilangkan spasi dan membuang angka.

Untuk lebih jelasnya, dapat dilihat pada gambar 5.4 berikut:

Start

Input dokumen yang akan diuji

Whitespace intensitivity

Dokumen preprocessing

Finish

Gambar 5.4 Flowchart Preprocessing Dokumen

3. Stopword Removal, pada tahapan ini akan dilakukan pembuangan kata-

kata yang dianggap selalu muncul dalam frekuensi tinggi yang tidak

memberikan informasi secara tepat. Untuk lebih jelasnya dapat melihat

gambar 5.5 berikut:

Start

Teks hasil preprocessing

Stopword Removal

Dokumen Hasil Stopword Removal

Finish

Gambar 5.5 Flowchart Stopword Removal (Pembuangan kata-kata yang tidak

informatif)

Page 51: ii - Home | Repository USM

39

4. Pada Tahapan ini akan dilakukan stemming atau pengembalian kata

kedalam bentuk kata dasar menggunakan algoritma Nazief & Adriani,

langkah-langkah penggunaan algoritma Nazief Adriani dapat dilihat pada

gambar 5.6 berikut:

Start

Kata berimbuhan

Cek di kamus

Kata Ya

Dasar?

Tidak

Hilangkan inflection sufiks (-lah,-kah,-ku,-mu,-nya)

Hilangkan derivation semua sufiks (-i,-an atau -kan)

Hilangkan semua derivation semua prefiks (-di,-ke,-se,-te,-be,-me atau -pe)

Cek di kamus

KataDasar?

YaKata Dasar

Tidak

Kata Awal

Finish

Gambar 5.6 Flowchart Algoritma Stemming Nazief Adriani

Page 52: ii - Home | Repository USM

40

5. Pada tahapan ini akan dilakukan proses words phrasing dengan

pendekatan triword, quadword dan pentaword. Untuk lebih jelasnya

tergambar pada flowchart gambar 5.7 berikut:

Start

Teks hasil stemming & stopword removal

Pemotongan teks menjadi tiga kata (triword), empat kata (quadword) danlima kata (pentaword)

Token triword, quadwrod dan pentaword

Finish

Gambar 5.7 Flowchart Pembentukan triword,quadword dan pentaword

6. Pada tahapan ini akan dilakukan perhitungan frekuensi kata yang sama

berdasrkan triword, quadword dan pentaword yang terbentuk. Proses

tersebut tergambar pada flowchart gambar 5.8 berikut:

Start

Token triword, quadword dan pentaword

Menghitung jumlah frekuensi kata yang sama

Mengurutkan token berdasarkan frekuensi tertinggike frekeunsi terendah

Rangking triword, quadword dan pentaword

Finish

Gambar 5.8 Flowchart Perhitungan frekuensi Triword, Quadword dan

Pentaword

Page 53: ii - Home | Repository USM

41

7. Pada tahapan terakhir ini akan dilakukan proses pemilihan frekuensi

kemunculan triword, quadword dan pentaword berdasarkan lima

frekeunsi tertinggi, terendah dan lima frekuensi tengah.

Start

Token triword, quadword dan pentaword terurut frekuensi

Pemilihan 5 frekuensi teratas atau 5 frekuensi atau 5 frkeunsi tengah

Pembentukan query dari penggabungan 5 frekuensi yang dipilih

Query

Finish

Gambar 5.9 Flowchart Pemilihan triword, quadword dan pentaword

menjadi query

Gambar 5.9 menkelasakan tahapan-tahapan perhitungan kemunculan

frekuensi kata. Proses pembuatan query selesai pada tahapan ini, hasil proses

ini berupa query yang akan terus digunakan pada proses pencarian

menggunakan model ruang vektor.

5.3 Pencarian Informasi dengan Model Ruang Vektor

Secara garis besar, ada tiga tahapan yang ditangani oleh sistem ini, yaitu

melakukan preproses terhadap dokumen, melakukan preproses terhadap query

pengguna dan menerapkan metode tertentu dalam hal ini menggunakan model ruang

vektor untuk menghitung kedekatan (relevansi / similirity) antara dokumen dan

query hasil pembuatan di proses sebelumnya. Adapun tiga tahapan tersebut, yaitu:

1. Preprocessing Dokumen

Gambar 5.10 Tahapan preprocessing dokumen

Page 54: ii - Home | Repository USM

42

Berdasarkan gambar 5.10 tahapan preprocessing dokumen memiliki

tahapan sebagai berikut:

a. Menyimpan dokumen kedalam koleksi dokumen

Sebelum dilakukan tahapan preproses, semua dokumen yang akan

dicari disimpan dalam sebuah koleksi dokumen. Adapun dokumen

yang akan dijadikan koleksi dokumen adalah landasan teori kerja praktek

dan tugas akhir dengan format pdf, doc dan txt.

b. Menghilangkan tanda baca pada dokumen

Semua tanda baca yang ada pada koleksi dokumen akan dihilangkan.

c. Mengubah dokumen ke bentuk huruf kecil

Tahapan preproses dokumen berikutnya adalah mengubah koleksi

dokumen ke bentuk huruf kecil.

d. Menerapkan stopword removal

Pada tahapan ini, setiap istilah yang tidak menggambarkan isi dari

dokumen akan dihapus, seperti kata penghubung dan kata penunjuk yang

mengacu pada koleksi stopword, misalnya : yang, ini, itu dan lain

sebagainya.

e. Menerapkan stemming ( mengembalikan kata ke kata dasar )

Dengan diterapkannya stemming diharapkan dapat meningkatkan

performansi information retrieval yang akan dibangun. Adapun

algoritma stemming yang akan akan digunakan yaitu algoritma Nazief

& Adriani, lebih jelasnya dapat dilihat pada Gambar 5.6 untuk tahapan

algoritma Nazief & Adriani.

f. Pembobotan setiap istilah pada dokumen

Tahapan akhir dari preproses dokumen adalah pembobotan, dengan

adanya pembobotan ini setiap kata akan diparsing dan dihitung jumlah

kemunculannya.

Page 55: ii - Home | Repository USM

43

2. Preprocessing Query

Gambar 5.11 Tahapan preprocessing query

Berdasarkan gambar 5.11 preprocessing query memiliki tahapan sebagai

berikut:

a. Menghilangkan tanda baca pada dokumen

b. Mengubah dokumen kebentuk huruf kecil

c. Menerapkan stopword removal

d. Menerapkan stemming ( mengembalikan kata ke kata dasar )

e. Pembobotan setiap istilah query

Pembobotan pada query ini mengacu dari hasil indexing pada

preproses dokumen.

3. Penerapan Model Ruang Vektor

Setelah pemberian bobot setiap istilah pada dokumen dan query, maka pada

tahapan ini akan dilakukan perhitungan kemiripan antar query dan koleksi

dokumen yang tersedia, input pada proses ini adalah query yang telah di

preproses sehingga menjadi query yang tunggal. Tahapan tersebut dapat

dilihat pada flowchart gambar 5.12 berikut:

Page 56: ii - Home | Repository USM

44

Start

Query yangtelah diproses

Hitung Kemiripan antaraquery dan koleksi dokumen

Tidak Sim >0

Ya

Hasil kemiripan querydan dokumen

DokumenTerakhir?

Tidak

Ya

Rangking Hasil Kemiripanquery dan dokumen

Hasil Rangkingkemiripan query dan

dokumen

Finish

Gambar 5.12 Penerapan Model Ruang Vektor

Berdasarkan gambar 5.12 penerapan model ruang vector memiliki tahapan

sebagai berikut:

a. Hitung panjang vektor setiap dokumen dan query

Sebelum dilakukan penghitungan relevansi dokumen dan query, setiap

dokumen pada koleksi dan query akan dihitung panjang vektornya.

b. Hitung kedekatan (relevansi / similirity) antara dokumen dan query

pengguna.

Page 57: ii - Home | Repository USM

45

Setelah didapatkan panjang vektor setiap dokumen dan query,

dilakukan penghitungan kedekatan query tersebut terhadap dokumen

yang ada pada koleksi. Dari proses ini didapatkan relevansi / similirity

yang akan dijadikan acuan dalam menentukan dokumen yang relevan

sesuai query yang diinputkan.

c. Simpan hasil relevansi antara dokumen dan query dan lakukan

perangkingan.

Jika hasil dari perhitungan besar dari nol maka data perhitungan tersebut

disimpan, jika tidak maka data perhitungan tidak disimpan.

Berdasarkan analisa dari tiga tahapan yang dilakukan oleh sistem temu

balik informasi, maka dapat diilustrasikan seperti gambar 5.13 berikut.

Hilangkan TandaBaca dan Ubah

Kebentuk Huruf KecilKoleksi

DokumenParsing Dokumen

dan Beri BobotIndex yangBerbobot

Panjang VektorDokumen

Terapkan Stopworddan Stemming

Hilangkan TandaBaca dan Ubah

Kebentuk Huruf Kecil

HitungRelevansi Hasil Pencarian Daftar

Teranking

Query Parsing Query danBeri Bobot

Index yangBerbobot

Panjang VektorQuery Pengguna

Terapkan Stopworddan Stemming

Gambar 5.13 Tahapan dalam Information Retrieval

5.4 Algoritma Winnowing dengan pendekatan biword

Pada penelitian ini dilakukan pengembangan algoritma winnowing dalam

mendeteksi penjiplakan dokumen teks, yaitu dengan penerapan konsep biword.

Algoritma winnowing yang biasanya menggunakan teknik character-based dalam

proses tokenisasi dokumen, sekarang akan dilakukan menggunakan teknik

phrase-based. Dengan demikian, akan terbentuk banyak frasa atau token biword

dari masing-masing dokumen teks untuk perhitungan similarity. Konsep biword

ini merupakan pendekatan k-grams untuk membentuk substring sepanjang k

Page 58: ii - Home | Repository USM

46

karakter atau kata. Pendekatan k-grams inilah yang digunakan dalam membentuk

token biword.

Secara garis besar ada beberapa tahap dalam melakukan pendeteksian

plagiarisme dokumen menggunakan pendekatan biword winnowing, diantaranya:

1. Melakukan pembersihan teks.

2. Melakukan pemotongan teks kedalam bentuk biword kemudian dienkripsi

menggunakan MD5

3. Menghitung nilai hash

4. Membentuk window dengan ukuran w

5. Mendapatkan nilai fingerprint

6. Menghitung kemiripan dokumen dari nilai fingerprint yang diperoleh.

Berikut adalah flowchart proses-proses yang dilakukan pada algoritma

biword winnowing dalam mendeteksi penjiplakan dokumen teks:

Start

Input dokumen teks yang akan diuji

Proses Utama

Preprocessing

Tokenisasi dengan konsep biword (dua kata)

Mengubah token biword menjadi MD5

Menghitung nilai hashing

Membentuk window dengan ukuran w

Memilih nilai hash minimum (fingerprint)

Perhitungan similarity dokumen

Menampilkan Hasil similarity dan informasi dokumen

Finish

Gambar 5.14 Flowchart algoritma winnowing dengan pendekatan biword

Page 59: ii - Home | Repository USM

47

Pada gambar 5.14 diatas dapat dilihat proses deteksi plagiarisme dokumen dengan

menerapkan pendekatan biword (dua kata) pada algoritma winnowing. Proses-

proses tersebut dapat dijelaskan sebagai berikut:

1. Input dokumen yang akan yang akan diuji kemiripannya pada aplikasi

yang akan dibangun. Sehingga aplikasi akan memperoleh informasi

dokumen yang akan diuji.

2. Dokumen yang telah dimasukkan akan diproses pada tahap

preprocessing, yaitu menghilangkan karakter-karakter yang tidak relevan

seperti membuang tanda baca, mengubah huruf besar menjadi huruf kecil

dan menghilangkan spasi.

Untuk lebih jelasnya, dapat dilihat pada flowchart gambar 5.15 berikut:

Start

Inputdokumen

Whitespace intensitivity

Dokumenpreprocessin

Finish

Gambar 5.15 Flowchart proses preprocessing

3. Tokenisasi dengan pendekatan biword.

Setelah memperoleh dokumen preprocessing, selanjutnya dilakukan

proses tokenisasi kata menjadi biword.

Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.16 berikut:

Page 60: ii - Home | Repository USM

48

Start

Teks hasil preprocessing

Pemotongan teks menjadi dua kata (biword)

Token biword

Finish

Gambar 5.16 Flowchart proses tokenisasi

4. Mengubah nilai token menjadi MD5

Setelah mendapatkan token kata biword, selanjutnya akan dilakukan

konversi mengubah nilai token biword menjadi nilai MD5. Hal ini bertujuan

agar token tersebut memiliki panjang karakter yang sama yaitu

32 karakter.

Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.17 berikut:

Start

Token biword

Mengubah nilai token menjadi MD5

Token MD5

Finish

Gambar 5.17 Flowchart proses mendapatkan nilai MD5

5. Menghitung nilai hash masing-masing token.

Token-token yang telah diubah menjadi MD5, selanjutnya akan diproses

menggunakan persamaan rolling hash untuk mendapatkan nilai hash

dokumen. Nilai hash ini nantinya akan dijadikan fingerprint dokumen.

Page 61: ii - Home | Repository USM

49

Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.18 berikut:

Start

Token MD5

Menghitung nilai hash:Rolling Hash

Token nilai hash

Finish

Gambar 5.18 Flowchart proses hitung nilai hash.

6. Membagi ke dalam beberapa window.

Token-token yang telah diperoleh, akan dibagi dalam beberapa window

dengan ukuran w. Ukuran window ditentukan oleh pengguna aplikasi.

Gambar 5.19 berikut adalah flowchart pembentukan window:

Start

Token Hash

Membagi menjadi window denganukuran W

Window

Finish

Gambar 5.19 Flowchart proses pembentukan window.

7. Mencari nilai hash minimum.

Dari nilai-nilai hash yang telah dibentuk menggunakan persamaan rolling

hash, selanjutnya akan ditelusuri nilai-nilai hash terkecil untuk dijadikan

fingerprint dokumen. Penelusuran nilai hash terkecil adalah dimulai dari

nilai hash yang paling kanan dalam suatu window.

Page 62: ii - Home | Repository USM

50

∩ ∪

Gambar 5.20 berikut adalah flowchart pencarian nilai hash terkecil:

Start

Token hash dalam window

Telusuri nilai hash paling kanan

Pilih nilai hash terkecil

fingerprint

Finish

Gambar 5.20 Flowchart proses memilih fingerprint.

8. Perhitungan similarity dokumen

Nilai fingerprint yang diperoleh akan digunakan untuk menghitung

similarity dokumen. Proses perhitungan dilakukan menggunakan

persamaan jaccard coefficient.

Untuk lebih jelasnya dapat dilihat pada flowchart gambar 5.21 berikut:

Start

Irisan token kata

Similarity =| || |

Hasil similarity

Finish

Gambar 5.21 Flowchart proses hitung similarity

9. Selanjutnya akan diperoleh hasil dari proses utama berupa informasi

dokumen yaitu nama dokumen, ukuran dokumen, waktu proses dan hasil

similarity dokumen teks.

Page 63: ii - Home | Repository USM

51

Untuk lebih jelasnya, berikut adalah contoh penerapan source detection dokumen:

Terdapat 1 buah dokumen uji dan 3 buah koleksi dokumen sebagai berikut:

a. Dokumen Uji:”Algoritma genetika yang memiliki kehandalan dalam

menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan

masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan

algoritma merupakan permasalahan yang kritis dalam disain sistem yang

memungkinkan temu kembali dengan basis data berukuran besar secara

efektif dan efisien”

b. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam

menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan

masalah tersebut dengan bantuan aplikasi

c. Dokumen d2 = Sistem Pendukung Keputusan SPK adalah sekumpulan

prosedur berbasis model untuk memproses data dan memberikan

pertimbangan bagi manajer dalam mengambil keputusan

d. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan

permasalahan yang kritis dalam disain sistem yang memungkinkan temu

kembali dengan basis data berukuran besar secara efektif dan efisien

Tahapan-tahapan yang dilakukan adalah:

Pembuatan Query

1. Whitespace Intensitivity atau preprocessing, yaitu menghilangkan karakter

yang tidak relevan seperti menghilangkan tanda baca dan mengubah huruf

besar menjadi kecil serta menghilangkan angka. Sehingga terbentuk kalimat:

Dokumen Uji:

algoritma genetika yang memiliki kehandalan dalam menghasilkan output

yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut

dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan

permasalahan yang kritis dalam disain sistem yang memungkinkan temu

kembali dengan basis data berukuran besar secara efektif dan efisien

2. Tahapan selanjutnya adalah stopword removal, penghilangan kata-kata

yang dianggap tidak relevan, sehingga akan terbentuk kalimat:

Page 64: ii - Home | Repository USM

52

Dokumen Uji:

algoritma genetika kehandalan menghasilkan output optimal dimanfaatkan

menyelesaikan bantuan aplikasi pemilihan struktur data algoritma

permasalahan kritis disain sistem memungkinkan temu basis data

berukuran efektif efisien

3. Mengembalikan kata kedalam bentuk kata dasar menggunakan algoritma

Naizef & Adriani. Sehingga terbentuk kalimat berikut:

Dokumen Uji:

algoritma genetika kehandalan output optimal manfaat selesai bantu aplikasi

pemilihan struktur data algoritma kritis disain sistem temu basis data

berukuran efektif efisien

Pada penggunaan algoritma Nazeif & Adriani masih terdapat banyak

kesalahan dan kegagalan dalam mengembalikan kedalam bentuk kata

dasar (Syahroni,2012)

4. Proses Berikutnya adalah mengubah kata kedalam bentuk triword,

quadword dan pentaword. Pada contoh ini akan menggunakan bentuk

triword, hasilnya sebagai berikut:

[0] => algoritma genetika kehandalan

[1] => genetika kehandalan output

[2] => kehandalan output optimal

[3] => output optimal manfaat

[4] => optimal manfaat selesai

[5] => manfaat selesai bantu

[6] => selesai bantu aplikasi

[7] => bantu aplikasi pemilihan

[8] => aplikasi pemilihan struktur

[9] => pemilihan struktur data

[10] => struktur data algoritma

[11] => data algoritma kritis

[12] => algoritma kritis disain

Page 65: ii - Home | Repository USM

53

[13] => kritis disain sistem

[14] => disain sistem temu

[15] => sistem temu basis

[16] => temu basis data

[17] => basis data berukuran

[18] => data berukuran efektif

5. Setelah mendapatkan bentuk triword atau quadword atau pentaword

maka akan dilakukan perhitungan frekuensi kemunculan kata yang sama

sebagai berikut:

[kritis disain sistem] => 1

[algoritma kritis disain] => 1

[data algoritma kritis] => 1

[disain sistem temu] => 1

[sistem temu basis] => 1

[data berukuran efektif] => 1

[basis data berukuran] => 1

[temu basis data] => 1

[struktur data algoritma] => 1

[pemilihan struktur data] => 1

[output optimal manfaat] => 1

[kehandalan output optimal] => 1

[genetika kehandalan output] => 1

[optimal manfaat selesai] => 1

[manfaat selesai bantu] => 1

[aplikasi pemilihan struktur] => 1

[bantu aplikasi pemilihan] => 1

[selesai bantu aplikasi] => 1

[algoritma genetika kehandalan] => 1

Page 66: ii - Home | Repository USM

54

6. Tahapan berikutnya melakukan pemilihan frasa berdasarkan frekuensinya

yaitu: 5 frekuensi tertinggi, 5 frekuensi tengah dan 5 frekuensi terendah.

Pada contoh ini akan memilih 5 frekuensi tertinggi berdasarkan urutan

kata pada langkah sebelumnya, menghasilkan kata berikut:

[kritis disain sistem] => 1

[algoritma kritis disain] => 1

[data algoritma kritis] => 1

[disain sistem temu] => 1

[sistem temu basis] => 1

7. Langkah terakhir pembuatan query adalah menggabungkan 5 pilihan

frekuensi pada langkah sebelumnya menghasilkan sebuah query baru yang

dianggap mewakili isi dari dokumen uji, hasilnya sebagai berikut:

“kritis disain sistem algoritma data temu basis”

Pencarian Dengan Model Ruang Vektor

Tahapan Preproses Dokumen:

1. Menghilangan tanda baca

a. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam

menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan

masalah tersebut dengan bantuan aplikasi

b. Dokumen d2 = Sistem Pendukung Keputusan SPK adalah sekumpulan

prosedur berbasis model untuk memproses data dan memberikan

pertimbangan bagi manajer dalam mengambil keputusan

c. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan

permasalahan yang kritis dalam disain sistem yang memungkinkan temu

kembali dengan basis data berukuran besar secara efektif dan efisien

2. Mengubah istilah ke bentuk huruf kecil

a. Dokumen d1 = algoritma genetika yang memiliki kehandalan dalam

menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan

masalah tersebut dengan bantuan aplikasi

Page 67: ii - Home | Repository USM

55

b. Dokumen d2 = sistem pendukung keputusan spk adalah sekumpulan

prosedur berbasis model untuk memproses data dan memberikan

pertimbangan bagi manajer dalam mengambil keputusan

c. Dokumen d3 = pemilihan struktur data dan algoritma merupakan

permasalahan yang kritis dalam disain sistem yang memungkinkan temu

kembali dengan basis data berukuran besar secara efektif dan efisien

3. Menerapkan stopword removal

Adapun daftar stop word dari tiga contoh dokumen diatas adalah : yang,

dalam, dapat, untuk, tersebut, dengan, adalah, dan, bagi, besar, secara.

a. Dokumen d1 = algoritma genetika memiliki kehandalan menghasilkan

output optimal dimanfaatkan menyelesaikan masalah bantuan aplikasi

b. Dokumen d2 = sistem pendukung keputusan spk sekumpulan prosedur

berbasis model memproses data memberikan pertimbangan bagi manajer

mengambil keputusan

c. Dokumen d3 = pemilihan struktur data algoritma merupakan permasalahan

kritis disain sistem memungkinkan temu kembali basis data berukuran

efektif efisien

1. Menerapkan stemming (mengembalikan kata ke kata dasar)

Adapun daftar stemming dari tiga contoh dokumen diatas adalah : milik, hasil,

manfaat, selesai, bantu, dukung, putus, kumpul, basis, proses, beri, timbang,

ambil, rupa, masalah, mungkin.

a. Dokumen d1 = algoritma genetika milik kehandalan hasil output optimal

manfaat selesai masalah bantu aplikasi

b. Dokumen d2 = sistem dukung putus spk kumpul prosedur basis model

proses data beri timbang bagi manajer ambil putus

c. Dokumen d3 = pemilihan struktur data algoritma rupa masalah kritis disain

sistem mungkin temu kembali basis data berukuran efektif efisien

2. Pembobotan, setelah semua dokumen dipreprocessing tiap term dipisah dan

dimasukkan ke dalam tabel indexing.

Dalam koleksi ini, terdapat tiga dokumen, sehingga diperoleh N = 3 dan

berdasarkan rumus 2.3 maka untuk istilah algoritma dimana istilah algoritma

Page 68: ii - Home | Repository USM

56

tersebut muncul pada pada 2 dokumen yaitu pada dokumen d1 dan d3 maka

diperoleh df = 2, idf yang didapatkan adalah 0. 176.

Pembobotan untuk istilah algoritma dapat menggunakan rumus 2.9 sehingga

untuk istilah algoritma diperoleh w (bobot) = 0. 176. Dengan penerapan rumus

yang sama idf dan bobot setiap istilah selengkapnya dapat dilihat pada tabel

5.1.

Tabel 5.1 Hasil pembobotan index dokumen

No KataTF

Df Idf Bobotd1 d2 d3 d1 d2 d3

1 algoritma 1 0 1 2 0.1761 0.1761 0.0000 0.17612 ambil 0 1 0 1 0.4771 0.0000 0.4771 0.00003 aplikasi 1 0 0 1 0.4771 0.4771 0.0000 0.00004 bantu 1 0 0 1 0.4771 0.4771 0.0000 0.00005 basis 0 1 1 2 0.1761 0.0000 0.1761 0.17616 beri 0 1 0 1 0.4771 0.0000 0.4771 0.00007 berukuran 0 0 1 1 0.4771 0.0000 0.0000 0.47718 data 0 1 2 2 0.1761 0.0000 0.1761 0.35229 disain 0 0 1 1 0.4771 0.0000 0.0000 0.477110 dukung 0 1 0 1 0.4771 0.0000 0.4771 0.000011 efektif 0 0 1 1 0.4771 0.0000 0.0000 0.477112 efisien 0 0 1 1 0.4771 0.0000 0.0000 0.477113 genetika 1 0 0 1 0.4771 0.4771 0.0000 0.000014 kehandalan 1 0 0 1 0.4771 0.4771 0.0000 0.000015 kritis 0 0 1 1 0.4771 0.0000 0.0000 0.477116 kumpul 0 1 0 1 0.4771 0.0000 0.4771 0.000017 manajer 0 1 0 1 0.4771 0.0000 0.4771 0.000018 manfaat 1 0 0 1 0.4771 0.4771 0.0000 0.000019 model 0 1 0 1 0.4771 0.0000 0.4771 0.000020 optimal 1 0 0 1 0.4771 0.4771 0.0000 0.000021 output 1 0 0 1 0.4771 0.4771 0.0000 0.000022 pemilihan 0 0 1 1 0.4771 0.0000 0.0000 0.477123 prosedur 0 1 0 1 0.4771 0.0000 0.4771 0.000024 putus 0 2 0 1 0.4771 0.0000 0.9542 0.0000

Page 69: ii - Home | Repository USM

57

Tabel 5.1 Hasil pembobotan index dokumen (lanjutan)

No KataTF

Df IdfBobot

d1 d2 d3 d1 d2 d3

25 rupa 0 0 1 1 0.4771 0.0000 0.0000 0.477126 selesai 1 0 0 1 0.4771 0.4771 0.0000 0.000027 sistem 0 1 1 2 0.1761 0.0000 0.1761 0.176128 spk 0 1 0 1 0.4771 0.0000 0.4771 0.000029 struktur 0 0 1 1 0.4771 0.0000 0.0000 0.477130 temu 0 0 1 1 0.4771 0.0000 0.0000 0.477131 timbang 0 1 0 1 0.4771 0.0000 0.4771 0.0000

Berdasarkan tabel 5.1 diatas dapat dijelaskan kata merupakan kata-kata yang telah

di proses untuk membangun index dari sebuah dokumen, TF (term frequency)

merupakan banyaknya kata yang muncul pada setiap dokumen, DF (document

frecuency) merupakan kemunculan kata pada keseluruhan dokumen, idf (inverse

document frequency) merupakan log (tf/df) seperti persamaan rumus 2.3. Dari

tabel ini mendeskripsikan pengolahan kata sebelum dihitung kemiripanya

menggunakan model ruang vector.

Tahapan Preproses query:

Setelah dilakukan pengindeksan terhadap koleksi dokumen, diinputkan

query yang akan dilakukan pencocokan terhadap koleksi dokumen. query yang

dihasilkan dari pembuatan query adalah “kritis disain sistem algoritma data temu

basis”.

Tahapan – tahapan yang dilakukan

1. Menghilangkan tanda baca

kritis disain sistem algoritma data temu basis

2. Mengubah istilah ke bentuk huruf kecil

kritis disain sistem algoritma data temu basis

3. Menerapkan stopword removal

kritis disain sistem algoritma data temu basis

4. Menerapkan stemming (mengembalikan kata ke kata dasar)

kritis disain sistem algoritma data temu basis

Page 70: ii - Home | Repository USM

58

5. Pembobotan, query yang telah di preproses dan sesuai dengan istilah

hasil indexing pada koleksi dokumen disimpan ke dalam indexing query.

Pada koleksi dokumen terdapat tiga dokumen, sehingga diperoleh N= 3 dan

berdasarkan rumus 2.3 maka untuk istilah algoritma dimana istilah algoritma

tersebut muncul pada pada 2 dokumen yaitu pada dokumen d1 dan d3 maka

diperoleh df = 2, idf yang didapatkan adalah 0. 176.

Dengan penerapan rumus yang sama maka idf setiap istilah selengkapnya

dapat dilihat pada table 5.2

Tabel 5.2 Hasil pembobotan index query

KataTF

Df Idf BobotQ d1 d2 d3 query

algoritma 1 1 0 1 2 0.1761 0.1761basis 1 0 1 1 2 0.1761 0.1761data 1 0 1 2 2 0.1761 0.1761disain 1 0 0 1 1 0.4771 0.4771kritis 1 0 0 1 1 0.4771 0.4771sistem 1 0 1 1 2 0.1761 0.1761temu 1 0 0 1 1 0.4771 0.4771

Pada tabel 5.2 dilakukan proses pembobotan query terhadap kata kata

yang ada pada index dokumen seperti yang telah dijelaskan pada

tabel 5.1.

Page 71: ii - Home | Repository USM

59

Dari hasil penghitungan relevansi pada langkah sebelumnya, maka koleksi

dokumen tersebut dapat diurutkan dari yang paling relevan (diurut menurun)

sebagai berikut:

Query yang dimasukkan “kritis disain sistem algoritma data temu basis”. Koleksi

dokumen yang ditampilkan adalah D3, D2, D1

Pendeteksian Kemiripan Dokumen Menggunakan algoritma biword

winnowing dan Jaccard Coefficient

Pada tahapan ini akan dilakukan sebanyak jumlah dokumen yang berhasil

dikembalikan oleh mesin pencari menggunakan model ruang vektor, pendeteksian

akan dilakukan sesuai dengan urutan dokumen yang dihasil kan oleh mesin

pencari yaitu: D3, D2 dan D1 terhadap dokumen uji pada awal pembuatan query.

Tahapan-tahapan yang dilakukan adalah:

1. Whitespace Intensitivity atau preprocessing, yaitu menghilangkan karakter

yang tidak relevan seperti menghilangkan tanda baca dan mengubah huruf

besar menjadi kecil. Sehingga terbentuk kalimat:

Dokumen Uji:

algoritma genetika yang memiliki kehandalan dalam menghasilkan output

yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut

dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan

permasalahan yang kritis dalam disain sistem yang memungkinkan temu

kembali dengan basis data berukuran besar secara efektif dan efisien

Dokumen 3:

pemilihan struktur data dan algoritma merupakan permasalahan yang kritis

dalam disain sistem yang memungkinkan temu kembali dengan basis data

berukuran besar secara efektif dan efisien

2. Proses selanjutnya adalah tokenisasi, yaitu pemotongan kata berbentuk

biword. Sehingga terbentuk token kata biword seperti pada tabel 5.3.

Page 72: ii - Home | Repository USM

60

Token Dokumen Uji Token Dokumen 3

[0] => algoritma genetika

[1] => genetika yang

[2] => yang memiliki

[3] => memiliki kehandalan

[4] => kehandalan dalam

[5] => dalam menghasilkan

[6] => menghasilkan output

[7] => output yang

[8] => yang optimal

[9] => optimal dapat

[10] => dapat dimanfaatkan

[11] => dimanfaatkan untuk

[12] => untuk menyelesaikan

[13] => menyelesaikan masalah

[14] => masalah tersebut

[15] => tersebut dengan

[0] => pemilihan struktur

[1] => struktur data

[2] => data dan

[3] => dan algoritma

[4] => algoritma merupakan

[5] => merupakan permasalahan

[6] => permasalahan yang

[7] => yang kritis [8]

=> kritis dalam [9]

=> dalam disain [10]

=> disain sistem [11]

=> sistem yang

[12] => yang memungkinkan

[13] => memungkinkan temu

[14] => temu kembali

[15] => kembali dengan

Tabel 5.3 Hasil token biword

Page 73: ii - Home | Repository USM

61

Tabel 5.3 Hasil token biword (lanjutan)

Token Dokumen Uji Token Dokumen 3

[16] => dengan bantuan

[17] => bantuan aplikasi

[18] => aplikasi pemilihan

[19] => pemilihan struktur

[20] => struktur data

[21] => data dan

[22] => dan algoritma

[23] => algoritma merupakan

[24] => merupakan permasalahan

[25] => permasalahan yang

[26] => yang kritis

[27] => kritis dalam

[28] => dalam disain

[29] => disain sistem

[30] => sistem yang

[31] => yang memungkinkan

[32] => memungkinkan temu

[33] => temu kembali

[34] => kembali dengan

[35] => dengan basis

[36] => basis data

[37] => data berukuran

[38] => berukuran besar

[39] => besar secara

[40] => secara efektif

[41] => efektif dan

[42] => dan efisien

[16] => dengan basis

[17] => basis data

[18] => data berukuran

[19] => berukuran besar

[20] => besar secara

[21] => secara efektif

[22] => efektif dan

[23] => dan efisien

Page 74: ii - Home | Repository USM

62

3. Mengubah token biword menjadi nilai MD5.

Untuk mengubah sebuah token biword menjadi MD5, dapat dilakukan

dengan fungsi MD5 yang terdapat dalam bahasa pemrograman PHP. Setelah

masing-masing token biword diubah menjadi MD5, akan diperoleh hasil sebagai

berikut:

Dokumen Uji:

[0] => 998d2e98c5e38b03a951ee3294c0e553

[1] => 987bf6950cb20c2a1fb2a1e013b814e0

[2] => 83d01da1003236447620e49d25ca7b06

[3] => a531c2469c1103430a1dc95fd7a27e55

[4] => f0ce1a317c8eafa0d7bdbc3830a4ff67

[5] => 967676713e5d0114f3423feaff39acd2

[6] => 2db424971a31301d889fdc26fa25ba65

[7] => c1d893c885690cb45a600abe8d51e0d1

[8] => 625a209fb69c626bbcdbc68991a65137

[9] => 7415643910fb03611d5dac24fcb827e7

[10] => 3828e97b53b817f9d6e47b2610d22376

[11] => 580901301e97f174e26d0488853a2b27

[12] => 5a48a726ad11ea4612b1c43b133d8ab7

[13] => 403a826a8c033176054485f79c80594f

[14] => 573817939946a174c00322f36a8b96d2

[15] => 8f0c0e5ef42449c2a7a54baa46732cad

[16] => 7df7264f35cb214094281492de40e96a

[17] => eb1ed9b3d06370b90aaea8e7c36ffcaf

[18] => 0e8f3083477917e1a300a992f8c71e1e

[19] => 666853446c0a48fe21e1d7fb69c6be57

[20] => ed5435491272fb9b1d06c37556768b92

[21] => bdc7c27d0ea015ba2852311cde4d597b

Page 75: ii - Home | Repository USM

63

Dokumen Uji (lanjutan):

[22] => f589496c0f5cd4fedf98c150c9f41025

[23] => a2ed243f4090db2f974af40e96b24f24

[24] => 3fbaecb1cede43a9d5802c21e46c053e

[25] => 5c706d3e8c99d2b2ff12a7e7c1af1ed0

[26] => f58a9cb63576c0366fd3a8c0d1966b8e

[27] => b457e902ea3609249fc993037896afe0

[28] => 525bf4a36d99e628db8a1ee78ff4d82c

[29] => 574e7cd71f01a8975b778cd7854e008b

[30] => 53521c2dcbbc4afa378c46b263cba6ef

[31] => 11edddb40dcb570e3f72bcea9583be6a

[32] => d5205afc6f66e43499b4c0c02a893b6d

[33] => 00787c2f6d67ed65f447741795c04c1d

[34] => de81d950e832b9fb26da258f634cd529

[35] => 4df0a258fe93fe7dc23a2fc264d3dd92

[36] => 9d43d6ea63c5b521c0bc19d1da2921be

[37] => 76885860e263060adb2c748f60d612b3

[38] => 1abb9c6c4e8b1c002f8a68cad72a94b4

[39] => d76818c8a52c915e89f78ee600b59fcf

[40] => cb1e4a6819a6cbad921060a06b0b0eae

[41] => 8f19637469846759bde2ff2d169cfd4f

[42] => 7419728e91e3df64274c5a663d3381fa

Dokumen 3:

[0] => 666853446c0a48fe21e1d7fb69c6be57

[1] => ed5435491272fb9b1d06c37556768b92

[2] => bdc7c27d0ea015ba2852311cde4d597b

[3] => f589496c0f5cd4fedf98c150c9f41025

[4] => a2ed243f4090db2f974af40e96b24f24

[5] => 3fbaecb1cede43a9d5802c21e46c053e

Page 76: ii - Home | Repository USM

64

[6] => 5c706d3e8c99d2b2ff12a7e7c1af1ed0

[7] => f58a9cb63576c0366fd3a8c0d1966b8e

[8] => b457e902ea3609249fc993037896afe0

[9] => 525bf4a36d99e628db8a1ee78ff4d82c

[10] => 574e7cd71f01a8975b778cd7854e008b

[11] => 53521c2dcbbc4afa378c46b263cba6ef

[12] => 11edddb40dcb570e3f72bcea9583be6a

[13] => d5205afc6f66e43499b4c0c02a893b6d

[14] => 00787c2f6d67ed65f447741795c04c1d

[15] => de81d950e832b9fb26da258f634cd529

[16] => 4df0a258fe93fe7dc23a2fc264d3dd92

[17] => 9d43d6ea63c5b521c0bc19d1da2921be

[18] => 76885860e263060adb2c748f60d612b3

[19] => 1abb9c6c4e8b1c002f8a68cad72a94b4

[20] => d76818c8a52c915e89f78ee600b59fcf

[21] => cb1e4a6819a6cbad921060a06b0b0eae

[22] => 8f19637469846759bde2ff2d169cfd4f

[23] => 7419728e91e3df64274c5a663d3381fa

Setelah didapatkan nilai MD5 masing-masing token biword yang

dibentuk, selanjutnya akan dihitung nilai hash menggunakan persamaan Rolling

Hash. Nilai-nilai hash ini akan dipilih nantinya untuk dijadikan fingerprint.

Berikut adalah tabel 5.4 yang merupakan hasil perhitungan nilai hash masing-

masing token biword:

Page 77: ii - Home | Repository USM

65

Tabel 5.4. Nilai hash token biword

Token Dokumen Uji Token Dokumen 3

[0] => 258247033209[1] => 259631046226[2] => 259774433926[3] => 326142312171[4] => 367663887435[5] => 239205881598[6] => 295388782597[7] => 350204784785[8] => 239032808521[9] => 228 867238637[10] => 233383424288[11] => 228358173027[12] => 281692812831[13] => 232031181210[14] => 229283220218[15] => 300115964114[16] => 309814531481[17] => 398201776708[18] => 282676831411[19] => 232259278917[20] => 380671597868[21] => 407050206300[22] => 336732088481[23] => 357586293296[24] => 323636969615[25] => 281046219092[26] => 351444753101[27] => 330809299098[28] => 244689925959[29] => 247277474850[30] => 228656225616[31] => 264392933473[32] => 331223223744[33] => 217731976722[34] => 387576660737[35] => 307332697348[36] => 294460894349[37] => 235961288743[38] => 307212293792[39] => 333728840732[40] => 388497130971[41] => 285700163806[42] => 230906887617

[0] => 232259278917[1] => 380671597868[2] => 407050206300[3] => 336732088481[4] => 357586293296[5] => 323636969615[6] => 281046219092[7] => 351444753101[8] => 330809299098[9] => 244689925959[10] => 247277474850[11] => 228656225616[12] => 264392933473[13] => 331223223744[14] => 217731976722[15] => 387576660737[16] => 307332697348[17] => 294460894349[18] => 235961288743[19] => 307212293792[20] => 333728840732[21] => 388497130971[22] => 285700163806[23] => 230906887617

Nilai perhitungan pada tabel 5.4 didapatkan berdasarkan persamaan 2.14

berdasarkan nilai enkripsi md5 pada tahapan sebelumya.

Page 78: ii - Home | Repository USM

66

4. Pembentukan window dari nilai hash yang telah diperoleh.

Misalkan ukuran window w yang digunakan adalah 4, maka diperoleh

hasil pembagian token hash sebagai berikut:

Kalimat 1:

[ 258247033209 259631046226 259774433926 326142312171 ]

[ 259631046226 259774433926 326142312171 367663887435 ]

[ 259774433926 326142312171 367663887435 239205881598 ]

[ 326142312171 367663887435 239205881598 295388782597 ]

[ 367663887435 239205881598 295388782597 350204784785 ]

[ 239205881598 295388782597 350204784785 239032808521 ]

[ 295388782597 350204784785 239032808521 228867238637 ]

[ 350204784785 239032808521 228867238637 233383424288 ]

[ 239032808521 228867238637 233383424288 228358173027 ]

[ 228867238637 233383424288 228358173027 281692812831 ]

[ 233383424288 228358173027 281692812831 232031181210 ]

[ 228358173027 281692812831 232031181210 229283220218 ]

[ 281692812831 232031181210 229283220218 300115964114 ]

[ 232031181210 229283220218 300115964114 309814531481 ]

[ 229283220218 300115964114 309814531481 398201776708 ]

[ 300115964114 309814531481 398201776708 282676831411 ]

[ 309814531481 398201776708 282676831411 232259278917 ]

[ 398201776708 282676831411 232259278917 380671597868 ]

[ 282676831411 232259278917 380671597868 407050206300 ]

[ 232259278917 380671597868 407050206300 336732088481 ]

[ 380671597868 407050206300 336732088481 357586293296 ]

Page 79: ii - Home | Repository USM

67

[ 407050206300 336732088481 357586293296 323636969615 ]

[ 336732088481 357586293296 323636969615 281046219092 ]

[ 357586293296 323636969615 281046219092 351444753101 ]

[ 323636969615 281046219092 351444753101 330809299098 ]

[ 281046219092 351444753101 330809299098 244689925959 ]

[ 351444753101 330809299098 244689925959 247277474850 ]

[ 330809299098 244689925959 247277474850 228656225616 ]

[ 244689925959 247277474850 228656225616 264392933473 ]

[ 247277474850 228656225616 264392933473 331223223744 ]

[ 228656225616 264392933473 331223223744 217731976722 ]

[ 264392933473 331223223744 217731976722 387576660737 ]

[ 331223223744 217731976722 387576660737 307332697348 ]

[ 217731976722 387576660737 307332697348 294460894349 ]

[ 387576660737 307332697348 294460894349 235961288743 ]

[ 307332697348 294460894349 235961288743 307212293792 ]

[ 294460894349 235961288743 307212293792 333728840732 ]

[ 235961288743 307212293792 333728840732 388497130971 ]

[ 307212293792 333728840732 388497130971 285700163806 ]

[ 333728840732 388497130971 285700163806 230906887617 ]

Dokumen 3:

[ 232259278917 380671597868 407050206300 336732088481 ]

[ 380671597868 407050206300 336732088481 357586293296 ]

[ 407050206300 336732088481 357586293296 323636969615 ]

[ 336732088481 357586293296 323636969615 281046219092 ]

[ 357586293296 323636969615 281046219092 351444753101 ]

[ 323636969615 281046219092 351444753101 330809299098 ]

[ 281046219092 351444753101 330809299098 244689925959 ]

[ 351444753101 330809299098 244689925959 247277474850 ]

Page 80: ii - Home | Repository USM

68

[ 330809299098 244689925959 247277474850 228656225616 ]

[ 244689925959 247277474850 228656225616 264392933473 ]

[ 247277474850 228656225616 264392933473 331223223744 ]

[ 228656225616 264392933473 331223223744 217731976722 ]

[ 264392933473 331223223744 217731976722 387576660737 ]

[ 331223223744 217731976722 387576660737 307332697348 ]

[ 217731976722 387576660737 307332697348 294460894349 ]

[ 387576660737 307332697348 294460894349 235961288743 ]

[ 307332697348 294460894349 235961288743 307212293792 ]

[ 294460894349 235961288743 307212293792 333728840732 ]

[ 235961288743 307212293792 333728840732 388497130971 ]

[ 307212293792 333728840732 388497130971 285700163806 ]

[ 333728840732 388497130971 285700163806 230906887617 ]

Nilai hash yang dicetak tebal adalah nilai hash terkecil yang dipilih pada setiap

window untuk menjadi fingerprint dokumen.

Maka diperoleh nilai hash minimum masing-masing dokumen:

Dokumen Uji:

[258247033209,0] [259631046226,1] [239205881598,5]

[239032808521,8] [228867238637,9] [228358173027,11]

[229283220218,14] [282676831411,18] [232259278917,19]

[336732088481,22] [323636969615,24] [281046219092,25]

[244689925959,28] [228656225616,30] [217731976722,33]

[235961288743,37] [285700163806,41] [230906887617,42]

Dokumen 3:

[232259278917,0][336732088481,3] [323636969615,5]

[281046219092,6][244689925959,9][228656225616,11]

[217731976722,14][235961288743,18][285700163806,22]

[230906887617,23]

Nilai-nilai hash minimum (fingerprint) yang diperoleh berdasarkan

posisi indeks nya, jika diubah kembali menjadi token biword akan terlihat frasa

mana yang memiliki fingerprint yang sama antara kedua kalimat yang diuji.

Berikut ini adalah biword yang dianggap memiliki nilai fingerprint yang sama.

Page 81: ii - Home | Repository USM

69

i fin

Tabel 5.5 Token biword dengan fingerprint yang sama

Dokumen Uji Dokumen 3

[19] pemilihan struktur

[22] dan algoritma

[24] merupakan permasalahan

[25] permasalahan yang

[28] dalam disain

[30] sistem yang

[33] temu kembali

[37] data berukuran

[41] efektif dan

[42] dan efisien

[0] pemilihan struktur

[3] dan algoritma

[5] merupakan permasalahan

[6] permasalahan yang

[9] dalam disain

[11] sistem yang

[14] temu kembali

[18] data berukuran

[22] efektif dan

[23] dan efisien

Pada tabel 5.5 menjelaskan biword yang sama antar kedua dokumen, nilai didepan

kata menyatakan urutan biword yang terbentuk.

5. Proses selanjutnya adalah menghuitung similarity. Perhitungan similarity

dapat dilakukan dari hasil pemilihan nila gerprint setiap dokumen.

Similaritas(duji,d3) = 55,5%

Similaritas(duji,d2) = 0 %

Similaritas(duji,d1) = 38,88 %

5.5 Hasil Pengujian

Hasil pengujian yang telah dilakukan adalah sebagai berikut :

1. Pengujian yang telah dilakukan menggunakan pendekatan quadword lebih baik

daripada triword dan biword untuk dokumen yang memiliki tingkat kemiripan tinggi.

Hal ini dikarenakan quadword dapat memperkecil kecocokan .

2. Berdasarkan pengujian yang telah dilakukan, semakin besar kata yang digunakan

dalam mendeteksi kemiripan dokumen teks maka tingkat kemiripan yang dihasilkan

semakin berkurang. Hal ini , dikarenakan pembentukan quadword lebih sedikit

daripada triword dan biword

Page 82: ii - Home | Repository USM

70

BAB VI

PENUTUP

6.1 Kesimpulan

Kesimpulan penelitian ini adalah sebagai berikut:

a. Mendeteksi sumber dokumen berdasarkan model ruang vektor dan

melakukan pendeteksian kemiripan terhadap banyak dokumen (corpus)

sesuai dengan pengujian kemiripan teks menggunakan algoritma biword

winnowing.

b. Pada ouput hasil pengujian, aplikasi ini memberikan informasi

kemiripan query terhadap dokumen corpus dan kemiripan dokumen uji

terhadap dokumen corpus serta cuplikan kata-kata yang sama sesuai

dengan perhitungan algoritma biword winnowing.

c. Pembentukan query dengan pendekatan triword, quadword dan pentaword

dengan stemming dan tanpa stemming serta pemilihan frekuensi frase

tertinggi, terendah dan tengah dapat digunakan untuk mendeteksi sumber

dan melakukan pendeteksian plagiarism terhaddap banyak dokumen.

d. Pembentukan query dengan pendekatan triword tanpa stemming dan

pemilihan frekuensi frase tertinggi dapat memberikan hasil yang stabil

dalam beberapa pengujian dan mendapatkan nilai similarity jaccard

coefficient dengan rata-rata 15.66%.

6.2 Saran

Untuk pengembangan aplikasi ini di masa yang akan datang, maka

diberikan beberapa saran sebagai berikut:

a. Aplikasi pendeteksi sumber dokumen dan kemiripan dokumen teks ini dapat

dikembangkan dalam Bahasa inggris atau Bahasa lainnya dengan

menerapkan stemming.

Page 83: ii - Home | Repository USM

71

b. Aplikasi ini dapat dikembangkan dengan menggunakan corpus yang

dinamis dari hasil pencarian google.

c. Pendeteksian kemiripan dokumen dapat mengenali persamaan kata

(sinonin).

Page 84: ii - Home | Repository USM

72

DAFTAR PUSTAKA

Augusta, Lady. 2009. “Perbandingan Algoritma Stemming Porter Dengan AlgoritmaNazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia”.Konferensi Nasional Sistem dan Informatika 2009, Bali, November 14, 2009.

Baeza-Yates, R. & Ribeiro-Neto, B. 1999. “Modern Information Retrieval”.Addison-Wesley.

Cios, Krzysztof J. Etc. (2009) “Data Mining A Knowledge Discovery Approach”,

Springer.

Garcia, E “Document Indexing Tutorial for Information Retrieval Students andSearch Engine Marketers” Desember. 2005.

McEnery T,Wilson A. 2001. Corpus Linguistic 2nd Edition Edinburgh UniversityPress.

Manning, Christopher D., Prabhakar Raghavan dan Hinrich Schütze. An Introductionto Information Retrieval. England: Cambridge University Press. 2009

Munir, Rinaldi. Algoritma Dan Pemograman. Bandung: Informatika Bandung.2007

Rafles, Adek, “Pengembangan Aplikasi Pendeteksi Plagiarisme Dokumen DenganPendekatan k-gram Berbasis Frasa,” Tugas Akhir Teknik Informatika, 2013.

Ridho, Muhammad, “Rancang Bangun Aplikasi Pendeteksi PenjiplakanDokumen Menggunakan Algoritma Biword Winnowing,” Tugas Akhir TeknikInformatika, 2013.

Salton, Gerard, dan Christopher Buckley. “Term-Weighting Approaches In AutomaticText Retrieval,” Department of Computer Science, Cornell University, 19November 1987. (Rev. 26 Januari 1988).

Schleimer, Saul, Daniel S. Wilkerson, dan Alex Aiken. Winnowing: Local Algorithmsfor Document Fingerprinting. San Diego: In Proceedings of the ACMSIGMOD International Conference On Management Of Data.2003

Steven. Perancangan Program Aplikasi Pendeteksian Plagiarisme Dokumen BerbasisTeks Menggunakan Algoritma Rabin-Karp. Jakarta: Tugas Akhir ProgramGanda Teknik Informatika Dan Matematika, Universitas Bina Nusantara.2009.

Page 85: ii - Home | Repository USM

73

Syahroni, Raja, “Sistem Temu Balik Informasi (Stbi) Laporan Kerja Praktek DanTugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus : TeknikInformatika),” Tugas Akhir Teknik Informatika, 2012.

Wang Tao, Fan Xiao-Zhong, Liu Jie, Plagiarism Detection in Chinese Based on Chunkand Paragraph Weight. Kunming: in Proceedings of the Seventh InternationalConference on Machine Learning and Cybernetics. 2008

Winoto, Hendro, “Dekeksi Kemiripan isi Dokumen Teks Menggunakan AlgoritmaLevenshiten Distance” Tugas Akhir Teknik Informatika UIN Maulana MalikIbrahim, 2012.

Page 86: ii - Home | Repository USM

Lampiran 1. Biodata Ketua dan Anggota Tim Pengusul

USM

Page 87: ii - Home | Repository USM

BIODATA KETUA PELAKSANA

IDENTITAS DIRI

Nama Lengkap : Dr. Titin Winarti, S. Kom., M.M.Jabatan Fungsional : Lektor Kepala/ IV CJabatan Struktural : Ka. Lab. OracleNIS/NIDN : 06557003102049/0627116901Tempat, Tanggal Lahir : Jakarta, 27 November 1969Perguruan Tinggi : Universitas SemarangAlamat : Jl. Soekarno Hatta TlogosariTelp./Faks : 024-6702757 / 024-6702272Alamat Rumah : Taman Suryo Kusumo IV No. 58Telp./Faks : 085640328082Alamat e-mail : [email protected] Kuliah yangDiampu

:1. Basis Data2. Algoritma dan Pemrograman3. Struktur Data4. Algoritma dan Struktur Data5. Oracle WDP

B. Riwayat Pendidikan Perguruan Tinggi

S1 S2 S3Nama PT Univ Gunadarma Univ

GunadarmaUnivGunadarma

Bidang Ilmu Sistem Informasi SistemInformasiBisnis

TeknologiInformasi

Tahun Masuk-Lulus 1988 1994 2017

C. Pengalaman Penelitian Dalam 5 Tahun Terakhir

Tahun Judul Penelitian / Pengabdian KepadaMasyarakat

Ketua/AnggotaTim

SumberDana

2016 Aplikasi Pengukuran Kemiripan DokumenMenggunakan Cosine Similarity

Titin Winarti USM

D. Pengalaman Penulisan Jurnal dan Prosiding Dalam 5 Tahun TerakhirTahun Judul Penelitian Nama

Jurnal/ProsidingPenerbit/

Penyelenggara2015 Model of Document Similarity

Measurement System byFingerprint Method Utilizationwith Natural LanguageProcessing Approach

The 5 th Uzbekistan –Indonesia InternationalJoint Conference onGlobalization,Economic

UniversitasGunadarma

Page 88: ii - Home | Repository USM

Page 205 Development, andNation CharacterBuilding

2016 Plagiarism Detection SystemFor Indonesia Text BasedDocument by FingerprintMethod and Natural LanguageProcessing Approach

The 4th InternationalConference onInternet ServicesTechnology andInformationEngineering 2016

LembagaTelematikaIndonesia,

E. Pengalaman Pengabdian Kepada Masyarakat Dalam 5 Tahun TerakhirJenis Tahun Nama Kegiatan Tempat

Pelatihan 2016 Pengembangan Bahan AjarMenggunakan Media PembelajaranInteraktif (Mpi)Pada SMK NU 03 KaliwunguKabupaten Kendal

SMK NU 03KaliwunguKabupaten Kendal

F. Pengalaman Pembicara/InstrukturJenis Tahun Nama Kegiatan Sebagai

Conference 2015 The 5 th Uzbekistan – IndonesiaInternational Joint Conference onGlobalization, Economic Development,and Nation Character Building

Pemakalah

Conference 2016 The 4th International Conference onInternet Services Technology andInformation Engineering 2016

Pemakalah

Pelatihan 2016 Pengembangan Bahan AjarMenggunakan Media PembelajaranInteraktif (Mpi)Pada SMK NU 03 KaliwunguKabupaten Kendal

Instruktur

Demikian biodata ini saya buat dengan sebenarnya untuk memenuhi salah satu persyaratandalam usulan pengabdian kepada masyarakat.

Semarang, 9 September 2019Ketua

Dr. Titin Winarti, S. Kom., M.M.

Page 89: ii - Home | Repository USM

Biodata Anggota Tim Penelitian

A. Identitas Diri Anggota

1 Nama Lengkap (dengan gelar) Drs. Wawan Setiawan, MM2 Jenis Kelamin L / P3 Jabatan Fungsional Penata Tingkat I/III C4 NIP / NIK / Identitas lainnya 065570005040035 NIDN 06041065016 Tempat dan Tanggal Lahir Sukabumi, 4 Oktober 1965

E-Mail [email protected] Telepon/HP 08122923424Alamat Kantor Jl. Arteri Sukarno Hatta SemarangNomor Telepon / faks 024-6702757 / 021-6702272Lulusan yang Telah Dihasilkan 44 OrangMata Kuliah yang Diampu 1. Pendidikan Kewarganegaraan

2. Pendidikan Pancasila

B. Riwayat PendidikanS-1 S

-2

Nama Perguruan Tinggi IKIP Semarang Universitas SemarangBidang Ilmu Pendidikan Kepelatihan ManajemenTahun Masuk-Lulus 1985-1989 2000-2002Judul Skripsi/ Tesis Pengaruh Latihan Memukul

Bola Naik dan Bola TurunTerhadap Prestasi Memukulpada Permainan Softball

Studi Atribut Diferensiasipada Bisnis Perhotelan

Nama Pembimbing Studi Atribut Diferensiasi padaHotel Patra Jasa Semarang

Prof.Dr.Agusty FerdinanProf.Dr.Ir.JohannesHutabarat, MSc.

C. Pengalaman Penelitian Dalam 5 Tahun TerakhirNo Tahun Judul Penelitian Pedanaan

Sumber Jml (JutaRp)

1 2012 Pengaruh Identitas Nasionalterhadap Perilaku BudayaDemokrasi

UniversitasSemarang

2,5 Juta

2. 2013 “Faktor-Faktor YangMempengaruhi PerilakuKepatuhan Wajib Pajak Badan diKota Semarang

UniversitasSemarang

2,5 Juta

3 2014 “Penerapan Nilai-Nilai PancasilaDalam Mengatasi ProblematikaPendidikan Guna MencapaiTujuan Nasional Di Dinas KotaSemarang

UniversitasSemarang

2,5 Juta

Page 90: ii - Home | Repository USM

4 2015 Analisis Penerimaan PenggunaAkhir Dengan MenggunakanTechnology Acceptance ModelDan End User ComputingSatisfaction Terhadap PenerapanCore Banking System

Hibah Dikti 50 Juta

5 2016 Pengaruh Gaya Kepemimpinan,Budaya Etis dan KomitmenOrganisasi Serta PenegakanHukum Terhadap “FraudAccounting System” PadaBerbagai Instansi/LembagaPemerintahan Di Kota Semarang.

UniversitasSemarang

5 Juta

6 2017 Model Pengembangan KlasterUKM Berbasis TeknologiInformasi Untuk MendapatkanNilai Tambah Produk (CompetitiveAdvantage) Bagi UKM di JawaTengah

Hibah Dikti 50 Juta

7 2018 Pengembangan Sistem InformasiOrganisasi Amateur RadioIndonesia (ORARI) LokalSemarang Berbasis TeknologiInformasi.

UniversitasSemarang

5 Juta

D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun Terakhir

No Thn Judul Pengabdian KepadaMasyarakat

Pedanaan

Sumber Jml (jutaRp)

1 2009 Sosialisasi Program NasionalPemberdayaan MasyarakatMandiri Th.2009

UniversitasSemarang

1,5 Juta

2 2012 Pelatihan Komposting diKecamatan Semarang Barat

UniversitasSemarang

1,5 Juta

3 2013 Pelatihan Kewirausahaanberbasis Business Plan padaUsaha Kecil Batik LaweyanSurakarta

UniversitasSemarang

1,5 Juta

4 2013 Pelatihan Pengolahan SampahRumah Tangga dengan MetodeTakakura bagi Ibu-Ibu PKK diKelurahan Mangunharjo Kec.Tembalang Kota semarang

UniversitasSemarang

1,5 Juta

Page 91: ii - Home | Repository USM

5 2013 Pelatihan Pasar Modal berbasis“Online Tradinga” di KantorPelayanan Pajak KPP GayamsariSemarang

Pojok BursaFakultas EkonomiUniversitasSemarang

2,5 Juta

6 2014 Peningkatan PemahamanMengenai Pancasila SebagaiDasar Pengembangan IlmuPengetahuan Dan TeknologiInformasi Dan Komunikasi

UniversitasSemarang

1,5 Juta

7 2014 Pelatihan Penulisan KaryaIlmiah Bagi Guru SekolahMenengah Atas AtauSederajad di KecamatanMijen Kota Semarang.KOTA SEMARANG

UniversitasSemarang

1,5 Juta

8 2015 Pelatihan Pasar ModalOnline Bagi Pelaku UsahaMikro,Kecil dan Menengah(UMKM) se KecamatanTembalang Kota Semarang

Mandiri 2 Juta

9 2016 Pelatihan Perencanaan PajakPenghasilan Dan Tata CaraPengelolaan KeuanganUsaha Bagi Para PelakuUsaha Kecil Dan MenengahDi Kecamatan TembalangKota Semarang

UniversitasSemarang

3 Juta

10 2018 Upaya PeningkatanKeterampilan Berorganisasidan Keterampilan MembatikUMKM Batik DurenanIndah KelurahanMangunharjo KecamatanTembalang Kota Semarang.

UniversitasSemarang

3 Juta

Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapatdipertanggungjawabkan secara hukum. Apabila dikemudian hari ternyata dijumpaiketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi. Demikian biodata inisaya buat dengan sebenarnya untuk memenuhi satu persyaratan dalam pengajuan UsulanPenelitian Hibah Internal Universitas Semarang.

Page 92: ii - Home | Repository USM

Semarang, 9 September 2019Pengusul,

Drs. Wawan Setiawan, MMNIDN. 0604106501

Page 93: ii - Home | Repository USM

B. Identitas Diri

1 NamaLengkap (dengangelar) Iswoyo, S.Pt., M.P.2 JenisKelamin L/P3 JabatanFungsional Lektor4 NIP / NIK / Identitaslainnya 065570021010325 NIDN 06061268016 TempatdanTanggalLahir Semarang, 6 Desember 19687 E-Mail [email protected] NomorTelepon/HP 0813263579109 Alamat Kantor Jl. Arteri Sukarno Hatta Semarang10 NomorTelepon / faks (024) 6702757 / (024) 670227211 Lulusan yang Telah Dihasilkan 3212 Mata Kuliah yang Diampu 1. Statistik

2. Metodologi Penelitian3. Ilmu Alamiah Dasar4. Lingkungan dan Pengelolaan

Limbah5. Kewirausahaan

A. Riwayat PendidikanS-1 S-2

Nama Perguruan Tinggi Universitas JenderalSoedirman

Universitas GadjahMada

Bidang Ilmu Peternakan PeternakanTahun Masuk-Lulus 1988 - 1993 1995 – 1997Judul Skripsi/ Tesis Pengaruh Pemberian

Hormon OvalumonProgesteron danProvestin terhadapkinerja ReproduksiSapi PO pasca beranak

Deteksi kebuntingandini Sapi PFH Laktasimelalui HormonProgesteron SusuLaktasi

Nama Pembimbing Prof. Dr. TaswinRahman Tagana, MS

Prof. Dr. SoenarjoKeman, M.Sc

B. Pengalaman Penelitian Dalam 5 Tahun Terakhir

No Tahun JudulPenelitian PendanaanSumber Jml (JutaRp)

1 2010 Substitusi Daging Sapi dengan Daging Kelinciterhadap Kualitas Bakso

UniversitasSemarang

2.500.000

2 2010 Analisis Faktor-faktor yang mempengaruhipemberdayaan wanita

DinasPendidikanJawaTengah

10.000.000

3 2010 Analisis pengaruh lingkungan kerja, motivasi,kepemimpinan, komunikasi dan keterampilan

KopertisWilayah VI

7.500.000

Page 94: ii - Home | Repository USM

terhadap Pemberdayaan KUB wanita nelayanMinasari di Pemalang

JawaTengah

4 2010 Kajian Peraturan Daerah Dalam PeningkatanInvestasi Di Kota Semarang

BappedaKotaSemarang

25.000.000

5 2012 Melakukan Penelitian dengan Judul Hubungan LamaPemerahan Ambing Kuartir Depan dan Belakangterhadap Produksi Susu Sapi PFH Laktasi

UniversitasSemarang

2.500.000

6 2013 Penelitian Dengan Judul : Performans ReproduksiSapi PFH Di KTT Sidomulyo KecamatanGunungpati Kota Semarang (Sebagai Ketua)

UniversitasSemarang

2.500.000

7 2014 Penelitian Dengan Judul : Uji Kualitas TelurKonsumsi di beberapa Pasar Tradisional di KotaSemarang (Sebagai Anggota)

UniversitasSemarang

2.500.000

8 2014 Analisis Pola Distribusi Semen Beku TerhadapTingkat Keberhasilam IB Dalam MendukungProduksi dan Produktivitas Sapi Perah di KTTSidomulyo Kelurahan Nongkosawit, KecamatanGunung Pati Semarang

PemprovJateng

40.000.000

C. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun Terakhir

No Thn JudulPengabdianKepadaMasyarakat PedanaanSumber Jml (jutaRp)

1 2009 Kajian Ekonomi Pemanfaatan BiobriketLimbah Sapi Perah Sebagai BahanBakar Alternatif

Dikti 25.000.000

2 2009 Pemanfaatan Biobriket Limbah SapiPerah sebagai Bahan Bakar Alternatif

UniversitasSemarang

2.500.000

3 2009 Sosialisasi Flu Babi dan DampaknyaBagi Kesehatan Manusia

UniversitasSemarang

2.500.000

4 2010 Pemanfatan Kotoran Kelinci SebagaiKompos

UniversitasSemarang

2.500.000

5 2012 Melakukan Pengabdian kepadaMasyarakat dengan Judul : IntroduksiTeknologi Pengawetan Hijauan PakanTernak Kambing di KelurahanWonolopo, Kecamatan Mijen,Semarang

UniversitasSemarang

2.500.000

6 2013 Program KKN Vokasi TeknologiPengomposan

DinasPendidikanJateng

25.000.000

7 2013 Program KKN Vokasi Teknologi Prosesdan Pengemasan Produk Pangan

DinasPendidikanJateng

25.000.000

8 2014 Sosialisasi Kriteria Daging Ayam yangsehat dan Berkualitas pada Ibu Ibu PKKdan SMA Abdi Negara Kecamatan

UniversitasSemarang

2.500.000

Page 95: ii - Home | Repository USM

Karangtengah Kabupaten Demak(Sebagai Anggota)

D. Publikasi Artikel Ilmiah Dalam Jurnal dalam 5 Tahun Terakhir

No JudulArtikelJurnalIlmiah NamaJurnal Volume/Nomor/Tahun

1 Response, Effectiveness AndAccuracy Of. Different SelectionMethods AndIntensities In Dairy Cattle”

(Jurnal Produksi TernakAnimal ProductionTerakreditasi DIKTI No.65a/DIKTI/Kep/2008 ISSN :1411-2027

No. 1, Januari 2009Vol. 11 Hal. 65-70)

E. Pemakalah Seminar Ilmiah (Oral Presentation) dalam 5 Tahun Terakhir

No Nama Pertemuan Ilmiah/ Seminar

Judul Artikel Ilmiah Waktu danTempat

1 Seminar Penelitian Kajian Ekonomi Pemanfaatan BiobriketLimbah Sapi Perah Sebagai Bahan BakarAlternatif

2009, Dikti

2 Seminar Penelitian Pemanfaatan Biobriket Limbah Sapi Perahsebagai Bahan Bakar Alternatif

2009,UniversitasSemarang

4 Seminar Penelitian Analisis pengaruh lingkungan kerja, motivasi,kepemimpinan, komunikasi dan keterampilanterhadap Pemberdayaan KUB wanita nelayanMinasari di Pemalang

2010, KopertisVI JawaTengah

5 Seminar Penelitian Substitusi Daging Sapi dengan DagingKelinci terhadap Kualitas Bakso

2010,UniversitasSemarang

6 Seminar Penelitian Analisis Faktor-faktor yang mempengaruhipemberdayaan wanita

2010, DinasPendidikanJawa Tengah

7 Seminar Penelitian Kajian Peraturan Daerah Dalam PeningkatanInvestasi Di Kota Semarang

2010, BappedaKota Semarang

8 Seminar Penelitian Hubungan Lama Pemerahan Ambing KuartirDepan dan Belakang terhadap Produksi SusuSapi PFH Laktasi

2012,UniversitasSemarang

9 Seminar Penelitian Performans Reproduksi Sapi PFH Di KTTSidomulyo Kecamatan Gunungpati KotaSemarang (Sebagai Ketua)

2013,UniversitasSemarang

10 Seminar Penelitian Uji Kualitas Telur Konsumsi di beberapaPasar Tradisional di Kota Semarang (SebagaiAnggota)

2014,UniversitasSemarang

Page 96: ii - Home | Repository USM

11 Seminar Penelitian Analisis Pola Distribusi Semen BekuTerhadap Tingkat Keberhasilam IB DalamMendukung Produksi dan Produktivitas SapiPerah di KTT Sidomulyo KelurahanNongkosawit, Kecamatan Gunung PatiSemarang

2014, PemprovJateng

12 Seminar PengabdianKepada Masyarakat

Introduksi Teknologi Pengawetan HijauanPakan Ternak Kambing di KelurahanWonolopo, Kecamatan Mijen, Semarang

2012,UniversitasSemarang

13 Seminar PengabdianKepada Masyarakat

Teknologi Pengomposan 2013, DinasPendidikanJateng

14 Seminar PengabdianKepada Masyarakat

Teknologi Proses dan Pengemasan ProdukPangan

2013, DinasPendidikanJateng

15 Seminar PengabdianKepada Masyarakat

Sosialisasi Kriteria Daging Ayam yang sehatdan Berkualitas pada Ibu Ibu PKK dan SMAAbdi Negara Kecamatan KarangtengahKabupaten Demak (Sebagai Anggota)

2014,UniversitasSemarang

Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapat

dipertanggungjawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai

ketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi.

Demikian biodata ini saya buat dengan sebenarnya untuk memenuhi salah satu persyaratan

dalam pengajuan Penelitian Universitas Semarang.

Semarang, 9 September 2015

Iswoyo, S.Pt. M.P

Page 97: ii - Home | Repository USM

C.Identitas Diri Anggota

1 Nama Lengkap Endah Pujiastuti, S.H., M.H.2 Jenis Kelamin Perempuan3 Jabatan Fungsional Lektor Kepala4 NIS 065570038010155 NIDN 06121268016 Tempat/tanggal lahir Pati, 12 Desember 19687 Alamat e-mail [email protected] NomorTelp/HP 0852004559499 Alamat Kantor Jl. Sukarno Hatta, Semarang

10 Nomor Telp /Fax 024-6702757 / 024-670227211 Lulusan yang telah dihasilkan S1 = 260 orang; S2 = 0 orang; S3 = 0 orang12 Mata Kuliah yang Diampu 1. Pengantar Hukum Indonesia

2. Hukum Administrasi Negara3. Hukum Ketenagakerjaan4. Hukum Perizinan

A. Pengalaman Penelitian 5 Tahun TerakhirNo.

Tahun Judul Penelitian PendanaanSumber Jumlah

(Juta Rp)1 2018 Optimalisasi Perlindungan Hukum bagi Konsumen

dalam Jual Beli On Line di Jawa TengahDIKTI 118.000000

2 2017 Pengawasan dan Penerapan Sanksi AdministratifTerhadap Pelanggaran Perizinan BidangPerlindungan dan Pengelolaan Lingkungan Hidupbagi Usaha Industri Kecil pada Kabupaten/Kota diWilayah Provinsi Jawa Tengah (Tahun Kedua)

DIKTI 70.000.000

3 2017 Kebijakan Perluasan Alat Bukti Hukum AcaraPidana dalamUpaya mewujudkan Kepastian HukumBerkeadilan

USM 5.000.000

4 2016 Pengawasan dan Penerapan Sanksi AdministratifTerhadap Pelanggaran Perizinan BidangPerlindungan dan Pengelolaan Lingkungan Hidupbagi Usaha Industri Kecil pada Kabupaten/Kota diWilayah Provinsi Jawa Tengah (Tahun Pertama)

DIKTI 50.000.000

5 2015 Kebijakan Pengawasan Terhadap AktifitasPerusahaan Penyedia Jasa Pekerja/Buruh MelaluiOptimalisasi Klausul Laporan Ketenagakerjaan.(Tahun Kedua)

DIKTI 61.000.000

6 2014 Kebijakan Pengawasan Terhadap AktifitasPerusahaan Penyedia Jasa Pekerja/Buruh MelaluiOptimalisasi Laporan Ketenagakerjaa (TahunPertama)

DIKTI 57.500.000

7 2014 Pengembangan Kawasan Industri dalamMemaksimalkan Penerimaan Anggaran Daerah(PAD) di Kota Semarang : Suatu Perspektif KonsepPembangunan Berkelanjutan

USM 2.500.000

Page 98: ii - Home | Repository USM

B. Pengalaman Pengabdian kepada Masyarakat 5 Tahun TerakhirNo. Tahun Judul Pengabdian Pendanaan

Sumber Jumlah(Juta Rp)

1 2017 Peningkatan Pemahaman Siswa SMA N 1 BojaTerhadap Aspek Hukum Penyalahgunaan Narkotikadi Kalangan Remaja

USM 3.000.000

2 2016 Peningkatan Pemahaman Siswa SMK Tlogosaritentang Bendera, Bahasa, dan Lambang Negara,serta Lagu Kebangsaan dalam Rangka MemperkuatKarakter Nasionalis Generasi Muda

USM 3.000.000

3 2015 Peningkatan Pemahaman Siswa SMA dalamPemberian Bantuan Hukum secara Cuma-Cuma

USM 3.000.000

4 2015 Peningkatan Pemahaman Pentingnya HukumPerjanjian : Jual Beli Online bagi Siswa MAN YPIKlambu Godong Grobogan

USM 3.000.000

5 2014 Peningkatan Pemahaman Siswa SMA/SMK di KotaSemarang mengenai Asuransi Penumpang danAsuransi Kecelakaan Lalu Lintas Jalan Raya

USM 1.500.000

6 2014 Peningkatan Pemahaman Siswa SMK Tlogosaritentang Perjanjian Kerja dalam Rangka PersiapanMemasuki Pasar Kerja

USM 1.500.000

E. Publikasi Artikel Dalam Jurnal dalam 5 Tahun Terakhir

No Judul Artikel Ilmiah Nama JurnalVolume/ Nomor/

Tahun1. Pengawasan Terhadap Perusahaan

Penyedia Jasa Pekerja/BuruhProsiding SeminarNasional HasilPenelitian danPKM : Sosial,Ekonomi, danHumaniora

Volume 4, No. 1, Tahun2014, ISSN 2089-3590http://proceeding.unisba.ac.id/index.php/sosial/article/view/174

2 Kebijakan PemerintahKabupaten/Kota dalam MelakukanPengawasan Terhadap AktifitasPerusahaan Penyedia JasaPekerja/Buruh

Prosiding SeminarNasional “Peluang,Tantangan Dosendan PerguruanTinggi MenghadapiMasyarakatEkonomi ASEAN2015”

Volume 4B Tahun 2015,ISSN 2302-4135halaman 438-444

3 Reposisi Kedudukan Janda (CeraiMati) Dalam Hukum Waris AdatBatak Dalam Perspektif Gender

Jurnal DinamikaSosial Budaya

JDSB 2015, Vol 17,No.2, ISSN : 1410-9859http://journals.usm.ac.id/index.php/jdsb/article/view/469/278

4 Kajian Normatif KeberadaanToko Modern Di KotaSemarang

Humani VOL. 5 No. 3 tahun 2015P-ISSN : 1411-3066E-ISSN : 2580-8516

Page 99: ii - Home | Repository USM

http://journals.usm.ac.id/index.php/humani/article/view/946

5 Perlindungan Hukum TerhadapHak-Hak Pekerja Migran : StudiKasus Satinah Sebagai Mantan TkiDi Arab Saudi

Humani VOL. 5 No. 3 tahun 2015P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/945

6 Kebijakan Perlindungan DanPengelolaan Lingkungan HidupPada Kabupaten/Kota Di WilayahProvinsi Jawa Tengah

Prosiding SeminarNasional “SNPK –Penguatan DaerahPerbatasanBerbasisKemaritiman”

Volume 1, Tahun 2016,ISSN 2540-783Xhttps://s3.amazonaws.com/academia.edu.documents/50799337/ISI_PROSIDING_LENGKAP.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1537728678&Signature=H%2BvdMVI3UtlAxFdtqXD2HRwhKA0%3D&response-content-disposition=inline%3B%20filename%3DISI_PROSIDING_LENGKAP.pdf.pdf#page=133

7 Administrative Sanction ForViolation Taken By The EmployeeProvider Company

ProceedingInternationalConference on “theAdministration ofJusstice”

ISBN : 978-602-7386-55-2

8 Legal Politics Of Employment InTerm Of Part Of Task Handover ToOther Companies In Indonesia

ProceedingInternationalConference on““IndonesianClean ofCorruption in2020”

ISBN 978-602-1145-41-8http://jurnal.unissula.ac.id/index.php/the2ndproceeding/article/view/1093

9 Kendala Dalam PelaksanaanPelimpahan Pemungutan RetribusiPerpanjangan Izin MempekerjakanTenaga Kerja Asing (Imta) DariPemerintah Pusat KepadaPemerintah Kota Semarang

Jurnal DinamikaSosial Budaya

Volume 18 Nomor 1Tahun 2016ISSN : 1410-9859http://journals.usm.ac.id/index.php/jdsb/article/view/558/369

10 Penerapan Konsep Trias PoliticaDalam Sistem PemerintahanRepublik Indonesia : StudiKomparatif Atas Undang–Undang

Jurnal DinamikaSosial Budaya

Vol. 18 No. 2 Tahun2016ISSN : 1410-9859

Page 100: ii - Home | Repository USM

Dasar Tahun 1945 Sebelum DanSesudah Amandemen

http://journals.usm.ac.id/index.php/jdsb/article/view/580/390

111. Konsep Penanaman ModalSebagai Upaya MestimulasiPeningkatan PerekonomianIndonesia

Humani Volume 7 Nomor 1Tahun 2017P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/953

122. Kajian Normatif MengenaiPenggunaan DiscrecionaryPower Bagi Pejabat PemerintahDalam Upaya MeningkatkanKualitas PenyelenggaraanPemerintahan

Humani Volume 7 Nomor 1Tahun 2017P-ISSN : 1411-3066E-ISSN : 2580-8516http://journals.usm.ac.id/index.php/humani/article/view/956

133. Contributions of Islamic LawEnactment of Criminal LawAgainst Dead in Indonesia (AnOverview Implementation inFrame Pancasila)

Proceeding The2017 InternationalConference On“Globalization ofLaw and LocalWisdom”

Vol 1, No. 4 Tahun 2017ISSN: 978-602-142373-9http://www.icglow-uns.com/index.php/icglow2017/article/view/85

14 4. Administrative Sanctions OfLicence Violation In TheField Of Protection AndEnvironmental ManagementOn District/ City In CentralJava Province

Jurnal DinamikaHukum

Volume 18, No. 1, ISSN2407-6562 (Online)http://dinamikahukum.fh.unsoed.ac.id/index.php/JDH/article/view/604/555

152. Labor supervision policy

in Indonesian legalsystem based onPancasila

IOP Series http://iopscience.iop.org/article/10.1088/1755-1315/175/1/012192/metahttp://iopscience.iop.org/article/10.1088/1755-1315/175/1/012192/pdf

16 1. Legal Protection for Consumersin On Sale Purchase Agreement

InternationalConference On“ICol GaS”

SHS Web of Conferences 54,06011 (2018)14 November 2018eISSN: 2261-2424https://www.shs-conferences.org/articles/shsconf/abs/2018/15/shsconf_icolgas2018_06011/shsconf_icolgas2018_06011.html

Page 101: ii - Home | Repository USM

F. Pemakalah Seminar Ilmiah (Oral Presetation) dalam 5 Tahun terakhir

NoNama PertemuanIlmiah/ Seminar Jurnal Artikel Ilmiah

Waktu danTempat

1 Seminar NasionalPenelitian dan PKM2014

Pengawasan Terhadap PerusahaanPenyedia Jasa Pekerja/Buruh

29 - 30 Oktober2014Unisba Bandung

2 Seminar ProposalPenelitian dan PKM

Peningkatan Pemahaman Siswa SMKTlogosari tentang Perjanjian Kerjadalam Rangka Persiapan MemasukiPasar Kerja

13 Agustus2014USM Semarang

3 Seminar HasilPenelitian dan PKM

Implementasi Kebijakan wajib LaporKetenagakerjaan di Perusahaan

11 – 12 Agustus2014USM Semarang

4 Seminar HasilPenelitian dan PKM

Peningkatan Pemahaman Siswa SMKTlogosari tentang PemenuhanPersyaratan Administrasi dalamBerlalu lintas

3 – 4 Februari2014USM Semarang

5 Seminar Nasional HasilPenelitian dan PKM :Sosial, Ekonomi, danHumaniora

Pengawasan Terhadap PerusahaanPenyedia Jasa Pekerja/Buruh

UniversitasIslam Bandung29 Oktober2014.

6 Seminar NasionalIndustrialisasi Madura“Peluang, TantanganDosen dan PerguruanTinggi MenghadapiMasyarakat EkonomiASEAN 2015” ,

Kebijakan PemerintahKabupaten/Kota dalam MelakukanPengawasan Terhadap AktifitasPerusahaan Penyedia JasaPekerja/Buruh

UniversitasTrunojoyoMadura,Bangkalan, 29September2015.

7 Seminar Nasional“SNPK – PenguatanDaerah PerbatasanBerbasis Kemaritiman”

Kebijakan Perlindungan DanPengelolaan Lingkungan Hidup PadaKabupaten/Kota Di Wilayah ProvinsiJawa Tengah

UniversitasMaritim RajaAli HajiTanjung Pinang26 September2016.

8 InternasionalConference “theAdministration ofJusstice”

Administrative Sanction For ViolationTaken By The Employee ProviderCompany

UNS Solo19 - 20November 2016

9 InternationalConference on““Indonesian Clean ofCorruption in 2020”

Legal Politics Of Employment InTerm Of Part Of Task Handover ToOther Companies In Indonesia

UnisullaSemarang9-10 Desember2016

10 Konferensi NasionalPerbandingan HukumIndonesia 2017

Perkembangan Kebijakan PengelolaanLingkungan Hidup di Indonesia

Unair Surabaya20 – 21 Juli2017

Page 102: ii - Home | Repository USM

11 InternationalConference ICOL GaS2018

Legal Protection for Consumers in OnSale Purchase Agreement

UnsoedPurwokerto25 – 27September 2018

12 InternationalConference ICLECH2018

Implementatio of Mandatory LaborReport Policy in Distric/Cities inCentral Java

Unib Bengkulu11 – 12 Oktober2018

G. Karya Buku dalam 5 Tahun TerakhirNo Judul Buku Tahun Jumlah

halamanPenerbit

1 Pengantar HukumKetenagakerjaan (Edisi Revisi) 2014 76

SemarangUniversity

Press2 Outsourcing – Regulasi Perizinan

di Indonesia 2015 106SemarangUniversity

Press

H. Perolehan HKI dalam 5-10 Tahun TerakhirNo Judul Tema HKI Tahun Jenis Nomor P/ID1 Pengantar Hukum

Ketenagakerjaan2015 Hak Cipta 000109325/EC00201813784

2 Optimalisasi PerlindunganHukum Bagi Konsumendalam Jual Beli Online diJawa Tengah

2018 Hak Cipta 000121644/EC00201850918

Semua data yang saya isikan dan tercantum dalam biodata ini adalah benar dan dapatdipertanggungjawabkan secara hukum. apabila di kemudian hari ternyata dijumpaiketidaksesuaian dengan kenyataan, saya sanggup menerima sanksi.

Demikian biodata ini saya buat dengan sebenar-benarnya.

Semarang, 9 September 2019Tim Peneliti,

Endah Pujiastuti, S.H., M.H.

Page 103: ii - Home | Repository USM
Page 104: ii - Home | Repository USM

Lampiran 2. Surat Penyataan Ketua Peneliti

USM

Page 105: ii - Home | Repository USM

SURAT PERNYATAAN KETUA PENELITI

Yang bertanda tangan di bawah ini :Nama : Dr. Titin Winarti, S.Kom, MMNIDN : 0627116901Pangkat / Golongan : Pembina Utama Muda /IV CJabatan Fungsional : Lektor KepalaDengan ini menyatakan bahwa Laporan penelitian saya dengan judul :Yang diusulkan Tahun Akademik 2018/2019 bersifat orisinil dan belum pernah dibiayai olehlembaga / sumber dana lain.Bilamana di kemudian hari ditemukan ketidaksesuaian dengan pernyataan ini, maka sayabersedia dituntut dan diproses sesuai dengan ketentuan yang berlaku dan mengembalikanseluruh biaya penelitian yang sudah diterima ke Universitas Semarang.Demikian pernyataan ini dibuat dengan sesungguhnya dan dengan sebenar-benarnya.

MengetahuiKetua LPPM USM ,

Iswoyo, S.Pt. MPNIDN 0606126801

Semarang, 9 September 2019Yang Menyatakan,

Ketua Peneliti,

Titin Winarti, S. Kom, MMNIDN. 0627116901

Page 106: ii - Home | Repository USM

Lampiran 3. Kontrak Penelitian

USM

Page 107: ii - Home | Repository USM
Page 108: ii - Home | Repository USM
Page 109: ii - Home | Repository USM

L24

Page 110: ii - Home | Repository USM

L25

Lampiran 4. Hasil Reviewer

USM

Page 111: ii - Home | Repository USM

L26

Page 112: ii - Home | Repository USM

L27

Page 113: ii - Home | Repository USM

L28

Lampiran 5. Jurnal

USM

Page 114: ii - Home | Repository USM

L29

PEMILIHAN FITUR UNTUK OPTIMASI NAÏVE BAYESTitin Winarti 1)

1)Fakultas Teknologi Informasi dan Komunikasi

e-mail: [email protected])

Abstrak

Naïve Bayes merupakan salah satu metode data mining yang digunakan dalam klasifikasidokumen berbasis text. Kelebihan dari metode ini adalah algoritmanya sederhana dengankompleksitas perhitungan yang rendah. Akan tetapi, pada metode Naïve Bayes terdapatkelemahan dimana sifat independensi dari fitur Naïve Bayes tidak dapat selalu diterapkan sehinggaakan berpengaruh pada tingkat akurasi perhitungan. Maka dari itu, metode Naïve Bayes perludioptimasi dengan cara pemberian bobot mengunakan Gain Ratio. Namun, pemberian bobot padaNaïve Bayes menimbulkan permasalahan pada penghitungan probabilitas setiap dokumen,dimana fitur yang tidak merepresentasikan kelas yang diuji banyak muncul sehingga terjadikesalahan klasifikasi. Oleh karena itu, pembobotan Naïve Bayes masih belum optimal. Paperini mengusulkan optimasi metode Naïve Bayes mengunakan pembobotan Gain Ratio yangditambahkan dengan metode pemilihan fitur pada kasus klasifikasi teks. Hasil penelitian inimenunjukkan bahwa optimasi metode Naïve Bayes menggunakan pemilihan fitur dan pembobotanGain Ratio menghasilkan akurasi sebesar 94%.

Kata Kunci : Naïve Bayes, Weighted Naïve Bayes, Gain Ratio, Pemilihan Fitur.

AbstractNaïve Bayes is one of data mining methods that are commonly used in text-based

document classification. The advantage of this method is a simple algorithm with low computationcomplexity. However, there is weaknesses on Naïve Bayes methods where independence of NaïveBayes features can’t be always implemented that would affect the accuracy of the calculation.Therefore, Naïve Bayes methods need to be optimized by assigning weights using Gain Ratio on itsfeatures. However, assigning weights on Naïve Bayes’s features cause problems in calculating theprobability of each document which is caused by there are many features in the document that notrepresent the tested class. Therefore, the weighting Naïve Bayes is still not optimal. This paperproposes optimization of Naïve Bayes method using weighted by Gain Ratio and feature selectionmethod in the case of text classification. Results of this study pointed-out that Naïve Bayesoptimization using feature selection and weighting produces accuracy of 94%.

Keywords : Naïve Bayes, Weighted Naïve Bayes, Gain Ratio, Feature Selection.

1. PendahuluanKlasifikasi merupakan proses pengidentifikasian obyek ke dalam sebuah kelas, kelompok, ataukategori berdasarkan prosedur, karakteristik dan definisi yang telah ditentukan sebelumnya [1]. Salahsatu bentuk klasifikasi yaitu klasifikasi dokumen atau teks. Klasifikasi dokumen atau teks adalahbidang penelitian dalam pengolahan informasi. Tujuan dari klasifikasi dokumen adalahmengembangkan sebuah metode dalam menentukan atau mengkategorikan suatu dokumen kedalam satu atau lebih kelompok secara otomatis berdasarkan isi dokumen [2]. Pada era inipengelompokkan teks atau dokumen digunakan untuk proses pencarian sebuah dokumen. Makadari itu, kebutuhan untuk pengelompokan dokumen secara cepat dan mudah sangat penting.Sedangkan saat ini, pengelompokkan dokumen masih menggunakan cara manual.

Pengelompokkan dokumen dilakukan dengan cara pemberian label terhadap kategoridokumen. Dibutuhkan waktu yang cukup lama dalam mengklasifikasikan dokumen. Maka dariitu, dibutuhkan metode yang dapat digunakan dalam proses klasifikasi atau pengelompokkandokumen secara cepat dan akurat.

Page 115: ii - Home | Repository USM

L30

Salah satu metode klasifikasi yang biasa digunakan adalah Naïve Bayes. Klasifikasi Naïve Bayespertama kali dikemukakan oleh Revered Thomas Bayes. Penggunaan metode Naïve Bayessudah dikenalkan sejak tahun 1702-1761. Naive Bayes (atau dikenal sebagai Simple Bayes)menurut Lewis, Hand dan Yu merupakan pendekatan yang sangat sederhana dan sangat efektifuntuk classification learning [3][4]. Sedangkan menurut Kononenko dan Langley menyimpulkanbahwa Naïve Bayes merupakan kemungkinan label kelas data atau bisa diasumsikan sebagaiatribut kelas yang diberi label [5][6].

Menurut Hamzah Naïve Bayes memiliki beberapa kelebihan, yaitu algoritma yang sederhana,lebih cepat dalam penghitungan dan berakurasi tinggi [7]. Akan tetapi, pada metode Naïve Bayesjuga memiliki kelemahan dimana sebuah probabilitas tidak bisa mengukur seberapa besar tingkatkeakuratan sebuah prediksi. Maka dari itu, metode Naïve Bayes perlu dioptimasi dengan carapemberian bobot mengunakan Gain Ratio. Pemberian bobot pada Naïve Bayes menimbulkanpermasalahan pada penghitungan probabilitas setiap dokumen. Dimana fitur yang tidakmerepresentasikan kelas yang diuji banyak muncul sehingga terjadi kesalahan klasifikasi.Oleh karena itu, pembobotan Naïve Bayes masih belum optimal.

Maka dari itu, Paper ini mengusulkan optimasi metode Naïve Bayes mengunakan pembobotanGain Ratio yang ditambahkan dengan metode pemilihan fitur pada kasus pemilihan teks.

2. Metode Penelitian

Metode Naïve Bayes merupakan salah satu algoritma yang efektif dan efisien dalam prosesklasifikasi [3][4]. Pada Gambar 1 menampilkan metode usulan Weighted Naïve Bayes denganmenggunakan Gain Ratio.

Gambar 1. Alur Metode Penelitian

2.1 DatasetDataset yang digunakan dalam penelitian ini diambil dari media online yaitu kompas, detik, dantempo. Kemudian dilakukan proses penentuan kata dasar, penentuan kata umum yang seringmuncul atau stopwords, dan penentuan kategori. Proses pengolahan dataset dapat dilihat padaGambar 2.

Inisiasi Kata Dasar Inisiasi Stopwords Inisiasi Kategori

Gambar 2. Dataset

2.2 PreprocessingPreprocessing adalah proses awal pada klasifikasi dokumen yang bertujuan untuk menyiapkandata agar menjadi terstruktur. Hasil dari preprocessing akan berupa nilai numerik sehingga dapatdijadikan sebagai sumber data yang dapat diolah lebih lanjut. Preprocessing ini terbagi menjadibeberapa proses yang terdiri dari case folding, tokenizing, filtering, stemming dan perhitungan

Dataset PreprocessingFitur Selection( Ambil nilai Rkata tertinggi)

Hitung Bobotdengan Gain

Ratio( Persamaan 5 )

Hitung WeightedNaive Bayes

( Persamaan 4 )

Pilih nilai Maxdari probabilitas( Persamaan 3 )

Page 116: ii - Home | Repository USM

L31

a

bobot kata.

Pada Gambar 3 terdapat proses preprocessing. Case folding merupakan tahap awal daripreprocessing text yang mengubah karakter huruf teks menjadi huruf kecil semua [8]. Karakteryang diterima hanya ‘a’ hingga ‘z’. Karakter selain huruf akan dihilangkan dan dianggap sebagaidelimiter. Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yangmenyusunnya [9]. Filtering adalah proses menentukan kata-kata (terms) apa saja yang akandigunakan untuk merepresentasikan dokumen. Selain untuk menggambarkan isi dokumen, termini juga berguna untuk membedakan dokumen yang satu dengan dokumen lainnya pada koleksidokumen. Proses ini dilakukan dengan mengambil kata-kata penting dari hasil token danmenghapus stopwords. Stopwords adalah kata-kata yang tidak deskriptif sehingga dapatdibuang atau dihilangkan dan tidak berpengaruh ke dalam proses [8]. Dalam bahasa Indonesia,contoh stopwords seperti “yang”, “dan”, “dari”, “di”, “seperti” dan lainnya. Tahap stemming adalahtahap mencari root (akar) kata dari kata hasil filtering. Pada tahap ini dilakukan prosespengambilan berbagai bentukan kata ke dalam suatu representasi yang sama. Stem (akar kata)merupakan bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan danakhiran). Contoh kata beri adalah stem dari memberi, diberikan, memberikan dan pemberian.

2.3 Penghitungan bobota. Naive Bayes

Naive bayes adalah metode yang digunakan dalam statistika untuk menghitung peluang darisuatu hipotesis, Naïve Bayes menghitung peluang suatu kelas berdasarkan pada atribut yangdimiliki dan menentukan kelas yang memiliki probabilitas paling tinggi. Naive bayesmengklasifikasikan kelas berdasarkan pada probabilitas sederhana dengan mangasumsikanbahwa setiap atribut dalam data tersebut bersifat saling terpisah. Metode Naive Bayesmerupakan salah satu metode yang banyak digunakan berdasarkan beberapa sifatnya yangsederhana, metode Naive Bayes mengklasifikasikan data berdasarkan probabilitas P atribut xdari setiap kelas y data. Pada model probablitas setiap kelas k dan jumlah atribut a yang dapatdituliskan seperti Persamaan (1) [2] berikut.

P(yk | x1, x2 ,....xa ) .............................................................(1)

Penghitungan Naïve Bayes yaitu probabilitas dari kemunculan dokumen xa pada kategori kelasyk P(xa|yk), dikali dengan probabilitas kategori kelas P(yk). Dari hasil kali tersebut kemudiandilakuan pembagian terhadap probabilitas kemunculan dokumen P(xa). Sehingga didapatkanrumus penghitungan Naïve Bayes dituliskan pada Persamaan (2) [2].

....................................................................(2)

Kemudian dilakukan proses pemilihan kelas yang optimal maka dipilih nilai peluang terbesardari setiap probabilitas kelas yang ada. Sehingga didapatkan rumus untuk memilih nilai terbesarpada Persamaan (3) [10].

y(xi ) arg max P(y)i1P(xi | y) .................................................(3)

Page 117: ii - Home | Repository USM

L32

i1 i

w

b. Weighted Naive Bayes

Menurut Hilden, Ferreira, dan Hall pembobotan atribut kelas dapat meningkatkan pengaruhprediksi [11][12][13]. Dengan memperhitungkan bobot atribut terhadap kelas, maka yang menjadidasar ketepatan klasisifikasi bukan hanya probabilitas melainkan juga dari bobot setiap atributterhadap kelas. Pembobotan Naïve Bayes dihitung dengan cara menambahkan bobot wi padasetiap atribut. Sehingga didapatkan rumus untuk pembobotan Naïve Bayes dituliskan padaPersamaan (4).

P(y, x) P(y)a P(x | y) i ...................................................(4)

Pembobotan dapat dirumuskan menggunakan Gain Ratio [10]. Dimana dari setiap atribut GainRatio dikali jumlah data n kemudian dibagi dengan rata-rata Gain Ratio semua atribut.

......................................................(5)

Atribut dari Gain Ratio sendiri merupakan hasil bagi dari Mutual Information dan Entropy.Mutual Information (MI) merupakan nilai ukur yang menyatakan keterikatan atauketergantungan antara dua variabel atau lebih. Unit pengukur yang umum digunakan untukmenghitung MI adalah bit, sehingga menggunakan logaritma (log) basis 2. Secara formal, MIdigunakan antara 2 variabel A dan B yang didefinisikan oleh Kulback dan Leibler [14], Rényi[15]. Selain MI, Entropy digunakan sebagai pembagi dari MI yang digunakan untuk menentukanatribut mana yang terbaik atau optimal. Penghitungan Mutual Information dituliskan padaPersamaan 6 [14][15].

................................................(6)

Sebelum mendapatkan nilai Gain Ratio dilakukan pencarian nilai Entropy E. Entropy digunakanuntuk menentukan seberapa informatif sebuah masukan atribut untuk menghasilkan keluaranatribut. Penghitungan Entropy dengan menjumlahkan probabilitas dituliskan pada Persamaan(7).

.............................................................(7)Maka dari itu penghitungan Gain Ratio adalah hasil dari penghitungan Mutual Information dibagidengan hasil penghitungan Entropy Penghitungan Gain Ratio dituliskan pada Persamaan (8).

....................................................(8)

Proses penghitungan Weighted Naïve Bayes menggunakan Gain Ratio dibagi menjadi duatahap. Tahap pertama adalah proses training (pelatihan). Pada proses training diambil data latihkemudian dilakukan preprocessing. Setelah itu hitung peluang kata (term) perkategori dan hitungpeluang kategori (class). Kemudian dicari nilai Gain Ratio menggunakan Persamaan 8. Prosestraining dapat dilihat pada Gambar 4.

Page 118: ii - Home | Repository USM

L33

Mulai

Data Latih

Preprocess ing

Hitung Peluang KataPerkategori

Hitung Peluang Kategori

Hitung Gain Ratio

Nilai Gain Ratio

Selesai

Gambar 4. Proses Training

Tahap kedua adalah proses testing (pelatihan). Pada proses testing diambil data uji kemudiandilakukan preprocessing. Setelah itu ambil nilai Gain Ratio tiap kata dan kategori. Setelah itu,dilakukan proses perankingan kata sebanyak R (jumlah kata yang ditentukan). Dari katasebanyak R yang diambil dilakukakn proses penghitungan Gain Ratio. Kemudian dicari nilaiWeighted Naïve Bayes menggunakan Persamaan 4. Proses testing dapat dilihat pada Gambar5.

Mulai

Data Uji

Preprocessing

Ambil Peluang Gain RatioKata dan Kategori

Ambil nilai R Kata Tertinggi

Hitung Gain Ratio

HitungWeighted NaïveBayes

HasilWeightedNaïve Bayes

Selesai

Gambar 5. Proses Testing

Page 119: ii - Home | Repository USM

L34

c. Metode Evaluasi

Pada tahap evaluasi bertujuan untuk mengetahui tingkat akurasi dari hasil penggunaan metodeWeighted Naïve Bayes. Dari evaluasi akan tersedia informasi mengenai seberapa besar akurasiyang telah dicapai. Pada proses pengujian dikenal sebagai Matriks Confusion yangmerepresentasikan kebenaran dari sebuah klasifikasi. Tabel Matriks Confusion dapat dilihatpada Tabel 1.

True Positive (TP) menunjukkan bahwa dokumen yang termasuk dalam hasilpengelompokkan oleh sistem memang merupakan anggota kelas.

False Positive (FP) menunjukkan bahwa dokumen yang termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya bukan merupakan anggota kelas.

False Negative (FN) menunjukkan bahwa dokumen yang tidak termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya merupakan anggota kelas.

True Negative (TN) menunjukkan bahwa dokumen yang tidak termasuk dalam hasilpengelompokkan oleh sistem ternyata seharusnya bukan merupakan anggota kelas.

Untuk menghitung tingkat akurasi digunakan Persamaan 9 [16].

Akurasi TP TN

TP TN FP FN...........................................(9)

Page 120: ii - Home | Repository USM

L35

3. Eksperimen dan HasilPengujian hasil menggunakan metode Wighted Naïve Bayes dilakukan denganmembandingkan hasil percobaan Naïve Bayes tanpa menggunakan pembobotan.Perbandingan dilakukan terhadap dokumen berita sejumlah 65 dokumen pada uji coba 1 dan145 dokumen pada uji coba 2. Hasil yang dibandingkan adalah akurasi data yang dihasilkandengan menghitung selisih antara Weighted Naïve Bayes dan Naïve Bayes biasa.Penghitungan akurasi tersebut dapat dilihat pada Persamaan 9.

Dilakukan uji coba 1 terhadap metode usulan dengan menggunakan data latih sebanyak 35dokumen dan data uji sebanyak 30 dokumen. Pada uji coba 2, data uji yang digunkan sebanyak110 dokumen dan data latih yang digunakan sama seperti uji coba 1. Dimana, pada data latihterdapat 7 kategori, yaitu Sepak Bola, Otomotif, Kesehatan, Teknologi, Ekonomi, Politik, danHukum. Pada masing-masing kategori berisi 5 dokumen.

Dari hasil uji coba 1 didapatkan hasil akurasi Naïve Bayes sebesar 92% sedangkan padaWeighted Naïve Bayes sebesar 94%. Selain itu, dari hasil uji coba 2 didapatkan hasil akurasiNaïve Bayes sebesar 92% dan Weighted Naïve Bayes sebesar 84%. Hasil akurasi dapat dilihatpada Tabel 2.

Berdasarkan uji coba 2, dilakukan proses pemilihan fitur sebanyak R (50, 30, dan 10 termterbaik). Dari hasil pemilihan fitur menggunakan 50 dan 30 term terbaik didapatkan akurasisebesar 91% untuk metode usulan dan 95% untuk metode Naïve Bayes biasa. Sedangkan ketikamenggunakan 10 term terbaik didapatkan akurasi sebesar 94% untuk metode usulan dan91% untuk metode Naïve Bayes biasa. Hasil uji coba terhadap pemilihan fitur dapat dilihat padaTabel 3.

4. Pembahasan

Dari hasil uji coba 1 didapatkan nilai akurasi Naïve Bayes sebesar 92% sedangkan nilai akurasiuntuk metode yang diusulkan atau Weighted Naïve Bayes sebesar 94%. Hasil metode yangdiusulkan lebih tinggi disebabkan oleh pemberian bobot pada probabilitas dari setiap kata padadokumen terhadap kategori. Pemberian bobot pada probabilitas mengakibatkan jarak antarpeluang satu kata terhadap kategori semakin jauh. Hasil dari penelitian yang diusulkan sesuaidengan penelitian Hilden, Ferreira dan Hall yang berpendapat bahwa pembobotan atribut kelasdapat meningkatkan pengaruh prediksi [11][12][13].

Akan tetapi pada uji coba 2, akurasi pada metode yang diusulkan cenderung rendahdibandingkan dengan Naïve Bayes biasa. Hal ini dikarenakan term yang sering muncul padaseluruh kategori dokumen menghasilkan nilai Gain Ratio yang tinggi dan mengakibatkanterjadinya kesalahan klasifikasi. Setelah diketahui hasil akurasi pada uji coba 2 rendah. Maka,dilakukan proses pemilihan fitur terbaik untuk mengatasi kesalahan klasifikasi yang disebabkanoleh sering munculnya term pada seluruh dokumen. Dari hasil uji coba pemilihan fitur

Page 121: ii - Home | Repository USM

L36

menggunakan 50 dan 30 term terbaik didapatkan akurasi sebesar 91% untuk metode usulandan 95% untuk metode Naïve Bayes biasa. Hal ini dikarenakan term yang sering muncul padakelas lain terdapat pula pada kelas yang diuji. Sedangkan ketika menggunakan 10 term terbaikdidapatkan akurasi sebesar 94% untuk metode usulan dan 91% untuk metode Naïve Bayesbiasa. Hal ini dikarenakan term yang digunakan pada kelas yang diuji merepresentasikan kelastersebut. Sehingga pada uji coba ini diketahui bahwa pemilihan fitur terbaik dapat mengurangijumlah term yang sering muncul pada kelas lain.

5. Kesimpulan

Metode Weighted Naïve Bayes dapat mengoptimalkan nilai akurasi metode Naïve Bayes biasa.Hal ini dapat dilihat dari hasil akurasi Weighted Naïve Bayes sebesar 94% dibandingkandengan Naïve Bayes biasa sebesar 92%. Weighted Naïve Bayes dapat menghasilkan tingkatakurasi yang lebih tinggi dikarenakan setiap probabilitas dari atribut diberi bobot yangmenghasilkan nilai yang lebih tinggi. Ketika dilakukan pemilihan fitur mengunkan 10 term terbaikdidapatkan akurasi sebesar 94% untuk metode usulan dan 91% untuk metode Naïve Bayesbiasa. Hal ini dapat disimpulkan bahwa pemilihan fitur dapat mengatasi kesalahan klasifikasi.

Daftar Pustaka

[1] U.S. Fish dan Wildlife Service. 2013. “Definitions of terms and phrases”. February 8, 2013.http://www.fws.gov/stand/defterms.html, diakses tanggal 12 Des 2015

[2] Tenenboim, L., Shapira, B., dan Shoval, P. “Ontology-based classification of news in anelectronic newspaper”. Intelligent Information and Engineering Systems Conference. Varna,Bulgaria: 2008.

[3] D. Lewis. “Naive Bayes at forty: The independence assumption in information retrieval.ECML-98: Proceedings of the Tenth European Conference on Machine Learning”. Berlin.April 1998: 4–15.

[4] J. Hand dan K. Yu. “Idiot’s Bayes - not so stupid after all? International Statistical Review”.2001; 69 (3):385–398.

[5] Kononenko, I. “Comparison of inductive and naive Bayesian learning approaches to automaticknowledge acquisition. Current Trends in Knowledge Adquisition 1990: 190-197.

[6] Langley dan S. Sage. Induction of selective Bayesian classifiers. In Proceedings of theTenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann. 1994: 399–406.

[7] Hamzah, A. Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk PengelompokkanTeks Berita dan Abstrak Akademik. Prociding Seminar Nasional Aplikasi Sains & Teknologi(SNAST) Periode III. Yogyakarta: 3 November 2012.

[8] Garcia, S. Search Engine Optimisation Using Past Queries. School of Computer Scienceand Information Technology. Science Engineering and Technology for Portfolio. RMITUniversity: 2007.

[9] Baldi, P., Frasconi, P., dan Smyth, P. Modelling The Internet and The Web – ProbabilisticMethods and Algorithms. Wiley Online Library: 2003.

[10] Zhang, H. dan Sheng, S. Learning Weighted Naive Bayes with Accurate Ranking.Proceedings of the Fourth IEEE International Conference on Data Mining: 2004.

Page 122: ii - Home | Repository USM

[11] Hilden dan B. Bjerregaard. Computer-aided diagnosis and the atypical case. InDecision Making and Medical Care: Can Information Science Help. North-HollandPublishing Company. 1976: 365–378.

[12] T. A. S. Ferreira, D. G. T. Denison, dan D. J. Hand. Weighted naive Bayes modellingfor data mining. 2001

[13] A. Hall. A decision tree-based attribute weighting filter for naive Bayes. Knowledge-Based

Systems, 2007; 20:120–126.[14] Kullback, S., dan Leibler, R. A., On Information and Sufficiency, The Annalsof

Mathematical Statistics, 1951; 22(1): 79-86.[15] Rényi, A. On Measures of Information and Entropy. Proceedings of the 4th

Berkeley symposium on Mathematics, Statistics and Probability, 1961: 547-561.[16] Hermaduanti, N. dan Kusumadewi, S. Sistem Pendukung Keputusan Berbasis Sms

Untuk Menentukan Status Gizi Dengan Metode K-Nearest Neighbor. Seminar NasionalAplikasi Teknologi Informasi: 2008.

Page 123: ii - Home | Repository USM

SURAT PERNYATAAN KETUA PENELITI

Yang bertanda tangan di bawah ini :Nama : Dr. Titin Winarti, S.Kom, MMNIDN : 0627116901Pangkat / Golongan : Pembina Utama Muda /IV CJabatan Fungsional : Lektor KepalaDengan ini menyatakan bahwa Laporan penelitian saya dengan judul :Yang diusulkan Tahun Akademik 2018/2019 bersifat orisinil dan belum pernah dibiayai olehlembaga / sumber dana lain.Bilamana di kemudian hari ditemukan ketidaksesuaian dengan pernyataan ini, maka sayabersedia dituntut dan diproses sesuai dengan ketentuan yang berlaku dan mengembalikanseluruh biaya penelitian yang sudah diterima ke Universitas Semarang.Demikian pernyataan ini dibuat dengan sesungguhnya dan dengan sebenar-benarnya.

MengetahuiKetua LPPM USM ,

Iswoyo, S.Pt. MPNIDN 0606126801

Semarang, 9 September 2019Yang Menyatakan,

Ketua Peneliti,

Titin Winarti, S. Kom, MMNIDN. 0627116901