QUERY EXPANSION PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA DENGAN METODE PEMBOBOTAN TF-IDF DAN ALGORITME COSINE SIMILARITY BERBASIS WORDNET SKRIPSI Untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Komputer Disusun oleh: Mahdarani Dwi Laxmi NIM: 145150201111140 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS BRAWIJAYA MALANG 2018
81
Embed
query expansion pada sistem temu kembali informasi ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
QUERY EXPANSION PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA DENGAN METODE PEMBOBOTAN TF-IDF DAN ALGORITME
COSINE SIMILARITY BERBASIS WORDNET
SKRIPSI
Untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Komputer
Disusun oleh:
Mahdarani Dwi Laxmi NIM: 145150201111140
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER UNIVERSITAS BRAWIJAYA
MALANG 2018
PENGESAHAN
Query Expansion Pada Sistem Temu Kembali Informasi Berbahasa Indonesia Dengan Metode Pembobotan Tf-Idf Dan Algoritme Cosine Similarity Berbasis Wordnet
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan
memperoleh gelar Sarjana Komputer
Disusun Oleh : Mahdarani Dwi Laxmi
NIM: 145150201111140
Skripsi ini telah diuji dan dinyatakan lulus pada 02 Agustus 2018
Telah diperiksa dan disetujui oleh:
KATA PENGANTAR
Puji syukur Penulis panjatkan kepada Allah SWT atas limpahan rahmat, hidayah, inayah
dan kesmpatan yang telah diberikan kepada Penulis, sehingga Penulis dapat menyelesaikan
penelitian dengan judul βQuery Expansion Pada Sistem Temu Kembali Informasi Berbahasa
Indonesia Dengan Metode Pembobotan Tf-Idf Dan Algoritme Cosine Similarity Berbasis
Wordnetβ. Skripsi ini diajukan untuk memperoleh gelar Sarjana Komputer di Fakultas Ilmu
Komputer (FILKOM) Universitas Brawijaya.
Dalam melakukan penelitian dan penyusunan dokumen skripsi ini, Penulis banyak sekali
mendapatkan panduan, dukungan, dan arahan dari berbgai pihak. Dengan tulisan ini Penulis
ingin menyampaikan terimakasih yang sebesar-besarnya kepada :
1. Ibu Indriati, S.T, M.Kom selaku dosen pembimbing satu yang telah meluangkan waktu
serta memberikan arahan dan bimbingan dalam pengerjaan skripsi ini.
2. Bapak Mochammad Ali Fauzi, S.Kom., M.Kom selaku dosen pembimbing dua yang
telah meluangkan waktu serta memberikan arahan dan bimbingan dalam pengerjaan
skripsi ini.
3. Bapak Wayan Firdaus Mahmudy, S.Si, M.T, Ph.D selaku Dekan Fakultas Ilmu Komputer Universitas Brawijaya.
4. Bapak Tri Astoto Kurniawan, S.T, M.T, Ph.D selaku Ketua Jurusan Teknik Informatika
Fakultas Ilmu Komputer Universitas Brawijaya.
5. Bapak Agus Wahyu Widodo, S.T, M.Cs selaku Ketua Program Studi Teknik Informatika
Fakultas Ilmu Komputer Universitas Brawijaya.
6. Seluruh Dosen Fakultas Ilmu Komputer yang telah bersedia membagi ilmunya dan
mendidik Penulis.
7. Kedua orang tua penulis, Bapak Hartono dan Ibu Rukiyani, serta seluruh keluarga
yang selalu mendukung baik moril ataupun materil, serta doa demi kelancaran
pengerjaan skripsi ini.
8. Kakak saya Vian Anawagis yang selalu memberikan support dan mendoakan penulis
demi kemudahan dan kelancaran pengerjaan skripsi.
9. Saudara Zulqi Fahreza Akbar yang selalu memberikan support dan mendoakan
penulis demi kemudahan dan kelancaran pengerjaan skripsi.
ABSTRACT ........................................................................................................................... vii
DAFTAR ISI ............................................................................................................................ i
DAFTAR GAMBAR ................................................................................................................iv
DAFTAR TABEL .................................................................................................................... v
DAFTAR KODE PROGRAM ...................................................................................................vi
DAFTAR LAMPIRAN ............................................................................................................ vii
BAB 1 PENDAHULUAN ..........................................................Error! Bookmark not defined.
1.1. Latar Belakang ..........................................................Error! Bookmark not defined.
1.2. Rumusan Masalah ....................................................Error! Bookmark not defined.
1.3. Tujuan.......................................................................Error! Bookmark not defined.
1.4. Manfaat ....................................................................Error! Bookmark not defined.
1.5. Batasan Masalah ......................................................Error! Bookmark not defined.
1.6. Sistematika Pembahasan .........................................Error! Bookmark not defined.
BAB 2 LANDASAN KEPUSTAKAAN .........................................Error! Bookmark not defined.
2.1 Kajian Pustaka ..........................................................Error! Bookmark not defined.
2.2. Dasar Teori ...............................................................Error! Bookmark not defined.
2.2.1. Query Expansion .................................................Error! Bookmark not defined.
2.2.2. Sistem Temu Kembali Informasi .........................Error! Bookmark not defined.
2.2.3. Twitter .................................................................Error! Bookmark not defined.
2.2.4. Hiponim ...............................................................Error! Bookmark not defined.
2.2.5. Google Translate API ...........................................Error! Bookmark not defined.
2.2.6. WordNet .............................................................Error! Bookmark not defined.
2.2.7. Preprocessing ......................................................Error! Bookmark not defined.
2.2.8. Pembobotan Term Frequency-inverse Document Frequency (TF-IDF) ....... Error!
Bookmark not defined.
2.2.9. Ukuran Kemiripan ...............................................Error! Bookmark not defined.
2.2.10. Evaluasi Pengujian .........................................Error! Bookmark not defined.
2.2.10.1. Precision at K (P@K) ..............................Error! Bookmark not defined.
BAB 3 METODOLOGI .............................................................Error! Bookmark not defined.
3.1. Tipe Penelitian ..........................................................Error! Bookmark not defined.
3.2. Strategi Penelitian ....................................................Error! Bookmark not defined.
3.3. Partisipan Penelitian ................................................Error! Bookmark not defined.
3.4. Lokasi Penelitian.......................................................Error! Bookmark not defined.
3.5. Pengumpulan Data ...................................................Error! Bookmark not defined.
3.6. Perancangan Algoritme ............................................Error! Bookmark not defined.
3.7. Teknik Pengujian dan Analisis ..................................Error! Bookmark not defined.
3.8. Penarikan kesimpulan dan saran .............................Error! Bookmark not defined.
3.9. Jadwal Penelitian ......................................................Error! Bookmark not defined.
BAB 4 PERANCANGAN ALGORITME ......................................Error! Bookmark not defined.
4.1 Deskripsi Masalah .......................................................Error! Bookmark not defined.
4.2. Deskripsi Umum Sistem ...........................................Error! Bookmark not defined.
4.3. Diagram Alir Sistem ..................................................Error! Bookmark not defined.
4.4. Manualisasi Perhitungan Data .................................Error! Bookmark not defined.
4.4.1. Preprocessing ......................................................Error! Bookmark not defined.
4.4.1.1. Case Folding ................................................Error! Bookmark not defined.
4.4.1.2. Tokenisasi ....................................................Error! Bookmark not defined.
4.4.1.3. Filtering .......................................................Error! Bookmark not defined.
4.4.1.4. Stemming ....................................................Error! Bookmark not defined.
4.4.2. Pembobotan .......................................................Error! Bookmark not defined.
4.4.2.1. Manualisasi tanpa Query Expansion ...........Error! Bookmark not defined.
4.4.2.2. Manualisasi menggunakan Query Expansion............ Error! Bookmark not
defined.
4.4.3. Cosine Similarity ..................................................Error! Bookmark not defined.
BAB 5 IMPLEMENTASI ...........................................................Error! Bookmark not defined.
5.1. Batasan Implementasi................................................Error! Bookmark not defined.
5.2. Implementasi Algoritme ............................................Error! Bookmark not defined.
5.2.1. Implementasi Algoritme Preprocessing Text ......Error! Bookmark not defined.
5.3. Implementasi Antarmuka.........................................Error! Bookmark not defined.
5.3.1. Implementasi Antarmuka Form Pencarian .........Error! Bookmark not defined.
5.3.2. Implementasi Antarmuka Input Database ..........Error! Bookmark not defined.
BAB 6 PENGUJIAN .................................................................Error! Bookmark not defined.
6.1. Evaluasi dengan Precision at K .................................Error! Bookmark not defined.
6.2. Perbandingan Pengujian Tanpa Query Expansion dan Menggunakan Query
Expansion ..........................................................................Error! Bookmark not defined.
6.3. Analisis .....................................................................Error! Bookmark not defined.
BAB 7 KESIMPULAN DAN SARAN ..........................................Error! Bookmark not defined.
7.1. Kesimpulan ...............................................................Error! Bookmark not defined.
7.2. Saran ........................................................................Error! Bookmark not defined.
DAFTAR PUSTAKA .................................................................Error! Bookmark not defined.
DAFTAR LAMPIRAN ...............................................................Error! Bookmark not defined.
DAFTAR GAMBAR
Gambar 1. Contoh proses tokenisasi ....................................Error! Bookmark not defined.
Gambar 2. Contoh proses filtering ........................................Error! Bookmark not defined.
Gambar 3. Perancangan Algoritme .......................................Error! Bookmark not defined.
Gambar 4. Diagram Alir Sistem .............................................Error! Bookmark not defined.
Gambar 5. Diagram alir Query Expansion .............................Error! Bookmark not defined.
Gambar 6. Diagram alir proses preprocessing ......................Error! Bookmark not defined.
Gambar 7. Diagram alir proses tokenisasi ............................Error! Bookmark not defined.
Gambar 8. Diagram alir proses filtering ................................Error! Bookmark not defined.
Gambar 9. Diagram alir porses stemming ............................Error! Bookmark not defined.
Gambar 10. Tampilan Form Pencarian .................................Error! Bookmark not defined.
Gambar 11. Tampilan Form Tambah Database ....................Error! Bookmark not defined.
DAFTAR TABEL
Tabel 1. Aturan Stemmer Sastrawi .......................................Error! Bookmark not defined.
Tabel 2 Aturan Stemmer Sastrawi (Lanjutan) .......................Error! Bookmark not defined.
Tabel 3. Jadwal Penelitian .....................................................Error! Bookmark not defined.
Tabel 4. Dokumen .................................................................Error! Bookmark not defined.
Tabel 5. Query .......................................................................Error! Bookmark not defined.
Tabel 6. Hasil Case Folding Dokumen ...................................Error! Bookmark not defined.
Tabel 7. hasil Case Folding Query..........................................Error! Bookmark not defined.
Tabel 8. Hasil Tokenisasi Dokumen .......................................Error! Bookmark not defined.
Tabel 9. Hasil Tokenisasi Query .............................................Error! Bookmark not defined.
Tabel 10. Hasil Filtering Dokumen ........................................Error! Bookmark not defined.
Tabel 11. Hasil Filtering Query ..............................................Error! Bookmark not defined.
Tabel 12. Hasil Stemming Dokumen .....................................Error! Bookmark not defined.
Tabel 13. Hasil Stemming Query ...........................................Error! Bookmark not defined.
Tabel 14. Dokumen ...............................................................Error! Bookmark not defined.
Tabel 15. Query .....................................................................Error! Bookmark not defined.
Tabel 16. Perhitungan Tf-Idf .................................................Error! Bookmark not defined.
Tabel 17. Perhitungan Wtd ...................................................Error! Bookmark not defined.
Tabel 18. Normalisasi Akhir ..................................................Error! Bookmark not defined.
Tabel 19. Dokumen ...............................................................Error! Bookmark not defined.
Tabel 20. Query .....................................................................Error! Bookmark not defined.
Tabel 21. Perhitungan Tf-Idf .................................................Error! Bookmark not defined.
Tabel 22. Perhitungan Wtd ...................................................Error! Bookmark not defined.
Tabel 23. Perhitungan Normalisasi .......................................Error! Bookmark not defined.
Tabel 24. Hasil Cosine Similarity ...........................................Error! Bookmark not defined.
Tabel 25. Daftar Query dan Query Expansion.......................Error! Bookmark not defined.
Tabel 26. Perbandingan Pengujian Tanpa Query Expansion dan Menggunakan Query
Expansion ..............................................................................Error! Bookmark not defined.
Tabel 27. Skenario Pengujian 2 .............................................Error! Bookmark not defined.
DAFTAR KODE PROGRAM
Kode Program 1. Implementasi Case Folding .......................Error! Bookmark not defined.
Kode Program 2. Implementasi Tokenizing ..........................Error! Bookmark not defined.
Kode Program 3. Implementasi Filtering ..............................Error! Bookmark not defined.
Kode Program 4. Implementasi Stemming ...........................Error! Bookmark not defined.
Kode Program 5. Translate....................................................Error! Bookmark not defined.
Kode Program 6. Koneksi Database ......................................Error! Bookmark not defined.
Kode Program 7. Koneksi Wordnet .......................................Error! Bookmark not defined.
Kode Program 8. Koneksi Wordnet .......................................Error! Bookmark not defined.
Kode Program 9. Pencarian...................................................Error! Bookmark not defined.
Kode Program 10. Query Expansion .....................................Error! Bookmark not defined.
Kode Program 11. Implementasi Penentuan Term Setiap Dokumen . Error! Bookmark not
defined.
Kode Program 12. Implementasi Pembobotan Tf-Idf ...........Error! Bookmark not defined.
Kode Program 13. Implementasi Pemetaan Pembobotan Awal ........ Error! Bookmark not
defined.
Kode Program 14. Implementasi Normaliasasi Ketetapan Bobot ...... Error! Bookmark not
defined.
Kode Program 15. Implementasi Perhitungan Cosine Similarity ........ Error! Bookmark not
defined.
DAFTAR LAMPIRAN
Lampiran 1. Data Tweet ........................................................Error! Bookmark not defined.
Lampiran 2. Menggunakan Query Expansion .......................Error! Bookmark not defined.
Lampiran 3. Tanpa Menggunakan Query Expansion ............Error! Bookmark not defined.
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Perkembangan teknologi informasi pada dunia maya saat ini merupakan salah satu masalah utama dalam mengakses dan mencari informasi yang lebih berguna dan lebih selektif. Menurut (Warsita, 2008) mengenai teknologi informasi yaitu sarana dan prasarana untuk memperoleh, menafsirkan, menyimpan, dan menggunakan data secara bermakna. Namun masalah dalam pencarian informasi tersebut lebih besar daripada sekedar mengakses informasi. Hal ini disebabkan oleh meningkatnya kebutuhan pengguna digital akan pencarian informasi yang lebih cepat dan lebih efisien. Banyaknya layanan sistem informasi yang menawarkan pencarian informasi lebih cepat sehingga menjadi salah satu cara yang ditawarkan bagi pengguna digital.
Banyaknya layanan sistem informasi pada dunia maya, salah satunya yaitu Twitter. Twitter merupakan salah satu media sosial yang membantu penggunanya mendapatkan berbagai informasi melalui postingan berbagai orang yang disebut kicauan (tweets) dengan jumlah karakter maksimal sebanyak 200 kata. Pengguna Twitter dari tahun ke tahun di berbagai negara mengalami peningkatan. Pengguna yang telah menggunakan Twitter maka akan memiliki hak akses untuk mendapatkan berbagai informasi yang ada di Twitter. Contohnya pada pengguna yang ingin mendapatkan informasi dari salah satu akun maka pengguna tersebut harus menjadi pengikut (follower) pada akun tersebut.
Dengan bertambahnya pengguna media sosial yang semakin diminati di kalangan masyarakat salah satunya yaitu Twitter. Twitter merupakan microblog yang didalamnya terdapat pengguna yang bisa mengirimkan pesan berisi kumpulan karakter yang disebut tweet. Banyaknya jumlah tweet yang dipost mengakibatkan bertambahnya jumlah data teks pada elektronik sangat besar, bertambahnya data tersebut mengakibatkan penumpukan data asli yang sangat besar yang belum diolah menjadi sebuat informasi. Sistem temu kembali informasi menawarkan solusi untuk permasalahan tersebut, dengan memanfaatkan teknik information retrieval. Salah satu teknik yang ada pada sistem temu kembali informasi dalam menemukan query expansion menggunakan metode pembobotan TF-IDF dan algoritme cosine similarity.
Perkembangan media sosial Twitter memberikan dampak pada pertukaran informasi dan komunikasi yang semakin mudah. Pertumbuhan media sosial Twitter ini juga mendorong adanya informasi tekstual yang sangat besar. Pengguna Twitter yang semakin meningkat ini terlihat dari jutaan tweet yang diposting setiap harinya dengan berbagai topik yang berbeda. Data tweet dapat berupa persepsi publik baik politik, ekonomi, perilaku sosial, fenomena alam serta perdagangan yang terjadi diseluruh dunia. Data tersebut dapat dijadikan
objek penelitian. Penelitian ini melakukan query expansion pada query yang telah diinputkan pengguna. Data berupa tweet yang ada dalam situs tersebut . Koleksi dokumen terdiri atas 376 dokumen yang terdiri dari 10 query yang telah di tentukan sebelumnya, dimana dokumen tersebut diambil dari 20 top teratas dokumen yang relevan. Kemudian dokumen relevan tersebut telah di tentukan oleh pakar.
Sistem Temu Kembali Informasi atau Information Retrieval System yaitu bagian dari Ilmu Komputer yang berisi tentang pengambilan informasi dari beberapa dokumen yang berdasarkan pada isi dan konteks dokumen itu sendiri. Menurut Gerald J. Kowalski dalam bukunya βInformation Storage and Retrieval System Theory and Implementationβ, sistem temu kembali informasi yaitu merupakan suatu sistem yang dapat melakukan penyimpanan, pencarian dan pemeliharaan sebuah informasi. Informasi didalamnya berisi sebuah teks (data numerik dan tanggal), audio, video, gambar dan objek multimedia lainnya.
Sistem temu kembali informasi memiliki tujuan untuk memberikan sebuah informasi yang relevan bagi pengguna. Dokumen-dokumen yang relevan dipengaruhi oleh query yang diberikan pengguna. Sebagian pengguna mengalami kesulitan untuk merepresentasikan informasi ke dalam query yang sesuai untuk melakukan pencarian sehingga user tidak mendapatkan dokumen yang sesuai dengan keinginan pengguna. Permasalahan tersebut memerlukan sebuah solusi untuk memperbaiki query yang di masukkan oleh pengguna yaitu query expansion. Ide yang digunakan yaitu mengubah query yang lebih relevan dengan cara menambah, membuang dan mengubah bobot tiap kata pada kueri.
Pada penelitian sebelumnya mengenai query expansion salah satunya bersumber pada penelitian yang dilakukan oleh (Pamungkas, Zanwar Yoga, 2015) dalam penelitiannya Query Expansion Pada Sistem Temu Kembali Informasi Dokumen Berbahasa Indonesia Menggunakan Pseudo Relevance Feedback. Hasilnya bahwa query expansion dapat berpengaruh terhadap nilai precision. Dari beberapa percobaan yang dilakukan, precision akan mengalami kenaikan nilai. Namun pada nilai recall cenderung tetap. Kenaikan nilai yang terjadi pada precision dan ketetapan nilai pada recall menyebabkan nilai f-measure meningkat. Hal ini disebabkan karena query semakin spesifik dan jumlah dokumen cenderung tetap. Penambahan jumlah kata akan menaikkan rangking dari dokumen yang relevan. Pada penelitian query expansion menggunakan pseudo relevance feedback menghasilkan kenaikan akurasi sebesar 0.17, dan kenaikan recall sebesar 0.03 dan kenaikan rata-rata sebesar 0.18. Namun, untuk pengembangan lebih lanjut tentang penelitian ini yaitu perlu diperhatikan dan pencarian metode lain dalam pemilihan kata baru sehingga kata yang di tampilkan dan dipilih oleh user semakin baik dan memiliki kesamaan yang tinggi dengan query awal user.
Pada penelitian yang dilakukan oleh (Rahayuni, 2011) dalam penelitiannya Ekspansi Kueri Pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Thesaurus. Hasilnya bahwa ekspansi kueri dengan thesaurus dapat
meningkatkan hasil temu kembali informasi. Panjang ekspansi kueri mempengaruhi hasil temu kembali informasi dan semakin panjang ekspansi kueri yang diberikan maka dokumen yang ditemu kembali semakin tidak relevan. Penambahan kata thesaurus pada ekspansi kueri mempengaruhi hasil temu kembali. Pada evaluasi dokumen menggunakan nilai recall dan precision menggunakan ekspansi kueri menghasilkan temuan kembali dokumen yang relevan sebesar 100% dengan nilai average precision sebesar 0.076. Namun untuk pengembangan lebih lanjut mengenai penelitian ini diperlukan uji coba dengan menggunakan dokumen yang lebih beragam dan jumlah dokumen diperbanyak.
Terdapat berbagai macam metode yang sudah dilakukan sebelumnya dalam menentukan query expansion seperti beberapa uraian dan penelitian yang telah dilakukan sebelumnya, maka penelitian ini akan membangun sebuah sistem untuk menemukan informasi yang lebih akurat untuk user dengan memanfaatkan hiponim sebagai kata kunci berbasis WordNet untuk memperkaya query pengguna. WordNet yang digunakan pada penelitian sebelumnya merupakan WordNet berbahasa inggris dimana didalamnya terdapat synonim set (synset) (Li, et al., 016). Istilah hiponim dalam WordNet yang memiliki kedekatan dengan query diharapkan dapat untuk membangun query yang baru. Hasil dari query ini diharapkan dapat menghasilkan temu kembali yang lebih baik dalam pencarian dokumen dengan apa yang diinputkan oleh pengguna. Pada penelitian sebelumnya yang dilakukan oleh Firmansyah (2016) menggunakan sinonim pada kata awal dan di belakang kata awal, sedangkan pada penelitian ini akan menggunakan hiponim untuk memperkaya query.
Berdasarkan latar belakang tersebut, maka diajukan penelitian yang berjudul βQUERY EXPANSION PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA DENGAN METODE PEMBOBOTAN TF-IDF DAN ALGORITME COSINE SIMILARITY BERBASIS WORDNETβ. diharapkan dengan adanya penelitian ini mampu membantu dan mempermudah pengguna media sosial Twitter dalam pencarian dan membaca sebuah tweet sesuai dengan kategori yang diinginkan.
1.2. Rumusan Masalah
Dari latar belakang yang telah dijabarkan sebelumnya, maka rumusan masalah yang dapat diperoleh pada penelitian ini adalah sebagai berikut :
1. Bagaimana menerapkan Query Expansion pada sistem temu kembali
informasi berbahasa indonesia dengan metode pembobotan TF-IDF dan algoritme Cosine Similarity bebasis WordNet dapat memberikan query pencarian yang lebih spesifik?
2. Bagaimana pengaruh penggunaan Query Expansion pada sistem temu
kembali informasi berbahasa indonesia dengan metode pembobotan TF-IDF dan algoritme Cosine Similarity bebasis WordNet?
1.3. Tujuan
Dari rumusan masalah yang telah dijelasan sebelumnya, maka dapat diambil
tujuan yang dapat diperoleh dalam penelitian ini adalah sebagai berikut :
1. Menerapkan Query Expansion pada sistem temu kembali informasi
berbahasa indonesia dengan metode pembobotan tf-idf dan algoritme
Cosine Similarity bebasis WordNet dapat memberikan query pencarian yang
lebih spesifik.
2. Menguji serta menganalisis dari hasil Query Expansion pada sistem temu
kembali informasi berbahasa indonesia dengan metode pembobotan tf-idf
dan algoritme Cosine Similarity bebasis WordNet.
1.4. Manfaat
Manfaat yang diperoleh dari penelitian ini diantara lain :
1. Memberikan hasil pencarian yang lebih akurat sesuai dengan yang
diinginkan oleh pengguna.
2. Meningkatkan wawasan pembaca dari permasalahan query expansion.
3. Memberikan lebih banyak dokumen yang relevan.
4. Sebagai referensi untuk penelitian-penelitian query expansion selanjutnya
dengan substansi penelitiannya.
1.5. Batasan Masalah
Batasan masalah pada penelitian ini diantaranya :
1. Dokumen yang digunakan pada penelitian Query Expansion pada sistem temu kembali informasi berbahasa indonesia dengan metode pembobotan tf-idf dan algoritme Cosine Similarity bebasis WordNet adalah tweet berbahasa indonesia.
2. Jumlah data yang digunakan sebagai dataset berjumlah 376 tweet
3. Query Expansion yang digunakan adalah dengan mengambil synset dari WordNet.
4. WordNet yang digunakan sebagai acuan pengambilan hiponim adalah WordNet berbahasa inggris.
5. Hasil translate yang dilakukan sepenuhnya menggunakan Google Translate
API dan tidak dilakukan secara manual.
1.6. Sistematika Pembahasan
Paba subbab ini akan diuraikan mengenai gambaran umum tentang apa
yang akan dibahas pada penelitian ini, dan diharapkan pembaca dapat
mengetahui poin penting dalam penelitian ini. Berikut adalah sistematika
pembahasan pada benelitian ini :
BAB I. Pendahuluan
Bab pendahuluan ini berisi tentang latar belakang masalah,
rumusan masalah, batasan masalah, tujuan dan manfaat serta
sistematika penulisan.
BAB II. Landasan Kepustakaan
Bab landasan kepustakaan berisi review dari beberapa penelitian
terdahulu yang sama atau mirip yang membahas tentang metode
pembobotan tf-idf dan algoritme Cosine Similarity bebasis
WordNet dan dasar teori yang berhubungan dengan topik
penulisan yang menjadi acuan dalam pembuatan sistem.
BAB III. Metodologi
Bab metodologi berisi tentang gambaran secara umum dari
metode yang dipakai untuk menyelesaikan masalah, teknik proses
pengumpulan data, studi literatur yang dipakai, perancangan dan
gambaran implementasi yang nantinya akan diterapkan, serta
pengujian dan analisis hasil, dan kesimpulan dari hasil penelitian.
BAB IV. PERANCANGAN
Bab perancangan ini akan menjelaskan tentang perancangan
penelitian yang terdiri dari perancangan data, perancangan
algoritme, perancangan antarmuka dan perancangan evaluasi
pengujian dari hasil ringkasan yang diperoleh.
BAB V. Implementasi
Bab ini akan menjelaskan tentang implementasi dari penelitian
yang dibuat berdasarkan perancangan yang telah dibahas
sebelumnya yang meliputi lingkungan implementasi sistem,
implementasi data, implementasi algoritme serta implementasi
antarmuka.
BAB VI. Pengujian Dan Analisis Hasil
Bab ini menjelaskan pengujian dan analisis dari hasil penelitian,
diantaranya pengujian parameter dan perhitungan akurasi dari
penelitian yang dilakukan.
BAB VII. Penutup
Bab ini akan diuraikan tentang kesimpulan yang diperoleh dari
penelitian yang telah dilakukan yaitu penerapan metode
pembobotan tf-idf dan algoritme Cosine Similarity bebasis
WordNet. Serta adanya saran yang diharapkan dapat dijadikan
masukan bagi sistem yang telah dibuat untuk menjadi lebih baik
lagi.
BAB 2 LANDASAN KEPUSTAKAAN
Landasan kepustakaan memuat penjabaran dan pembahasan mengenai
teori, konsep, model, dan atau sistem dari literatur ilmiah yang dilakukan
sebelumnya serta yang terkait dengan, Query expansion, Twitter, metode Tf-Idf
dan Algoritme Cosine Similarity, WordNet.
2.1 Kajian Pustaka Sistem Temu Kembali Informasi (Information Retrieval) merupakan proses
yang terkomputerisasi untuk menghasilkan dokumen yang relevan berdasarkan
input dari user melalui perbandingan antara query dari user dengan index yang
dihasilkan dari dokumen yang terdapat dalam information retrieval (Yugianus,
2013). Dokumen yang di representasikan oleh kata kunci, kata kunci tersebut
disebut juga index term. Index term adalah kata yang secara semantik
membantu user untuk mengetahui tema utama dari dokumen tersebut
(Yugianus, 2013). Dokumen yang diolah menggunakan Information Retrieval
dapat berupa teks, suara, gambar, atau data dan lain-lain. Koleksi data teks yang
dijadikan sumber pencarian juga dapat berupa teks, suara, gambar, dan lain-lain.
Pada penelitian sebelumnya yang digunakan berasal dari beberapa jurnal
penelitian, guna untuk memperkuat dalam pemecahan masalah penelitian yang
akan dilakukan pada skripsi ini. Penelitian sebelumnya yang berjudul, βQuery
Expansion Pada Sistem Temu Kembali Informasi Dokumen Berbahasa Indonesia
Menggunakan Pseudo Relevance Feedbackβ. Dalam penelitian tersebut, metode
yang digunakan ialah Rocchio Relevance Feedback, yang digunakan untuk
menentukan kata atau term dan Pseudo Relevance Feedback, yang digunakan
untuk mengambil dokumen teratas yang kemudian akan dijadikan saran untuk
user. Hasil pengujian akurasi yang didapatkan, ialah dengan menggunakan
Pseudo Relevance Feedback sebesar 17% (Pamungkas, Zanwar Yoga, dkk, 2015).
Penelitian yang dilakukan sebelumnya juga membahas tentang beberapa metode lain yang digunakan pada Relevance Feedback. Penelitian tersebut berjudul, βRelevance Feedback Pada Temu-Kembali Teks Berbahasa Indonesia Dengan Metode Ide-Dec-Hi Dan Ide-Regularβ. Pada penelitian tersebut dilakukan pengimplementasian dan analisis pada kinerja perluasan kueri dengan beberapa metode dari Relvance Feedback, yaitu Ide-Dec-Hi dan Ide-Regular. Hasil penelitian tersebut menunukkan adanya pengingkatan kinerja pada sistem temu kembali, karena dengan menggunakan metode Ide-Dec-Hi meningkat hingga 15.44% dan dengan menggunakan metode Ide-Regular peningkatan yang diperoleh mencapai 14.54%. Dengan adanya penelitian tersebut telah terbukti bahwa penggunaan metode Relevance Feedback cocok untuk perluasan kueri, (Adisantoso, Julio, dkk, 2006).
2.2. Dasar Teori
2.2.1. Query Expansion Definisi Query Expansion secara umum merupakan suatu teknik untuk
menambahkan query pada information retrieval dalam teknik relevance feedback. Query awal akan ditambahkan dengan beberapa term atau kata pada query untuk memberikan kemudahan dalam proses informarion retrieval. Teknik ini digunakan untuk memodifikasi query agar memenuhi kebutuhan informasi yang dibutuhkan oleh user. Proses penambahan query dengan mencari sinonim dalam bentuk unstemmed-term dari query. Menurut (Manning et.al.2009) penambahan input pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki query yang telah diberikan user. Dalam query expansion user memberikan input tambahan pada query awal berupa kata maupun frase.
2.2.2. Sistem Temu Kembali Informasi Temu Kembali Informasi dimulai dengan penyediaan beberapa koleksi
dokumen yang akan digunakan. Dengan menggunakan operasi teks akan diproses menjadi suatu berkas inverted index. Menurut (Rijsbergen, 1979) dalam (Rusidi,2008) Information Retrieval System tidak menyatakan bahwa terdapat masalah. Sistem tersebut hanya memberitahukan keterangan yang ada keterkaitannya dengan dokumen permintaan pengguna. Dalam proses awal temu kembali informasi, pengguna diminta merepresentasikan ulang kebutuhan dala bentyk query. Selanjutnya query akan diproses dengan operasi serupa seperti pada koleksi dokumen. Query yang telah diproses menghasilkan dokumen hasil temu kembali.
2.2.3. Twitter Twitter merupakan salah satu media sosial yang unik, yang mana didalamnya
para pengguna dapat mengirimkan dan menerima pesan singkat dengan panjang maksimal 200 karakter yang disebut dengan tweet (OβReilly & Milstein, 2009). Tweet yang muncul pada halaman beranda tiap pengguna berbeda karena adanya sistem follow dan following, sistem ini akan menampilkan tweet dari pengguna lain yang di follow, sedangkan following terhadap suatu akun akan memunculkan tweet akun tersebut pada timeline followers (sebutan untuk orang yang mengikuti suatu akun).
Fitur β fitur yang terdapat pada twitter, diantaranya adalah (OβReilly & Milstein, 2009)
1. Halaman Utama (Home) Pada halaman utama pengguna dapat melihat tweets yang diposting atau
dikirmkan oleh pengguna lain yang telah kita follow. Halaman utama dari
tiap pengguna berbeda tergantung akun yang difollow.
2. Profil (Profile) Pada halaman ini pengguna dapat melihat profil atau data diri pribadi. Selain itu pada halaman ini pengguna dapat melihat tweets yang telah dikirim atau dibuat sebelumnya
3. Followers
Followers atau pengikut adalah orang yang telah menjadikan kita sebagai teman dan berlangganan tweets kita. Tweets orang yang di follow akan ditampilkan pada halaman utama.
4. Following
Following merupakan kebalikan dari followers. Proses following adalah dengan mengikuti pengguna lain. Tweets dari pengguna yang difollow akan muncul pada halaman utama
5. Favorite
Merupakan fungsi untuk menandai tweets sebagai favorit kita sehingga tidak akan hilang pada halaman sebelumnya.
6. Mentions
Fungsi mentions adalah untuk menandai pengguna yang sedang atau akan diajak bicara, sehingga tweets atau balasan percakapan bisa menuju pengguna yang dimaksud.
7. Pesan langsung (Direct Message)
Fungsi ini memungkinkan pengguna untuk melakukan pengiriman pesan secara personal, cara kerjanya hampir sama dengan SMS . Pesan hanya dapat dilihat oleh orang yang dialamati untuk dikirim pesan.
8. Hashtag
Hashtag atau yang bisa disimbolkan dengan β#β merupakan fitur yang dituliskan di depan sebuah topik tertentu dalam tweets. Bertujuan agar pengguna lain dapat mencari topik yang sejenis yang ditulis oleh pengguna lain. Hashtag tidak dapat digunakan sebagai acuan untuk klasifikasi tweet karena hanya akan menampilkan data yang ada pada hashtag tersebut saja.
9. Topik Terkini (Trending Topic)
Merupakan salah satu fitur yang ada pada twitter yang cara kerjanya tertentu dan bersamaan.
10. List Fitur ini menyediakan kemampuan bagi pengguna untuk mengelompokkan pengguna yang mereka follow (following) kedalam suatu grup atau kelompok. Tujuan dari pengolompokan agar memudahkan pengguna untuk dapat melihat secara keseluruhan username yang telah diikuti
2.2.4. Hiponim Hiponim merupakan salah satu relasi antar kata yang mana satu kata
merupakan bentuk khusus dari kata umum (subordinate) (Miller, et al., 1993) . Contohnya adalah kata burung camar merupakan hipernim dari burung. Maksudnya adalah kata burung camar merupakan salah satu dari jenis burung.
2.2.5. Google Translate API Google Translate API merupakan salah satu dari Cloud Machine Learning
yang dapat digunakan secara gratis (freeware). Google Translate API bekerja
secara dinamis, mampu melakukan translasi dari ratusan bahasa(Google Cloud
Platform, 2018) .
2.2.6. WordNet WordNet adalah sebuah kamus yang merupakan pengembangan dari
kamus kata Thesaurus, dikembangkan oleh Universitas Princeton dan berisi pemodelan leksikal Bahasa Inggris. Didalam WordNet terdapat synset (synonym set), didalamnya terdapat kata β kata yang memiliki keterkaitan dan relasi semantic dalam berbagai kategori kata seperti kata benda, kata kerja, kata sifat, dan kata keterangan (Zhang, et al., 2009). Dalam synset satu kata dengan kata lainnya dapat saling menggantikan tanpa merusak atau mengubah makna dari kalimat dalam satu konteks tertentu.
Dengan menggunakan wordNet yang merupakan sebuah kamus kata yang telah di-expert maka dapat dilakukan penambahan query untuk memperbaiki sebuah teks tertentu sehingga sesuai dengan konsep kalimat tertentu (Zhang, et al., 2009) . Pada penelitian iini akan digunakan synset berupa relasi kata hiponim untuk ditambahkan kedalam query.
2.2.7. Preprocessing Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti
sehingga informasi di dalamnya tidak bisa diekstrak secara langsung dan tidak
semua kata mencerminkan makna/isi yang terkandung dalam sebuah dokumen.
Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai
indeks. Indeks ini adalah kata-kata yang mewakili dokumen yang nantinya
digunakan untuk membuat pemodelan untuk Information Retrieval maupun
aplikasi text mining lain.Singkatnya Preprocessing adalah merubah teks menjadi
term index yang bertujuan untuk menghasilkan sebuah set term index yang bisa
mewakili dokumen. Ada beberapa langkah dalam menerapkan preprocessing
yakni :
1. Parsing
Proses awal disini dilakukan pemecahan struktur dokumen menjadi
komponen yang terpisah, singkatnya adalah menentukan mana yang akan
dijadikan satu dokumen. Contohnya buku dengan 500 halaman bisa dipecah
menjadi 500 dokumen, dimana per halaman dikelompokkan menjadi 1
dokumen.
2. Lexical Analysis atau Tokenisasi
Pada proses ini dilakukan penghilangan angka, tanda baca dan karakter
selain huruf alfabet, karena karakter-karakter tersebut dianggap sebagai
pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap
pemrosesan teks. Serta perubahan semua kata menjadi kata dengan awalan
huruf kecil. Proses tokenisasi akan digambarkan pada Gambar 2.1 di bawah
ini.
Gambar 1. Contoh proses tokenisasi
3. Stopword Removal atau Filtering
Merupakan tahap pengambilan dari hasil token, yaitu kata-kata
apa saja yang akan digunakan untuk merepresentasikan dokumen.
Stoplist atau stopwordadalah kata-kata yang tidak deskriptif (tidak
penting) yang dapat dibuang dengan pendekatan bag-of-words.
Gambar 2. Contoh proses filtering
4. Stemming
Proses pengubahan dari suatu kata menjadi kata dasar, dimana setiap
kata yang berimbuhan akan berubah menjadi kata dasar. Proses ini
nantinya tidak digunakan karena berdasarkan penelitian sebelumnya.
Fitur tanpa stemming memberikan akurasi lebih baik, ini menunjukkan
bahwa penciri berita hoax ditentukan secara leksikal (Rasywir &
Purwarianti, 2015: 8). Leksikal adalah suatu makna yang nyata dalam
kehidupan kita, jadi makna leksikal adalah arti sebenarnya yang
dijelaskan oleh kata tersebut. Sebuah kata yang memiliki makna leksikal
Walikota surabaya
meresmikan area
parkir di taman
bungkul
Mahasiswa brawijaya
melakukan kegitan
amal di desa terpencil
dan kurang mampu
walikota
surabaya
meresmikan
area
parkir
di
taman
bungkul
walikota surabaya meresmikan area parkir di taman bungkul
walikota surabaya meresmikan area parkir taman bungkul
sudah jelas bahwa tanpa konteks pun memiliki referen atau makna
langsung (Chaer, 2013: 59).
4.1 Stemmer Sastrawi
Sastrawi stemmer merupakan salah satu library untuk melakukan
proses stemming. Stemmer ini dibuat sesederhana mungkin agar
mempermudah dalam penggunaannya(Librian, 2016).
Stemmer sastrawi memiliki beberapa aturan dalam melakukan
proses stemming, berikut akan dituliskan aturan stemming sastrawi pada
Pada bab ini, metodologi yang dilakukan dalam penelitian ini akan dijelaskan
melalui beberapa subbab yaitu tipe penelitian, strategi penelitian, partisipan
penelitian, lokasi penelitian, teknik pengumpulan data, implementasi algoritme
dan jadwal penelitian.
3.1. Tipe Penelitian Pada penelitian ini merupakan tipe penelitian nonimplementatif. Tipe
penelitian nonimplementatif memfokuskan investigasi terhadap fenomena atau situasi tertentu, atau analisis terhadap hubungan antar fenomena yang sedang di kaji untuk kemudian menghasilkan hasil investigasi atau hasil analisis ilmiah sebagai produk atau artefak utamanya. Pendekatan dalam penelitian menggunakan pendekatan analitik. Pendekatan analitik merupakan sebuah kegiatan penelitian nonimplementatif yang dilakukan untuk menjelaskan derajat hubungan antar elemen dalam objek penelitian dengan fenomena atau situasi tertentu yang sedang diteliti. Produk atau artefak utamanya yang dihasilkan adalah analisis hasil.
3.2. Strategi Penelitian Strategi penelitian ini termasuk penelitian yang menggunakan metode
eksperimen. Penelitian eksperimen adalah penelitian yang berusaha mencari pengaruh variable tertentu terhadap variable yang lain dalam kondisi yang terkontrol secara ketat dan umumnya dilakukan di laboratorium. Metode eksperimen yang digunakan dalam penelitian ini yaitu menggunakan pembobotan tf-idf dan algoritme cosine similarity.
3.3. Partisipan Penelitian Pada penelitian ini ada beberapa pihak partisipan yang terlibat, yaitu penilus-
penulis pada aku Twitter. Dan partisipan selanjutnya ialah seorang pakar dari LSO
Display Filkom Universitas Brawijaya yang melakukan penilaian terhadap
dokumen-dokumen yang ditampilkan dalam suatu query yang diinputkan.
Penilaian berupa pemilihan dokumen yang relevan maupun tidak relevan hasil
dari inputan query.
3.4. Lokasi Penelitian Penelitian ini tidak memiliki lokasi khusus, melainkan dilakukan pada situs
Twitter yang dapat diakses melalui web sehingga tidak memiliki lokasi khusus
untuk penelitian yang dilakukan. Namun selama proses pembelajaran yang
dilakukan berada di Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya
Malang.
Mulai Dokumen
tweets
Preprocessing
Tokenisasi + Filtering +
stemminStemming
Dataset
Query expansion
WordNet
Dokumen
tweets
Selesai
Google Translate API
Dataset (Bahasa
Inggris)
Translasi
Inggris-> Indonesia
3.5. Pengumpulan Data Teknik pengumpulan data didapatkan dati akun media sosial Twitter. Data
berupa tweets yang ada dalam situs tersebut. Nantinya berita tersebut akan
dilakukan proses query expansion dan dokumen relevan maupun tidak yang telah
ditentukan oleh pakar.
3.6. Perancangan Algoritme Pada tahap ini merupakan tahap perancangan algoritme yang akan digunakan
dalam penelitian ini. Akan dijabarkan alur dan proses serta langkah β langkah
dari algoritme tersebut. Selain itu pada tahap perancangan algoritme akan
menggambarkan jalannya algoritme yang digunakan.
Translasi Indonesia -> Inggris
3.7. Teknik Pengujian dan Analisis Pengujian akan dilakukan dengan menguji hasil kerja sistem yang dibuat dan
dilakukan evaluasi sistem. Proses tersebut dilakukan guna mengetahui hasil
sistem yang nantinya akan digunakan sebagai penarikan kesimpulan. Pengujian
dilakukan dengan dengan precision@K .
Tujuan analisis juga melihat apakah penelitian sudah mencapai tujuan yang
diinginkan.
Gambar 1. Perancangan Algoritme
3.8. Penarikan kesimpulan dan saran Penarikan kesimpulan didapatkan setelah proses pengujian pada sistem
selesai dikerjakan sehingga nantinya akan dapat diketahui efektifitas kinerja pada
sistem. Selain itu kesimpulan juga merupakan jawaban dari rumusan masalah
yang dibahas sebelumnya.
Sedangkan pada saran digunakan untuk membantu pengembangan pada
seistem selanjutnya, agar penelitian mengenai query expansion dapat tereksplor
lebih baik lagi.
3.9. Jadwal Penelitian
Penelitian ini akan dilaksanakan terhitung sejak bulan Februari hingga Juni
mendatang. Berikut adalah jadwal penerlitian yang akan di tampilkan dalam
Tabel 4
Tabel 1. Jadwal Penelitian
No Uraian
Februari Maret April Mei Juni
Minggu ke-
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3
1 Studi Kepustakaan
2 Pengumpulan Data
3 Implementasi Algoritme
4 Pengujian dan Analisis
5 Kesimpulan dan Saran
BAB 4 PERANCANGAN ALGORITMA
4.1 Deskripsi Masalah Perkembangan zaman pada saat ini membuat pengguna internet terutama pengguna media sosial semakin meningkat dan tersebar luas. Banyaknya media online yang dapat memuat beragam berita online seperti olahraga, hiburan, politik, dan lain sebagainya. Namun tidak semua pengguna internet dapat mengakses dan mencari informasi yang lebih berguna dan lebih selektif. Padahal jika pengguna internet lebih cerdas dalam menentukan informasi yang berguna dan selektif maka akan meningkatkan dan mengembangkan dalam berbagai bidang seperti bisnis, ilmu pengetahuan dan sosial dan pendidikan. Hal ini menyebabkan pengguna internet maupun pengguna media sosial semakin diminati dalam pencarian informasi. Salah satunya Twitter yang mengalami pertambahan jumlah pengguna setiap tahunnya. Twitter merupakan saah satu jenis microblog yang dimana penggunanya dapat mengirimkan pesan berisi beberapa kumpulan karakter yang disebut dengan tweet. Bertambahnya jumlah tweet yang diposting oleh pengguna semakin memberikan kemudahan pengguna dalam pencarian sebuah informasi, namun tidak semua pengguna dapat memasukkan query yang sesuai. Query yang tidak sesuai inilah yang akan dijadikan sebuah penelitian dengan memperkaya query yaitu query expansion menggunakan pembobotan kata tf-idf dan algoritme cosine similarity menggunakan thesaurus. Algoritme Term Frequency-Inverse Document Frequency (TF-IDF) merupakan algoritme yang digunakan untuk menghitung bobot suatu kata (term) masing-masing dokumen terhadap kata kunci. Term frequency (tf) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan, sedangkan Inverse document frequency (idf) merupakan suatu statistik yang mengkarakteristikkan sebuah term dalam keseluruhan koleksi dokumen. Dan Document Frequency (DF) merupakan banyaknya dokumen dimana suatu kata tertentu muncul. TF merupakan pembobotan yang sederhana dimana penting tidaknya sebuah kata diasumsikan sebanding dengan jumlah kemunculan kata tersebut dalam dokumen, sementara IDF adalah pembobotan yang mengukur seberapa penting sebuah kata dalam dokumen. Algoritme cosine similarity digunakan pada sistem agar dapat mengetahui dokumen mana yang paling mendekati keinginan pengguna. Sehingga pengguna mendapatkan dokumen sesuai dengan query yang diinputkan oleh pengguna. Maka diperlukan suatu perhitungan kemiripan dokumen menggunakan fungsi similarity. Semakin besar nilai similairy semakin besar tingkat kemiripan antara query dengan dokumen yang diinginkan oleh pengguna.
4.2. Deskripsi Umum Sistem Alur kerja sistem yang akan dibangun bertujuan untuk menghasilkan query
expansion. Dimana proses ekspansi kata akan dilakukan dengan cara menghitung
bobot kata dan jumlah frekuensi kemunculan kata untuk pemilihan kata yang akan digunakan sebagai penambahan term. Dokumen dan query sebelumnya dilakukan proses preprocessing agar mendapatkan term yang sudah dihilangkan tanda baca, angka, imbuhan, dan kata yang dianggap tidak penting oleh sistem. Proses ekspansi kata hanya dilakukan pada query yang diinputkan , sedangkan hasil dari query expansion berasal dari hiponim dari query yang diinputkan. Setelah mendapatkan query expansion maka akan menghasilkan beberapa dokumen yang sudah mendaptkan query expansion dan dokumen yang relevan.
4.3. Diagram Alir Sistem Pada diagram alir yang menggambarkan perancangan sistem, terdapat
tiga proses utama yaitu preprocessing, proses penambahan query (query expansion), dan proses Dari ketiga proses utama tersebut terdapat proses-proses didalamnya yang akan didetailkan. Secara keseluruhan proses yang akan berjalan dapat digambarkan sebagaimana Gambar 3.
Langkah pertama ada mengambil data yang akan digunakan sebagai data uji.
Selanjutya query expansion untuk menambahkan query asli dengan kata yang
Mulai
Data Latih dan Uji
Preprocessing
Query expansion pada data
uji
Selesai
Hasil Dokumen
Cosine
Similarity
Gambar 1. Diagram Alir Sistem
merupakan hiponim menggunakan metode query expansion. Lalu semua data
akan mengalami proses preprocessing, pada tahap ini bertujuan untuk
menyiapkan teks yang akan diproses lebih lanjut. Didalam proses preprocessing
dataset yang berupa teks akan dihilangkan kata yang tidak penting (stopword)
kemudian juga dilakukanproses penghilangan kata imbuhan agar menjadi bentuk
kata dasarnya, selain itu juga menghilangkan tanda baca yang tidak akan
digunakan sebagai fitur pada penelitian ini. Proses selanjutnya adalah melakukan
perhitungan ukuran kemiripan dengan cosine similarity setelah itu mengahsilkan
dokumen yang relevan.
Berikut ini diagram alir proses query expansion. Proses ini memerlukan
Wordnet sebagai kamus yang berisi hiponim , dari Wordnet akan diambil
hiponim dari kata. Selanjutnya adalah diagram alir dari proses Query Expansion
yang akan diambarkan pada Gambar 4.
Query Expansion Mulai
Query
Penambahan Hiponim
Output: dokumen
dengan penambahan
query
Selesai
Pencarian Hiponim
Preprocessing
Pembobotan tf-idf
Cosine Similarity
Gambar 2. Diagram alir Query Expansion
Pada Gambar 4. proses dimulai dengan dokumen yang telah melalui tahap
penambahan query dengan menambahkan hiponim dari kata. Selanjutnya proses
preprocessing untuk mengolah data teks agar lebih terstruktur. Lalu perhitungan
kemiripan menggunakan perhitungan cosine similarity. Terakhir dokumen yang
lebih relevan sesuai dengan hasil penambahan query expansion.
Berikut ini adalah diagram alir dari proses preprocessing yang akan
digambarkan pada Gambar 5.
Preprocessing Mulai
Dokumen
tweets
Tokenisasi
Filteringatau
penghapusan
stopword
Stemming
Selesai
Dokumen hasil preprocessing
Gambar 3. Diagram alir proses preprocessing
Pada proses preprocessing tahapan yang dilakukan adalah tokenisasi, filtering
dan stemming.
Tahap preprocessing bertujuan untuk mengolah data teks yang sebelumnya
tidak terstruktur menjadi lebih terstruktur, masing β masing proses
preprocessing akan digambarkan dengan digram alir berikut.
t
Pada Gambar 6 menjelasakan alur dalam proses tokenisasi, data awal berupa .
Dokumen berisi kalimat yang kemudian akan dipecah menjadi potongan per
kata. Selain memotong kata juga dihilangkan tanda baca, pada proses ini juga
Tokenisasi Mulai
dokumen tweet
Selesai
Kalimat dipecah menjadi
kata per kata
Menghilangkan tanda baca
dan simbol-simbol
Mengubah awalan kata
menjadi huruf kecil
Output: dokumen
teks yang telah
menjadi potongan
per kata
Gambar 4. Diagram alir proses tokenisasi
semua kata dirubah menjadi lower case atau menjadikan awalan tiap kata
menjadi huruf kecil. Hasil proses tokenisasi kemudian disimpan kembali menjadi
dokumen teks untuk selanjutnya diporses lebih lanjut.
Pada Gambar 7 menunjukkan proses filtering, setiap kata yang ada pada
dokumen secara loop dicek apakah kata tersebut masuk dalam
liststopword.Jikaada maka kata tersebut akan dihapus dari dokumen, jika tidak
FIltering
Mulai
Input: Dokumen
hasil tokenisasi
For word di Dokumen -1
i=0
Cek apakah kata
ada dalam list
stopword
Simpan Kata
Hapus kata
Output: Dokumen
hasil filtering
Selesai
i
Tidak
IyaT
rtranslasi
Indonesia ->Ingg
ris
Gambar 5. Diagram alir proses filtering
maka kata tersebut akan disimpan kedalam dokumen baru untuk selanjutnya
akan diproses kembali.
Stemming Mulai
Input: dokumen hasil
filtering
Melakukan loop sebanyak
jumlah kata pada dokumen
i=1
Kata == kamus
Cek imbuhan pada
kata berdasarkan
aturan stemming
Ada imbuhan?
Hapus imbuhan
pada kata
i
Output:
dokumen hasil
stemming
Seles
i
Indonesia ->Inggris
Iya
ak
y
Iya
Iya
Gambar 6. Diagram alir porses stemming
Pada Gambar 8, digambarkan proses stemming. Proses stemming
bertujuan untuk mengembalikan kata menjadi kata dasar, jika ada imbuhan
maka akan dihapuskan. Langkah pertama yang dilakukan adalalah mengecek
apakah kata ada dalam kamus, jika ada maka langsung disimpan, jika tidak ada
maka selanjutnya dicek apakah kata tersebut memiliki imbuhan, jika memiliki
imbuhan maka selanjutnya imbuhan tersebut dihapus dan kata disimpan.
4.4. Manualisasi Perhitungan Data Manualisasi dilakukan dengan menghitung dan mendapatkan nilai yang
nantinya menjadi acuan dan data untuk sistem yang akan dibangun. Manualisasi
dilakukan dengan dokumen latih yang digunakan sebagai acuan perhitungan data
uji.
4.4.1. Preprocessing Pada tahap preprocessing akan dilakukan beberapa tahapan yaitu case
folding, tokenisasi, filtering dan stemming. Hal ini dilakukan agar menghasilkan data yang lebih terstruktur sehingga mempermudah proses perhitungan. Pada tabel 5 menunjukkan data latih yang digunakan, dan pada tabel 6 menunjukkan data uji yang digunakan.
Tabel 1. Dokumen
Doc Isi
1 Contoh hewan yang tergolong dalam kelas reptil antara lain buaya, cicak, kadal, komodo.
2 Mengkonsumsi buah seperti mangga, jeruk, semangka, dan melon dapat mencukupi kebutuhan vitamin dalam tubuh.
3 Taman ini penuh dengan aneka macam pohon, di antaranya pohon mangga, pohon cemara.
4 Pak Untung menguasai hampir semua jenis olahraga seperti sepak bola, voli, basket, tenis, dan badminton.
5 Gunung Kidul menjadi surganya beragam pantai dengan keindahannya masing-masing, di antaranya pantai Siung, pantai Krakal, pantai Kukup
6 Sejak kecil kita harus mencukupi kebutuhan vitamin, di antaranya vitamin A, vitamin B, vitamin C, vitamin D, vitamin E dengan makan buah
7 Hewan reptil hidup di darat dan di laut
Tabel 2. Query
Doc Isi
1 Reptil
2 Buah
4.4.1.1. Case Folding Tahapan case folding ialah proses yang dilakukan untuk mengubah semua huruf pada dokumen menjadi huruf kecil. Pada tabel 7 menunjukkan hasil setelah dilakukan case folding terhadap data latih dan pada tabel 8 menunjukkan hasil setelah dilakukan case folding pada data uji.
Tabel 3. Hasil Case Folding Dokumen
Doc Isi
1 contoh hewan yang tergolong dalam kelas reptil antara lain buaya, cicak, kadal, komodo.
2 mengkonsumsi buah seperti mangga, jeruk, semangka, dan melon dapat mencukupi kebutuhan vitamin dalam tubuh.
3 taman ini penuh dengan aneka macam pohon, di antaranya pohon mangga, pohon cemara.
4 pak untung menguasai hampir semua jenis olahraga seperti sepak bola, voli, basket, tenis, dan badminton.
5 gunung kidul menjadi surganya beragam pantai dengan keindahannya masing-masing, di antaranya pantai siung, pantai krakal, pantai kukup
6 sejak kecil kita harus mencukupi kebutuhan vitamin, di antaranya vitamin a, vitamin b, vitamin c, vitamin d, vitamin e dengan makan buah
7 hewan reptil hidup di darat dan di laut
Tabel 4. hasil Case Folding Query
Doc Isi
1 Reptil
2 Buah
4.4.1.2. Tokenisasi Tahapan tokenisasi dilakukan untuk menghapus karakter-karakter yang tidak perlu pada dokumen tersebut baik tanda baca, angka, atau karakter lainnya. Tabel 9 menunjukkan hasil tokenisasi pada data latih dan Tabel 10 menunjukkan tokenisasi pada data uji.
Tabel 5. Hasil Tokenisasi Dokumen
Doc Isi
1 contoh hewan yang tergolong dalam kelas reptil antara lain buaya cicak kadal komodo
2 mengkonsumsi buah seperti mangga jeruk semangka dan
Tabel 6. Hasil Tokenisasi Query
Doc Isi
1 reptil
2 buah
4.4.1.3. Filtering Pada tahap ini dilakukan proses filtering yaitu penghapusan kata yang kurang penting sesuai dengan stopword. Tabel 11 menunjukkan hasil filtering pada data latih dan Tabel 12 menunjukkan hasil filtering pada data uji.
Tabel 7. Hasil Filtering Dokumen
melon dapat mencukupi kebutuhan vitamin dalam tubuh
3 taman ini penuh dengan aneka macam pohon di antaranya pohon mangga pohon cemara
4 pak untung menguasai hampir semua jenis olahraga seperti sepak bola voli basket tenis dan badminton
5 gunung kidul menjadi surganya beragam pantai dengan keindahannya masing masing di antaranya pantai siung pantai krakal pantai kukup
6 sejak kecil kita harus mencukupi kebutuhan vitamin di antaranya vitamin a vitamin b vitamin c vitamin d vitamin e dengan makan buah
7 hewan reptil hidup di darat dan di laut
Doc Isi
1 contoh hewan tergolong kelas reptil buaya cicak kadal komodo
2 mengkonsumsi buah mangga jeruk semangka melon mencukupi kebutuhan vitamin tubuh
3 taman penuh aneka macam pohon pohon mangga pohon cemara
4 pak untung jenis olahraga sepak bola voli basket tenis badminton
5 gunung kidul menjadi surganya beragam pantai keindahannya pantai siung pantai krakal pantai kukup
6 kecil mencukupi kebutuhan vitamin makan buah
7 hewan reptil hidup darat laut
Tabel 8. Hasil Filtering Query
Doc Isi
1 Reptil
2 Buah
4.4.1.4. Stemming Pada tahap ini dilakukan proses merubah bentuk kata menjadi kata dasar. Tabel 13 menunjukkan hasil stemming pada data latih dan Tabel 14 menunjukkan hasil stemming pada data uji.
Tabel 9. Hasil Stemming Dokumen
Tabel 10. Hasil Stemming Query
Doc Isi
1 Reptil
2 Buah
4.4.2. Pembobotan Pada tahap ini akan dilakukan perhitungan pembobotan TF-IDF untuk
menghitung nilai kata.
4.4.2.1. Manualisasi tanpa Query Expansion Manualisasi yang akan dilakukan berikut ini adalah proses klasifikasi tweet
pada Twitter tanpa menerapkan Query Expansion. Proses tahap perhitungan tanpa Query Expansion menggunakan data latih pada tabel 15 Tabel 16 menunjukkan data uji.
Doc Isi
1 contoh hewan golong kelas reptil buaya cicak kadal komodo
2 konsumsi buah mangga jeruk semangka melon cukup butuh vitamin tubuh
3 taman penuh aneka macam pohon pohon mangga pohon cemara
4 pak untung jenis olahraga sepak bola voli basket tenis badminton
5 gunung kidul menjadi surganya beragam pantai indah pantai siung pantai krakal pantai kukup
6 kecil cukup butuh vitamin makan buah
7 hewan reptil hidup darat laut
Tabel 11. Dokumen
Tabel 12. Query
Doc Isi
1 reptil
2 buah
Proses yang dilakukan adalah langsung menghitung tanpa menggunakan
query expansion pada dokumen diatas, namun sebelumnya dokumen tersebut
telah dilakukan proses preprocessing terlebih dahulu. Berikut merupakan
perhitungan manualisasi tanpa menggunakan query expansion pada Tabel 17.
4.4.2.1.1. Menghitung TF dan IDF
Perhitungan TF dan IDF dimulai dengan melakukan perhitungan pada
banyaknya kemunculan term (kata) pada dokumen dengan menggunakan
Perhitungan pada tabel 17 merupakan perhitungan nilai tf-idf kemudian
tahap selanjutnya menghitung Wtd pada Tabel 18.
4.4.2.1.3. Normalisasi
Proses normalisasi ditunjukkan dari hasil perhitungan persamaan
Normalisasi Tf-Idf Weighting dibawah ini:
π€π‘,π =π€π‘,π
ββ π€π‘,π2π
π‘=1
Contoh perhitungan Normalisasi:
Setelah mendapatkan nilai Tf-Idf, nilai tersebut akan dinormalisasi:
π€π‘,π = π€π‘,π
ββ π€π‘,π2ππ‘=1
= 0,3626
Tabel 15. Normalisasi Akhir
Term Normalisasi
d1 d2 d3 d4 d5 d6 d7 uji1 uji2
contoh 0,3626 0 0 0 0 0 0 0 0
hewan 0,2335 0 0 0 0 0 0,2720 0 0
golongan 0,3626 0 0 0 0 0 0 0 0
kelas 0,3626 0 0 0 0 0 0 0 0
reptil 0,1579 0 0 0 0 0 0,1839 1 0
ular 0,3626 0 0 0 0 0 0 0 0
kadal 0,3626 0 0 0 0 0 0 0 0
buaya 0,3626 0 0 0 0 0 0 0 0
penyu 0,3626 0 0 0 0 0 0 0 0
konsumsi 0 0,3299 0 0 0 0 0 0 0
buah 0 0,1436 0 0 0 0,2438 0 0 1
mangga 0 0,3299 0 0 0 0 0 0 0
jeruk 0 0,3299 0 0 0 0 0 0 0
semangka 0 0,3299 0 0 0 0 0 0 0
melon 0 0,3299 0 0 0 0 0 0 0
cukup 0 0,3299 0 0 0 0 0 0 0
butuh 0 0 0 0 0 0,845098 0 0 0
makan 0 0 0 0 0 0 0,845098 0 0
vitamin 0 0 0 0 0 0 0,845098 0 0
hidup 0 0 0 0 0 0 0,845098 0 0
darat 0 0 0 0 0 0 0,845098 0 0
laut 0 0 0 0 0 0 0,845098 0 0
JUMLAH 6,8277 7,9739 5,3136 8,4510 8,5780 2,9033 5,1375 0,3680 0,3680
Term Normalisasi
d1 d2 d3 d4 d5 d6 d7 uji1 uji2
butuh 0 0,3299 0 0 0 0 0 0 0
vitamin 0 0,3299 0 0 0 0 0 0 0
tubuh 0 0,3299 0 0 0 0 0 0 0
taman 0 0 0,3876 0 0 0 0 0 0
penuh 0 0 0,3876 0 0 0 0 0 0
aneka 0 0 0,3876 0 0 0 0 0 0
pohon 0 0 0,4990 0 0 0 0 0 0
mangga 0 0 0,3876 0 0 0 0 0 0
cemara 0 0 0,3876 0 0 0 0 0 0
pak 0 0 0 0,3162 0 0 0 0 0
untung 0 0 0 0,3162 0 0 0 0 0
jenis 0 0 0 0,3162 0 0 0 0 0
olahraga 0 0 0 0,3162 0 0 0 0 0
sepak 0 0 0 0,3162 0 0 0 0 0
bola 0 0 0 0,3162 0 0 0 0 0
voli 0 0 0 0,3162 0 0 0 0 0
basket 0 0 0 0,3162 0 0 0 0 0
tenis 0 0 0 0,3162 0 0 0 0 0
badminton 0 0 0 0,3162 0 0 0 0 0
gunung 0 0 0 0 0,3112 0 0 0 0
kidul 0 0 0 0 0,3112 0 0 0 0
jadi 0 0 0 0 0,3112 0 0 0 0
surga 0 0 0 0 0,3112 0 0 0 0
ragam 0 0 0 0 0,3112 0 0 0 0
pantai 0 0 0 0 0,3580 0 0 0 0
indah 0 0 0 0 0,3112 0 0 0 0
siung 0 0 0 0 0,3112 0 0 0 0
krakal 0 0 0 0 0,3112 0 0 0 0
kukup 0 0 0 0 0,3112 0 0 0 0
kecil 0 0 0 0 0 0,5599 0 0 0
cukup 0 0 0 0 0 0,5599 0 0 0
butuh 0 0 0 0 0 0,5599 0 0 0
makan 0 0 0 0 0 0 0,4224 0 0
vitamin 0 0 0 0 0 0 0,4224 0 0
hidup 0 0 0 0 0 0 0,4224 0 0
darat 0 0 0 0 0 0 0,4224 0 0
laut 0 0 0 0 0 0 0,4224 0 0
4.4.2.2. Manualisasi menggunakan Query Expansion Manualisasi yang akan dilakukan berikut ini adalah proses klasifikasi tweet
pada Twitter tanpa menerapkan Query Expansion. Proses tahap perhitungan tanpa Query Expansion menggunakan data latih pada tabel 20. Tabel 21 menunjukkan data uji.
Tabel 16. Dokumen
Tabel 17. Query
Doc Isi
1 reptil
2 buah
Proses yang dilakukan adalah langsung menghitung tanpa menggunakan
query expansion pada dokumen diatas, namun sebelumnya dokumen tersebut
telah dilakukan proses preprocessing terlebih dahulu. Berikut merupakan
perhitungan manualisasi menggunakan query expansion pada Tabel 22.
4.4.2.2.1. Menghitung TF dan IDF
Perhitungan TF dan IDF dimulai dengan melakukan perhitungan pada
banyaknya kemunculan term (kata) pada dokumen dengan menggunakan
Setelah didapatkan hasil cosine similarity maka dilakukan pengurutan tingkat
kemiripan dari yang terbesar hingga yang terkecil. Tabel 25 menunjukkan tingkat
kemiripan terhadap data uji.
Uji 1
Urutan Tingkat Kemiripan
1 2 3 4 5 6 7
d1 d7 d2 d3 d4 d5 d6
BAB 5 IMPLEMENTASI
Bab ini menjelaskan implementasi yang dibangun berdasarkan metodologi dan perancangan yang telah dijelaskan pada bab sebelumnya.
5.1. Batasan Implementasi Batasan Implementasi merupakan sub bab yang menjelaskan batasan
proses yang dapat dilakukan oleh sistem berdasarkan perancangan yang telah diuraikan dari bab sebelumnya. Berikut merupakan batasan implementasi sistem pada penelitian ini sebagai berikut.
1. Penerapan Query Expansion Pada Sistem Temu Kembali Berbahasa Indonesia Dengan Metode Pembobotan Tf-Idf dan Algoritme Cosine Similarity Berbasis Wordnet dirancang dan dibangun menggunakan aplikasi desktop bahasa Java.
2. Metode yang digunakan untuk penyelesaian masalah adalah Pembobotan Tf-Idf dan Algoritme Cosine Similarity.
3. Data yang digunakan berupa tweets sebanyak 367 data. 4. Hasil keluaran aplikasi berupa query yang telah mendapatkan perluasan
hiponim dan dokumen tweets yang memiliki kemiripan.
5.2. Implementasi Algoritme Pada Sub-Bab Implementasi algoritme ini terdiri dari beberapa proses
yakni dari preprocessing, pembobotan kata, cosine similarity, dan query expansion. Berikut merupakan tahapan-tahapan tersebut.
5.2.1. Implementasi Algoritme Preprocessing Text Algoritme text preprocessing merupakan tahapan paling awal yang
terjadi pada sistem sebelum melangkah ke tahap berikutnya seperti query expansion dan cosine similarity. Tahapan tersebut terdapat 4 proses yang terdiri sebagai berikut.
1. Preprocessing Case Folding Proses pada tahap ini adalah mengubah berbagai huruf yang
berbentuk Uppercase atau huruf besar menjadi huruf kecil. Proses tersebut dapat dilihat pada Kode Program 1 beserta dengan penjelasannya.
Baris 1-4 : Proses untuk menghilangkan tanda baca dan angka Baris 5-7 : Proses untuk mengubah kata menjadi lowercase
1
2
3
4
5
6
7
8
public static String caseFolding(String kalimatAsli) {
2. Preprocessing Tokenizing Proses ini melakukan pemecahan kalimat menjadi kata per kata
dan menghilangkan beberapa simbol maupun karakter yang dianggap sistem sebagai tanda baca. Proses tersebut dapat dilihat pada kode program 2 beserta penjelasannya. Baris 1-4 : memecah kalimat menjadi kata per kata
1
2
3
4
5
public static String[] tokenizing(String kalimatAsli) {
String[] kata = kalimatAsli.split("\\s+");
return kata;
}
Kode Program 2. Implementasi Tokenizing
3. Preprocessing Filtering Tahap ini memproses pengambilan kata-kata yang dari hasil
tokenizing yang dianggap penting. Namun cara tersebut menggunakan algoritme stoplist (membuang kata yang tidak perlu digunakan atau menghapus kata tidak penting) dan menyimpan kata-kata yang telah dianggap penting (wordlist) (Insan,2013). Proses tersebut dapat dilihat pada Kode Program 3 beserta penjelasannya. Baris 1-9 : Digunakan untuk memanggil file stoplist berisi teks sebagai acuan Baris 10-17 : kode program untuk perulangan jika terdapat kata yang tidak penting pada term unik akan dihilangkan dan kata selain itu akan disimpan untuk proses berikutnya
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
public static String[] filtering(String[] kataAwal) throws
FileNotFoundException, IOException {
ArrayList<String> termUnik = new ArrayList<>();
for (int i = 0; i < kataAwal.length; i++) {
boolean kt = stopList(kataAwal[i]);
if (!kt) {
termUnik.add(kataAwal[i]);
}
}
String[] kataUnik = new String[termUnik.size()];
for (int i = 0; i < kataUnik.length; i++) {
kataUnik[i] = termUnik.get(i);
}
return kataUnik;
}
Kode Program 3. Implementasi Filtering
4. Preprocessing Stemming Pada tahap ini dilakukan merubah berbagai kata-kata yang
terdapat pada tweet menjadi kata-kata yang berupa akanya atau kata aslinya dengan aturan tertentu dari sistem. Proses tersebut dapat dilihat pada kode program 4 beserta penjelasannya. Baris 1-9 : Digunakan untuk membaca file yang berisi teks root word sebagai kata asli yang tidak dapat di hilangkan setiap bagian kata maupun imbuhannya. Baris 10-17 : Untuk menyimpan kata baku yang telah dicari
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
public static String[] stemming (String[] kataAwal) throws
FileNotFoundException, IOException {
// mencari kata baku
ArrayList<String> katabaku = new ArrayList<>();
IndonesianStemmer baku = new IndonesianStemmer();
for (int i = 0; i < kataAwal.length; i++) {
String kb = baku.findRootWord(kataAwal[i]);
katabaku.add(kb);
}
String[] katabaku1 = new String[katabaku.size()];
for (int i = 0; i < kataAwal.length; i++) {
katabaku1[i] = katabaku.get(i);
}
return katabaku1;
}
Kode Program 4. Implementasi Stemming
5. Translate Pada tahap ini dilakukan translate dari API Google Translate.
Proses tersebut dapat dilihat pada kode program 5 beserta penjelasannya. Baris 1-8 : Kode program untuk koneksi URL API Google Baris 9-17 : kode program untuk mengirim teks yang akan di translate Baris 18-25 : kode program untuk pengambilan teks yang telah di translate
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
public static String translate (String text, String target,
8. Fungsi Wordnet Pada tahap ini merupakan fungsi wordnet. Proses tersebut
dapat dilihat pada kode program 8 beserta penjelasannya.
Baris 1-4 : memanggil konfigurasi wordnet Baris 5-20 : pencarian hiponim dalam kasus wordnet Baris 21-29 : untuk menyimpan hasil hiponim kedalam Array List
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
public static String[] wordnet (String kataAwal) throws
Pada tahap ini merupakan fungsi wordnet. Proses tersebut dapat dilihat pada kode program 9 beserta penjelasannya. Baris 1-21 : pencarian data tweet dalam database My SQL Baris 25-43 : menampilkan hasil pencarian tabel GUI
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
public String[] cari(String[] kata) throws SQLException{
//mencari data pencarian pada database
ArrayList<String> katacari = new ArrayList<>();
koneksi();
Statement statement=conn.createStatement();
DefaultTableModel tabelTampil1 = new
DefaultTableModel();
for(int i = 0; i<kata.length; i++){
String sql = "Select * from data tweet where
tweet like '%" + kata[i] + "%'" ;
ResultSet rs=statement.executeQuery(sql);
System.out.println("rs.next() : "+ rs.next());
while (rs.next()) {
tabelTampil1.addRow(new Object[]{
rs.getString(1),
rs.getString(2),
//rs.getString(3),
//rs.getString(4),
});
String kataku = rs.getString(2);
katacari.add(kataku);
}
}
String[] ketemu = new String[katacari.size()];
for (int i = 0; i < ketemu.length; i++) {
ketemu[i] = katacari.get(i);
System.out.println(i + " = " + ketemu[i]);
DefaultTableModel tabelTampil = new
DefaultTableModel();
tabelTampil.setColumnIdentifiers(new Object[]{
"Tweet"
});
List<Object> list = new ArrayList<>();
list.add(ketemu);
for(Object obj : list){
tabelTampil.addRow((Object[]) obj);
jTable1.setModel(tabelTampil);
}
}
return ketemu;
}
Kode Program 9. Pencarian
9. Query Expansion
Proses mengekspansi kata baru atau query expansion memiliki beberapa tahapan yang dilakukan. Pertama yaitu memproses data yang berbentuk kamus berita untuk dihitung kedekatan kata dengan
setiap kata pada data uji dengan menghasilkan nilai terpendek. Proses tersebut dapat dilihat pada kode program 10 beserta penjelasannya.
Kode Program 15. Implementasi Perhitungan Cosine Similarity
5.3. Implementasi Antarmuka Implementasi antarmuka yang dimaksud adalah tampilan sistem yang
digunakan untuk layar interaksi antar pengguna dengan sistem. Implementasi yang ditunjukkan adalah tampilan form pencarian dan tampilan form input database.
5.3.1. Implementasi Antarmuka Form Pencarian Halaman form pencarian ini digunakan untuk menginputkan quer sebelum mendapatkan query expansion. Halaman ini menampilkan perluasan
query dengan hasil hiponim dari query yg di inputkan. Implementasi halaman tersebut dapat ditunjukkan pada gambar 9.
Gambar 1. Tampilan Form Pencarian
5.3.2. Implementasi Antarmuka Input Database Antarmuka yang ditampilkan pada halaman berikut merupakan form input database. Dimana form ini digunakan untuk menambahkan data pada database My SQL. Implementasi tersebut dapat dilihat pada gambar 5.2.
Gambar 2. Tampilan Form Tambah Database
BAB 6 PENGUJIAN
6.1. Evaluasi dengan Precision at K Precision at K digunakan dalam evaluasi untuk menghitung tingkat akurasi
sistem. Pengujian ini dilakukan untuk menentukan apakah query yang
dimasukkan relevan terhadap dokumen yang ditemukan kembali sebanyak top
K, lalu dihitung tingkat akurasinya. Jumlah dokumen yang akan dicoba sebanyak
376 dokumen dan jumlah query-nya sebanyak 10 query. Daftar query dan query
yang telah di query expansion yang akan diuji tertera pada Tabel 25 dan daftar
dokumennya terdapat pada lampiran A. Top K yang akan diuji untuk tiap query
adalah top 20.
Tabel 1. Daftar Query dan Query Expansion
No ID Query Query Query Expansion
1 Q-01 Reptil Anaspid,Diaspid,Sinaspid,Diaspida
2 Q-02 Kendaraan Bumper car, kerajinan, militer vehicle, roket, skibob, kereta luncur, penggilingan, wheeled vehicle
3 Q-03 Burung burungmalam,bird of passage, protoavis,Archaeopteryx,Sinornis,Iberomesornis,archaeornis,ratite,carikan,yg berkenaan dgn burung gereja, nonpasserine bird,burung pemangsa,gallinaceous bird,burung beo,cuculiform bird, coraciiform bird, apodiform bird, caprimulgiform bird, piciform bird,trogon,aquatic bird, twitterer,unggas,unggas liar
4 Q-04 Gunung Black Hills, puncak gunung, ben, gunung bawah laut, gunung berapi
5 Q-05 Manusia dunia, Homo erectus, Homo soloensis, Homo habilis, Homo sapiens, Neandertal man, Rhodesian man
8 Q-08 Kerja mencuci, tindakan, pekerjaan, pekerjaan, operasi, layanan, bersinar, angkat berat, rumah tangga, pekerjaan rumah, menyetrika, pekerjaan yang sibuk, penebangan, loose end, kerja malam, dokumen, welfare work, tenaga kerja, subbing, penyelidikan, peduli, tugas, misi, pekerjaan persiapan, waktu kerja, usaha, kursus, mengikuti, kerajinan, besi, lacework, vernis, pekerjaan kulit, hasil karya, kerja logam, kerawang, polikrom, pekerjaan perak, anyaman, kayu, work in progress, Benda kerja, publikasi, pelatihan, pertunangan, kementerian, pelayaran, beban kerja, piecework, layanan, telecommuting, jasa, pelayanan publik, paper route, penulisan, toko roti, sarang lebah, brokerage house, pusat, tambang batu bara, krim, drill site, bertukar, tanah pertanian, perikanan, fish farm, menempa, pabrik gas, barang pecah belah, besi, pekerjaan, laboratorium, cucian, lokasi, lumberyard, oyster bed, proving ground, ropewalk, bangsal lokomotif, galangan kapal, lantai toko, studio, studio, penyamakan, test bed, bangunan air, bengkel
9 Q-09 Hewan hama, makhluk, creepy-crawly, pelempar anak panah, pengintip, homeotherm, poikilotherm, range animal, anak nakal, pemulung, work animal, binatang dalam negeri, pengumpan, migrator, penganiaya, membelai, orang tabah, pengganti, marine animal, wanita, pria, dewasa, muda, berdarah murni, raksasa, selamat, mutan, herbivora, insektivora, acrodont, pleurodont, zooplankton, embrio, chordate, invertebrata, metazoan, omnivora, predator, mangsa, permainan, hexapod, berkaki dua, larva, pembalap, fiksional animal, tawanan, pasangan
10 Q-10 Makanan kuning telur, comfort food, panganan, tarif, bahan makanan, makanan bergizi, komisariat, makan, miraculous food, minuman, air, makanan jiwa, chyme, sisa, makanan segar, kenyamanan food, cokelat, baked goods, daging, Semacam spageti, makanan sehat, makanan cepat saji, makanan sarapan, menghasilkan, kelapa, dika bread, ikan, makanan laut, mentega, yogurt, keju, air kotor, makan
6.2. Perbandingan Pengujian Tanpa Query Expansion dan Menggunakan Query Expansion
Pengujian menggunakan query expansion menghasilkan relevansi antara
dokumen dan query yang telah di query expansion dilakukan secara manual
terhadap 20 penilaian, masing-masing penilaian memasukkan query dan
menilai dokumen yang relevan hingga urutan ke-20. Sedangkan pengujian
tanpa menggunakan query expansion juga menghasilkan relevansi antara
dokumen dan query tanpa di query expansion dilakukan secara manual
terhadap 20 penilaian, masing-masing penilaian memasukkan query dan
menilai dokumen yang relevan hingga urutan ke-20. Hasil pengujiannya pada
Tabel 26. Tabel hasil relevansi dari penguji ditampilkan secara lebih lengkap
dibagian Lampiran.
Tabel 2. Perbandingan Pengujian Tanpa Query Expansion dan Menggunakan Query Expansion
Query Dengan Query Expansion Tanpa Query Expansion
Q-1 P@20=16/20= 0.8 P@20=15/20= 0.75
Q-2 P@20=13/20= 0.6 P@20=15/20= 0.75
Q-3 P@20=16/20= 0.8 P@20=11/20= 0.55
Q-4 P@20=10/20= 0.5 P@20=11/20= 0.55
Q-5 P@20=12/20= 0.6 P@20=13/20= 0.65
Q-6 P@20=14/20= 0.7 P@20=8/20= 0.4
Q-7 P@20=16/20= 0.8 P@20=10/20= 0.5
Q-8 P@20=15/20= 0.75 P@20=5/20= 0.25
Q-9 P@20=14/20= 0.7 P@20=8/20= 0.4
Q-10 P@20=14/20= 0.7 P@20=8/20= 0.4
Rata-rata 0.7 = 70% 0.52 = 52%
6.2.1. Skenario Pengujian 2.
Pada skenario ini dilakukan beberapa pengujian pada Precision@20
Precision@15, Precision@10, Precision@5. Dimana pengujian ini digunakan
untuk mengukur treshold pada peringkat K. Query yang digunakan hanya query
Q-01. Dimana Q-01 telah di query expansion. Dokumen yang dihitung ialah
dokumen relevan teratas sejumlah K dan mengabaikan dokumen peringkat yang
berada dibawah K. Berikut hasil pengujian Precision@K yang di tunjukkan pada
tabel 27.
Tabel 3. Skenario Pengujian 2
Query Query+1 Query+2 Query+3 Query+4
P@20 0.75 0.65 0.65 0.7 0.8
P@15 0.733 0.6 0.66 0.733 0.933
P@10 0.9 0.9 0.9 0.9 0.9
P@5 0.8 0.8 0.8 0.8 1
6.3. Analisis
Berdasarkan hasil tabel Perbandingan Pengujian Tanpa Query Expansion dan Menggunakan Query Expansionmenggunakan precission@20, dari 10 query yakni Q-01, Q-02, Q-03, Q-04, Q-05, Q-06, Q-07, Q-08, Q-09, Q-10 didapatkan hasil rata-rata pengujian menggunakan query expansion sebesar 0.7 atau 70%. Sedangkan pada hasil pengujian tanpa menggunakan query expansion sebesar 0.52 atau 52%. Artinya dengan adanya query expansion maka dapat menaikkan nilai precision pada 10 query pencarian. Hal ini disebabkan adanya penambahan
query menyebabkan dokumen relevan akan semakin naik peringkatnya, karena query yang dihasilkan semakin spesifik.
Pada skenario pengujian 2 dilakukan pengujian pada treshold pada nilai K. Pengujian ini dilakukan untuk menguji nilai precision, dimana peringkat perangkingan teratas dari K akan dihitung dan mengabaikan nilai perangkingan dibawah K. Pada Precision@5 mengalami kenaikan sebesar 0.2.
Dari 10 query, dapat disimpulkan bahwa query expansion berpengaruh cukup baik dalam menemukan dokumen relevan. Karena hasil dari perbandingan menggunakan query expansion dan tanpa menggunakan query expansion menghasilkan kenaikan sebesar 12%.
BAB 7 KESIMPULAN DAN SARAN
7.1. Kesimpulan Pada bagian ini akan membahas tentang kesimpulan dari hasil penelitian
Query Expansion pada sistem temu kembali informasi berbahasa indonesia
dengan metode pembobotan tf-idf dan algoritme Cosine Similarity bebasis
WordNet, berikut diantaranya:
1. Berdasarkan pada hasil analisis serta pengujian pada penelitian Query
Expansion pada sistem temu kembali informasi berbahasa indonesia
dengan metode pembobotan tf-idf dan algoritme Cosine Similarity
bebasis WordNet, menggunakan Dokumen yang tersedia akan melalui
tahapan preprocessing, kemudian dilakukan perhitungan pada term
weighting dan cosine similarity. Hasil dari preprocessing disimpan di
dataset kemudian dilakukan proses query expansion dengan
menggunakan kamus Wordnet. Setelah mendapatkan query expansion
berupa hiponim maka query akan di translatekan menggunakan Google
Translate API dan menghasilkan query expansion berbahasa indonesia.
2. Pada proses query expansion menghasilkan hasil rata-rata pengujian
menggunakan query expansion sebesar 0.7 atau 70%. Sedangkan pada
hasil pengujian tanpa menggunakan query expansion sebesar 0.52 atau
52%. Artinya dengan adanya query expansion maka dapat menaikkan
nilai precision pada 10 query pencarian. Hal ini disebabkan adanya
penambahan query menyebabkan dokumen relevan semakin sedikit,
karena query yang dihasilkan semakin spesifik.
7.2. Saran Berdasarkan pada kesimpulan yang sudah diambil terkait dengan hasil
penelitian menerapkan Query Expansion pada sistem temu kembali informasi
berbahasa indonesia dengan metode pembobotan tf-idf dan algoritme
Cosine Similarity bebasis WordNet pengaruh Query Expansion pada sistem
temu kembali informasi berbahasa indonesia dengan metode pembobotan
tf-idf dan algoritme Cosine Similarity bebasis WordNet, maka saran yang akan
direkomendasikan adalah sebagai berikut:
Penelitian selanjutnya dapat dilakukan dengan metode lain, seperti
semantik yang dapat meningkatkan pemilihan kata-kata tambahan sehingga
dapat menjadi query yang semakin baik dan memiliki kesamaan yang tinggi
dibandingkan query awal pengguna.
DAFTAR PUSTAKA
Google Cloud Platform. (2018). Cloud Translation API. Dipetik Maret 16, 2018,
Miller, G. A., Beckwith, R., & Fellbaum, C. (1993). Introduction to WordNet: An
On-line Lexical Database,Derek Gross, and Katherine Miller. International
Journal of Lexicography.
Nerald, J. Kowalski, 2000. Information Storange and Retrieval Systems: Theory
and Implementation, United States
Netty Laora Sitohang 2009. Ekspansi Kueri pada Sistem Temu Kembali Informasi
Berbahasa Indonesia Menggunakan Kamus Dwibahasa, Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Nutri Rahayuni 2011. Ekspansi Kueri pada Sistem Temu Kembali Informasi
Berbahasa Indonesia Menggunakan Thesaurus, Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Pamungkas, Z.Yoga., Indriati., Ridok, A, 2015. Query Expansion pada Sistem Temu
Kembali Informasi Dokumen Berbahasa Indonesia Menggunakan Pseudo
Relevance Feedback, Informatika, Universitas Brawijaya.
Rasywir, Errissya dan Ayu Purwarianti. 2015. Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin. Jurnal Cybermatika, (2)3, pp.1-8.
Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa
Indonesia Menggunakan Peluang Bersyarat. [Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Warsita, Bambang. 2008. Teknologi Pembelajaran : Landasan & Aplikasinya,
Jakarta: Rineka
Yugianus, P 2015. Pengembangan sistem penelusuran katalog perpustakaan
dengan metode rocchio relevance feedback. Universitas Brawijaya.
OβReilly, T., & Milstein, S. (2009). What is Twitter ? Dalam J. Wikert (Penyunt.),
The Twitter Book (hal. 7). United States of America: O`Reilly Media , Inc.
Zhang, J., Deng, B., & Li, X. (2009). Concept Based Query Expansion Using