Page 1
i
PEP
LAPORAN PENELITIAN FAKULTAS
EKSPANSI QUERY PADA TWITTER DENGAN KOMBINASI METODE
MAXIMUM HASHTAG DAN HIGHEST-SCORED TERM
KETUA TIM
Dr. Moch. Sukardjo, M.Pd (NIDN. 0020075804)
PENELITIAN INI DIBIAYAI OLEH DANA BLU
FAKULTAS TEKNIK UNIVERSITAS NEGERI JAKARTA
BERDASARKAN SURAT KEPUTUSAN REKTOR
Nomor: 482/SP/2017
Tanggal: 5 Mei 2017
----------------------------------------------------------------------------------------------------
FAKULTAS TEKNIK
UNIVERSITAS NEGERI JAKARTA
DESEMBER 2017
Page 2
ii
HALAMAN PENGESAHAN
PENELITIAN FAKULTAS
Judul Penelitian : Ekepansi Query pada Twitter dengan Kombinasi Metode
Maximum Hashtag dan Highest-Scored Term.
Kode/Bidang Ilmu : Ilmu Komputer
Identitas Peneliti
a. Nama Lengkap : Dr. Moch. Sukardjo, M.Pd.
b. NIDN : 0020075804
c. Jabatan Fungsional : Lektor Kepala
d. Program Studi : Pendidikan Teknik Elektronika
e. Nomor Hp : 081389048658
f. Alamat surel (e-mail) : [email protected]
Biaya Penelitian Keseluruhan : Rp.12.000.000,-
Mengetahui
Dekan,
Dr. Agus Dudung R., M.Pd.
NIP.19650817 199102 1 001
Jakarta, 9 November 2017
Ketua Peneliti
Dr. Moch. Sukardjo, M.Pd.
NIP. 19582007 198503 1 003
Menyetujui,
Ketua Lembaga Penelitian dan
Pengabdian Masyarakat UNJ
Dr. Ucu Cahyana, M.Si
NIP.19660820 199403 1 002
Page 3
iii
DAFTAR ISI
HALAMAN PENGESAHAN ............................................................................................................ ii
PENELITIAN FAKULTAS .............................................................................................................. ii
DAFTAR ISI .................................................................................................................................... iii
RINGKASAN ...................................................................................................................................iv
BAB 1. PENDAHULUAN ................................................................................................................ 1
1.1 Latar Belakang ....................................................................................................................... 1
1.2 Permasalahan ..................................................................................................................... 2
1.3 Rumusan Masalah .............................................................................................................. 2
1.4 Tujuan Penelitian ............................................................................................................... 2
1.5 Manfaat Penelitian ............................................................................................................. 2
1.6 Kontribusi dalam Pengembangan IPTEKS ......................................................................... 3
BAB 2. TINJAUAN PUSTAKA ....................................................................................................... 4
2.1. Twitter ............................................................................................................................... 4
2.2. Penelusuran Informasi (Information Retrieval) ................................................................... 4
2.3. Ekspansi Kueri (Query Expansion) ..................................................................................... 5
2.4. Hashtag dan Maximum Hashtag ......................................................................................... 6
2.5. Highest-Scored Term ......................................................................................................... 6
2.6. Kajian Penelitian Sebelumnya ............................................................................................ 7
BAB 3. METODE PENELITIAN ................................................................................................ 10
3.1. Metode Penelitian ............................................................................................................ 10
3.2. Luaran Penelitian ............................................................................................................. 10
3.3. Tahapan Penelitian ........................................................................................................... 10
BAB 4. HASIL DAN LUARAN YANG DICAPAI ......................................................................... 13
4.1. Hasil ................................................................................................................................ 13
4.2. Luaran yang Dicapai ........................................................................................................ 17
BAB 5. KESIMPULAN DAN SARAN ........................................................................................... 18
5.1. Kesimpulan .......................................................................................................................... 18
DAFTAR PUSTAKA ...................................................................................................................... 19
Page 4
iv
RINGKASAN
Proses penelusuran informasi pada twitter memiliki karakteristik yang berbeda dengan
penelusuran informasi dokumen biasa. Jumlah karakter yang sangat terbatas akan
menyebabkan kesulitan pada waktu melakukan term weighting (pembobotan kata).
Penggunaan struktur seperti hashtag(#), retweet (RT), maupun mention pengguna lain (@)
memerlukan metode tersendiri supaya keterkaitan struktur tersebut dapat menghasilkan
dokumen yang paling relevan saat melakukan retrieve. Masalah pembobotan kata pada twitter
adalah karena dalam satu dokumen tweet (satu tweet) jumlah kata sangat terbatas yang akan
menyebabkan sulit menentukan kata yang dominan dengan kategori tertentu. Hal lain yang
menjadi permasalahan adalah jumlah hashtag (#) yang berkaitan dengan topik atau term
tertentu. Relevansi hashtag terhadap topik seharusnya akan menambah tingkat relevansi
dokumen yang terambil. Dengan kondisi tersebut penelusuran informasi pada twitter sering
mendapatkan dokumen yang kurang relevan.
Penelitian ini bertujuan untuk mengembangkan metode baru dalam melakukan
penelusuran informasi pada twitter dengan menggabungkan nilai maximum hashtag dan
highest-scored term dan menghasilkan dokumen dengan relevansi yang tinggi hasil dari
penelusuran informasi pada twitter dengan menggunakan metode yang dikembangkan tersebut.
Metode penelitian yang digunakan adalah eksperimen dengan menggunakan teknik
ekspansi query. Ekspansi query dilakukan dengan menambahkan term yang memiliki nilai
statistik tertinggi dan dengan jumlah hashtag terbanyak.
Page 5
1
BAB 1. PENDAHULUAN
Pada bab ini akan dijelaskan mengenai latar belakang permasalahan yang menjadi dasar
penelitian, tujuan penelitian yang diinginkan, serta kontribusi dalam pengembangan IPTEKS.
1.1 Latar Belakang
Twitter merupakan sebuah layanan media sosial online yang sangat populer saat ini.
Twitter dapat diakses oleh pengguna yang sudah melakukan registrasi pada website:
twitter.com. Jika dibandingkan dengan media sosial yang lain, twitter memiliki karakteristik
pada keterbatasan jumlah karakter yang di-post, yaitu 140 karakter.
Penelusuran informasi merupakan bidang yang berkenaan dengan proses untuk
memperoleh informasi yang relevan dari sebuah sistem. Seorang pengguna akan memasukkan
query ke dalam sistem, kemudian sistem akan merespon dengan menampilkan dokumen atau
daftar dokumen yang relevan dengan query yang dimasukkan oleh user. Implementasi dari
proses seperti ini adalah dengan munculnya berbagai macam jenis situs pencarian seperti
google, yahoo, dan banyak lagi yang lain. Hasil penelusuran informasi tersebut akan
memuaskan pengguna jika dokumen atau daftar dokumen yang terambil memiliki tingkat
relevansi yang baik.
Twitter sebagai media sosial yang sangat populer menyimpan dokumen yang sangat
banyak. Ratusan juta tweets yang di-posting setiap hari menambah koleksi dokumen dalam
twitter.com. Twitter.com sendiri memiliki proses penelusuran informasi pada
twitter.com/search-home.
Dengan jumlah pengguna yang semakin hari semakin banyak dan jumlah tweets yang
semakin melimpah pula, maka twitter.com membutuhkan proses penelusuran maupun
pencarian informasi yang akurat. Keakuratan tersebut akan di-ranking berdasarkan relevansi
dengan query yang dimasukkan oleh pengguna. Tantangannya adalah menjadikan proses
penelusuran informasi di-ranking berdasarkan tingkat relevansinya dengan jumlah dokumen
tweets yang semakin hari semakin besar dan karakteristik twitter yang maksimal hanya 140
karakter.
Proses penelusuran informasi pada twitter yang terbatas jumlah karakternya yaitu 140
karakter inilah yang secara statistik akan tidak terlalu mudah dalam menggolongkan dokumen
tersebut.
Page 6
2
1.2 Permasalahan
Proses penelusuran informasi pada twitter memiliki karakteristik yang berbeda dengan
penelusuran informasi dokumen biasa. Jumlah karakter yang sangat terbatas akan
menyebabkan kesulitan pada waktu melakukan term weighting (pembobotan kata).
Penggunaan struktur seperti hashtag(#), retweet (RT), maupun mention pengguna lain (@)
memerlukan metode tersendiri supaya keterkaitan struktur tersebut dapat menghasilkan
dokumen yang paling relevan saat melakukan retrieve. Masalah pembobotan kata pada twitter
adalah karena dalam satu dokumen tweet (satu tweet) jumlah kata sangat terbatas yang akan
menyebabkan sulit menentukan kata yang dominan dengan kategori tertentu. Hal lain yang
menjadi permasalahan adalah jumlah hashtag (#) yang berkaitan dengan topik atau term
tertentu. Relevansi hashtag terhadap topik seharusnya akan menambah tingkat relevansi
dokumen yang terambil.
1.3 Rumusan Masalah
Berdasarkan latar belakang dan permasalahan yang terdapat pada proses penelusuran
informasi pada twitter tersebut maka rumusan masalah penelitian ini adalah “Bagaimana
merancang metode baru penelusuran informasi pada twitter dengan menggabungkan metode
maximum hashtag dan highest-scored term dan apakah hasilnya akan lebih relevan dari
metode lain?”
1.4 Tujuan Penelitian
Penelitian ini bertujuan untuk:
1. Mengembangkan metode baru untuk melakukan penelusuran informasi pada twitter
dengan menggabungkan nilai maximum hashtag dan highest-scored term.
2. Menghasilkan dokumen dengan relevansi yang tinggi hasil dari penelusuran informasi
pada twitter dengan menggunakan metode yang dikembangkan.
1.5 Manfaat Penelitian
Manfaat yang didapatkan dari penelitian ini adalah:
1. Pengembangan sistem penelusuran informasi pada twitter selanjutnya akan dapat
menggunakan metode/algoritma yang akan menghasilkan dokumen yang lebih
relevan.
2. Pengguna twitter dapat lebih cepat menemukan tweet yang relevan
Page 7
3
1.6 Kontribusi dalam Pengembangan IPTEKS
Penelitian ini adalah penelitian dalam bidang ICT untuk rumpun ilmu komputer.
Pengembangan metode penelusuran informasi pada twitter akan meningkatkan kinerja
pencarian topik tertentu dengan menggunakan kata atau frasa tertentu pada sosial media twitter.
Pengguna akan dapat memanfaatkan untuk menelusuri informasi yang dapat diperoleh dari
twitter dengan tingkat relevansi yang tinggi. Hal ini akan meningkatkan khasanah keilmuan
bidang ilmu dan teknologi.
Page 8
4
BAB 2. TINJAUAN PUSTAKA
Bab ini menjelaskan mengenai twitter, penelusuran informasi (information retrieval),
hashtag dan maximum hashtag, highest-scored term, serta kajian penelitian sebelumnya.
2.1. Twitter
Media sosial menjadi sebuah teknologi komunikasi yang digunakan masyarakat di
seluruh dunia dewasa ini. Beberapa media sosial yang berkembang pesat antara lain Facebook,
Twitter, dan Google+. Twitter adalah sebuah media sosial yang memiliki karakteristik khusus.
Karakteristik tersebut adalah pengguna yang sudah registrasi yang memiliki akun twitter dapat
memposting tweet (kicauan) mereka maksimal 140 karakter. Ini menunjukkan bahwa
berkomunikasi menggunakan twitter sangat mudah baik menulis maupun membaca (O’Reilly
& Milstein 2011). Media sosial twitter dapat ditemukan pada alamat url www.twitter.com .
Twitter saat ini sudah memiliki lebih dari 550 juta penguna yang teregistrasi. Dari
jumlah pengguna yang sebanyak itu, setiap hari terdapat 340 juta tweets yang dikirimkan
pengguna. Setiap hari juga twitter melayani permintaan pencarian.
Pencarian yang dilakukan di twitter juga memiliki karakteristik yang berbeda dengan
pencarian pada media sosial yang lain. Pada twitter, sebuah topik bisa ditandai dengan tanda
hashtag (#). Misalnya kita akan melakukan pencarian mengenai tweets yang berkaitan dengan
KPK, berarti mencari tweets yang mengandung #kpk.
2.2. Penelusuran Informasi (Information Retrieval)
Dalam kegiatan sehari-hari sering manusia dihadapkan pada permasalahan tertentu
yang belum diketahui. Pada era teknologi informasi saat ini, permasalahan tersebut dapat
diatasi dengan cara pencarian informasi. Pencarian informasi ini dilakukan mengunakan
computer sebagai media pencarian dengan teknologi internet. Pencarian informasi tersebut
akan berkaitan dengan dokumen tertentu yang dapat menjelaskan informasi tertentu yang
dibutuhkan oleh si pencari tersebut. Untuk melakukan pencarian tersebut, dibutuhkan teknik
untuk menelusuri informasi yang terdapat di internet.
Page 9
5
Penelusuran informasi merupakan sebuah teknik/metode yang digunakan untuk
memperoleh informasi tertentu dari sebuah kumpulan data yang sangat besar. Penelusuran
informasi merupakan terjemahan dari terminologi dalam bahasa Inggris yaitu Information
Retreieval. Penulusuran informasi berkaitan dengan pencarian dokumen yang relevan
(Grossman & Frieder, 2004). Permasalahan dengan dokumen yang relevan adalah menyaring
dari sekian banyak dokumen yang tersedia untuk mengambil dokumen yang relevan.
Permasalahan yang berikutnya adalah bagaimana me-ranking dokumen dari yang paling
relevan hingga yang paling tidak relevan. Dalam ilmu komputer, penelusuran informasi
merupakan sebuah bidang tersendiri yang berkaitan dengan metode pencarian dokumen dalam
bentuk teks. Definisi tersebut seperti dinyatakan oleh Christopher D. Manning, Penelusuran
Informasi adalah pencarian materi (biasanya dalam bentuk dokumen) berupa data yang tidak
terstruktur (umumnya data teks) yang memenuhi kebutuhan informasi dalam sebuah dokumen
yang sangat besar (biasanya tersimpan dalam komputer) (Manning et al, 2009).
2.3. Ekspansi Kueri (Query Expansion)
Dalam ilmu komputer, kueri merupakan perintah untuk menampilkan data/informasi
tertentu. Pada mesin pencari, kueri merupakan kata-kata yang dimasukkan ke dalam mesin
pencari. Pada proses yang melibatkan ekspansi kueri, mesin pencari biasanya menyediakan
fitur untuk mengisi kata-kata tambahan untuk mempersempit ruang pencarian sehingga
hasilnya lebih relevan [Manning et al, 2009]. Pada google misalnya, menyediakan beberapa
fitur seperti rentang waktu (dari tahun berapa sampai dengan tahun berapa) untuk menemukan
dokumen pada rentang waktu tersebut.
Metode untuk melakukan ekspansi kueri bisa dilakukan secara interaktif maupun secara
otomatis. Metode interaktif bisa dilakukan dengan memberikan umpan balik kemudian user
mengisikan tambahan kueri untuk meningkatkan relevansi dokumen. Metode seperti ini yang
dinamakan relevance feedback. Metode yang dilakukan secara otomatis adalah dengan secara
otomatis menambahkan kata-kata pada kueri yang dimasukkan dengan teknik tertentu. Tujuan
dari ekspansi kueri ini adalah agar dokumen yang terambil semakin banyak yang relevan.
Page 10
6
2.4. Hashtag dan Maximum Hashtag
Sebuah tweet pada twitter biasanya muncul secara acak. Seseorang bisa mengetahui
kategori atau klasifikasi sebuah tweet dengan dua (2) buah cara yaitu pertama dengan membaca
manual tweet tersebut, sehingga orang tersebut mengetahui tweet tersebut sedang
membicarakan apa. Kedua, jika pada tweet tersebut terdapat tanda hashtag (#), maka kategori
tweet tersebut adalah sesuai kata yang mengikuti tanda hashtag tersebut.
Dari ilustrasi di atas jelas bahwa hashtag adalah kata yang menunjukkan kategori
sebuah tweet. Hashtag adalah sebuah kata yang diawali dengan simbol # yang membantu
mengkategorikan pesan pada twitter (O’Reilly & Milstein 2011). Hashtag juga dapat
digunakan untuk mengindikasikan kata kunci teks atau frase yang berguna dalam
pengundeksan (Weller et al, 2014). Penggunaan hashtag tersebut juga akan mempermudah
proses pencarian topik-topik tertentu yang sudah dikategorikan tersebut. Sebuah pesan (tweet)
bisa mengandung satu atau lebih hashtag. Contoh penggunaan hashtag pada pesan: “Selamat
liburan…. Hari ini kita berangkat ke Aceh… #Liburan #Aceh”. Dua buah hashtag pada pesan
tersebut mengindikasikan bahwa pesan tersebut termasuk dalam kategori Liburan dan kategori
Aceh.
Maximum hashtag merupakan sebuah terminologi yang mengacu pada jumlah hashtag
terbanyak dalam sekumpulan dokumen tweet. Misalkan dalam proses query expansion, pada
seratus tweet awal yang terambil, hashtag terbanyak adalah #liburan, maka maximum hashtag
adalah #liburan dan berarti untuk perbaikan query ditambahkan dengan kata liburan.
2.5. Highest-Scored Term
Highest-Scored Term sebenarnya adalah nilai tertinggi sebuah kata dalam sebuah
dokumen yang dinilai. Metode penilaian tersebut dinamakan dengan TF-IDF (Term frequency-
Inverse Document Frequency). Highest-scored term (HST) tersebut mengacu pada kata yang
memiliki frekuensi terbanyak dalam sebuah dokumen (tweet) atau dalam kumpulan dokumen.
Highest- scored term dalam penelitian ini akan digunakan digunakan ekspansi queri. Jadi HST
di sini adalah sama dengan kata yang paling sering muncul pada daftar term frequency. Term
frequency sendiri adalah jumlah kejadian munculnya sebuah kata atau beberapa kata dalam
dokumen (Manning et al, 2009). Metode HST ini akan digabungkan dengan metode maximum
hashtag untuk meningkatkan relevansi dokumen yang terambil pada proses penelusuran
informasi.
Page 11
7
2.6. Kajian Penelitian Sebelumnya
Berikut ini diuraikan penelitian sebelumnya yang berkaitan dengan peningkatan
performa penelusuran informasi pada twitter.
1. Penelitian yang dilakukan oleh Miles Efron (2010) mengenai hashtag retrieval.
Penelitian ini mencoba untuk menelusuri sebuah topik dengan menggunakan
hashtag retrieval (Efron, 2010). Asumsinya adalah jika seorang user tertarik
dengan sebuah topik x, maka user tersebut akan berusaha mencari topik tersebut
menggunakan hashtag yang sering digunakan untuk menjadi penanda topik
tersebut. Efron Secara umum Efron menggunakan pendekatan language modeling
untuk melakukan hashtag retrieval. Efron melakukannya dalam dua tahap yaitu
hashtag query expansion dan hashtag association. Kontribusi penelitian ini adalah
metode relevance feedback berdasarkan hashtag.
2. Penelitian yang dilakukan oleh Jinxi Xu dan W. Bruce Croft (1996). Penelitian
mengenai automatic query expansion ini menggunakan analisis dokumen lokal dan
analisis dokumen global (Xu & Croft, 1996). Analisis dokumen lokal juga
dinamakan local context analysis (LCA). Hasil penelitian menunjukkan query
expansion menggunakan LCA memiliki tingkat rata-rata presisi yang paling bagus
dengan sampel 49 query. Pada penelitian ini LCA dibandingkan dengan
phrasefinder, lf-10docs dan metode baseline.
3. Penelitian yang dilakukan oleh Lizhou Feng, Wanli Zuo, dan Youwei Wang (2015).
Feng dkk mengusulkan metode query expansion dengan menggunakan user interest
context dan ontology (Feng et al, 2015). Prosesnya diawali dengan membangkitkan
kata-kata yang sesuai konteks dari user berdasarkan ontology kata. Kata-kata sesuai
konteks user tersebut dikelola berdasarkan relevansi ontologinya dan dibagi dalam
beberapa subset tertentu. Tiap subset dianggap sebagai kandidat untuk ekspansi
kueri. Hasil penelitian menunjukkan metode yang diusulkan ini lebih baik daripada
dua buah metode yang lain.
4. Penelitian yang dilakukan oleh Lixin Gan dan Huan Hong (2015). Kinerja yang
baik pada sebuah metode query expansion sangat penting untuk mendapatkan
dokumen yang relevan pada waktu proses information retrieval. Untuk
meningkatkan kinerja tersebut Gan dkk mengusulkan query expansion
menggunakan konsep Wikipedia (Gan &Huan, 2015). Keterkaitan kata-kata pada
kueri dengan kata-kata yang diambil dari konsep Wikipedia diproses dengan basic
markov network. Metode ini diusulkan untuk mengatasi kelemahan dengan
Page 12
8
menggunakan single corpus. Hasil eksperimen menunjukkan peningkatan kinerja
proses penelusuran informasi.
5. Penelitian yang dilakukan oleh Rinkesh Nagmoti, Ankur Teredesai, dan Martine De
Cock (2010). Nagmoti melakukan penelitian bagaimana melakukan ranking
microblog untuk melakukan search pada microblog. Pendekatan yang dilakukan
adalah dengan membuat metode yang dinamakan ranking authors of microblogs
dan ranking microblogs (Nagmoti et al, 2010). Pendekatan pertama mencoba
melakukan scroring untuk user yang melakukan posting, dengan TweetRank (TR)
dan FollowerRank (FR). TR digunakan untuk menilai orang yang melakukan
posting, FR digunakan untuk menilai follower orang yang melakukan posting
tersebut. Pendekatan kedua melakukan scoring untuk dengan membuat ranking
measure of tweets dan LengthRank (LR). Fungsi yang digunakan adalah dengan
menggunakan pendekatan pertama untuk query tertentu yang diminta.
6. Penelitian yang dilakukan oleh Paul Ferguson, Neil O’Hare, James Lanagan, Owen
Phelan, dan Kevin McCarthy (2010). Penelitian yang dilakukan adalah dengan
melakukan pendekatan term weighting dalam melakukan microblog retrieve
(Ferguson et al, 2010). Penggunaan term weighting document untuk dokumen
yang hasilnya akan baik, pada waktu dilakukan untuk dokumen pendek seperti
twitter ternyata tidak memberikan hasil yang memuaskan. Karena itu Ferguson
melakukan proses document normalization length untuk meningkatkan performa
hasil microblog retrieve ini.
7. Penelitian yang dilakukan oleh Zhunchen Luo, Miles Osborn, Sasa Petrovic, dan
Ting Wang (2012). Mereka mencoba melakukan peningkatan kemampuan retrieve
dengan menggunakan struktur informasi yang ada pada dokumen (tweets). Struktur
informasi pada twitter dirinci menjadi blok-blok tertentu (Luo et al, 2012). Luo,
Osborn, Petrovic, dan Wang membagi struktur informasi menjadi 6 blok yaitu MSG
– yang hanya mengandung pesan murni, TAG – berisi tag yang didahului dengan
tanda hashtag (#), URL – jika menyebutkan alamat website, MET – jika melakukan
mention pengguna lain dengan didahului tanda @, RWT – jika mengandung
retweet, yaitu didahului dengan dua huruf RT, COM – jika pendapat seseorang
pengguna lain, Luo menyebut struktur tersebut sebagai Twitter Building Block
(TBB).
8. Penelitian yang dilakukan oleh Jaeho Choi, W. Bruce Croft, Jin Young Kim (2012).
Choi memperkenalkan quality model menggunakan penilaian perilaku pengguna,
Page 13
9
misalnya dari retweet (Choi et al, 2012). Mereka menganalisis keinformatifan
sebuah dokumen dengan relevansi untuk melakukan microblog retrieval. Choi juga
menunjukkan bahwa behavior-based quality metric yang diusulkan memiliki
korelasi dengan penilaian secara manual. Hasil penelitian menunjukkan bahwa
quality model yang diusulkan dikombinasikan dengan berbagai retrieval model
meningkatkan performa microblog retrieve.
9. Penelitian yang dilakukan oleh Yun Li, Li Guan, Xishuang Dong, dan Xinbo LV
(2013). Pekerjaan yang dilakukan adalah dengan meneliti efektivitas dari
penggunaan aspek relevance dan recency pada framework language modeling (LM)
(Li et al, 2013). Aspek relevance antara query dan dokumen dilihat dari probabilitas
query yang dibangkitkan dari model dokumen. Model dokumen yang digunakan
adalah Multiple Bernoulli (MB) model dan dominated Multinomial (MN) model.
Aspek recency dilihat dari penciptaan dokumen sebelumnya. Hasilnya dengan
menggunakan pendekatan LM dengan memasukkan aspek recency dan relevance
menghasilkan performa yang lebioh baik daripada microblog commercial search
engine yang sudah ada.
10. Pernelitian yang dilakukan oleh Cunhui Shi, Bo Xu, Hongfei Lin, dan Qing Guo
(2013). Penelitian yang dilakukan adalah dengan menggunakan metode information
retrieval traditional yang di-extend dengan faktor waktu (Shi et al, 2013). Metode
yang digunakan adalah time sensitive model yang menggunakan faktor waktu
sebagai prior probability . Untuk meningkatkan performa microblog retrieve-nya
Shi menggunakan pseudo relevance feedback sebagai model pendekatan query
expansion, entropy dan link features.
11. Penelitian yang dilakukan oleh Jesus A. Rodriguez Perez, Yashar Moshfeghi,
Joemon M. Jose (2013). Perez melakukan pendekatan re-ranking yang berada pada
hubungan antar dokumen. Pendekatan tersebut dinamakan SimReRank (Perez,
2012). Metodenya adalah melakukan re-ranking hasil microblog search dengan
mengukur kemiripan dokumen dengan query, dan kemiripan seluruh dokumen yang
sudah diseleksi melalui Pseudo Relevance Feedback (PRF).
Page 14
10
BAB 3. METODE PENELITIAN
3.1. Metode Penelitian
Penelitian ini dilakukan dengan metode eksperimen. Eksperimen dilakukan dengan
sejumlah mengambil data tweets terlebih dahulu dari url twitter, yaitu twitter.com. Tahap awal
sebelum melakukan eksperimen adalah dengan melakukan studi literatur terlebih dahulu. Studi
literatur dilakukan agar peneliti mengetahui penelitian yang telah dilakukan oleh peneliti-
peneliti lain yang berkaitan topik penelitiannya. Kemudian akan dilakukan pengambilan data
dari twitter secara otomatis. Satu tweet akan menjadi satu dokumen. Target untuk simulasi
adalah 10000 tweets. Selanjutnya ditentukan kata-kata yang akan dijadikan kueri dalam bahasa
Indonesia. Sebagai base line experiment-nya adalah penelusuran informasi dengan metode
cosine similarity, sebuah metode yang sudah umum dilakukan dalam penelusuran informasi
(information retrieval). Langkah berikutnya adalah melakukan eksperimen penelusuran
informasi dengan metode yang diusulkan yaitu hasil penelusuran informasi dengan metode
base line sebelumnya, akan dilakukan ekspansi kueri dengan kueri-kueri yang sudah
ditentukan. Ekspansi kueri dilakukan dengan menambahkan kata-kata yang diperoleh dengan
metode maximum hashtag, highest-scored term, dan kombinasi keduanya. Hasilnya, dokumen
akan diranking berasarkan tingkat relevansinya. Hasil penelusuran informasi tersebut akan
dievaluasi menggunakan metode Mean Average Precision (MAP) yang mengukur hasil
relevansi dalam satu kali retrieval (penelusuran). Hasil
3.2. Luaran Penelitian
Penelitian ini akan menghasilkan dua (2) buah luaran yaitu:
1. Metode baru untuk me-retrieve dan me-ranking data tweet pada twitter.
2. Paper/makalah ilmiah yang akan diterbitkan dalam jurnal/prosiding.
3.3. Tahapan Penelitian
Kegiatan-kegiatan yang akan dilakukan dalam penelitian ini mencakup aktivitas
penelitian dan uraiannya dengan tahapan diilustrasikan pada gambar 1 di halaman selanjutnya:
TAHAPAN PENELITIAN
Page 15
11
STUDI LITERATUR
Input : Referensi paper dan text book serta penelitian sebelumnya
Proses : Penggalian dari sumber-sumber referensi dan penelitian
sebelumnya, memilih literatur-literatur yang relevan dengan
topik penelitian
Output : Literatur yang relevan
PENGUMPULAN DATA
Input : Data mentah dari twitter.com
Proses : Mengambil tweets khusus yang berbahasa Indonesia
Output : Dokumen tweet, satu tweet satu dokumen
PRE-PROCESSING
Input : Data dokumen tweets
Proses : 1. Menentukan kueri yang akan dimasukkan
2. Melakukan stopword removing untuk menghilangkan
kata-kata yang tidak signifikan
Output : Dokumen tweet yang sudah tidak terdapat stopword
EKSPERIMEN
Input : Data dokumen tweets hasil proses sebelumnya
Proses : 1. Melakukan proses penelusuran informasi menggunakan
metode base line (cosine similarity)
2. Melakukan proses ekspansi kueri dengan dengan metode
maximum hashtag, HST, dan kombinasi keduanya
3. Proses ekspansi dilakukan dengan menambahkan satu
hingga delapan kata
Output : Dokumen yang relevan dengan query yang dimasukkan
Page 16
12
EVALUASI
Input : Dokumen hasil penelusuran berdasarkan query
Proses : Menggunakan mean average precision (MAP)
Output : Tingkat akurasi, presisi, dan recall dari hasil penelusuran
PELAPORAN
Input : Hasil eksperimen dan evaluasi
Proses : Pembuatan laporan dan publikasi
Output : Laporan dan publikasi
Gambar 1. Tahapan Penelitian
Page 17
13
BAB 4. HASIL DAN LUARAN YANG DICAPAI
4.1. Hasil
Hasil eksperimen dari penelitian ini adalah sebuah metode penelusuran informasi untuk
twitter yang akan memperoleh dokumen terekstrak yang lebih relevan. Penelitian ini
mengambil data dari twitter.com untuk twit secara acak yang berkaitan dengan kelautan,
pilkada, hari guru, dan hepatitis B. Hasil yang didapatkan dari 25 user dengan twit yang
berbahasa Indonesia. Tabel 1 di bawah ini menjelaskan empat query yang digunakan sebagai
baseline:
Tabel 1: baseline query
q Query
q1 Wilayah laut
q2 Pilkada Indonesia hari guru
q3 Peringatan hari guru
q4 Pembajakan kapal
Query di atas digunakan sebagai baseline, artinya akan dilakukan penelusuran
informasi pada twitter tanpa melakukan ekapansi query. Sedangkan pada tahap selanjutnya
untuk menguji metode maximum hashtag dan highest scored term, dilakukan ekspansi query
dengan 1 sampai dengan 8 terms. Pengukuran hasil eksperimen adalah menggunakan metode
Mean Average Precision (MAP). Semakin tinggi nilai MAP, semakin bagus kinerja
metode/algoritma. MAP digunakan untuk mengukur nilai relevansi dokumen yang terambil
terhadap query yang dimasukkan. Pengukuran menggunakan MAP ditulis dengan MAP@10
berarti nilai MAP untuk 10 dokumen teratas, MAP@20 berarti nilai MAP untuk 20 dokumen
teratas. Tabel 2 berikut ini menunjukkan nilai MAP untuk baseline query:
Tabel 2: Nilai MAP untuk baseline
query MAP@10 MAP@20 MAP@30
q1 0.906 0.871 0.831 q2 0.852 0.855 0.847 q3 0.797 0.771 0.779 q4 0.642 0.642 0.642
Selanjutnya eksperimen dilakukan dengan menggunakan ekspansi query. Misalkan q
adalah query untuk baseline, maka:
𝑞′ = 𝑞 + 𝑞𝑎 (1)
Page 18
14
𝑞𝑎 = max{𝑠𝑐𝑜𝑟𝑒𝑡𝑓𝑖𝑑𝑓(𝑇)} (2)
𝑞′′ = 𝑞 + 𝑞𝑏 (3)
𝑞𝑏 = max{𝑠𝑐𝑜𝑟𝑒𝐻(𝑇)} (4)
𝑞′′′ = 𝑞 + 𝑞𝑐 (5)
𝑞𝑐 = 𝑞𝑎 + 𝑞𝑏 (6)
Pada (1) q’ adalah ekspansi query dengan menambahkan ekspansi query menggunakan
highest scored term. Highest scored terms sendiri ditunjukkan pada formula (2). Pada formula
(3) q’’ adalah metode ekspansi query menggunakan maximum hashtag, Sedangkan maximum
hashtag sendiri ditunjukkan pada formula (4). Formula (5) yaitu q’’’ merupakan kombinasi
metode ekspansi queri menggunakan highest scored terms dan maximum hashtag. Kombinasi
tersebut diperlihatkan pada formula (6).
Hasil eksperimen untuk query 1 (q1) adalah seperti ditunjukan tabel 3 berikut ini:
Tabel 3: Hasil untuk query 1
Query 1 (q1)
1 term 2 terms 3 terms 4 terms 5 terms 6 terms 7 terms 8 terms
q’
MAP@10 0.878 0.906 0.906 0.822 0.915 0.947 0.852 0.727
MAP@20 0.854 0.871 0.862 0.890 0.854 0.875 0.824 0.708
MAP@30 0.818 0.831 0.822 0.877 0.817 0.832 0.789 0.701
q’’
MAP@10 0.906 0.906 0.906 0.906 0.906 0.906 0.906 0.906
MAP@20 0.871 0.871 0.871 0.871 0.871 0.871 0.871 0.871
MAP@30 0.831 0.831 0.831 0.831 0.831 0.831 0.831 0.831
q’’’
MAP@10 0.878 0.906 0.906 0.822 0.915 0.947 0.852 0.727
MAP@20 0.854 0.871 0.862 0.890 0.854 0.875 0.824 0.708
MAP@30 0.818 0.831 0.822 0.877 0.817 0.832 0.789 0.701
Hasil eksperimen untuk q1, beberapa diantaranya melebihi query pada baseline yang
tidak menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah
0.906. Hasil menggunakan ekspansi query untuk q’ yang melebihi adalah pada 6 terms 0.947,
pada q’’ sama dengan baseline 0.906, dan pada q’’’, ekspansi dengan 6 terns melebihi baseline
dengan 0.947.
Untuk MAP@20 dengan nilai baseline 0.871, terlihat untuk q’ pada 6 terms melebihi
dengan 0.875. Pada q’’ tidak ada perubahan sama sekali, dan pada q’’’, pada 4 terms dan 6
terms melebihi baseline dengan 0.890 dan 0.875.
Page 19
15
Untuk MAP@30 dengan nilai baseline 0.831, pada q’ untuk 4 terms dan 6 terms
melebihi baseline yaitu 0.877 dan 0.832. Pada q’’ seperti sebelumnya tidak terjadi perubahan.
Pada q’’’ untuk 4 terms dan 6 terms melebihi nilai MAP pada baseline.
Hasil eksperimen untuk query 2 (q2) adalah seperti ditunjukan tabel 4 berikut ini:
Tabel 4: Hasil untuk query 2
Query 2 (q2)
1 term 2 terms 3 terms 4 terms 5 terms 6 terms 7 terms 8 terms
q’
MAP@10 1 1 1 0.880 0.947 0.947 0.947 0.947
MAP@20 0.988 0.991 0.971 0.834 0.867 0.874 0.884 0.889
MAP@30 0.960 0.973 0.946 0.836 0.850 0.857 0.859 0.839
q’’
MAP@10 1 1 1 1 1 1 1 1
MAP@20 0.991 0.991 0.991 0.991 0.991 0.991 0.991 0.991
MAP@30 0.970 0.970 0.970 0.970 0.970 0.970 0.970 0.970
q’’’
MAP@10 1 1 1 1 1 1 1 1
MAP@20 1 1 1 0.961 0.961 0.972 1 1
MAP@30 0.989 0.988 0.988 0.929 0.930 0.937 0.954 0.954
Hasil eksperimen untuk q2, beberapa diantaranya melebihi query pada baseline yang
tidak menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah
0.852. Hasil menggunakan ekspansi query untuk q’ menunjukkan penambahan term untuk
ekspansi query dari 1 sampai 6 selalu meningkatkan nilai MAP, Bahkan pada q’’ dan q’’’,
peningkatan tersebut selalu menghasilkan nilai maksimal yaitu 1.
Untuk MAP@20 dengan nilai baseline 0.855, terlihat untuk q’ pada seluruh
oenambahan terms dari 1 hingga 6 selalu melebihi baseline. Pada q’’ juga melebihi nilai MAP
pada baseline namun dengan nilai MAP yang stabil yaitu 0.991, dan pada q’’’ juga selalu terjadi
kenaikan nilai MAP.
Untuk MAP@30 dengan nilai baseline 0.847, pada q’ keseluruhan penambahan terms
berakibat nilai MAP melebihi nilai MAP baseline. Pada q’’ sama seperti pada q’, namun
semuanya memiliki nilai yang sama (stabil) yaitu 0.970.. Pada q’’’ semua penambahan terms
menjdaikan nilai MAP-nya melebihi nilai MAP pada baseline.
Dari empat (4) query yang direncanakan akan diberikan ekspansi query, sampai laporan
kemajuan ini dibuat baru 2 buah query yaitu q1 dan q2 yang telah diselesaikan eksperimennya.
Eksperimen terhadap kedua query tersebut menunjukkan hasil yang positif yaitu kenaikan nilai
MAP yang berarti menaikkan relevansi dokumen diambil.
Page 20
16
Hasil eksperimen untuk query 3 (q3) adalah seperti ditunjukan tabel 4 berikut ini:
Tabel 5: Hasil untuk query 3
Query 3 (q3)
1 term 2 terms 3 terms 4 terms 5 terms 6 terms 7 terms 8 terms
q’
MAP@10 1 1 1 1 1 1 1 0.986
MAP@20 0.978 0.983 0.978 0.984 0.990 0.990 0.996 0.919
MAP@30 0.957 0.947 0.987 0.938 0.946 0.945 0.951 0.871
q’’
MAP@10 1 1 1 1 1 1 1 1
MAP@20 0.991 0.991 0.991 0.991 0.991 0.991 0.991 0.991
MAP@30 0.966 0.966 0.966 0.966 0.966 0.966 0.966 0.966
q’’’
MAP@10 1 1 1 1 1 1 1 1
MAP@20 1 1 1 0.997 0.997 0.997 1 1
MAP@30 0.994 0.996 0.996 0.982 0.982 0.987 0.987 0.967
Hasil eksperimen untuk q3, seluruhnya melebihi query pada baseline yang tidak
menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah 0.797.
Hasil menggunakan ekspansi query untuk q’ menunjukkan penambahan term untuk ekspansi
query dari 1 sampai 6 selalu meningkatkan nilai MAP, Bahkan pada q’’ dan q’’’, peningkatan
tersebut selalu menghasilkan nilai maksimal yaitu 1.
Hasil eksperimen untuk query 4 (q4) adalah seperti ditunjukan tabel 4 berikut ini:
Tabel 6: Hasil untuk query 4
Query 4 (q4)
1 term 2 terms 3 terms 4 terms 5 terms 6 terms 7 terms 8 terms
q’
MAP@10 0.542 0.642 0.642 0.768 0.755 0.755 0.755 0.755
MAP@20 0.565 0.642 0.642 0.763 0.729 0.729 0.729 0.729
MAP@30 0.565 0.642 0.642 0.763 0.729 0.729 0.729 0.729
q’’
MAP@10 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788
MAP@20 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788
MAP@30 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788
q’’’
MAP@10 0.689 0.684 0.642 0.855 0.855 0.8 0.786 0.702
MAP@20 0.694 0.684 0.642 0.804 0.804 0.762 0.728 0.665
MAP@30 0.694 0.684 0.642 0.804 0.804 0.762 0.728 0.665
Hasil eksperimen untuk q4, seluruhnya melebihi query pada baseline yang tidak
menggunakan teknik ekspansi query, kecuali pada q’ untuk MAP@10, 20, 30 untuk tambahan
Page 21
17
1 term dan 2 term. Untuk MAP@10 pada baseline nilainya adalah 0.642. Hasil menggunakan
ekspansi query untuk q’ menunjukkan penambahan term untuk ekspansi query dari 1 sampai 6
selalu meningkatkan nilai MAP, Nilai MAP tertinggi adalah 0.788.
4.2. Luaran yang Dicapai
Penelitian ini merupakan penelitian yang bersifat algoritmik. Artinya produk yang
dihasilkan bukan sebuah sistem informasi ataupun aplikasi, namun sebuah algoritma/metode
yang akan meningkatkan kinerja sistem. Selain itu luaran yang dihasilkan adalah sebuah
makalah (paper) yang akan diterbitkan dalam sebuah jurnal.
Page 22
18
BAB 5. KESIMPULAN DAN SARAN
5.1. Kesimpulan
Kesimpulan dari hasil penelitian sampai dengan penggunaan dua buah query untuk
melakukan ekspansi query adalah:
1. Ekspansi query akan meningkatkan dokumen yang relevan yang ditarik dari proses
penelusuran informasi.
2. Metode ekspansi query dengan penggabungan maximum hashtag dan highest
scored terms menghasilkan nilai MAP yang terbaik dibandingkan jika metode
tersebut tidak digabungkan dan dibandingkan dengan metode baseline.
5.2. Saran
Di masa mendatang, untuk pengembangan sistem penelusuran informasi di twitter.com,
dapat menggunakan metode/algoritma highest scored term dan maximum hashtag yang
digabungkan.
Page 23
19
DAFTAR PUSTAKA
Choi, Jaeho, W. Bruce Croft & Jin Young Kim (2012), Quality Model for Microblog Retrieval.
Proceeding of CIKM 2012.
Efron, Miles (2010). Hashtag Retrieval in Microblogging environment. Proceedings of SIGIR
2010.
Feng, Lizhou., Zuo, Wanli &Youwei Wang (2015). Novel Query Expansion Method based on
User Interest Context and Ontology. In Proceedings of International Conference on
Intelligent Systems Research and Mechatronics Engineering (ISRME 2015).
Ferguson, Paul, Neil O’Hare, James Lanagan, Owen Phelan & Kevin McCarthy (2012). An
Investigation of Term Weighting Approaches for Microblog Retrieval. Proceedings of
ECIR 2012.
Gan, Lixin & Huan Hong (2015). Improving Query Expansion for Information Retrieval Using
Wikipedia. International Journal of Database Theory and Application Vol.8, No.3
(2015), pp.27-40.
Grossman, David A. & Ophir Frieder. (2004). Information Retrieval: Algorithms and
Heuristics. Second Edition, Springer
Li, Yun, Yi Guan, Xishuang Dong & Xinbo LV (2013).Language Modeling for Microblog
Retrieval: Combine Multiple-bernoulli Model and Temporal Prior for Tweets Rank.
Journal of Information Systems 9:6 (2013)
Luo, Zhunchen, Miles Osborn, Sasa Petrovic & Ting Wang (2012). Improving Twitter
Retrieval by Exploiting Structural Information. Proceedings of the twenty-sixth AAAI
Conference on Artificial Intelligence 2012.
Manning, Christopher D., Prabhakar Raghavan, & Hinrich Schutze. (2009). An Introduction to
Information Retrieval. Cambridge University Press.
Nagmoti, Rinkesh, Ankur Teredesai & Martine De Cock (2010). Ranking Approaches for
Microblog Search. Proceedings of International Conference on Web Intelligence and
Intelligent Agent Technology (WI-IAT) 2010.
O’Reilly, Tim & Sarah Milstein. (2009). The Twitter Book. O’Reilly Media Inc.
Page 24
20
Perez, Jesus A. Rodriguez, Yashar Moshfeghi & Joemon M. Jose. (2013). On Using Inter-
document Relations in Microblog Retrieval. Proceedings of the 22nd Int. conf. on
WWW companion 2013
Shi, Cunhui, Bo Xu, Hongfei Lin & Qing Guo. (2013). A Time Sensitive Model for Microblog
Retrieval. Proceedings of NLPCC 2013.
Xu, Jinxi., & W. Bruce Croft (1996). Query Expansion Using Local and Global Document
Analysis. In Proceedings of ACM SIGIR’96.
Weller, Katrin., Axel Bruns, Jean Burgess, Merja Mahrt, & Cornelius Puschmann (eds).
(2014). Twitter and Society. Peter Lang Publishing.