LAPORAN PENELITIAN FAKULTASsipeg.unj.ac.id/repository/upload/peerreview/Lapo_Akhir...LAPORAN PENELITIAN FAKULTAS EKSPANSI QUERY PADA TWITTER DENGAN KOMBINASI METODE MAXIMUM HASHTAG

i

PEP

LAPORAN PENELITIAN FAKULTAS

EKSPANSI QUERY PADA TWITTER DENGAN KOMBINASI METODE

MAXIMUM HASHTAG DAN HIGHEST-SCORED TERM

KETUA TIM

Dr. Moch. Sukardjo, M.Pd (NIDN. 0020075804)

PENELITIAN INI DIBIAYAI OLEH DANA BLU

FAKULTAS TEKNIK UNIVERSITAS NEGERI JAKARTA

BERDASARKAN SURAT KEPUTUSAN REKTOR

Nomor: 482/SP/2017

Tanggal: 5 Mei 2017

----------------------------------------------------------------------------------------------------

FAKULTAS TEKNIK

UNIVERSITAS NEGERI JAKARTA

DESEMBER 2017

ii

HALAMAN PENGESAHAN

PENELITIAN FAKULTAS

Judul Penelitian : Ekepansi Query pada Twitter dengan Kombinasi Metode

Maximum Hashtag dan Highest-Scored Term.

Kode/Bidang Ilmu : Ilmu Komputer

Identitas Peneliti

a. Nama Lengkap : Dr. Moch. Sukardjo, M.Pd.

b. NIDN : 0020075804

c. Jabatan Fungsional : Lektor Kepala

d. Program Studi : Pendidikan Teknik Elektronika

e. Nomor Hp : 081389048658

f. Alamat surel (e-mail) : [email protected]

Biaya Penelitian Keseluruhan : Rp.12.000.000,-

Mengetahui

Dekan,

Dr. Agus Dudung R., M.Pd.

NIP.19650817 199102 1 001

Jakarta, 9 November 2017

Ketua Peneliti

Dr. Moch. Sukardjo, M.Pd.

NIP. 19582007 198503 1 003

Menyetujui,

Ketua Lembaga Penelitian dan

Pengabdian Masyarakat UNJ

Dr. Ucu Cahyana, M.Si

NIP.19660820 199403 1 002

iii

DAFTAR ISI

HALAMAN PENGESAHAN ............................................................................................................ ii

PENELITIAN FAKULTAS .............................................................................................................. ii

DAFTAR ISI .................................................................................................................................... iii

RINGKASAN ...................................................................................................................................iv

BAB 1. PENDAHULUAN ................................................................................................................ 1

1.1 Latar Belakang ....................................................................................................................... 1

1.2 Permasalahan ..................................................................................................................... 2

1.3 Rumusan Masalah .............................................................................................................. 2

1.4 Tujuan Penelitian ............................................................................................................... 2

1.5 Manfaat Penelitian ............................................................................................................. 2

1.6 Kontribusi dalam Pengembangan IPTEKS ......................................................................... 3

BAB 2. TINJAUAN PUSTAKA ....................................................................................................... 4

2.1. Twitter ............................................................................................................................... 4

2.2. Penelusuran Informasi (Information Retrieval) ................................................................... 4

2.3. Ekspansi Kueri (Query Expansion) ..................................................................................... 5

2.4. Hashtag dan Maximum Hashtag ......................................................................................... 6

2.5. Highest-Scored Term ......................................................................................................... 6

2.6. Kajian Penelitian Sebelumnya ............................................................................................ 7

BAB 3. METODE PENELITIAN ................................................................................................ 10

3.1. Metode Penelitian ............................................................................................................ 10

3.2. Luaran Penelitian ............................................................................................................. 10

3.3. Tahapan Penelitian ........................................................................................................... 10

BAB 4. HASIL DAN LUARAN YANG DICAPAI ......................................................................... 13

4.1. Hasil ................................................................................................................................ 13

4.2. Luaran yang Dicapai ........................................................................................................ 17

BAB 5. KESIMPULAN DAN SARAN ........................................................................................... 18

5.1. Kesimpulan .......................................................................................................................... 18

DAFTAR PUSTAKA ...................................................................................................................... 19

iv

RINGKASAN

Proses penelusuran informasi pada twitter memiliki karakteristik yang berbeda dengan

penelusuran informasi dokumen biasa. Jumlah karakter yang sangat terbatas akan

menyebabkan kesulitan pada waktu melakukan term weighting (pembobotan kata).

Penggunaan struktur seperti hashtag(#), retweet (RT), maupun mention pengguna lain (@)

memerlukan metode tersendiri supaya keterkaitan struktur tersebut dapat menghasilkan

dokumen yang paling relevan saat melakukan retrieve. Masalah pembobotan kata pada twitter

adalah karena dalam satu dokumen tweet (satu tweet) jumlah kata sangat terbatas yang akan

menyebabkan sulit menentukan kata yang dominan dengan kategori tertentu. Hal lain yang

menjadi permasalahan adalah jumlah hashtag (#) yang berkaitan dengan topik atau term

tertentu. Relevansi hashtag terhadap topik seharusnya akan menambah tingkat relevansi

dokumen yang terambil. Dengan kondisi tersebut penelusuran informasi pada twitter sering

mendapatkan dokumen yang kurang relevan.

Penelitian ini bertujuan untuk mengembangkan metode baru dalam melakukan

penelusuran informasi pada twitter dengan menggabungkan nilai maximum hashtag dan

highest-scored term dan menghasilkan dokumen dengan relevansi yang tinggi hasil dari

penelusuran informasi pada twitter dengan menggunakan metode yang dikembangkan tersebut.

Metode penelitian yang digunakan adalah eksperimen dengan menggunakan teknik

ekspansi query. Ekspansi query dilakukan dengan menambahkan term yang memiliki nilai

statistik tertinggi dan dengan jumlah hashtag terbanyak.

1

BAB 1. PENDAHULUAN

Pada bab ini akan dijelaskan mengenai latar belakang permasalahan yang menjadi dasar

penelitian, tujuan penelitian yang diinginkan, serta kontribusi dalam pengembangan IPTEKS.

1.1 Latar Belakang

Twitter merupakan sebuah layanan media sosial online yang sangat populer saat ini.

Twitter dapat diakses oleh pengguna yang sudah melakukan registrasi pada website:

twitter.com. Jika dibandingkan dengan media sosial yang lain, twitter memiliki karakteristik

pada keterbatasan jumlah karakter yang di-post, yaitu 140 karakter.

Penelusuran informasi merupakan bidang yang berkenaan dengan proses untuk

memperoleh informasi yang relevan dari sebuah sistem. Seorang pengguna akan memasukkan

query ke dalam sistem, kemudian sistem akan merespon dengan menampilkan dokumen atau

daftar dokumen yang relevan dengan query yang dimasukkan oleh user. Implementasi dari

proses seperti ini adalah dengan munculnya berbagai macam jenis situs pencarian seperti

google, yahoo, dan banyak lagi yang lain. Hasil penelusuran informasi tersebut akan

memuaskan pengguna jika dokumen atau daftar dokumen yang terambil memiliki tingkat

relevansi yang baik.

Twitter sebagai media sosial yang sangat populer menyimpan dokumen yang sangat

banyak. Ratusan juta tweets yang di-posting setiap hari menambah koleksi dokumen dalam

twitter.com. Twitter.com sendiri memiliki proses penelusuran informasi pada

twitter.com/search-home.

Dengan jumlah pengguna yang semakin hari semakin banyak dan jumlah tweets yang

semakin melimpah pula, maka twitter.com membutuhkan proses penelusuran maupun

pencarian informasi yang akurat. Keakuratan tersebut akan di-ranking berdasarkan relevansi

dengan query yang dimasukkan oleh pengguna. Tantangannya adalah menjadikan proses

penelusuran informasi di-ranking berdasarkan tingkat relevansinya dengan jumlah dokumen

tweets yang semakin hari semakin besar dan karakteristik twitter yang maksimal hanya 140

karakter.

Proses penelusuran informasi pada twitter yang terbatas jumlah karakternya yaitu 140

karakter inilah yang secara statistik akan tidak terlalu mudah dalam menggolongkan dokumen

tersebut.

2

1.2 Permasalahan

Proses penelusuran informasi pada twitter memiliki karakteristik yang berbeda dengan

penelusuran informasi dokumen biasa. Jumlah karakter yang sangat terbatas akan

menyebabkan kesulitan pada waktu melakukan term weighting (pembobotan kata).

Penggunaan struktur seperti hashtag(#), retweet (RT), maupun mention pengguna lain (@)

memerlukan metode tersendiri supaya keterkaitan struktur tersebut dapat menghasilkan

dokumen yang paling relevan saat melakukan retrieve. Masalah pembobotan kata pada twitter

adalah karena dalam satu dokumen tweet (satu tweet) jumlah kata sangat terbatas yang akan

menyebabkan sulit menentukan kata yang dominan dengan kategori tertentu. Hal lain yang

menjadi permasalahan adalah jumlah hashtag (#) yang berkaitan dengan topik atau term

tertentu. Relevansi hashtag terhadap topik seharusnya akan menambah tingkat relevansi

dokumen yang terambil.

1.3 Rumusan Masalah

Berdasarkan latar belakang dan permasalahan yang terdapat pada proses penelusuran

informasi pada twitter tersebut maka rumusan masalah penelitian ini adalah “Bagaimana

merancang metode baru penelusuran informasi pada twitter dengan menggabungkan metode

maximum hashtag dan highest-scored term dan apakah hasilnya akan lebih relevan dari

metode lain?”

1.4 Tujuan Penelitian

Penelitian ini bertujuan untuk:

1. Mengembangkan metode baru untuk melakukan penelusuran informasi pada twitter

dengan menggabungkan nilai maximum hashtag dan highest-scored term.

2. Menghasilkan dokumen dengan relevansi yang tinggi hasil dari penelusuran informasi

pada twitter dengan menggunakan metode yang dikembangkan.

1.5 Manfaat Penelitian

Manfaat yang didapatkan dari penelitian ini adalah:

1. Pengembangan sistem penelusuran informasi pada twitter selanjutnya akan dapat

menggunakan metode/algoritma yang akan menghasilkan dokumen yang lebih

relevan.

2. Pengguna twitter dapat lebih cepat menemukan tweet yang relevan

3

1.6 Kontribusi dalam Pengembangan IPTEKS

Penelitian ini adalah penelitian dalam bidang ICT untuk rumpun ilmu komputer.

Pengembangan metode penelusuran informasi pada twitter akan meningkatkan kinerja

pencarian topik tertentu dengan menggunakan kata atau frasa tertentu pada sosial media twitter.

Pengguna akan dapat memanfaatkan untuk menelusuri informasi yang dapat diperoleh dari

twitter dengan tingkat relevansi yang tinggi. Hal ini akan meningkatkan khasanah keilmuan

bidang ilmu dan teknologi.

4

BAB 2. TINJAUAN PUSTAKA

Bab ini menjelaskan mengenai twitter, penelusuran informasi (information retrieval),

hashtag dan maximum hashtag, highest-scored term, serta kajian penelitian sebelumnya.

2.1. Twitter

Media sosial menjadi sebuah teknologi komunikasi yang digunakan masyarakat di

seluruh dunia dewasa ini. Beberapa media sosial yang berkembang pesat antara lain Facebook,

Twitter, dan Google+. Twitter adalah sebuah media sosial yang memiliki karakteristik khusus.

Karakteristik tersebut adalah pengguna yang sudah registrasi yang memiliki akun twitter dapat

memposting tweet (kicauan) mereka maksimal 140 karakter. Ini menunjukkan bahwa

berkomunikasi menggunakan twitter sangat mudah baik menulis maupun membaca (O’Reilly

& Milstein 2011). Media sosial twitter dapat ditemukan pada alamat url www.twitter.com .

Twitter saat ini sudah memiliki lebih dari 550 juta penguna yang teregistrasi. Dari

jumlah pengguna yang sebanyak itu, setiap hari terdapat 340 juta tweets yang dikirimkan

pengguna. Setiap hari juga twitter melayani permintaan pencarian.

Pencarian yang dilakukan di twitter juga memiliki karakteristik yang berbeda dengan

pencarian pada media sosial yang lain. Pada twitter, sebuah topik bisa ditandai dengan tanda

hashtag (#). Misalnya kita akan melakukan pencarian mengenai tweets yang berkaitan dengan

KPK, berarti mencari tweets yang mengandung #kpk.

2.2. Penelusuran Informasi (Information Retrieval)

Dalam kegiatan sehari-hari sering manusia dihadapkan pada permasalahan tertentu

yang belum diketahui. Pada era teknologi informasi saat ini, permasalahan tersebut dapat

diatasi dengan cara pencarian informasi. Pencarian informasi ini dilakukan mengunakan

computer sebagai media pencarian dengan teknologi internet. Pencarian informasi tersebut

akan berkaitan dengan dokumen tertentu yang dapat menjelaskan informasi tertentu yang

dibutuhkan oleh si pencari tersebut. Untuk melakukan pencarian tersebut, dibutuhkan teknik

untuk menelusuri informasi yang terdapat di internet.

http://www.twitter.com/

5

Penelusuran informasi merupakan sebuah teknik/metode yang digunakan untuk

memperoleh informasi tertentu dari sebuah kumpulan data yang sangat besar. Penelusuran

informasi merupakan terjemahan dari terminologi dalam bahasa Inggris yaitu Information

Retreieval. Penulusuran informasi berkaitan dengan pencarian dokumen yang relevan

(Grossman & Frieder, 2004). Permasalahan dengan dokumen yang relevan adalah menyaring

dari sekian banyak dokumen yang tersedia untuk mengambil dokumen yang relevan.

Permasalahan yang berikutnya adalah bagaimana me-ranking dokumen dari yang paling

relevan hingga yang paling tidak relevan. Dalam ilmu komputer, penelusuran informasi

merupakan sebuah bidang tersendiri yang berkaitan dengan metode pencarian dokumen dalam

bentuk teks. Definisi tersebut seperti dinyatakan oleh Christopher D. Manning, Penelusuran

Informasi adalah pencarian materi (biasanya dalam bentuk dokumen) berupa data yang tidak

terstruktur (umumnya data teks) yang memenuhi kebutuhan informasi dalam sebuah dokumen

yang sangat besar (biasanya tersimpan dalam komputer) (Manning et al, 2009).

2.3. Ekspansi Kueri (Query Expansion)

Dalam ilmu komputer, kueri merupakan perintah untuk menampilkan data/informasi

tertentu. Pada mesin pencari, kueri merupakan kata-kata yang dimasukkan ke dalam mesin

pencari. Pada proses yang melibatkan ekspansi kueri, mesin pencari biasanya menyediakan

fitur untuk mengisi kata-kata tambahan untuk mempersempit ruang pencarian sehingga

hasilnya lebih relevan [Manning et al, 2009]. Pada google misalnya, menyediakan beberapa

fitur seperti rentang waktu (dari tahun berapa sampai dengan tahun berapa) untuk menemukan

dokumen pada rentang waktu tersebut.

Metode untuk melakukan ekspansi kueri bisa dilakukan secara interaktif maupun secara

otomatis. Metode interaktif bisa dilakukan dengan memberikan umpan balik kemudian user

mengisikan tambahan kueri untuk meningkatkan relevansi dokumen. Metode seperti ini yang

dinamakan relevance feedback. Metode yang dilakukan secara otomatis adalah dengan secara

otomatis menambahkan kata-kata pada kueri yang dimasukkan dengan teknik tertentu. Tujuan

dari ekspansi kueri ini adalah agar dokumen yang terambil semakin banyak yang relevan.

6

2.4. Hashtag dan Maximum Hashtag

Sebuah tweet pada twitter biasanya muncul secara acak. Seseorang bisa mengetahui

kategori atau klasifikasi sebuah tweet dengan dua (2) buah cara yaitu pertama dengan membaca

manual tweet tersebut, sehingga orang tersebut mengetahui tweet tersebut sedang

membicarakan apa. Kedua, jika pada tweet tersebut terdapat tanda hashtag (#), maka kategori

tweet tersebut adalah sesuai kata yang mengikuti tanda hashtag tersebut.

Dari ilustrasi di atas jelas bahwa hashtag adalah kata yang menunjukkan kategori

sebuah tweet. Hashtag adalah sebuah kata yang diawali dengan simbol # yang membantu

mengkategorikan pesan pada twitter (O’Reilly & Milstein 2011). Hashtag juga dapat

digunakan untuk mengindikasikan kata kunci teks atau frase yang berguna dalam

pengundeksan (Weller et al, 2014). Penggunaan hashtag tersebut juga akan mempermudah

proses pencarian topik-topik tertentu yang sudah dikategorikan tersebut. Sebuah pesan (tweet)

bisa mengandung satu atau lebih hashtag. Contoh penggunaan hashtag pada pesan: “Selamat

liburan…. Hari ini kita berangkat ke Aceh… #Liburan #Aceh”. Dua buah hashtag pada pesan

tersebut mengindikasikan bahwa pesan tersebut termasuk dalam kategori Liburan dan kategori

Aceh.

Maximum hashtag merupakan sebuah terminologi yang mengacu pada jumlah hashtag

terbanyak dalam sekumpulan dokumen tweet. Misalkan dalam proses query expansion, pada

seratus tweet awal yang terambil, hashtag terbanyak adalah #liburan, maka maximum hashtag

adalah #liburan dan berarti untuk perbaikan query ditambahkan dengan kata liburan.

2.5. Highest-Scored Term

Highest-Scored Term sebenarnya adalah nilai tertinggi sebuah kata dalam sebuah

dokumen yang dinilai. Metode penilaian tersebut dinamakan dengan TF-IDF (Term frequency-

Inverse Document Frequency). Highest-scored term (HST) tersebut mengacu pada kata yang

memiliki frekuensi terbanyak dalam sebuah dokumen (tweet) atau dalam kumpulan dokumen.

Highest- scored term dalam penelitian ini akan digunakan digunakan ekspansi queri. Jadi HST

di sini adalah sama dengan kata yang paling sering muncul pada daftar term frequency. Term

frequency sendiri adalah jumlah kejadian munculnya sebuah kata atau beberapa kata dalam

dokumen (Manning et al, 2009). Metode HST ini akan digabungkan dengan metode maximum

hashtag untuk meningkatkan relevansi dokumen yang terambil pada proses penelusuran

informasi.

7

2.6. Kajian Penelitian Sebelumnya

Berikut ini diuraikan penelitian sebelumnya yang berkaitan dengan peningkatan

performa penelusuran informasi pada twitter.

1. Penelitian yang dilakukan oleh Miles Efron (2010) mengenai hashtag retrieval.

Penelitian ini mencoba untuk menelusuri sebuah topik dengan menggunakan

hashtag retrieval (Efron, 2010). Asumsinya adalah jika seorang user tertarik

dengan sebuah topik x, maka user tersebut akan berusaha mencari topik tersebut

menggunakan hashtag yang sering digunakan untuk menjadi penanda topik

tersebut. Efron Secara umum Efron menggunakan pendekatan language modeling

untuk melakukan hashtag retrieval. Efron melakukannya dalam dua tahap yaitu

hashtag query expansion dan hashtag association. Kontribusi penelitian ini adalah

metode relevance feedback berdasarkan hashtag.

2. Penelitian yang dilakukan oleh Jinxi Xu dan W. Bruce Croft (1996). Penelitian

mengenai automatic query expansion ini menggunakan analisis dokumen lokal dan

analisis dokumen global (Xu & Croft, 1996). Analisis dokumen lokal juga

dinamakan local context analysis (LCA). Hasil penelitian menunjukkan query

expansion menggunakan LCA memiliki tingkat rata-rata presisi yang paling bagus

dengan sampel 49 query. Pada penelitian ini LCA dibandingkan dengan

phrasefinder, lf-10docs dan metode baseline.

3. Penelitian yang dilakukan oleh Lizhou Feng, Wanli Zuo, dan Youwei Wang (2015).

Feng dkk mengusulkan metode query expansion dengan menggunakan user interest

context dan ontology (Feng et al, 2015). Prosesnya diawali dengan membangkitkan

kata-kata yang sesuai konteks dari user berdasarkan ontology kata. Kata-kata sesuai

konteks user tersebut dikelola berdasarkan relevansi ontologinya dan dibagi dalam

beberapa subset tertentu. Tiap subset dianggap sebagai kandidat untuk ekspansi

kueri. Hasil penelitian menunjukkan metode yang diusulkan ini lebih baik daripada

dua buah metode yang lain.

4. Penelitian yang dilakukan oleh Lixin Gan dan Huan Hong (2015). Kinerja yang

baik pada sebuah metode query expansion sangat penting untuk mendapatkan

dokumen yang relevan pada waktu proses information retrieval. Untuk

meningkatkan kinerja tersebut Gan dkk mengusulkan query expansion

menggunakan konsep Wikipedia (Gan &Huan, 2015). Keterkaitan kata-kata pada

kueri dengan kata-kata yang diambil dari konsep Wikipedia diproses dengan basic

markov network. Metode ini diusulkan untuk mengatasi kelemahan dengan

8

menggunakan single corpus. Hasil eksperimen menunjukkan peningkatan kinerja

proses penelusuran informasi.

5. Penelitian yang dilakukan oleh Rinkesh Nagmoti, Ankur Teredesai, dan Martine De

Cock (2010). Nagmoti melakukan penelitian bagaimana melakukan ranking

microblog untuk melakukan search pada microblog. Pendekatan yang dilakukan

adalah dengan membuat metode yang dinamakan ranking authors of microblogs

dan ranking microblogs (Nagmoti et al, 2010). Pendekatan pertama mencoba

melakukan scroring untuk user yang melakukan posting, dengan TweetRank (TR)

dan FollowerRank (FR). TR digunakan untuk menilai orang yang melakukan

posting, FR digunakan untuk menilai follower orang yang melakukan posting

tersebut. Pendekatan kedua melakukan scoring untuk dengan membuat ranking

measure of tweets dan LengthRank (LR). Fungsi yang digunakan adalah dengan

menggunakan pendekatan pertama untuk query tertentu yang diminta.

6. Penelitian yang dilakukan oleh Paul Ferguson, Neil O’Hare, James Lanagan, Owen

Phelan, dan Kevin McCarthy (2010). Penelitian yang dilakukan adalah dengan

melakukan pendekatan term weighting dalam melakukan microblog retrieve

(Ferguson et al, 2010). Penggunaan term weighting document untuk dokumen

yang hasilnya akan baik, pada waktu dilakukan untuk dokumen pendek seperti

twitter ternyata tidak memberikan hasil yang memuaskan. Karena itu Ferguson

melakukan proses document normalization length untuk meningkatkan performa

hasil microblog retrieve ini.

7. Penelitian yang dilakukan oleh Zhunchen Luo, Miles Osborn, Sasa Petrovic, dan

Ting Wang (2012). Mereka mencoba melakukan peningkatan kemampuan retrieve

dengan menggunakan struktur informasi yang ada pada dokumen (tweets). Struktur

informasi pada twitter dirinci menjadi blok-blok tertentu (Luo et al, 2012). Luo,

Osborn, Petrovic, dan Wang membagi struktur informasi menjadi 6 blok yaitu MSG

– yang hanya mengandung pesan murni, TAG – berisi tag yang didahului dengan

tanda hashtag (#), URL – jika menyebutkan alamat website, MET – jika melakukan

mention pengguna lain dengan didahului tanda @, RWT – jika mengandung

retweet, yaitu didahului dengan dua huruf RT, COM – jika pendapat seseorang

pengguna lain, Luo menyebut struktur tersebut sebagai Twitter Building Block

(TBB).

8. Penelitian yang dilakukan oleh Jaeho Choi, W. Bruce Croft, Jin Young Kim (2012).

Choi memperkenalkan quality model menggunakan penilaian perilaku pengguna,

9

misalnya dari retweet (Choi et al, 2012). Mereka menganalisis keinformatifan

sebuah dokumen dengan relevansi untuk melakukan microblog retrieval. Choi juga

menunjukkan bahwa behavior-based quality metric yang diusulkan memiliki

korelasi dengan penilaian secara manual. Hasil penelitian menunjukkan bahwa

quality model yang diusulkan dikombinasikan dengan berbagai retrieval model

meningkatkan performa microblog retrieve.

9. Penelitian yang dilakukan oleh Yun Li, Li Guan, Xishuang Dong, dan Xinbo LV

(2013). Pekerjaan yang dilakukan adalah dengan meneliti efektivitas dari

penggunaan aspek relevance dan recency pada framework language modeling (LM)

(Li et al, 2013). Aspek relevance antara query dan dokumen dilihat dari probabilitas

query yang dibangkitkan dari model dokumen. Model dokumen yang digunakan

adalah Multiple Bernoulli (MB) model dan dominated Multinomial (MN) model.

Aspek recency dilihat dari penciptaan dokumen sebelumnya. Hasilnya dengan

menggunakan pendekatan LM dengan memasukkan aspek recency dan relevance

menghasilkan performa yang lebioh baik daripada microblog commercial search

engine yang sudah ada.

10. Pernelitian yang dilakukan oleh Cunhui Shi, Bo Xu, Hongfei Lin, dan Qing Guo

(2013). Penelitian yang dilakukan adalah dengan menggunakan metode information

retrieval traditional yang di-extend dengan faktor waktu (Shi et al, 2013). Metode

yang digunakan adalah time sensitive model yang menggunakan faktor waktu

sebagai prior probability . Untuk meningkatkan performa microblog retrieve-nya

Shi menggunakan pseudo relevance feedback sebagai model pendekatan query

expansion, entropy dan link features.

11. Penelitian yang dilakukan oleh Jesus A. Rodriguez Perez, Yashar Moshfeghi,

Joemon M. Jose (2013). Perez melakukan pendekatan re-ranking yang berada pada

hubungan antar dokumen. Pendekatan tersebut dinamakan SimReRank (Perez,

2012). Metodenya adalah melakukan re-ranking hasil microblog search dengan

mengukur kemiripan dokumen dengan query, dan kemiripan seluruh dokumen yang

sudah diseleksi melalui Pseudo Relevance Feedback (PRF).

10

BAB 3. METODE PENELITIAN

3.1. Metode Penelitian

Penelitian ini dilakukan dengan metode eksperimen. Eksperimen dilakukan dengan

sejumlah mengambil data tweets terlebih dahulu dari url twitter, yaitu twitter.com. Tahap awal

sebelum melakukan eksperimen adalah dengan melakukan studi literatur terlebih dahulu. Studi

literatur dilakukan agar peneliti mengetahui penelitian yang telah dilakukan oleh peneliti-

peneliti lain yang berkaitan topik penelitiannya. Kemudian akan dilakukan pengambilan data

dari twitter secara otomatis. Satu tweet akan menjadi satu dokumen. Target untuk simulasi

adalah 10000 tweets. Selanjutnya ditentukan kata-kata yang akan dijadikan kueri dalam bahasa

Indonesia. Sebagai base line experiment-nya adalah penelusuran informasi dengan metode

cosine similarity, sebuah metode yang sudah umum dilakukan dalam penelusuran informasi

(information retrieval). Langkah berikutnya adalah melakukan eksperimen penelusuran

informasi dengan metode yang diusulkan yaitu hasil penelusuran informasi dengan metode

base line sebelumnya, akan dilakukan ekspansi kueri dengan kueri-kueri yang sudah

ditentukan. Ekspansi kueri dilakukan dengan menambahkan kata-kata yang diperoleh dengan

metode maximum hashtag, highest-scored term, dan kombinasi keduanya. Hasilnya, dokumen

akan diranking berasarkan tingkat relevansinya. Hasil penelusuran informasi tersebut akan

dievaluasi menggunakan metode Mean Average Precision (MAP) yang mengukur hasil

relevansi dalam satu kali retrieval (penelusuran). Hasil

3.2. Luaran Penelitian

Penelitian ini akan menghasilkan dua (2) buah luaran yaitu:

1. Metode baru untuk me-retrieve dan me-ranking data tweet pada twitter.

2. Paper/makalah ilmiah yang akan diterbitkan dalam jurnal/prosiding.

3.3. Tahapan Penelitian

Kegiatan-kegiatan yang akan dilakukan dalam penelitian ini mencakup aktivitas

penelitian dan uraiannya dengan tahapan diilustrasikan pada gambar 1 di halaman selanjutnya:

TAHAPAN PENELITIAN

11

STUDI LITERATUR

Input : Referensi paper dan text book serta penelitian sebelumnya

Proses : Penggalian dari sumber-sumber referensi dan penelitian

sebelumnya, memilih literatur-literatur yang relevan dengan

topik penelitian

Output : Literatur yang relevan

PENGUMPULAN DATA

Input : Data mentah dari twitter.com

Proses : Mengambil tweets khusus yang berbahasa Indonesia

Output : Dokumen tweet, satu tweet satu dokumen

PRE-PROCESSING

Input : Data dokumen tweets

Proses : 1. Menentukan kueri yang akan dimasukkan

2. Melakukan stopword removing untuk menghilangkan

kata-kata yang tidak signifikan

Output : Dokumen tweet yang sudah tidak terdapat stopword

EKSPERIMEN

Input : Data dokumen tweets hasil proses sebelumnya

Proses : 1. Melakukan proses penelusuran informasi menggunakan

metode base line (cosine similarity)

2. Melakukan proses ekspansi kueri dengan dengan metode

maximum hashtag, HST, dan kombinasi keduanya

3. Proses ekspansi dilakukan dengan menambahkan satu

hingga delapan kata

Output : Dokumen yang relevan dengan query yang dimasukkan

12

EVALUASI

Input : Dokumen hasil penelusuran berdasarkan query

Proses : Menggunakan mean average precision (MAP)

Output : Tingkat akurasi, presisi, dan recall dari hasil penelusuran

PELAPORAN

Input : Hasil eksperimen dan evaluasi

Proses : Pembuatan laporan dan publikasi

Output : Laporan dan publikasi

Gambar 1. Tahapan Penelitian

13

BAB 4. HASIL DAN LUARAN YANG DICAPAI

4.1. Hasil

Hasil eksperimen dari penelitian ini adalah sebuah metode penelusuran informasi untuk

twitter yang akan memperoleh dokumen terekstrak yang lebih relevan. Penelitian ini

mengambil data dari twitter.com untuk twit secara acak yang berkaitan dengan kelautan,

pilkada, hari guru, dan hepatitis B. Hasil yang didapatkan dari 25 user dengan twit yang

berbahasa Indonesia. Tabel 1 di bawah ini menjelaskan empat query yang digunakan sebagai

baseline:

Tabel 1: baseline query

q Query

q1 Wilayah laut

q2 Pilkada Indonesia hari guru

q3 Peringatan hari guru

q4 Pembajakan kapal

Query di atas digunakan sebagai baseline, artinya akan dilakukan penelusuran

informasi pada twitter tanpa melakukan ekapansi query. Sedangkan pada tahap selanjutnya

untuk menguji metode maximum hashtag dan highest scored term, dilakukan ekspansi query

dengan 1 sampai dengan 8 terms. Pengukuran hasil eksperimen adalah menggunakan metode

Mean Average Precision (MAP). Semakin tinggi nilai MAP, semakin bagus kinerja

metode/algoritma. MAP digunakan untuk mengukur nilai relevansi dokumen yang terambil

terhadap query yang dimasukkan. Pengukuran menggunakan MAP ditulis dengan MAP@10

berarti nilai MAP untuk 10 dokumen teratas, MAP@20 berarti nilai MAP untuk 20 dokumen

teratas. Tabel 2 berikut ini menunjukkan nilai MAP untuk baseline query:

Tabel 2: Nilai MAP untuk baseline

query MAP@10 MAP@20 MAP@30

q1 0.906 0.871 0.831 q2 0.852 0.855 0.847 q3 0.797 0.771 0.779 q4 0.642 0.642 0.642

Selanjutnya eksperimen dilakukan dengan menggunakan ekspansi query. Misalkan q

adalah query untuk baseline, maka:

𝑞′ = 𝑞 + 𝑞𝑎 (1)

14

𝑞𝑎 = max{𝑠𝑐𝑜𝑟𝑒𝑡𝑓𝑖𝑑𝑓(𝑇)} (2)

𝑞′′ = 𝑞 + 𝑞𝑏 (3)

𝑞𝑏 = max{𝑠𝑐𝑜𝑟𝑒𝐻(𝑇)} (4)

𝑞′′′ = 𝑞 + 𝑞𝑐 (5)

𝑞𝑐 = 𝑞𝑎 + 𝑞𝑏 (6)

Pada (1) q’ adalah ekspansi query dengan menambahkan ekspansi query menggunakan

highest scored term. Highest scored terms sendiri ditunjukkan pada formula (2). Pada formula

(3) q’’ adalah metode ekspansi query menggunakan maximum hashtag, Sedangkan maximum

hashtag sendiri ditunjukkan pada formula (4). Formula (5) yaitu q’’’ merupakan kombinasi

metode ekspansi queri menggunakan highest scored terms dan maximum hashtag. Kombinasi

tersebut diperlihatkan pada formula (6).

Hasil eksperimen untuk query 1 (q1) adalah seperti ditunjukan tabel 3 berikut ini:

Tabel 3: Hasil untuk query 1

Query 1 (q1)

1 term 2 terms 3 terms 4 terms 5 terms 6 terms 7 terms 8 terms

q’

MAP@10 0.878 0.906 0.906 0.822 0.915 0.947 0.852 0.727

MAP@20 0.854 0.871 0.862 0.890 0.854 0.875 0.824 0.708

MAP@30 0.818 0.831 0.822 0.877 0.817 0.832 0.789 0.701

q’’

MAP@10 0.906 0.906 0.906 0.906 0.906 0.906 0.906 0.906

MAP@20 0.871 0.871 0.871 0.871 0.871 0.871 0.871 0.871

MAP@30 0.831 0.831 0.831 0.831 0.831 0.831 0.831 0.831

q’’’

MAP@10 0.878 0.906 0.906 0.822 0.915 0.947 0.852 0.727

MAP@20 0.854 0.871 0.862 0.890 0.854 0.875 0.824 0.708

MAP@30 0.818 0.831 0.822 0.877 0.817 0.832 0.789 0.701

Hasil eksperimen untuk q1, beberapa diantaranya melebihi query pada baseline yang

tidak menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah

0.906. Hasil menggunakan ekspansi query untuk q’ yang melebihi adalah pada 6 terms 0.947,

pada q’’ sama dengan baseline 0.906, dan pada q’’’, ekspansi dengan 6 terns melebihi baseline

dengan 0.947.

Untuk MAP@20 dengan nilai baseline 0.871, terlihat untuk q’ pada 6 terms melebihi

dengan 0.875. Pada q’’ tidak ada perubahan sama sekali, dan pada q’’’, pada 4 terms dan 6

terms melebihi baseline dengan 0.890 dan 0.875.

15

Untuk MAP@30 dengan nilai baseline 0.831, pada q’ untuk 4 terms dan 6 terms

melebihi baseline yaitu 0.877 dan 0.832. Pada q’’ seperti sebelumnya tidak terjadi perubahan.

Pada q’’’ untuk 4 terms dan 6 terms melebihi nilai MAP pada baseline.



Query 2 (q2)


q’

MAP@10 1 1 1 0.880 0.947 0.947 0.947 0.947

MAP@20 0.988 0.991 0.971 0.834 0.867 0.874 0.884 0.889

MAP@30 0.960 0.973 0.946 0.836 0.850 0.857 0.859 0.839

q’’

MAP@10 1 1 1 1 1 1 1 1

MAP@20 0.991 0.991 0.991 0.991 0.991 0.991 0.991 0.991

MAP@30 0.970 0.970 0.970 0.970 0.970 0.970 0.970 0.970

q’’’

MAP@10 1 1 1 1 1 1 1 1

MAP@20 1 1 1 0.961 0.961 0.972 1 1

MAP@30 0.989 0.988 0.988 0.929 0.930 0.937 0.954 0.954

Hasil eksperimen untuk q2, beberapa diantaranya melebihi query pada baseline yang

tidak menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah

0.852. Hasil menggunakan ekspansi query untuk q’ menunjukkan penambahan term untuk

ekspansi query dari 1 sampai 6 selalu meningkatkan nilai MAP, Bahkan pada q’’ dan q’’’,

peningkatan tersebut selalu menghasilkan nilai maksimal yaitu 1.

Untuk MAP@20 dengan nilai baseline 0.855, terlihat untuk q’ pada seluruh

oenambahan terms dari 1 hingga 6 selalu melebihi baseline. Pada q’’ juga melebihi nilai MAP

pada baseline namun dengan nilai MAP yang stabil yaitu 0.991, dan pada q’’’ juga selalu terjadi

kenaikan nilai MAP.

Untuk MAP@30 dengan nilai baseline 0.847, pada q’ keseluruhan penambahan terms

berakibat nilai MAP melebihi nilai MAP baseline. Pada q’’ sama seperti pada q’, namun

semuanya memiliki nilai yang sama (stabil) yaitu 0.970.. Pada q’’’ semua penambahan terms

menjdaikan nilai MAP-nya melebihi nilai MAP pada baseline.

Dari empat (4) query yang direncanakan akan diberikan ekspansi query, sampai laporan

kemajuan ini dibuat baru 2 buah query yaitu q1 dan q2 yang telah diselesaikan eksperimennya.

Eksperimen terhadap kedua query tersebut menunjukkan hasil yang positif yaitu kenaikan nilai

MAP yang berarti menaikkan relevansi dokumen diambil.

16



Query 3 (q3)


q’

MAP@10 1 1 1 1 1 1 1 0.986

MAP@20 0.978 0.983 0.978 0.984 0.990 0.990 0.996 0.919

MAP@30 0.957 0.947 0.987 0.938 0.946 0.945 0.951 0.871

q’’

MAP@10 1 1 1 1 1 1 1 1

MAP@20 0.991 0.991 0.991 0.991 0.991 0.991 0.991 0.991

MAP@30 0.966 0.966 0.966 0.966 0.966 0.966 0.966 0.966

q’’’

MAP@10 1 1 1 1 1 1 1 1

MAP@20 1 1 1 0.997 0.997 0.997 1 1

MAP@30 0.994 0.996 0.996 0.982 0.982 0.987 0.987 0.967

Hasil eksperimen untuk q3, seluruhnya melebihi query pada baseline yang tidak

menggunakan teknik ekspansi query. Untuk MAP@10 pada baseline nilainya adalah 0.797.

Hasil menggunakan ekspansi query untuk q’ menunjukkan penambahan term untuk ekspansi

query dari 1 sampai 6 selalu meningkatkan nilai MAP, Bahkan pada q’’ dan q’’’, peningkatan

tersebut selalu menghasilkan nilai maksimal yaitu 1.



Query 4 (q4)


q’

MAP@10 0.542 0.642 0.642 0.768 0.755 0.755 0.755 0.755

MAP@20 0.565 0.642 0.642 0.763 0.729 0.729 0.729 0.729

MAP@30 0.565 0.642 0.642 0.763 0.729 0.729 0.729 0.729

q’’

MAP@10 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788

MAP@20 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788

MAP@30 0.788 0.788 0.788 0.788 0.788 0.788 0.788 0.788

q’’’

MAP@10 0.689 0.684 0.642 0.855 0.855 0.8 0.786 0.702

MAP@20 0.694 0.684 0.642 0.804 0.804 0.762 0.728 0.665

MAP@30 0.694 0.684 0.642 0.804 0.804 0.762 0.728 0.665

Hasil eksperimen untuk q4, seluruhnya melebihi query pada baseline yang tidak

menggunakan teknik ekspansi query, kecuali pada q’ untuk MAP@10, 20, 30 untuk tambahan

17

1 term dan 2 term. Untuk MAP@10 pada baseline nilainya adalah 0.642. Hasil menggunakan

ekspansi query untuk q’ menunjukkan penambahan term untuk ekspansi query dari 1 sampai 6

selalu meningkatkan nilai MAP, Nilai MAP tertinggi adalah 0.788.

4.2. Luaran yang Dicapai

Penelitian ini merupakan penelitian yang bersifat algoritmik. Artinya produk yang

dihasilkan bukan sebuah sistem informasi ataupun aplikasi, namun sebuah algoritma/metode

yang akan meningkatkan kinerja sistem. Selain itu luaran yang dihasilkan adalah sebuah

makalah (paper) yang akan diterbitkan dalam sebuah jurnal.

18

BAB 5. KESIMPULAN DAN SARAN

5.1. Kesimpulan

Kesimpulan dari hasil penelitian sampai dengan penggunaan dua buah query untuk

melakukan ekspansi query adalah:

1. Ekspansi query akan meningkatkan dokumen yang relevan yang ditarik dari proses

penelusuran informasi.

2. Metode ekspansi query dengan penggabungan maximum hashtag dan highest

scored terms menghasilkan nilai MAP yang terbaik dibandingkan jika metode

tersebut tidak digabungkan dan dibandingkan dengan metode baseline.

5.2. Saran

Di masa mendatang, untuk pengembangan sistem penelusuran informasi di twitter.com,

dapat menggunakan metode/algoritma highest scored term dan maximum hashtag yang

digabungkan.

19

DAFTAR PUSTAKA

Choi, Jaeho, W. Bruce Croft & Jin Young Kim (2012), Quality Model for Microblog Retrieval.

Proceeding of CIKM 2012.

Efron, Miles (2010). Hashtag Retrieval in Microblogging environment. Proceedings of SIGIR

2010.

Feng, Lizhou., Zuo, Wanli &Youwei Wang (2015). Novel Query Expansion Method based on

User Interest Context and Ontology. In Proceedings of International Conference on

Intelligent Systems Research and Mechatronics Engineering (ISRME 2015).

Ferguson, Paul, Neil O’Hare, James Lanagan, Owen Phelan & Kevin McCarthy (2012). An

Investigation of Term Weighting Approaches for Microblog Retrieval. Proceedings of

ECIR 2012.

Gan, Lixin & Huan Hong (2015). Improving Query Expansion for Information Retrieval Using

Wikipedia. International Journal of Database Theory and Application Vol.8, No.3

(2015), pp.27-40.

Grossman, David A. & Ophir Frieder. (2004). Information Retrieval: Algorithms and

Heuristics. Second Edition, Springer

Li, Yun, Yi Guan, Xishuang Dong & Xinbo LV (2013).Language Modeling for Microblog

Retrieval: Combine Multiple-bernoulli Model and Temporal Prior for Tweets Rank.

Journal of Information Systems 9:6 (2013)

Luo, Zhunchen, Miles Osborn, Sasa Petrovic & Ting Wang (2012). Improving Twitter

Retrieval by Exploiting Structural Information. Proceedings of the twenty-sixth AAAI

Conference on Artificial Intelligence 2012.

Manning, Christopher D., Prabhakar Raghavan, & Hinrich Schutze. (2009). An Introduction to

Information Retrieval. Cambridge University Press.

Nagmoti, Rinkesh, Ankur Teredesai & Martine De Cock (2010). Ranking Approaches for

Microblog Search. Proceedings of International Conference on Web Intelligence and

Intelligent Agent Technology (WI-IAT) 2010.

O’Reilly, Tim & Sarah Milstein. (2009). The Twitter Book. O’Reilly Media Inc.

20

Perez, Jesus A. Rodriguez, Yashar Moshfeghi & Joemon M. Jose. (2013). On Using Inter-

document Relations in Microblog Retrieval. Proceedings of the 22nd Int. conf. on

WWW companion 2013

Shi, Cunhui, Bo Xu, Hongfei Lin & Qing Guo. (2013). A Time Sensitive Model for Microblog

Retrieval. Proceedings of NLPCC 2013.

Xu, Jinxi., & W. Bruce Croft (1996). Query Expansion Using Local and Global Document

Analysis. In Proceedings of ACM SIGIR’96.

Weller, Katrin., Axel Bruns, Jean Burgess, Merja Mahrt, & Cornelius Puschmann (eds).

(2014). Twitter and Society. Peter Lang Publishing.

LAPORAN PENELITIAN FAKULTASsipeg.unj.ac.id/repository/upload/peerreview/Lapo_Akhir...LAPORAN PENELITIAN FAKULTAS EKSPANSI QUERY PADA TWITTER DENGAN KOMBINASI METODE MAXIMUM HASHTAG

Documents