Top Banner
StopList dan Stemming StopList dan Stemming yasmi afrizal yasmi afrizal [email protected] [email protected] Pertemuan ke-3 usan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
33

StopList dan Stemming yasmi afrizal [email protected]

Feb 25, 2016

Download

Documents

lynde

Pertemuan ke- 3. StopList dan Stemming yasmi afrizal [email protected]. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester G anjil 20 10 /201 1. Pertemuan ke- 3. Sistem Temu-kembali Informas i. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

StopList dan StemmingStopList dan Stemming yasmi afrizal yasmi afrizal

[email protected][email protected]

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 2: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Sistem Temu-kembali Informasi

Pertemuan ke-3

Sistem temu-kembali informasi pada prinsipnya adalah suatu sistem yang sederhana. Misalkan ada sebuah kumpulan dokumen dan seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Secara matematis hal tersebut dapat dituliskan sebagai berikut :

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 3: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

indexing Sistem temu-kembali informasi pada dasarnya dibagi dalam dua komponen utama yaitu sistem pengindeksan (indexing) yang menghasilkan basis data sistem dan temukembali yang merupakan gabungan dari user interface dan look-up-table.

• Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses pengindeksan bisa secara manual ataupun secara otomatis.

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 4: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Tahapan Pengindeksan

• Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.

• Stoplist yaitu proses pembuangan kata buang seperti: tetapi, yaitu, sedangkan, dan sebagainya.

• Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” mejadi kata “adaptasi” sebagai istilah.

• Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 5: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Teknik pembobotan1. Teknik pembobotan berdasarkan frekuensi

kemunculan istilah pada satu dokumen. Teknik pembobotan ini cukup sederhana dimana bobot suatu istilah pada sebuah dokumen berdasarkan jumlah kemunculannya pada dokumen tersebut.

2. Teknik pembobotan berdasarkan rumus yaitu:

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 6: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

.....Teknik pembobotanPertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Dimana :• Wik adalah bobot istilah k pada dokumen i.• tfik merupakan frekuensi dari istilah k dalam

dokumen i.• n adalah jumlah dokumen dalam kumpulan

dokumen.• dfk adalah jumlah dokumen yang mengandung

istilah k.• Max j tf ij adalah frekuensi istilah terbesar pada

satu dokumen.

Page 7: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

teknik temu-kembali informasi

Ada beberapa teknik temu-kembali informasi yang telah dikembangkan yaitu teknik Boolean sederhana dan teknik Boolean berperingkat serta teknik Extended Boolean

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 8: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Teknik BooleanPertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Teknik Boolean merupakan suatu cara dalam mengekspresikan keinginan pemakai ke sebuah kueri dengan mamakai operator-operator Boolean yaitu : “and”, “or”, dan “not”. Adapun maksud dari operator “and” adalah untuk menggabungkan istilah-istilah kedalam sebuah ungkapan, dan operator “or” adalah untuk memperlakukan istilah-istilah sebagai sinonim, sedangkan operator “not” merupakan sebuah pembatasan.

• Teknik Boolean sederhana, kueri diproses sesuai dengan operator yang digunakan dan menampilkan dokumen berdasarkan urutan dokumen ditemukan.

• Teknik Boolean berperingkat, dokumen diperingkat berdasarkan bobot dari dokumen. Adapun pembobotan dari masing-masing dokumen berdasarkan aturan sebagai berikut :

Page 9: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Komponen Sistem IR Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Dimana dA menyatakan bobot istilah A pada dokumen D. Bobot istilah ini didapat dari hasil proses Indexing. Min(dA,dB) berarti bahwa sebuah dokumen di retrieve dengan bobot sebesar nilai terkecil dari bobot-bobot istilah yang dipunyainya. Max(dA,dB) berarti bahwa sebuah dokumen di retrieve denganbobot sebesar nilai terbesar dari bobot-bobot istilah yang dipunyainya.

Page 10: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Teknik Extended BooleanTeknik Extended Boolean berdasarkan p-norm model merupakan pengembangan lebih lanjut dari model Boolean. Teknik ini memakai operator yangdikomputasi berdasarkan rumus Savoy, sebagai berikut :

Pertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 11: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Sistem Pencarian WebPertemuan ke-3

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 12: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Area Terkait Pertemuan ke-3

• Manajemen Basis Data• Ilmu Perpustakaan dan Informasi• Kecerdasan Buatan• Pemrosesan bahasa alamai• Pembelajaran Mesin

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 13: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Relevansi• Relevansi merupakan suatu judgment

(keputusan) subyektif dan dapat didasarkan pada:– topik yang tepat.– waktu (informasi terbaru).– otoritatif (dari suatu sumber terpercaya).– kebutuhan informasi dari pengguna.

• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 14: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Pencarian Keyword • Ide paling sederhana dari relevansi:

apakah string query ada di dalam dokumen (kata demi kata, verbatim)?

• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 15: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Masalah dengan Keyword• Mungkin tidak meretrieve dokumen relevan

yang menyertakan synonymous terms.– “restaurant” vs. “café”– “NDHU” vs. “National Dong Hwa

University”• Mungkin meretrieve dokumen tak-relevan

yang menyertakan ambiguous terms.– “bat” (baseball vs. mamalia)– “Apple” (perusahaan vs. buah-buahan)– “bit” (unit data vs. perilaku menggigit)

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 16: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Bukan Sekedar Keyword• Kita akan mendiskusikan dasar-dasar IR

berbasis keyword, tetapi…– Fokus pada perluasan dan pengembangan

terakhir untuk mendapatkan hasil terbaik.• Kita akan membahas dasar-dasar

pembangunan sistem IR yang efisien, tetapi…– Fokus pada algoritma dan kemampuan dasar,

bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 17: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR Cerdas• Memanfaatkan pengertian atau makna dari

kata yang digunakan.• Melibatkan urutan kata di dalam query.• Beradaptasi dengan pengguna berdasarkan pada

feedback, langsung atau tidak langsung.• Memperluas pencarian dengan term terkait.• Mengerjakan pemeriksaan ejaaan/perbaikan

tanda pengenal otomatis.• Memanfaatkan Otoritas dari sumber informasi.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 18: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Indeks • Sistem IR jarang mencari koleksi dokumen secara

langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 19: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Indexing Otomatis• Tujuan dari automatic indexing adalah

membangun index dan meretrieve informasi tanpa intervensi manusia.

• Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif.

• Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 20: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR dari Koleksi Besar• Information retrieval dari koleksi sangat besar

bersandar pada:– Jumlah computer power yang besar untuk

mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak.

• komputasi kinerja-tinggi– Pemahaman pengguna terhadap informasi dan

kemampuan dari sistem.• Interaksi manusia - komputer• Machine-learning banyak digunakan untuk

mendapatkan kinerja terbaik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 21: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Searching & Browsing Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

• Orang dalam perulangan

Page 22: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR dari Koleksi Dokumen Teks

• Kategori utama dari metode:– Ranking kemiripan terhadap query (vector

space model).– Pencocokan exact (Boolean).– Ranking berdasarkan tingkat kepentingan

dokumen (PageRank)– Kombinasi beberapa metode

• Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 23: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Istilah Penting • Information retrieval: sub-bidang ilmu

komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya.

• Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit.

• Browsing: Eksplorasi tak-terstruktur dari badan informasi.

• Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 24: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Istilah• Query: Suatu string teks, menggambarkan

informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term.

• Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression.

• Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata.

• Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 25: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Istilah • Corpus: Koleksi dokumen yang diindeks dan dijadikan

target pencarian.• Daftar kata: Himpunan semua term yang digunakan

dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file).

• Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming.

• Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen.

• Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 26: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Mengurutan & Ranking Hit• Ketika pengguna men-submit suatu query ke

sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar.

• Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan.

• Tiga metode utama:– Mengurutkan hit, misal berdasarkan tanggal– Meranking hit berdasarkan kemiripan antara

query dan dokumen– Meranking hit berdasarkan kepentingan dari

dokumen

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 27: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

IR Berbasis Teks • Sebagian besar metode ranking didasarkan pada

model ruang vektor (vector space model).• Sebagian besar metode pencocokan (matching)

didasarkan ada operator Boolean.• Metode Web search mengkombinasikan model

ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen.

• Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan.

• Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik.

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 28: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

FrekuensiKata• Observasi: Beberapa kata lebih umum

daripada yang lain.• Statistika: Koleksi sangat besar dari

dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini:– Mempengaruhi efektifitas dan efisiensi

dari struktur data yang digunakan untuk mengindeks dokumen

– Banyak model retrieval memanfaatkannya

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 29: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Frekuensi Kata • Contoh: Contoh berikut ini diambil dari :

– Jamie Callan, Characteristics of Text, 1997

– 19 Juta kata sampel– Slide berikut memperlihatkan 50 kata

yang paling umum, diranking (r) berdasarkan frekuensinya (f).

Pertemuan ke-2

Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Page 30: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Frekuensi Kata Pertemuan ke-2

Page 31: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Distribusi RankingFrekuensi

• Untuk semua kata di dalam suatu dokumen, untuk setiap kata w– f adalah frekuensi munculnya w– r ranking dari w disusun menurut frekuensi. (kata

yang paling umum muncul mempunyai rank =1)

Pertemuan ke-2

Page 32: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

Contoh Frekuensi Rank • Slide berikut memperlihatkan kata-

kata di dalam data Callan yang telah dinormalisasi. Dalam contoh ini:– r adalah ranking dari kata w dalam

sampel.– f adalah frekuensi kata w di dalam

sampel.– n adalah jumlah total kemunculan

kata di dalam sampel.

Pertemuan ke-2

Page 33: StopList dan Stemming yasmi afrizal  yasmi_afrizal@yahoo.co.id

...Contoh RankingFrekuensi

Pertemuan ke-2