1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi for Knowledge Management Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan ligusitic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya)
12
Embed
IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Firdaus Solihin (unijoyo) 2008
KNOWLEDGE IN TEXT
(IR-2)
FIRDAUS SOLIHIN
UNIVERSITAS TRUNOJOYO
Firdaus Solihin (unijoyo) 2008
Teknologi for Knowledge
Management
� Document Collection (Mengumpulkan
Document/Informasi)
� Document Retrieval (Mengakses
Document/Informasi)
� Text Mining (analisa berdasarkan ligusitic)
� Ontologies (pemodelan untuk
merepresentasikan object dalam type,
properties, dan relasinya)
2
Firdaus Solihin (unijoyo) 2008
DOCUMENT
COLLECTION
Firdaus Solihin (unijoyo) 2008
DOCUMENT COLLECTION
3
Firdaus Solihin (unijoyo) 2008
DOCUMEN COLLECTION (1)
� Domain (dependent or independent)
� Ketergantungan dgn dokumen lain
� Structured or Non Structured Texts
� Memiliki struktur khusus or tidak, ex HTML
� Formated or Non Formated Documents
� Memiliki format khusus or tidak, ex Doc vs Txt
� Textual or Multimedia Documents
� Berupa text atau multimedia
Firdaus Solihin (unijoyo) 2008
DOCUMEN COLLECTION (2)
� Monolingual or Multilingual Documents
� Berupa satu bahasa or banyak bahasa
� Centralized or Non Centralized Document Management
� Lokasi dokumen satu tempat or banyak tempat
� Controlled or Free Additional of Doc
� Pengaksesannya butuh login or tidak
� Stable or Non Stable Collections
� Ketersediaannya tetap or tidak tetap.
4
Firdaus Solihin (unijoyo) 2008
Permasalahan dlm Documents
Collection
� Inconsistent Document
� Incomplete descriptions
� Duplicates or Worse
� Different terminologies/ languange/
perspective/ abriviation
Firdaus Solihin (unijoyo) 2008
DOCUMENT
RETRIEVAL
5
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
� QUERY INTERPRETATION (MenggunakanQuery)
� DOCUMENTS INDEXING (MenggunakanIndex)
� RANGKING OF RETRIEVED DOCUMENTS(mengurutkan sesuai rangkingn tertentu)
� LINGUISTIC AND STATISTICAL
Contoh : Search Engine
6
Firdaus Solihin (unijoyo) 2008
Search Engine
Firdaus Solihin (unijoyo) 2008
www.alltheweb.com
� AllTheWeb from Fast Search & Transfer (2002)
� Index: 2,1 GB documents
� Languages supported: 52
� Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata
� 30 mill. queries per hari
7
Firdaus Solihin (unijoyo) 2008
Document Retrieval’s
problems
� VOLUME DATA
� Sangat besar dan berkembang dinamis
� Tersebar dibanyak tempat dan beda platform
� MULTITUDE OF LANGUAGES
� Multilingual web
� 40-50 languages used on the web
� Many text encoding standart
Firdaus Solihin (unijoyo) 2008
# Website
8
Firdaus Solihin (unijoyo) 2008
# % Multilingual web
Firdaus Solihin (unijoyo) 2008
Document Retrieval’s
problems
� DOCUMENT QUALITY
� Missplelings (Salah eja)
� Spam and offensive content (isi sampah)
� Little text (isi tidak menggmbarkan
� All topics
� USER BEHAVIOUR
� Misspellings (Salah eja)
� Query length and query session (panjang dan seberapa
sering)
� Document yang dilihat umumnya yang diatas
9
Firdaus Solihin (unijoyo) 2008
TEXT MINING
Firdaus Solihin (unijoyo) 2008
TEXT MINING
� LINGUISTIC ANALYSIS
� Merubah bentuk Document or menambahkaninformation (memilah dalam S,O,P,Pre dls)
� Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dariberbagai perubahan bentuk)