XVI. Kolokvium mladých jazykovedcov 8. - 10. 11. 2006, Častá- Využitie knižnice Využitie knižnice Jbowl Jbowl pri spracovaní pri spracovaní prirodzeného prirodzeného jazyka jazyka Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/ Karol Furdík, Peter Bednár
22
Embed
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Využitie knižnice Jbowl Využitie knižnice Jbowl pri spracovaní pri spracovaní
prirodzeného jazykaprirodzeného jazyka
Centrum pre informačné technológiespoločné pracovisko
Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach
http://www.tuke.sk/fei-cit/
Karol Furdík, Peter Bednár
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Obsah prezentácieMotivácia a hlavné ciele
Architektúra
Podporované úlohy dolovania v textoch (Text Mining)• Analýza dokumentov• Tvorba TM modelu pre kategorizáciu textov• Tvorba TM modelu pre zhlukovanie dokumentov
Príklady použitia - aplikácie
Plány do budúcnosti
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Motivácia a hlavné ciele (1)Požiadavky kladené na systém / platformu:• nástroje na predspracovanie (potenciálne) veľkých kolekcií
textových dokumentov,• narábanie s rôznymi textovými formátmi (voľný text, HTML,
XML,...) a jazykmi,• Indexácia a vyhľadávanie informácií v týchto kolekciách,• Rozhranie pre znalostné modely (napr. ontológie).
Existujúce systémy:• indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE,
JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON),
• príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Motivácia a hlavné ciele (2)Jbowl - Open Source knižnica v jazyku Java,
ponúkajúca funkcie na podporu:• inteligentného vyhľadávania informácií, sumarizácie, extrakcie
informácií z textov,• dolovania znalostí v textoch, zhlukovania, kategorizácie,
klasifikačných úloh.
Hlavné charakteristiky:• rozšíriteľná modulárna architektúra,• platforma na predspracovanie (vrátane NLP metód) a indexáciu
rozsiahlych textových kolekcií,• funkcie na vytváranie a vyhodnocovanie riadených aj neriadených
modelov pre dolovanie v textoch.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Architektúra: komponenty
Rozhranie (API):• triedy a rozhrania pre prístup k službám TME.
Jadro (TME, Text Mining Engine):• infraštruktúra TM služieb,• riadenie TM úloh (napr. analýza dokumentov,
tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...).
Údaje (MOR, Mining Object Repository):• perzistentné uloženie TM objektov.
API
TME
MOR
Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73): http://www.jcp.org/en/jsr/detail?id=73
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET</title><text>
Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986....
</text></document>
Objektová reprezentácia dokumentu zahŕňa:• textový obsah delený na sekcie (kapitoly, paragrafy),• metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Analýza dokumentov (2)Delenie textu na značky - tokens:• tokens sú slová (reťazce alfanumerických znakov), číslice,
diakritické znaky.
Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters).
Filtre slúžia na:• zmenu textu niektorej značky (na malé písmená, stemming),• pridanie informácie k značke (POS tagging, WSD),• odstránenie niektorých značiek (stop-words),• spájanie značiek (frázy).
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad: 1) značkovanie
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
verbs nouns adjectives adverbs
Príklad : 2) slovné druhy
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co said its first quarter , ending February 28
profits may be below the 2.4 mln dlrs earned in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 3) stemming
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co say its first quarter , end February 28
profit may be below the 2.4 mln dlrs earn in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 4) termíny, frázy
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Ohio Mattress Co say its first quarter , end February 28
profit may be below the 2.4 mln dlrs earn in the first
quarter of fiscal 1986 .
tokenizer POS
gazetteer stop words
stemming
Príklad : 5) stop-words
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms)
t1 t2 t3 tnd1
d2
d3
dm
t4 t5 ...
...
Vektorová reprezentácia
Príznaky reprezentujú napr.:– slová, korene slov
– frázy, n-gramy
– významy slov (WordNet synsety)
Hodnoty “váh” vektorov:– binárne
– frekvencia termov
– tf-idf váhovanie:
kkl N
mnlktfidf log),(
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Klasifikácia dokumentov do niektorých z preddefinovaných kategórií.
• Aplikácie:– indexovanie pre vyhľadávacie systémy (information retrieval):
• kontrolovaný slovník - tezaurus,• anotácia dokumentov (napr. pomocou pojmov ontológie),
• Manuálna kategorizácia je časovo náročná a drahá.
• Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).
Kategorizácia textov
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Algoritmy klasifikácieImplementované v knižnici Jbowl:
• Jednoduché porovnávanie termov• Support Vector Machine - lineárna klasifikácia• k-Nearest neighbors• Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron• Bayesovský klasifikátor (binomiálny a multinomiálny)• Winnow• Boosting - metóda na zvýšenie presnosti klasifikátorov
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Zhlukovanie dokumentovÚloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom.
Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná).
Aplikácie:– organizovanie dokumentov v digitálnych knižniciach,– automatická tvorba ontológií.
Metódy a algoritmy (implementované v Jbowl):– k-Means,– SOM (Self organizing maps)– GHSOM (Growing hierarchical SOM)
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
• eGovernment: Projekt Webocracy (http://www.webocrat.sk),
• eLearning: Projekt KP-Lab (http://www.kp-lab.org),
• GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org),
• Vyhľadávanie informácií s použitím metód zhlukovania,
• Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny,
• viaceré diplomové a dizertačné práce na TU Košice.
Aplikácie
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
indexácia
Jbowl knižnicaŠpecifická funkcionalita systému Webocrat
full-text vyhľadávanie
analýza dokumentov
vektorová reprezentácia
ontológia
inteligentné vyhľadávanie
text mining
Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364http://www.webocrat.sk
Aplikačná oblasť: eGovernment.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Aplikácie: projekt KP-Lab Knowledge Practices Laboratory,
IST-2006-27490 http://www.kp-lab.org
Aplikačná oblasť:
eLearning.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička
Budúce úlohy• Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov
použitia / implementácie pre typové úlohy,
• WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov,
• Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov),
• Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO.
• Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.
Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár
XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička