Top Banner
XVI. Kolokvium mladých jazykovedcov 8. - 10. 11. 2006, Častá- Využitie knižnice Využitie knižnice Jbowl Jbowl pri spracovaní pri spracovaní prirodzeného prirodzeného jazyka jazyka Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/ Karol Furdík, Peter Bednár
22

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka

Jan 19, 2016

Download

Documents

moeshe

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Využitie knižnice Jbowl Využitie knižnice Jbowl pri spracovaní pri spracovaní

prirodzeného jazykaprirodzeného jazyka

Centrum pre informačné technológiespoločné pracovisko

Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach

http://www.tuke.sk/fei-cit/

Karol Furdík, Peter Bednár

Page 2: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Obsah prezentácieMotivácia a hlavné ciele

Architektúra

Podporované úlohy dolovania v textoch (Text Mining)• Analýza dokumentov• Tvorba TM modelu pre kategorizáciu textov• Tvorba TM modelu pre zhlukovanie dokumentov

Príklady použitia - aplikácie

Plány do budúcnosti

Page 3: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Motivácia a hlavné ciele (1)Požiadavky kladené na systém / platformu:• nástroje na predspracovanie (potenciálne) veľkých kolekcií

textových dokumentov,• narábanie s rôznymi textovými formátmi (voľný text, HTML,

XML,...) a jazykmi,• Indexácia a vyhľadávanie informácií v týchto kolekciách,• Rozhranie pre znalostné modely (napr. ontológie).

Existujúce systémy:• indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE,

JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON),

• príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.

Page 4: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Motivácia a hlavné ciele (2)Jbowl - Open Source knižnica v jazyku Java,

ponúkajúca funkcie na podporu:• inteligentného vyhľadávania informácií, sumarizácie, extrakcie

informácií z textov,• dolovania znalostí v textoch, zhlukovania, kategorizácie,

klasifikačných úloh.

Hlavné charakteristiky:• rozšíriteľná modulárna architektúra,• platforma na predspracovanie (vrátane NLP metód) a indexáciu

rozsiahlych textových kolekcií,• funkcie na vytváranie a vyhodnocovanie riadených aj neriadených

modelov pre dolovanie v textoch.

Page 5: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Architektúra: komponenty

Rozhranie (API):• triedy a rozhrania pre prístup k službám TME.

Jadro (TME, Text Mining Engine):• infraštruktúra TM služieb,• riadenie TM úloh (napr. analýza dokumentov,

tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...).

Údaje (MOR, Mining Object Repository):• perzistentné uloženie TM objektov.

API

TME

MOR

Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73): http://www.jcp.org/en/jsr/detail?id=73

Page 6: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Architektúra: funkčné moduly

modelsmodels

datadata

analysisanalysis

Tokenization Sentence chunking NP chunkingPOS tagging

Statistics TF IDF Term selection

categorization clustering keyword extraction/ summarization

information extraction

utilsutils

BLASMatrixesCollections

documentsdocuments

Lucene index ThesaurusXML

Neimplementované, alebo čiastočne implementované

Page 7: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Analýza dokumentov (1)

<document id="12" name="Reuters-21578-12“ dataset="ModApte-train"><category>topics.commodity.exchange</category><category>topics.wheat-commodity</category><title>

OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET</title><text>

Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986....

</text></document>

Objektová reprezentácia dokumentu zahŕňa:• textový obsah delený na sekcie (kapitoly, paragrafy),• metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah.

Page 8: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Analýza dokumentov (2)Delenie textu na značky - tokens:• tokens sú slová (reťazce alfanumerických znakov), číslice,

diakritické znaky.

Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters).

Filtre slúžia na:• zmenu textu niektorej značky (na malé písmená, stemming),• pridanie informácie k značke (POS tagging, WSD),• odstránenie niektorých značiek (stop-words),• spájanie značiek (frázy).

Page 9: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad: 1) značkovanie

Page 10: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

verbs nouns adjectives adverbs

Príklad : 2) slovné druhy

Page 11: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co said its first quarter , ending February 28

profits may be below the 2.4 mln dlrs earned in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 3) stemming

Page 12: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co say its first quarter , end February 28

profit may be below the 2.4 mln dlrs earn in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 4) termíny, frázy

Page 13: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ohio Mattress Co say its first quarter , end February 28

profit may be below the 2.4 mln dlrs earn in the first

quarter of fiscal 1986 .

tokenizer POS

gazetteer stop words

stemming

Príklad : 5) stop-words

Page 14: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms)

t1 t2 t3 tnd1

d2

d3

dm

t4 t5 ...

...

Vektorová reprezentácia

Príznaky reprezentujú napr.:– slová, korene slov

– frázy, n-gramy

– významy slov (WordNet synsety)

Hodnoty “váh” vektorov:– binárne

– frekvencia termov

– tf-idf váhovanie:

kkl N

mnlktfidf log),(

Page 15: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Klasifikácia dokumentov do niektorých z preddefinovaných kategórií.

• Aplikácie:– indexovanie pre vyhľadávacie systémy (information retrieval):

• kontrolovaný slovník - tezaurus,• anotácia dokumentov (napr. pomocou pojmov ontológie),

– filtrovanie textov:• filtrovanie spam / junk mailov.

• Manuálna kategorizácia je časovo náročná a drahá.

• Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).

Kategorizácia textov

Page 16: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Algoritmy klasifikácieImplementované v knižnici Jbowl:

• Jednoduché porovnávanie termov• Support Vector Machine - lineárna klasifikácia• k-Nearest neighbors• Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron• Bayesovský klasifikátor (binomiálny a multinomiálny)• Winnow• Boosting - metóda na zvýšenie presnosti klasifikátorov

Page 17: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Zhlukovanie dokumentovÚloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom.

Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná).

Aplikácie:– organizovanie dokumentov v digitálnych knižniciach,– automatická tvorba ontológií.

Metódy a algoritmy (implementované v Jbowl):– k-Means,– SOM (Self organizing maps)– GHSOM (Growing hierarchical SOM)

Page 18: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

• eGovernment: Projekt Webocracy (http://www.webocrat.sk),

• eLearning: Projekt KP-Lab (http://www.kp-lab.org),

• GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org),

• Vyhľadávanie informácií s použitím metód zhlukovania,

• Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny,

• viaceré diplomové a dizertačné práce na TU Košice.

Aplikácie

Page 19: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

indexácia

Jbowl knižnicaŠpecifická funkcionalita systému Webocrat

full-text vyhľadávanie

analýza dokumentov

vektorová reprezentácia

ontológia

inteligentné vyhľadávanie

text mining

Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364http://www.webocrat.sk

Aplikačná oblasť: eGovernment.

Page 20: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Aplikácie: projekt KP-Lab Knowledge Practices Laboratory,

IST-2006-27490 http://www.kp-lab.org

Aplikačná oblasť:

eLearning.

Page 21: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Budúce úlohy• Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov

použitia / implementácie pre typové úlohy,

• WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov,

• Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov),

• Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO.

• Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.

Page 22: Využitie knižnice Jbowl  pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazykaKarol Furdík, Peter Bednár

XVI. Kolokvium mladých jazykovedcov8. - 10. 11. 2006, Častá-Papiernička

Ďakujem Vámza pozornosť.

Web: http://sourceforge.net/projects/jbowl/

Licencia: GNU LESSER GENERAL PUBLIC LICENSE

Autor: Peter Bednár, [email protected]