1/24 q q q t tq t t t q t tq t t q t t q t q t t tq tt t q t tq t tt tq tt ttt q tt ttt qt tt tq t ttt qt ttt qt t ttt qt tt qt t t q tt tq ttt tt q tt t q t q tt tt tq ttt tt tq t t ttt q ttt qt t ttt qt tt qt t ttt q t t q t t q tt Przetwarzanie języka naturalnego Natural language processing (NLP) Tematyka prac. Propozycje badawcze. Agnieszka Mykowiecka, Alina Wróblewska j INSTITUTE OF COMPUTER SCIENCE POLISH ACADEMY OF SCIENCES ul. Jana Kazimierza 5, 01-248 Warszawa Warszawa, listopad 2018
25
Embed
Przetwarzanie języka naturalnegokognitywistyka.uw.edu.pl/wp-content/uploads/2019/02/mykowiecka.p… · Przetwarzanie języka naturalnego Natural language processing (NLP) Tematyka
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q
Przetwarzanie językanaturalnego
Natural language processing (NLP)
Tematyka prac. Propozycje badawcze.
Agnieszka Mykowiecka, Alina Wróblewska
jINSTITUTE OF COMPUTER SCIENCEPOLISH ACADEMY OF SCIENCESul. Jana Kazimierza 5, 01-248 Warszawa
Warszawa, listopad 2018
2/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jCo to jest NLP – nieformalne definicje
giving computers the ability to process human languageNLP aims at making computers talk and communicate, ormore precisely, at endowing them with the linguisticability of humansNLP encompasses anything a computer needs tounderstand natural language (text or speech) and alsogenerate the natural languagereproduce the natural transmission of information bymodelling the speaker’s production and the hearer’sinterpretation on a suitable type of computer
⇓NLP obejmuje badania z wielu dziedzin: lingwistyki,informatyki, matematyki, statystyki, psychologii,kogniwistyki ...
Źródło: The comercial NLP landscape. Robert Dale. RANLP 2017.
7/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jTypy aplikacji NLP
Źródło: The comercial NLP landscape. Robert Dale. RANLP 2017.
8/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jEtapy analizy tekstu
segmentacja – jak poprawnie podzielić tekst?analiza morfologiczna – jakie słowa możemy rozpoznać wtekście?analiza składniowa – jaka jest struktura tekstu?analiza semantyczna – jaki jest sens/znaczenie danegotekstu?analiza pragmatyczna – jakie jest znaczenie tekstu wszerszym kontekście?
9/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jMetody
metody formalnegramatyki formalne opisujące składnię i/lub semantykęlogiki, zasady wnioskowania
metody statystyczne/maszynowe uczenie siępraktycznie każda metoda, w szczególności metodyetykietowania sekwencyjnego
aplikacje realizujące konkretne zadania, np.system odpowiedzi na pytania,streszczanie wielodokumentowe,upraszczanie tekstuanaliza dyskursu (wykrywanie relacji między zdaniamipojedynczymi)
16/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jKorpusy ogólne
17/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jPotencjalne tematyw szczególności niekóre z listy to będą zadania PolEval 2019
Lemmatization of proper names and multi-word phrasesTemporal expressionsWord sense disambiguation/identificationSentiment analysisCoreference resolutionEntity linkingCyberbullying Detection... http://clip.ipipan.waw.pl/benchmarks
18/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jLematyzacja wyrażeń wielowyrazowych
wąskich dróg leśnych → wąski droga leśnywąska droga leśna
dróg oddechowych → drogi oddechoweulicy Białej → ulica BiałaBibliotece Wyższej Szkoły Zarządzania →Biblioteka Wyższej Szkoły ZarządzaniaBibliotece Głównej Politechniki Warszawskiej →Biblioteka Główna Politechniki Warszawskiej
19/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jWyrażenia temporalne
20/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jWyrażenia temporalne – zadania
identyfikacja fraz odnoszących się do czasu i ich typudata, godzina, ...
identyfikacja relacjiprzed, po, w trakcie, ...
ustalenie bezwzględnego określenia punktu/okresu czasurok temu → listopad 2017