Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter . daelemans@ua . ac . be (AI-LAB 1986-1989)
May 24, 2015
Natuurlijke Taal Verwerking
Walter Daelemans
CNTS, Universiteit [email protected]
(AI-LAB 1986-1989)
Natuurlijke Taal Verwerking in AI
Turing Test (1950) (imitation game) Kunnen computers
denken? Computers van
mensen onderscheiden op basis van een dialoog in natuurlijke taal
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Wetenschappelijk belang
Nauwe verwevenheid van taal, denken en bewustzijn
Natuurlijke taal als belangrijkste medium voor Kennisrepresentatie en -opslag Communicatie
Sociaal en economisch belang
Informatie-explosie (o.a. internet) 2002:
• Nieuw gedrukt materiaal: 2 petabyte / jaar• Wetenschappelijke kennis: 2000 nieuwe pagina’s
per minuut Verdubbeling elke 2-3 jaar
Sociaal en economisch belang
Vertaalexplosie EU (2005)
• 20+ officiële talen• Budget > 1 miljard euro per jaar• 2500 vertalers• 40% administratief budget
Geen uniek Europees probleem: Zuid-Afrika heeft 11 officiële talen
Fundamentele probleem: oplossen van ambiguïteit Lexicaal
Brussel wil vrachtwagens zwaarder belasten.
Morfologisch Fremdzugehen, betrachtet die Familie als eine Schande. External train marriages, the family considers as a disgrace.
Syntactisch De prins heeft zijn huwelijk met Verhofstadt besproken.
Wereldkennis Hij had geen werk. Hij nam de krant. Hij werd lastiggevallen door een wesp. Hij nam de krant.
Oplossing: computermodellen Van tekst naar semantische representatie via
Morfologische analyse Syntactische analyse Zinssemantiek Tekstsemantiek
Semantische representatie Eerste orde predikatenlogica (+ logica’s voor tijd,
modaliteit, defaults, …) Semantische netwerken
Expliciete domeinkennis, wereldkennis Inferentie
John is going to Boston by bus (John Sowa)
(x:Go)(y:Person)(z:City)(w:Bus) (name(y,'John') name(z,'Boston') agnt(x,y) dest(x,z) inst(x,w))
Problemen met deze aanpak
Niet schaalbaar (werkt alleen voor microwerelden)
Niet robuust Niet efficiënt Duur in ontwikkeltijd Geen “grounding” van concepten …
Even terug naar 1987 (AI-LAB Brussel)
Even terug naar 1987 (AI-LAB Brussel)
Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)
GRAFON-D Taalkundige regels (productieregels) Modularisering morfologie - fonologie -
lettergreepstructuur - klemtoonmodule Geavanceerde kennisrepresentatie
KRS (frame-based) Meervoudige overerving, encapsulering, multi-
methodes, …
Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)
GRAFON-D Taalkundige regels (productieregels) Modularisering morfologie - fonologie -
lettergreepstructuur - klemtoonmodule Geavanceerde kennisrepresentatie
KRS (frame-based) Meervoudige overerving, encapsulering, multi-
methodes, …
VaststellingVaststelling
Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!
Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Eigenschap van taalEigenschap van taal
Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door Ontlening Etymologie Allerlei variatie (idiolect, regiolect,
gender, leeftijd, sociale klasse …)
Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door Ontlening Etymologie Allerlei variatie (idiolect, regiolect,
gender, leeftijd, sociale klasse …)
Alternatief: lerende systemen (statistiek)Alternatief: lerende
systemen (statistiek) Machine Learning activiteit in AI-LAB Incidentele studies
Sejnowski & Rosenberg Tekst naar spraak met neurale netwerken
Stanfill & Waltz Tekst naar spraak met memory-based reasoning
Zucht … Beter accuraatheid Geen expliciete taalkundige modules, geen regels Schaalbaar / Efficiënt / Meer robuust …
Machine Learning activiteit in AI-LAB Incidentele studies
Sejnowski & Rosenberg Tekst naar spraak met neurale netwerken
Stanfill & Waltz Tekst naar spraak met memory-based reasoning
Zucht … Beter accuraatheid Geen expliciete taalkundige modules, geen regels Schaalbaar / Efficiënt / Meer robuust …
Paradigm ShiftParadigm Shift
Start van productieve onderzoekslijn “machine learning of language” “memory-based language processing”
in Tilburg ILK (1992 - nu) http://ilk.uvt.nl/
en Antwerpen CNTS (1993 - nu) http://www.cnts.ua.ac.be/
Belang van dit onderzoek “Early Adopters” wereldwijd Pioniersrol in Europa
Start van productieve onderzoekslijn “machine learning of language” “memory-based language processing”
in Tilburg ILK (1992 - nu) http://ilk.uvt.nl/
en Antwerpen CNTS (1993 - nu) http://www.cnts.ua.ac.be/
Belang van dit onderzoek “Early Adopters” wereldwijd Pioniersrol in Europa
0
10
20
30
40
50
60
70
80
90
100
1983 1990 1997 2006
DeductiefInductief
Computertaalkunde publicaties
Computertaalkunde publicaties
Terug naar begrijpen van taal Vanuit de “market pull”, pragmatische oplossing
Text Mining in plaats van tekstbegrip• Oppervlakkige semantische analyse (concepten, relaties tussen
concepten)• Op basis van Machine Learning• Robuust, efficiënt, schaalbaar, …• Laat toepassingen toe als Question Answering, Summarization,
Information Extraction, …• Probleem: negatie, modaliteit, kwantificatie, inferentie, recursie, …
Vanuit de wetenschap Maak schaalbare “shallow understanding” dieper Extraheer domein- en wereldkennis uit tekst met unsupervised
learning
Voorbeeld: ‘Vraag-Antwoord systemen’
Geef antwoord op een vraag(in tegenstelling tot information retrieval: vind
documenten die relevant zijn voor de vraag) V: Wie heeft de telefoon uitgevonden?
A: Alexander Graham Bell V: Wanneer werd de telefoon uitgevonden?
A: 1876
QA Systeem: Shapaqa (SHAllow PArsing QA) Analyseer de vraag
Wanneer werd de telefoon uitgevonden? Welke informatie is gegeven?
• Werkwoord uitgevonden• Voorwerp telefoon
Welke informatie hebben we nodig? • Een temporele frase verbonden met het werkwoord
Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste grammaticale
relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale relatie
(temporele frase)
Shapaqa: voorbeeld (Engels systeem) When was the telephone invented? Google: invented “the telephone”
levert 835 paginas op 53 geanalyseerde zinnen met de twee gegeven relaties en met
een temporele frase
is through his interest in Deafness and fascination with acoustics that the telephone was invented in 1876 , with the intent of helping Deaf and hard of hearing
The telephone was invented by Alexander Graham Bell in 1876When Alexander Graham Bell invented the telephone in 1876 , he
hoped that these same electrical signals could …
Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de shallow parser maakt
fouten, maar door het grote aantal antwoorden is het resultaat toch juist
17:1876 3:1874 2: ago 2: later 1: Bell …
Who shot Kennedy? http://ilps.science.uva.nl/~qa
(42%) Lawrence J Wilker (14%) James Wilker (14%) Clinton (14%) Martha J. Fleischman (14%) Larry Wilker
Shapaqa (50%) Lee Oswald (25%) Jim Bishop
• Author of “The day Kennedy was shot” (13%) a bullet (13%) a man
Conclusies (Inhoudelijk) Natuurlijke taal verwerking behoort nog steeds tot de
kern van AI onderzoek Van groot wetenschappelijk en socio-economisch
belang Kennisgebaseerde, logische, diepe aanpak heeft
gefaald in schaalbaarheid en toepasbaarheid Huidige taaltechnologie is inductief, schaalbaar en
bruikbaar maar oppervlakkig Trend: incorporatie inzichten kennisgebaseerde aanpak
in inductieve methode Trend: domein- en wereldkennis uit tekst
Conclusies (Organisatorisch) Belang (voor AI onderzoeksgroep) van kritische
massa en aanwezigheid van experts in verschillende subdisciplines Waarom hebben we geen IMEC of VIB voor “cognitive
sciences”? “harmonica-effect” bij productieve
onderzoeksgroepen moet opgelost worden Na (soms forse) groei moet onderzoeksgroep weer
krimpen• Geen betrouwbare continue sponsoring van onderzoek• Geen plaats voor onderzoeksmanagers aan onze
universiteiten naast het (al overvraagde) ZAP-kader