Top Banner
Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter . daelemans@ua . ac . be (AI-LAB 1986-1989)
23

Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen [email protected] (AI-LAB 1986-1989)

May 24, 2015

Download

Documents

Martha Koster
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 2: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Natuurlijke Taal Verwerking in AI

Turing Test (1950) (imitation game) Kunnen computers

denken? Computers van

mensen onderscheiden op basis van een dialoog in natuurlijke taal

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Page 3: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Wetenschappelijk belang

Nauwe verwevenheid van taal, denken en bewustzijn

Natuurlijke taal als belangrijkste medium voor Kennisrepresentatie en -opslag Communicatie

Page 4: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Sociaal en economisch belang

Informatie-explosie (o.a. internet) 2002:

• Nieuw gedrukt materiaal: 2 petabyte / jaar• Wetenschappelijke kennis: 2000 nieuwe pagina’s

per minuut Verdubbeling elke 2-3 jaar

Page 5: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Sociaal en economisch belang

Vertaalexplosie EU (2005)

• 20+ officiële talen• Budget > 1 miljard euro per jaar• 2500 vertalers• 40% administratief budget

Geen uniek Europees probleem: Zuid-Afrika heeft 11 officiële talen

Page 6: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Fundamentele probleem: oplossen van ambiguïteit Lexicaal

Brussel wil vrachtwagens zwaarder belasten.

Morfologisch Fremdzugehen, betrachtet die Familie als eine Schande. External train marriages, the family considers as a disgrace.

Syntactisch De prins heeft zijn huwelijk met Verhofstadt besproken.

Wereldkennis Hij had geen werk. Hij nam de krant. Hij werd lastiggevallen door een wesp. Hij nam de krant.

Page 7: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Oplossing: computermodellen Van tekst naar semantische representatie via

Morfologische analyse Syntactische analyse Zinssemantiek Tekstsemantiek

Semantische representatie Eerste orde predikatenlogica (+ logica’s voor tijd,

modaliteit, defaults, …) Semantische netwerken

Expliciete domeinkennis, wereldkennis Inferentie

Page 8: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

John is going to Boston by bus (John Sowa)

(x:Go)(y:Person)(z:City)(w:Bus) (name(y,'John') name(z,'Boston') agnt(x,y) dest(x,z) inst(x,w))

Page 9: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Problemen met deze aanpak

Niet schaalbaar (werkt alleen voor microwerelden)

Niet robuust Niet efficiënt Duur in ontwikkeltijd Geen “grounding” van concepten …

Page 10: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Even terug naar 1987 (AI-LAB Brussel)

Even terug naar 1987 (AI-LAB Brussel)

Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)

GRAFON-D Taalkundige regels (productieregels) Modularisering morfologie - fonologie -

lettergreepstructuur - klemtoonmodule Geavanceerde kennisrepresentatie

KRS (frame-based) Meervoudige overerving, encapsulering, multi-

methodes, …

Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)

GRAFON-D Taalkundige regels (productieregels) Modularisering morfologie - fonologie -

lettergreepstructuur - klemtoonmodule Geavanceerde kennisrepresentatie

KRS (frame-based) Meervoudige overerving, encapsulering, multi-

methodes, …

Page 11: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

VaststellingVaststelling

Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!

Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Page 12: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Eigenschap van taalEigenschap van taal

Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door Ontlening Etymologie Allerlei variatie (idiolect, regiolect,

gender, leeftijd, sociale klasse …)

Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door Ontlening Etymologie Allerlei variatie (idiolect, regiolect,

gender, leeftijd, sociale klasse …)

Page 13: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Alternatief: lerende systemen (statistiek)Alternatief: lerende

systemen (statistiek) Machine Learning activiteit in AI-LAB Incidentele studies

Sejnowski & Rosenberg Tekst naar spraak met neurale netwerken

Stanfill & Waltz Tekst naar spraak met memory-based reasoning

Zucht … Beter accuraatheid Geen expliciete taalkundige modules, geen regels Schaalbaar / Efficiënt / Meer robuust …

Machine Learning activiteit in AI-LAB Incidentele studies

Sejnowski & Rosenberg Tekst naar spraak met neurale netwerken

Stanfill & Waltz Tekst naar spraak met memory-based reasoning

Zucht … Beter accuraatheid Geen expliciete taalkundige modules, geen regels Schaalbaar / Efficiënt / Meer robuust …

Page 14: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Paradigm ShiftParadigm Shift

Start van productieve onderzoekslijn “machine learning of language” “memory-based language processing”

in Tilburg ILK (1992 - nu) http://ilk.uvt.nl/

en Antwerpen CNTS (1993 - nu) http://www.cnts.ua.ac.be/

Belang van dit onderzoek “Early Adopters” wereldwijd Pioniersrol in Europa

Start van productieve onderzoekslijn “machine learning of language” “memory-based language processing”

in Tilburg ILK (1992 - nu) http://ilk.uvt.nl/

en Antwerpen CNTS (1993 - nu) http://www.cnts.ua.ac.be/

Belang van dit onderzoek “Early Adopters” wereldwijd Pioniersrol in Europa

Page 15: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

0

10

20

30

40

50

60

70

80

90

100

1983 1990 1997 2006

DeductiefInductief

Computertaalkunde publicaties

Computertaalkunde publicaties

Page 16: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Terug naar begrijpen van taal Vanuit de “market pull”, pragmatische oplossing

Text Mining in plaats van tekstbegrip• Oppervlakkige semantische analyse (concepten, relaties tussen

concepten)• Op basis van Machine Learning• Robuust, efficiënt, schaalbaar, …• Laat toepassingen toe als Question Answering, Summarization,

Information Extraction, …• Probleem: negatie, modaliteit, kwantificatie, inferentie, recursie, …

Vanuit de wetenschap Maak schaalbare “shallow understanding” dieper Extraheer domein- en wereldkennis uit tekst met unsupervised

learning

Page 17: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Voorbeeld: ‘Vraag-Antwoord systemen’

Geef antwoord op een vraag(in tegenstelling tot information retrieval: vind

documenten die relevant zijn voor de vraag) V: Wie heeft de telefoon uitgevonden?

A: Alexander Graham Bell V: Wanneer werd de telefoon uitgevonden?

A: 1876

Page 18: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

QA Systeem: Shapaqa (SHAllow PArsing QA) Analyseer de vraag

Wanneer werd de telefoon uitgevonden? Welke informatie is gegeven?

• Werkwoord uitgevonden• Voorwerp telefoon

Welke informatie hebben we nodig? • Een temporele frase verbonden met het werkwoord

Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste grammaticale

relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale relatie

(temporele frase)

Page 19: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Shapaqa: voorbeeld (Engels systeem) When was the telephone invented? Google: invented “the telephone”

levert 835 paginas op 53 geanalyseerde zinnen met de twee gegeven relaties en met

een temporele frase

is through his interest in Deafness and fascination with acoustics that the telephone was invented in 1876 , with the intent of helping Deaf and hard of hearing

The telephone was invented by Alexander Graham Bell in 1876When Alexander Graham Bell invented the telephone in 1876 , he

hoped that these same electrical signals could …

Page 20: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de shallow parser maakt

fouten, maar door het grote aantal antwoorden is het resultaat toch juist

17:1876 3:1874 2: ago 2: later 1: Bell …

Page 21: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Who shot Kennedy? http://ilps.science.uva.nl/~qa

(42%) Lawrence J Wilker (14%) James Wilker (14%) Clinton (14%) Martha J. Fleischman (14%) Larry Wilker

Shapaqa (50%) Lee Oswald (25%) Jim Bishop

• Author of “The day Kennedy was shot” (13%) a bullet (13%) a man

Page 22: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Conclusies (Inhoudelijk) Natuurlijke taal verwerking behoort nog steeds tot de

kern van AI onderzoek Van groot wetenschappelijk en socio-economisch

belang Kennisgebaseerde, logische, diepe aanpak heeft

gefaald in schaalbaarheid en toepasbaarheid Huidige taaltechnologie is inductief, schaalbaar en

bruikbaar maar oppervlakkig Trend: incorporatie inzichten kennisgebaseerde aanpak

in inductieve methode Trend: domein- en wereldkennis uit tekst

Page 23: Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen walter.daelemans@ua.ac.be (AI-LAB 1986-1989)

Conclusies (Organisatorisch) Belang (voor AI onderzoeksgroep) van kritische

massa en aanwezigheid van experts in verschillende subdisciplines Waarom hebben we geen IMEC of VIB voor “cognitive

sciences”? “harmonica-effect” bij productieve

onderzoeksgroepen moet opgelost worden Na (soms forse) groei moet onderzoeksgroep weer

krimpen• Geen betrouwbare continue sponsoring van onderzoek• Geen plaats voor onderzoeksmanagers aan onze

universiteiten naast het (al overvraagde) ZAP-kader