Taal, intelligentie en betekenis Piek Vossen Irion Technologies/Vrije Universiteit Amsterdam 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007
Taal, intelligentieen betekenis
Piek Vossen
Irion Technologies/Vrije Universiteit Amsterdam45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Taal en intelligentie
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Momenteel: meer dan 80% van de telefonische vragen in vrije tekst worden beantwoord!
GemeenteConnect is juli 2007 in gebruik genomen door de gemeente Gilze & Rije
Gebruikt natuurlijke taal maar is het intelligent?
gemeente
burger
GemeenteConnect
Telefoon
kantoortijden
24/7
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Taal en intelligentie Mechanisering van de mens:
Descartes (17de eeuw): Discours de la Méthode machine met menselijk lichaam en gedrag en uitingen
die correleren met bewegingen en veranderingen in organen
MAAR die machine zal nooit betekenisvolle antwoorden kunnen geven op talige vragen vergelijkbaar met de antwoorden van de meest domme persoon
Kunnen computers intelligent gedrag vertonen? Alan Turing (1950): Turing test is een taaltest
Kunnen computers daadwerkelijk met mensen communiceren? John Searl (1990): Chinese room experiment is een
taaltest
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Alan Turing: een intelligentietest voor computers Zonder visueel contact Communicatie in natuurlijke taal met een andere
persoon en met een computer. Je mag vragen wat je wil Wie is de computer and wie is de mens? Turing dacht dat het 50 jaar zou duren voor dat
computers redelijk zouden scoren op deze test. Maakt het niet uit hoe de computer er in slaagt om
de ondervrager ‘voor de gek te houden’.
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
John Searl: domme machine kan toch slagen voor de test Chinese Room Experiment:
Iemand die geen Chinees spreekt zit opgesloten in een kamer
Een spreker van het Chinees stelt vragen in het Chinees op een stuk papier en geeft die door een opening zonder verder contact aan de persoon in de kamer
De persoon in de kamer stelt een antwoord op in de vorm van een reeks Chinese karakters door de instructies op te volgen uit een handleiding in zijn eigen taal, zonder verder begrip van het onderwerp
De Chinese spreker zal de indruk hebben dat de persoon in de kamer hem begrijpt en Chinees spreekt
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Menselijke dialoog zonder begrip
Eliza Jospeh Weizenbaum: http://www-ai.ijs.si/eliza/eliza.html Parafraseert wat iemand intypt Wekt de illusie dat je praat met een heel geduldige en
vriendelijke therapeut. Eliza is bedoeld als een parodie.
Alice bot: Animated characters: http://www.alicebot.org/ Meer animatie, meer begrip maar niet nuttig
Nutteloze dialoog met Alice-bot
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Vaagheid en meerduidigheid is inherent aan taal
Taal medieert tussen de verwachtingen van de Spreker en de Hoorder => een half woord is genoeg
Taal is nooit volledig descriptief maar minimaal voldoende: Geen onnodige informatie die al bekend is => gaat uit van
achtergrondkennis Minimale set van woorden en uitdrukkingen om geheugen
te ontlasten => woorden en uitdrukkingen hebben meerdere betekenissen
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Concept in ons hoofd
Plato met baard
"gavagai"
W.V.O.Quine (1964): inscrutability of reference
konijn met worteltjes en rozemarijn
goddelijke verschijning ter aankondiging van de lente
knuffeldier
Echt begrip is fundamenteel onmogelijk
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Het is onmogelijk om betekenis formeel te definiëren maar: Mensen communiceren... Mensen communiceren met computers... Als taal maar effectief is:
betekenis = het gewenste effect hebben ! Link taal aan bruikbare inhoud !
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Het heeft zin om betekenis te verankeren!
Verankering vindt al plaats overal op de wereld door standaardizatie: maten en eenheden: meter, liter, kilo terminologische databases, juridische definities, contracten internationale samenwerking ontologieën: definitie van betekenis van concepten in een
formeel kennisrepresentatie systeem, (1st order logic) zodat een computer ermee kan redeneren
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Hoe kunnen we de betekenis van woorden verankeren? Aan elkaar:
semantic network or wordnet Aan logische implicaties:
een formele ontologie
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Relationeel model van betekenis
man woman
boy girl
cat
kitten
dog
puppy
animal
man
woman
boy
girl
cat
kitten
dogpuppy
animal
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Wordnet van semantisch gerelateerde woorden Ontwikkeld door George Miller en zijn team aan de
Princeton University, als de implementatie van een model van het mentale lexicon
Notie van een synset: set van synoniemen in een taal die samen een concept vormen
Semantische relaties tussen concepten 115,000 concepten en 130,000 Engelse woorden
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Wordnet van semantisch gerelateerde woorden
{conveyance;transport}
{vehicle}
{motor vehicle; automotive vehicle}
{car; auto; automobile; machine; motorcar}{bumper}
{car door}
{car window}
{car mirror} {armrest}
{doorlock}
{hinge; flexible joint}
{cruiser; squad car; patrol car; police car; prowl car}
{cab; taxi; hack; taxicab}
ENGLISHCar…
Train…
Vehicle
Inter-Lingual-Index
English Words
vehicle
car train
1
2
3 3
Czech Words
dopravní prostředník
auto vlak
2
1
French Words
véhicule
voiture train
2
1
Estonian Words
liiklusvahend
auto killavoor
2
1
German Words
Fahrzeug
Auto Zug
2
1
Spanish Words
vehículo
auto tren
2
1
Italian Words
veicolo
auto treno
2
1
Dutch Words
voertuig
auto trein
2
1
Wordnet familie
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Van EuroWordNet naar Global WordNet Global Wordnet Association:
http://www.globalwordnet.org Bi-annual conference: India (2002), Czech (2004),
Korea (2006), Hungary (2008), .... Op dit moment zijn er wordnets voor meer dan 40
talen, waaronder:Arabic, Bantu, Basque, ...., Chinese, Bulgarian, Estonian, Hebrew, ...., Icelandic, Japanese, Kannada, Korean, Latvian, Latin, ....Nepali, Persian, Romanian, Sanskrit, Tamil, Thai, Turkish, .... Zulu
Veel talen genetisch en typologisch ongerelateerd Woorden verankerd aan elkaar en alle wordnets aan
het Engels
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Many-to-many relaties Dutch: versiersel near_synonym versiering English: decoration.
Gaps in het Engelse WordNet: genuine, cultural gaps: onbekend in de Engelse cultuur:
Dutch: klunen, to walk on skates over land from one frozen water to the other
pragmatic gaps: het concept is bekend maar niet uitgedrukt door een gelexicaliseerde uitdrukking in het Engels:
Dutch: kunstproduct = artifact substance <=> artifact object Dutch: koffiewater, theewater = water for making coffee or tea
CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat de relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek
Engels als Inter-Lingual Engels als Inter-Lingual IndexIndex
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Nadelen van het model
Constructie is niet uniform Dekking verschilt Veel van de kennis is dubbel Geen duidelijke scheiding wereldkennis en talige kennis Complexe en obscure equivalentie relaties als gevolg
van de linguïstische verschillen tussen Engels en andere talen
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Inter-LingualOntology
Device
Object
TransportDeviceEnglish Words
vehicle
car train
1
2
3 3
Czech Words
dopravní prostředník
auto vlak
2
1
French Words
véhicule
voiture train
2
1
Estonian Words
liiklusvahend
auto killavoor
2
1
German Words
Fahrzeug
Auto Zug
2
1
Spanish Words
vehículo
auto tren
2
1
Italian Words
veicolo
auto treno
2
1
Dutch Words
voertuig
auto trein
2
1
Next step: Global WordNet Grid
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Global Wordnet Grid Formele, kunstmatige ontologie die dient als een
universele index van betekenis De lijst van concepten is niet alleen gebaseerd op de
woorden van een enkele taal maar op grond van ontologische observaties:
Lexicalizatie in een taal is niet voldoende reden om een concept op te nemen in de ontologie
Lexicalizatie in alle of veel talen kan voldoende zijn Concepten gerelateerd in een type hierarchie Concepten gedefiniëerd met axioma's: Knowledge
Interchange Format (KIF) gebaseerd op first order predicate calculus en atomaire elementen
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Specieke honden in Wordnet: bokser; mopshond; pekinees; poedel; teckel pup; reu; teef straathond; blindengeleidehond; bullebijter;
diensthond; gashond; jachthond;lawinehond;schoothond;waakhond
Gebruikt identiteitscriteria om te bepalen wat de dingen in de werkelijkheid zijn, bijv.: rigiditeit: in wat voor mate zijn eigenschappen waar in
alle mogelijke werelden? Een mens ben je altijd, een student, reiziger kun je tijdelijk
zijn. Je bent of een teckel of een poedel, maar iedere teckel en
poedel kan ook een waakhond zijn, of een schoothond.
Concepten door ontologische observatie
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Ontologie versus wordnet/lexicon Taalonafhankelijke hiërarchie van (Semi-)rigide types:
Canine PoodleDog; NewfoundlandDog; GermanShepherdDog; Husky
Wordnet: NAMES for TYPES:
{poodle}EN, {poedel}NL, {pudoru}JP
((instance x Poodle) LABELS for ROLES:
{watchdog}EN, {waakhond}NL, {banken}JP
((instance x Canine) and (role x GuardingProcess))
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Eigenschappen van de ontologie Minimaal: termen onderscheiden op grond
van essentiële eigenschappen Compleet: omvat alle distinctieve concepten
van alle talen Accepteert definities in KIF van alle
woorden die niet-rigide, niet-essentiele eigenschappen benoemen
Logisch valide: maakt redeneren mogelijk
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Ontologie versus Wordnet
Niet toevoegen aan de type hierarchie:{straathond}NL (a dog that lives in the streets) ((instance x Canine) and (habitat x Street))
Toevoegen aan de type hierarchie:{klunen}NL (to walk on skates from one frozen body to the
next over land)KluunProcess => WalkProcessAxioms:(and (instance x Human) (instance y Walk) (instance z
Skates) (wear x z) (instance s1 Skate) (instance s2 Skate) (before s1 y) (before y s2) etc…
Nationale gerechten, gewoontes, spelen,....
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Meeste woorden zijn geen typen {zeewater}NL en {rivierwater}NL vele andere
woorden voor water:{theewater}NL (water used for making tea)
{koffiewater}NL (water used for making coffee)
{bluswater}NL (water used for making extinguishing file)
Linguïstische eigenaardigheden: gender, perspective, aspect, diminutives,
politeness, pejoratives, part-of-speech constraints
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
{teacher}EN
((instance x Human) and (agent x TeachingProcess))
{Lehrer}DE ((instance x Man) and (agent x TeachingProcess))
{Lehrerin}DE ((instance x Woman) and (agent x TeachingProcess))
KIF expressies voor markering van geslacht
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
KIF expressies voor perspectief
sell: subj(x), direct obj(z),indirect obj(y) buy: subj(y), direct obj(z),indirect obj(x)
FinancialTransaction(and (instance e FinancialTransaction) (instance x Human)(instance y Human) (instance z Entity) (source x e) (destination y e) (patient z e)
Hetzelfde proces maar een ander perspectief door subject en object realizaties: marry in Russisch 2 wwoorden, apprendre in het Frans voor zowel teach als learn
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Voordelen van de Global Wordnet Grid Gedeelde en uniforme wereldkennis:
universele inferenties uniforme tekstanalyse en -interpretatie
Meer compacte en minder redundante databases
Duidelijk hoe taal relateert aan kennis: betere criteria voor de expressie van kennis betere criteria om variatie te ondervangen
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Mogelijkheden voor taaltechnologie
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Ontologie
Tekst
Objectenin werkelijkheid
Gedachte
Uitdrukking
携帯電話(keitaidenwa )
Kennis &informatie
Bruikbaar en effectief gedrag:-redeneer over kennis-verzamel informatie en data-lever nuttige diensten
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Synoniemen,Wordnets
thesaurus
golfclub(s)
Tiger
Woods
golf
sticks
Taaltechnologie: a hole in one!
golfclubs
Linguistische analyse
Golf at the club
clubs
for golf
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
hond
waakhond
poedelstraathond
teckelschoothond
kortharige teckel
langharige teckel
Expansie van type naar rollen
jachthond
Expansie met zuivere hyponymierelaties
pup
reu
teef
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
hond
waakhond
poedelstraathond
teckelschoothond
kortharige teckel
langharige teckel
Expansie van rol naar types en andere rollen
jachthond
Expansie met zuivere hyponymierelaties
pup
reu
teef
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Automotive ontology: (http://www.ontoprise.de)
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Wie gebruikt ontologische kennis?
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Dialoog systeem
DialoogManager
• Kan ik u helpen?• Mijn koptelefoon is kapot.
• Ik wil een nieuwe kopen.
• Wilt u reparatie of producten?
• Kunt u meer vertellen over de producten?
• Het is voor mijn GSM
• Kun je meer details geven?
• Het is een Nokia 6110• Ik heb de volgende accessoires voor u. Bekijk ze eens.
GebruikersModel-Intentie-Satisfaction-Emotie
InformatieStaat:-Positief-Negatief-Relaties
• Dat is niet wat ik zoek!
VraagAnalyse
Onderwerpstypering
ZoekMachine
reparatie
informatie
accessoires
producten
Website
TekstAnalyse
Woord
mobiel
koptelefoon
Concept
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Voorkomt deadlocks (hopeloos vastzitten): Detecteert vaagheid en ambiguïteit (welke betekenis van band?) Detecteert veranderingen van onderwerp Gebruikt negatieve informatie: “Geen muziekband, ik zoek
fietsbanden!” Kan out-of-domain vragen aan (gebruikers weten niet wat het
systeem weet): "We hebben geen hotelkamers maar wel electronische apparaten". "Nee, we hebben geen portofoons maar wel andere elektronische
apparaten zoals mobiele telefoons"
Communicatief dialoogsysteem
hotelkamer
kamer
ruimte
apparaat
mobiele telefoon portofoon
voorwerp
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Dank u voor uw aandacht
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Engels als Inter-Lingual-Index Wat is een woord en wat is een concept? Engelse lexicalisatie patronen:
knippen = cut with scissors snijden = cut with knife
Is ieder woord ook een concept? fijnstampen; fijnwrijven; fijnknijpen
Is iedere woordcombinatie ook een concept? kunstmatige producten => artifacts in het Engels gebruiksvoorwerpen om iets te bevatten =>
containers in het Engels CONCLUSIE: lexicon van een taal is geen goed uitgangspunt
omdat de relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek
45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27
Oktober 2007
Indexeer concepten i.p.v woorden
Betekenis van een woord in context: Onderwerp van een document:
Juventus => football Onderwerp van een paragraaf/zin:
transfer scandal => business, crime Frase (linguistically-motivated combination of words):
[wing player]football player in [police cell]jail
[chicken wings]dish Onderwerp van een vraag:
Can I order chicken wings? => food