Top Banner
Természetes nyelvek
37

Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

May 10, 2019

Download

Documents

dokien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Természetes nyelvek

Page 2: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

TartalomNyelvtechnológia elmélete

Nyelvtechnológiai alkalmazásokMorfológiai elemzésEgyértelműsítésMondatelemzésSzemantikaSzöveggenerálásDiskurzus-reprezentáció

Számítógépes alkalmazásokUnifikációs nyelvtanStatisztikai feldolgozásSzövegkorpuszokLexikonok és szótárakSzöveglétrehozásNyelvazonosításSzámítógépes fordítás

Egy intelligens webböngésző

Page 3: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Számítógépes alkalmazásai

Nyelvhelyesség ellenőrzőkAutomatikus elválasztókBeszédfelismerőkSzöveg-visszakeresőkAutomatikus szövegkivonatolókSzámítógépes fordítók

Page 4: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Nyelvtechnológiai alkalmazásokNyelvfeldolgozás feladata: a szövegek aktuális nyelvi szintnek megfelelő gépi reprezentációja.Alkotóelemei:

formalizált nyelvtan : lexikális részszabályrendszer

ezt kezelő programMegkülönböztetünk:

Morfológia vagy alaktanSzintaxis vagy mondattanSzemantika vagy jelentéstan

Nem beszélhetünk emberi szinten történő szövegmegértésről.

Page 5: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Morfológiai elemzés

Minimális egységek által hordozott információ -> szótár vagy lexikon:

Minden lehetséges szóalak megadásaSzótő + lehetséges toldalékok, képzők

Problémát jelent a nem egyértelmű szótő és a toldalékok helyes kombinálása

Page 6: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Koskenniemi-féle kétszintes morfológia

a formalizmus lexikonból és szabályokból áll.Lexikon = szótő + toldalék - > reguláris kifejezésI. Szint : nyelvi elemek lexikális reprezentációiautó + Ak + bAn

II. Szint : szóalakok felszíni reprezentációiautó + 0k + ban

A szabályok a két szint közti átmenetet definiáljákAkkor és csak akkor nincs kötőhang a többes szám –k jele

előtt, ha a tő utolsó hangja magánhangzó

Hatékonyan implementálhatóKétirányú = elemzés + generálásHelyesírás- ellenőrzésre használják

Page 7: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Egyértelműsítés

A szavaknak többféle felbontása lehetMódszerei:

Szabályalapú: nem minden esetben használható, de ha igen kevés hibát követ el. Pl.: címkézet zárójelezés

A mondat nagy részének elemzését végziPélda:

Valószínűségi: minden esetben tud dönteni, de gyakrabban téved. Pl. HMM.

Page 8: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

MondatelemzésFelmerülő nehézségei:

Bonyolult szerkezetű mondatokIsmeretlen szavak vagy szerkezetekEgyértelműsítés

Népszerű modell Noam Chomsky generatív grammatikája:

Definíció: G = (N,T,P,S)N , T – nem terminális és terminális szimbólumok halmazaP – szabályok, S – kezdőszimbólum

Végtelen sok mondat leírható egy véges szótár és egy szabályrendszer segítségévelHasznált elemzési technika: LR(k) nyelvek

Page 9: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Mondatelemzés

Problémát jelent a metaforikus szóhasználatMegoldása lehetne a szótár nyitottá tételeEzáltal már nem fog tartozni Chomsky modelljéhezViszont csak bizonyos szófajú szavak kerülhetnek később a szótárba - > minimálnyelvtan, amit nem lehet nyitott osztállyal definiálni, és lesz a lexikonnak egy nyitott része.

Page 10: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Szemantika

Szükség van atomi jelentésekre és ezek kombinálási szabályairaAlkalmazott formalizmusok:

Elsőrendű predikátumkalkulusMontague nyelvtanokszituációs szemantika (Barwise 1983)frissítő szemantikadinamikus szemantikadiskurzus- reprezentációs elmélet

Page 11: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

KeretszemantikaTudásreprezentációban használt kerethez hasonló információk alapján történik a feldolgozásKeret (frame): sztereotip szituációkat jellemző ismeretrendszer

vesz, elad, fizet, kerül stb.pénz, fizetés, kereskedő, vásárló stb.

Forgatókönyv (script): adott kerethez tartozó esemény részeseményeinek sorrendjét határozza meg

Senki nem tud venni, amíg valaki más nem akar eladniFejlettebb modellek figyelembe veszik a szereplők céljait és a célok között fennálló viszonyokat

Péternek nagy adósságai voltak. Péter eladta a kocsiját.Kérdés: Miért adta el Péter a kocsiját? Válasz: Mert nagy adósságai voltak.

Page 12: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Szöveggenerálás

Számítógépben tárolt ismeretek természetes nyelven történő megfogalmazása.Nehézségei:

a hosszabb koherens szövegek generálása, a létrehozás tervezési lépéseinek a kidolgozása.lexikonbeli elemek helyes kiválasztása (szinonimák)mondatok összefűzése, úgy hogy ne legyen köztük törés - > mondattervezés

Page 13: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Diskurzus-reprezentációKamp elmélete (1981):

minden D szöveghez tartozik egy diskurzus-reprezentáló szerkezet, amely D-t kvantormentes klóz-alakban ábrázoljaszöveg-reprezentációs szerkezet alakja: DRS=<REF, FELT>, ahol REF a DRSszövegreferenseinek, Felt pedig az egyedekre vonatkozó feltételeinek halmazaa mondat rendszerbeli reprezentációja valamilyen DRS-ken operáló függvény lesz

számítógéppel való ábrázolása:a DRS egy állománydiskurzusreprezentáció egy kártya.

Legyen a következő diskurzus:„András orvos. Ha egy orvosnak van számítógépe, akkor játszik vele.”

X1: {X1=Andrásorvos(X1) }

X1, X2: {orvos(X1)számítógép(X2)birtokol(X1, X2) } =>

{ játszik(X1, X2) }

Page 14: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

TartalomNyelvtechnológia elmélete

Nyelvtechnológiai alkalmazásokMorfológiai elemzésEgyértelműsítésMondatelemzésSzemantikaSzöveggenerálásDiskurzus-reprezentáció

Számítógépes alkalmazásokUnifikációs nyelvtanStatisztikai feldolgozásSzövegkorpuszokLexikonok és szótárakSzöveglétrehozásNyelvazonosításSzámítógépes fordítás

Egy intelligens webböngésző

Page 15: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Unifikációs nyelvtanUnifikációs formalizmusok:

FejnyelvtanLexikális funkcionális nyelvtanFabővítő nyelvtanKategoriális unifikációs nyelvtan

A nyelvi elemeket attribútum- érték párok halmazaként reprezentálják: jegy- együttesekAlulspecifikáltság: egy adott jegy jelen van, de értéke nem vagy csak részben meghatározott. Változókat is használhatunk

pl. alany és állítmány számának egyeztetéséreUnifikáció = nyelvtani információk összeegyeztethetőségét vizsgálja

Page 16: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Statisztikai feldolgozás

Nyelvfeldolgozás = információátvitel zajos csatornánA módszer alapelemei:

Átviteli modell = felismert kimenet valószínűségeNyelvmodell = egyes üzenetrészek adott környezetben való előfordulási valószínűségei.

Legnépszerűbb alkalmazott modell a rejtett Markov-modell (HMM)

a mondat szavai lesznek az észlelt állapotoka szintaktikai osztályok (főnév, ige) a rejtett állapotoka cél: a mondat minden egyes szavára a legvalószínűbb osztály megtalálása

Page 17: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Szövegkorpuszok

Gépi nyelvfeldolgozás számára összegyűjtött szövegek együttese.Az egyes szavak különböző helyzetben való előfordulásainak tanulmányozására használják.Párhuzamos korpuszok = eredeti szöveg és a fordítása.Módszereire elsősorban valószínűségi és statisztikai módszerek jellemzőek

Pl. Olyan szerkezetekre alkalmazzák mint: erős légy

Page 18: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Lexikonok és szótárak

Lexikális tudás = a nyelv szavainak, kifejezéseinek ismerete.Szótár = lexikális elemek listája + morfoszintaktikai, szemantikai, fonológiai viselkedésüket leíró jegyek összessége - > szükség van egy jegyleíró formalizmusra.A reprezentációs nyelv szabványosítása az SGML (Standard Generalized Markup Language), szótárak leírásához pedig a TEI (Text Encoding Initiative) - > formától függetlenül lekérdezhetővé válnak az egyes mezők és kombinációik.

Page 19: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Terminológiai adatbázisok

Terminus = szakiránytól függő, akár teljesen más jelentéssel bír, állandóan születőben van.Terminológiai adatbázisok dinamikusak.Jellemzőek a soknyelvű adatbázisok.A fogalmak egy fogalmi hálózat megfelelő relációkkal elérhető csomópontjaként jelennek meg. Jellemzésük tezaurusz-deszkriptorokkal, szinonimákkal, rövidítésekkel, definíciókkal, képekkel, relációkkal stb. történik.

Page 20: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Szöveglétrehozás

Szerzői eszközök: helyesírás ellenőrző, elválasztó, nyelvtani ellenőrző, szinonima szótárak.Hibák:

Billentyűzeten való melléütésből származó (környező betűk elhelyezkedése szerint)Magyar- angol billentyűzeten való y- zeltérésMagyar ékezetes betűk szabványos vagy nem szabványos elhelyezéseBeszéd írásra való hatása „azt írjuk, amit mondunk”

Page 21: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Más műveletekAutomatikus elválasztás

A szó minden lehetséges elemzését ismernünk kell. Pl. LegelőreAz elválasztó úgy működjön, hogy jelenléte alig észrevehető legyen -> nem interaktív. A kézi elválasztás lehetősége biztosított kell legyen.

Keresés:Egy szó minden alakjának felismerése.Probléma: a szavak nincsenek szótári alakban -> a mechanikus rendszerek gyakran tévednek.

Nyelvhelyesség ellenőrző:Egyenlőre csak szóellenőrzőkről beszélhetünk.

Page 22: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Más műveletek

Szöveg- visszakeresés:Fontos a szinonimák illetve különböző nyelvekre történő fordítások közti keresés isa szemantikát is figyelembe kell vennünk. Pl. Kutya –Kosárlabda EB

Automatikus szövegkivonatolás:Célja a szöveg tartalmának kevesebb mondatokkal való kifejezése.Reális cél a szöveg releváns mondatainak kiemelése, és koherens szöveggé alakítása.A kiválasztás statisztikai alapon vagy kulcsszavak alapján

történik.

Page 23: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Nyelvazonosítás

Feladat: a fordításnak a gépi, illetve géppel támogatott létrehozása, továbbá a forrás- és a célszövegek szinkronizálása a későbbi feldolgozás számára. Elsősorban statisztikai alapon történik:

Nyelvek legrövidebb szavainak eloszlását figyelikEgyes szó és karaktersorozatok gyakoriságaNyelvre jellemző speciális karakter és karakterkombinációk megfigyelése.Legelterjedtebbek a trigram-modellek, egymást követő betűhármasok gyakoriságainak megfigyelése.

Page 24: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Számítógépes fordítás

Gépi fordításhoz használt számítógépes eszközök csoportosítása:

Teljesen automatizált gépi fordítás (TAGF)Közvetlen emberi beavatkozás nélkül működő rendszerek Legfeljebb technikai szövegek felszínes fordítására alkalmas.

Ember támogatta gépi fordítás (ETGF)A gép a felhasználó segítségével ad választ a többértelműségekre és bizonytalanságokra.

Gép támogatta emberi fordítás (GTEF)Hagyományos emberi fordítást jelent.A fordító segédeszközei egy írógép és szótár funkcióját betöltő hatékony számítógépes rendszer.

Page 25: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Gépi fordítás csoportosításaProduktív:

a fordítás célnyelvén a mondatokat a program maga szintetizáljatechnikai előkészítését a kontrollált nyelvi eszközök végzik.Lehet:

Közvetlen, ha a forrásnyelv analízise és a célnyelv szintézise függőKözvetett, ha független, ez továbbá lehet

interlingvális fordítás transzfer fordítás

Mintaalapú hacsak kikeresi a forrásnyelv mondatai közül a leghasonlóbbat és annak „konzerv”-fordítását adja meg.a forrásnyelv mondatait ún. fordítómemóriákban tároljákelsősorban fordítómemóriákat és a velük társítható fejlesztéseket jelenti

Page 26: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Produktív fordítási technikák

Közvetlen fordítás:Közvetítő nyelv segítségével:

Transzfer módszer:

Page 27: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Nem teljesen automatikus fordítás

Felhasználó bevonása a fordítási folyamatba.Cél:

meglévő fordítások hatékony felhasználásaFordítói munkaállomások:

kétnyelvű szótárakszaknyelvi terminológiai adatbázisokfordítómemóriákvalódi gépi fordító rendszerek elérését is lehetővé teszik.

Page 28: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

TartalomNyelvtechnológia elmélete

Nyelvtechnológiai alkalmazásokMorfológiai elemzésEgyértelműsítésMondatelemzésSzemantikaSzöveggenerálásDiskurzus-reprezentáció

Számítógépes alkalmazásokUnifikációs nyelvtanStatisztikai feldolgozásSzövegkorpuszokLexikonok és szótárakSzöveglétrehozásNyelvazonosításSzámítógépes fordítás

Egy intelligens webböngésző

Page 29: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

A LEXXE böngésző

Elérése: www.lexxe.comTeszteljük a következő kérdésekkel:

Who did Bill Gates marry? Who was killed by Lee Harvey Oswald? Who is the best actress in the world? Who assassinated President Lincoln?How old is Yahoo?

A Google találatainak száma erre a kérdésre 64 000 000.Hasonlítsuk össze a Google válaszaival ugyanezekre a kérdésekre?

Page 30: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni
Page 31: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

A LEXXE tulajdonságaiKonkrét kérdésre konkrét választ ad, és a válaszon túl megjelenít néhány oldalt, ahonnan további információkat lehet kapni.Különböző típusú szövegeket tud azonosítaniSzintaktikailag és szemantikailag elemezKépes a többértelműség feloldására a szövegkörnyezet felhasználásával.Képes megérteni a felhasználó szándékát és annak megfelelően válaszolni.Mindezek eredménye nagyon pontos és kielégítő válaszok.Szerzője egy számítógépes Enciklopédiát akart tervezni, amely kommunikál az emberrel egy adott témakörben.Harmadik generációs kereső- e a LEXXE?

Page 32: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

A LEXXE képességei

A bemenetet nyelvként kezeli nem szimbólumokkéntRendelkezik nyelvmegértő képességgelNem képes szinonimák helyettesítéséreA válaszadás statisztikus módszerek segítségével történikMegszorítás: a kérdések legfeljebb 10 szóból állhatnak, különben nem tudja jól elemezni aztFelismer lakcímeket, képzettségre és foglalkozásra vonatkozó információkat

Page 33: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Nyelvfeldolgozási elemeiAmit a tervezői közzétettek:

Szövegfelismerő tehnológia20-40%-kal növeli meg a keresés hatékonyságát

Egy minimális dialóguskezelés is van benne, a kérdésekre adott válaszadás kapcsánKlaszterezés (csoportosítás)

Nem hierarchikus csoportosítást használ, hanem a generált csoportok alapján újabb kereséseket végez.

Ami még kell legyen benneSzövegkivonatolás egyaránt kérdésből és a megtalált szövegekből

Page 34: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni
Page 35: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

A LEXXE válaszadó rendszere

A válasz generálásának lépései:A kérdést átalakítja egy állítássáAz állítás nem releváns elemeit elhagyjaMeghatározza a válasz legvalószínűbb témakörét. Információ-visszakereső rendszer segítségével megkeresi a témához kapcsolódó dokumentumokatHa valamelyik dokumentum valamelyik mondatának egy része illeszkedik a kapott állításra, azt találatként megjelöliNyelvészeti és statisztikai feldolgozás segítségével értelmes válasszá alakítja a találatokat.Statisztikailag meghatározó szavak és szövegrészek alapján megadja a végső választ.

Page 36: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

ÖsszefoglalóNyelvfeldolgozás elemei:

SzótárTerminológiai adatbázisSzöveg- visszakeresőkSzemantikus elemzőNyelvhelyesség ellenőrzőkAutomatikus elválasztókNyelvazonosítókSzámítógépes fordítókAutomatikus szövegkivonatolókSzöveggenerálókDiskurzus- reprezentálókBeszédfelismerők

Page 37: Természetes nyelvek - cs.ubbcluj.rocsatol/mestint/diak_pdf/2005/reizbea.pdf · Senki nem tud venni, amíg valaki más nem akar eladni

Végül Hong Liang Qiao, a LEXXE tervezőjének szavai „In the next 5-10 years time, search

engines will not be like Google and Yahoo today. They will just be something like LEXXE, a 3rd generation search engine, which are more intelligent and good at understanding human language.„