Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Post on 29-Jul-2015

842 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

Transcript

Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Normunds GrūzītisGunta Nešpore

LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija

Latviešu leksikoloģija, leksikogrāfija un terminoloģijaApvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress

Rīgā, 2011. gada 25. oktobrī

Īsumā...

• Pilnīga informācija par vārdu = korpuss + vārdnīca– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu

korpusā• www.korpuss.lv• Morfosintaktiskais marķējums

– Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā

• Korpuss vārdnīca

Informācija par vārdu

1. Formas apraksts – korpuss

2. Leksēmas apraksts – vārdnīca

3. Cita (neskaidra, nevēlama) informācija

• Korpuss: deskriptīvs valodas apraksts– faktiskais lietojums– no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes

• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi– vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes

īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija, ...

Pazīmes

Morfosintaktiskas

MorfoloģiskasSintaktiskas

Leksēmas p.

Korpusā izmantoto pazīmju kopa

Vārdnīcā iekļaujamās leksēmas pazīmes

Ko piesaista (lietojumā), nevis kas piemīt (tipiski)

MULTEXT-East pazīmju kopas atvasinājums, ņemot vērā:- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā- pieredzi latviešu valodas sintaktiskajā analīzē- pieredzi latviešu valodas ģenerēšanā (sintēzē)- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi- latviešu valodniecības tradīciju

Piemērs

pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli

piem., “daudzstāvu” – Ncmpg

pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski

Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. Nauka i Izkustvo, 1984

Marķējumā neiekļautās pazīmes:- kopdzimte- vsk-nieks, dsk-nieks- ģenitīvenis, nelokāms- deklinācija

tradicionālivs.

formāli

Korpusa un vārdnīcas mijiedarbība

• Vārdnīca pilnīga gramatiskā informācija par leksēmu– Precīzai locīšanas paradigmai (t.sk. vārdšķirai) ir jābūt viennozīmīgi

“nolasāmai” vai izsecināmai

• Informācijas atainojums galalietotājam (rādīt/nerādīt, formatējums, secība u.tml.) – sekundārs jautājums

– Mašīnlasāma vārdnīca drukāta, tiešsaistes, mobilā, CD, … vārdnīca

– Dators = “ārzemnieks” (!)

morfosintaktiskās pazīmes

leksēmas pazīmes leksiskā

nozīme

sintaktiskā struktūra

vārdlietojumsdimens. #1

dimens. #2 dimens. #3

dimens. #4

Pieejamie korpusi

Nosaukums Raksturojums

Vārdlie-tojumu

skaits

Morfo-

loģiski marķēts

miljons-2.03,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem.

~3,5 milj. nē

miljons–2.0mlīdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; morfoloģiskais marķējums nav precīzs, jo nav novērsta daudznozīmība

~3,5 milj. jā

Saeima-2.0Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem

22,5 milj. nē

timeklis-1.0liels latviešu valodas tīmekļa korpuss ar daļēju morfoloģisko marķējumu

~97 milj. jā

ledusmanuāli morfoloģiski marķēts paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)

~14 000 jā

sintaktiski anotēts paraugkorpuss

izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik.morf. un

sint. marķēts

Zifa likums

> 100 milj. vārdlietojumu korpuss

Korpuss vārdnīca

• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca

• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas– “man liekas ka” vs. “faktiski ir tā”

– statistika

– lietojumpiemēri

• biežākie (tipiskie) savienojumi

• stabili vārdu savienojumi

– kolokāciju analīze

– nozīmju dalījums

• piem., valences analīze

Vārdformu biežums

Bonito: Konkordance >> Statistika >> Biežuma sadalījums

Vārdformu biežums

Bonito: Konkordance >> Statistika >> Biežuma sadalījums

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “iet”:- sakārtots pēc relatīvā biežuma

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “iet”:- sakārtots pēc absolūtā biežuma

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “sāpēt”:- sakārtots pēc relatīvā biežuma

Kolokācijas – pēc sintaktiskās valencesBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “skriet”:- pēc dimensijas “tag”

Konkordances kārtošana

Bonito: Konkordance >> Vienkāršā kārtošana (pēc dimensijas “tag”)

Paldies!www.korpuss.lv www.tezaurs.lv

twitter.com/AILab_lvSekojiet jaunumiem:

top related