Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē Normunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Latviešu leksikoloģija, leksikogrāfija un terminoloģija Apvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress Rīgā, 2011. gada 25. oktobrī
17
Embed
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
Normunds GrūzītisGunta Nešpore
LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija
Latviešu leksikoloģija, leksikogrāfija un terminoloģijaApvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress
Rīgā, 2011. gada 25. oktobrī
Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
Ko piesaista (lietojumā), nevis kas piemīt (tipiski)
MULTEXT-East pazīmju kopas atvasinājums, ņemot vērā:- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā- pieredzi latviešu valodas sintaktiskajā analīzē- pieredzi latviešu valodas ģenerēšanā (sintēzē)- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi- latviešu valodniecības tradīciju
Piemērs
pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli
piem., “daudzstāvu” – Ncmpg
pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski
Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. Nauka i Izkustvo, 1984
miljons-2.03,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem.
~3,5 milj. nē
miljons–2.0mlīdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; morfoloģiskais marķējums nav precīzs, jo nav novērsta daudznozīmība
~3,5 milj. jā
Saeima-2.0Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem
22,5 milj. nē
timeklis-1.0liels latviešu valodas tīmekļa korpuss ar daļēju morfoloģisko marķējumu