KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek
Jan 10, 2016
KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid:
murdetekstid elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist Murdekorpus sisaldab: murdelindistusi,
foneetilises ja lihtsustatud transkriptsioonis murdetekste, morfoloogiliselt märgendatud tekste, andmeid keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
<u who="KJ1">
<mark><sne>rehe+tuas</sne><msn>rehe+tuba</msn><mrf slk=“S">sg in</mrf></mark>
<mark><sne>oli</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark>
<mark><sne>ahi</sne><msn>ahi</msn><mrf slk=“S">sg n</mrf></mark></u>
MILLEKS ON LAUSESTAMIST VAJA? (1)
<u who=KJ> noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole pääva läks ära (...) vaest ol'i (.) viel kalevi ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.) tema `akkas neid `kiar+buid `kiskuma nagu (...) villane `ikke (.) kisub `kokku (...) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast ja kõikke olen (.) paelu teind (...) neid `kangaid (...) </u>
MILLEKS ON LAUSESTAMIST VAJA? (2)1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva
(.)2) kui ol'i pikk ka~ngas3) `ikke puole pääva läks ära (...)4) vaest ol'i (.) viel kalevi ka~ngas5) sie `kangeste (.) ol'i paha (...) `kiarida (.)6) tema `akkas neid `kiar+buid `kiskuma7) nagu (...) villane `ikke (.) kisub `kokku (...)8) jahh (.) aga siss (...) jahh (...) mina olen ikke
kot'ti=ka~ngast ja=ja labast9) ja kõikke olen (.) paelu teind (...) neid `kangaid
(...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid Lausepiirid seati
erinevate kõnevoorude, pikkade pauside, küsi- ja sidesõnade ning finiitverbide järgi.
NÄIDE (1)
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa `Jakpille sii
1. ta Palalt ärä läks2. läks As'sikvere `küllä `Puuspa `Jakpille
sii
NÄIDE (2)
<mark><sne>mull</sne><msn>mina</msn><mrf slk="ProS">sg ad</mrf></mark>
<mark><sne>ol'i</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark>
<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>
<mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>
<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>
<mark><sne>ja</sne><msn>ja</msn><mrf slk="Konj"/></mark>
<mark><sne>`ol'lin</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>
<mark><sne>kolm+gümmend+seitse</sne><msn>kolm+kümmend+seitse</msn><mrf slk="Nump">sg n</mrf></mark>
<mark><sne>`aastad</sne><msn>aasta</msn><mrf slk="S">sg p</mrf></mark>
<mark><sne>vana</sne><msn>vana</msn><mrf slk="A">sg n</mrf></mark>
<mark><sne>kui</sne><msn>kui</msn><mrf slk="Konj"/></mark>
<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>
<mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>
LAUSESTAMISMEETODI TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi Saagis (õigesti moodustatud ja
tegelikult olemasolnud osalausete suhe) 87,7% ja täpsus (õigete osalausete ning programmi poolt tekitatud osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1) poes'id läksid `alla `jõele `suplema ja
kalale
1. poes'id läksid `alla `jõele `suplema ja 2. kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1. nüd üks rän- *rändav *tiislar ol- oli se2. *üöldi viel *ilma *tiislarist see3. ehittas *selle *värgi nii *muidugi puust
4. sa esi teit tõise üttelnu sõss5. kannatta esi kahh
ÜHENDVERBIDE LEIDMINE MURDEKORPUSEST Aluseks eelnevalt osalausestatud tekst Kaheliikmelised kombinatsioonid kõigi
sõnadega osalause sees Eraldatakse adverbi ja verbi ning
afiksaaladverbi ja verbi ühendid Stopp-sõnade loend Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA KIRJAKEELES
2876 erinevat ühendverbi 1065 murrete ühendverbi puudusid
kirjakeele püsiühendite andmebaasis (690 esines murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama, ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid tähendusi
Samal ühendverbil eri murretes erinev tähendus (vastu võtma)
ÜHENDVERBE MOODUSTAVAD AFIKSAALADVERBID 15 sagedasemat ühendverbi moodustav
at afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses vastavuses leitud ühendverbide hulga ja tulemuse mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal analüütilisemad kui teised