Top Banner
KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek
21

Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

Jan 10, 2016

Download

Documents

mingan

Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES. Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek. EESTI MURRETE KORPUS. Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid: murdetekstid elekrooniliselt kättesaadavaks teha, - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek

Page 2: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

EESTI MURRETE KORPUS

Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid:

murdetekstid elekrooniliselt kättesaadavaks teha,

võimaldada murrete kontrastiivset uurimist Murdekorpus sisaldab: murdelindistusi,

foneetilises ja lihtsustatud transkriptsioonis murdetekste, morfoloogiliselt märgendatud tekste, andmeid keelejuhtide ning lindistuste kohta

Page 3: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

MURDEKORPUSE XML-s FAIL

<u who="KJ1">

<mark><sne>rehe+tuas</sne><msn>rehe+tuba</msn><mrf slk=“S">sg in</mrf></mark>

<mark><sne>oli</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark>

<mark><sne>ahi</sne><msn>ahi</msn><mrf slk=“S">sg n</mrf></mark></u>

Page 4: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

MILLEKS ON LAUSESTAMIST VAJA? (1)

<u who=KJ> noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole pääva läks ära (...) vaest ol'i (.) viel kalevi ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.) tema `akkas neid `kiar+buid `kiskuma nagu (...) villane `ikke (.) kisub `kokku (...) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast ja kõikke olen (.) paelu teind (...) neid `kangaid (...) </u>

Page 5: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

MILLEKS ON LAUSESTAMIST VAJA? (2)1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva

(.)2) kui ol'i pikk ka~ngas3) `ikke puole pääva läks ära (...)4) vaest ol'i (.) viel kalevi ka~ngas5) sie `kangeste (.) ol'i paha (...) `kiarida (.)6) tema `akkas neid `kiar+buid `kiskuma7) nagu (...) villane `ikke (.) kisub `kokku (...)8) jahh (.) aga siss (...) jahh (...) mina olen ikke

kot'ti=ka~ngast ja=ja labast9) ja kõikke olen (.) paelu teind (...) neid `kangaid

(...)

Page 6: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

LAUSESTAMINE (1)

Materjaliks murdekorpuse morfoloogiliselt märgendatud XML-failid

Vahend: UNIX-i shelli skript

Page 7: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

LAUSESTAMINE (2)

Lausestamise reeglid Lausepiirid seati

erinevate kõnevoorude, pikkade pauside, küsi- ja sidesõnade ning finiitverbide järgi.

Page 8: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

NÄIDE (1)

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa `Jakpille sii

1. ta Palalt ärä läks2. läks As'sikvere `küllä `Puuspa `Jakpille

sii

Page 9: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

NÄIDE (2)

<mark><sne>mull</sne><msn>mina</msn><mrf slk="ProS">sg ad</mrf></mark>

<mark><sne>ol'i</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark>

<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>

<mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>

<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>

<mark><sne>ja</sne><msn>ja</msn><mrf slk="Konj"/></mark>

<mark><sne>`ol'lin</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>

<mark><sne>kolm+gümmend+seitse</sne><msn>kolm+kümmend+seitse</msn><mrf slk="Nump">sg n</mrf></mark>

<mark><sne>`aastad</sne><msn>aasta</msn><mrf slk="S">sg p</mrf></mark>

<mark><sne>vana</sne><msn>vana</msn><mrf slk="A">sg n</mrf></mark>

<mark><sne>kui</sne><msn>kui</msn><mrf slk="Konj"/></mark>

<mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark>

<mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>

Page 10: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

LAUSESTAMISMEETODI TULEMUSLIKKUS

Ühendverbide leidmiseks sobib hästi Saagis (õigesti moodustatud ja

tegelikult olemasolnud osalausete suhe) 87,7% ja täpsus (õigete osalausete ning programmi poolt tekitatud osalausete suhte) 88,2%

Page 11: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

LAUSESTAMISMEETODI PUUDUSED (1) poes'id läksid `alla `jõele `suplema ja

kalale

1. poes'id läksid `alla `jõele `suplema ja 2. kalale.

Page 12: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

LAUSESTAMISMEETODI PUUDUSED (2)

1. nüd üks rän- *rändav *tiislar ol- oli se2. *üöldi viel *ilma *tiislarist see3. ehittas *selle *värgi nii *muidugi puust

4. sa esi teit tõise üttelnu sõss5. kannatta esi kahh

Page 13: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

ÜHENDVERBIDE LEIDMINE MURDEKORPUSEST Aluseks eelnevalt osalausestatud tekst Kaheliikmelised kombinatsioonid kõigi

sõnadega osalause sees Eraldatakse adverbi ja verbi ning

afiksaaladverbi ja verbi ühendid Stopp-sõnade loend Saagis (kui suur osa olemasolevatest

ühendverbidest õnnestus leida) 98% ja täpsus (kui suur osa leitud ühendverbidest on korrektsed) 78%

Page 14: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

VÕRDLUSMATERJAL

Ühendverbid kirjakeele 300 000sõnalisest korpusest

Kirjakeele püsiühendite andmebaas

Page 15: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

SAGEDASEMAD ÜHENDVERBID MURRETES JA KIRJAKEELES

2876 erinevat ühendverbi 1065 murrete ühendverbi puudusid

kirjakeele püsiühendite andmebaasis (690 esines murdematerjalis üks kord)

15 sagedasemat ühendverbi murretes ja kirjakeeles

Page 16: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

ÜHENDVERBID MURRETES (1)

Ettearvatavad sarnasused (Tartu, Setu, Võru murre)

Sagedasim ühine Setu ja Võru murdes (ära minema)

Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja Võru murre

Osa murdeid analüütilisemad kui teised

Page 17: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

ÜHENDVERBID MURRETES (2)

Kõige erinevam Alutaguse murre (peale hakkama, ette panema, kokku saama, vastu võtma, üles saama)

Kuidas murde esindatus korpuses mõjutab tulemust?

Page 18: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

TÄHENDUSERINEVUSED

Murrete ühendverbidel vähem abstraktsemaid tähendusi

Samal ühendverbil eri murretes erinev tähendus (vastu võtma)

Page 19: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

ÜHENDVERBE MOODUSTAVAD AFIKSAALADVERBID 15 sagedasemat ühendverbi moodustav

at afiksaaladverbi murretes ja kirjakeels

Page 20: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

KOKKUVÕTE (1)

Materjal on piisav ühendverbide leidmiseks

Põhjalikumate järelduste tegemiseks oleks siiski vaja korpuse mahtu suurendada

Murde esindatus korpuses ei ole alati üks-üheses vastavuses leitud ühendverbide hulga ja tulemuse mitmekülgsusega

Page 21: Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

KOKKUVÕTE (2)

Murretest leitud ühendverbide koosseisu mõjutab murdetekstide temaatika

Osa murdeid ühendverbide sageduste põhjal analüütilisemad kui teised