Top Banner
Latviešu valodas morfosintaktiskais marķētājs Bakalaura darbs Pēteris Ņikiforovs
30

Latviešu valodas morfosintaktiskais marķētājs

Apr 11, 2017

Download

Technology

peterisn
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Latviešu valodas morfosintaktiskais marķētājs

Latviešu valodas morfosintaktiskais

marķētājsBakalaura darbs

Pēteris Ņikiforovs

Page 2: Latviešu valodas morfosintaktiskais marķētājs

ProblēmaLatviešu valodā gandrīz 50% vārdu ir daudznozīmīgi

roku

Page 3: Latviešu valodas morfosintaktiskais marķētājs

Problēma

es māju ar roku es roku bedri es klausos roku

lietvārdssiev. dz., vsk.

darbības vārdsvnk. tagadne, vsk., 1.pers.

lietvārdsvīr. dz., vsk.

Page 4: Latviešu valodas morfosintaktiskais marķētājs

UzdevumsMarķēšana

Morfosintaktiskās īpašības

Es māju ar roku

vietniekvārds darbības vārds prievārds lietvārds

N-fpa---------n-------------

N – lietvārds (noun)f – siev. dzimte (feminine)p – daudzskaitlis (plural)a – akuzatīvs (accusative)n – nav deminutīvā- - neattiecas

Page 5: Latviešu valodas morfosintaktiskais marķētājs

Risinājums• Mašīnmācīšanās• Klasifikācijas uzdevums• Perceptrons

Page 6: Latviešu valodas morfosintaktiskais marķētājs

Pielietojums• Sintaktiskā parsēšana• Nosaukto entitāšu atrašana• Terminu identificēšana• Mašīntulkošana – faktorētie modeļi

Page 7: Latviešu valodas morfosintaktiskais marķētājs

Korpusi

Nosaukums SkaitsTeikumi 7021Tekstvienības 108043

Unikālās tekstvienības 22952

Tagi 441Daudznozīmīgās tekstvienības 49%

Nosaukums SkaitsTeikumi 7462Tekstvienības 126230Unikālās tekstvienības 25884Tagi 1594Normalizēti tagi 984Daudznozīmīgās tekstvienības 47%

Page 8: Latviešu valodas morfosintaktiskais marķētājs

Populārākie tagiTags Skaits

N-fsg---------n------------- 1919

---------------------------- 1817

N-fpa---------n------------- 1553

N-fpa---------n------------- 1449

N-fpn---------n------------- 1466

N-fsa---------n------------- 1275

N-fsn---------n------------- 1257

Tags Skaits

v__i___30 1851

n_fsg 1817

n_fpn 1783

n_fpa 1745

n_fsn 1727

n_msv 1700

n_fpv 1680

Page 9: Latviešu valodas morfosintaktiskais marķētājs

Perceptrons• Pārraudzītās mašīnmācīšanās algoritms• Lineārā klasifikācija• Vairāku klašu perceptrons• Vidējais perceptrons• Pakāpeniska (online) mācīšanās• Kļūdu vadīts (error driven)

Page 10: Latviešu valodas morfosintaktiskais marķētājs

Pazīmes

Page 11: Latviešu valodas morfosintaktiskais marķētājs

Uzdevums

Page 12: Latviešu valodas morfosintaktiskais marķētājs

Ievaddati

Page 13: Latviešu valodas morfosintaktiskais marķētājs

Svari no apmācībām

Page 14: Latviešu valodas morfosintaktiskais marķētājs

Vārdšķiras noteikšana

vietniekvārds = 1 + 3 + 0 = 4

Page 15: Latviešu valodas morfosintaktiskais marķētājs

Vārdšķiras noteikšana

darbības vārds = -1 + 6 + 3 = 8lietvārds = 2 + 2 + 1 = 5

Page 16: Latviešu valodas morfosintaktiskais marķētājs

Izvaddati

Page 17: Latviešu valodas morfosintaktiskais marķētājs

Diagramma

Page 18: Latviešu valodas morfosintaktiskais marķētājs

Apmācības• Atkārto 1 .. n reizes:

• sajauc teikumus jauktā secībā• katram teikumam:• katram vārdam teikumā:• pareģo vārdšķiru, kā iepriekš stāstīts• vai pareģoja pareizi?• ja jā, tad ejam tālāk• citādi• pieskaitām +1 svariem pazīmēm pareizajai vārdšķirai• pieskaitām -1 svariem pazīmēm nepareizi pareģotajai vārdšķirai

Page 19: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

vietniekvārds = 0 + 0 + 0 = 0

Page 20: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

lietvārds = 0 + 0 + 0 = 0darbības vārds = 0 + 0 + 0 = 0

Page 21: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

Page 22: Latviešu valodas morfosintaktiskais marķētājs

Vidējais perceptronsfunkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) h += t atgriež W

funkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F Ut,f = 0 katram t ∈ T, f ∈ F c = 1

atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) Ut,f += 1 ∙ f(i,s,h) ∙ c Ut^,f -= 1 ∙ f(i,s,h) ∙ c h += t c += 1 atgriež W - U ∙ 1/c

A Course in Machine Learning - Hal Daumé IIIhttp://www.ciml.info/dl/v0_8/ciml-v0_8-ch03.pdf#page=14

Page 23: Latviešu valodas morfosintaktiskais marķētājs

PazīmesSkaits

Pazīmju skaits (vismaz 1x)

58 534

Tagi (vismaz 1x) 654

Pazīmes no katra taga

173 873

Page 24: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti• pašreizējais vārds• nākamais vārds• iepriekšējais vārds• iepriekšējā vārda vārdšķira• iepriekšējā vārda tags• iepriekšējie divu vārdi• iepriekšējo divu vārdu tagi• nākamie divi vārdi

• iepriekšējais un nākamais vārds• pašreizējā vārda pēdējie 4 burti• pašreizējā vārda pēdējie 3 burti• pašreizējā vārda pēdējie 2 burti• pašreizējā vārda pēdējais burts• pēdējā iepriekšējā lietvārda tags• iepriekšējā lietvārda vai prievārda,

kurš nav ģenitīva vai lokatīva locījumā, tags

Page 25: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

Tilde

LU MII

93.2 93.4 93.6 93.8 94 94.2 94.4 94.6 94.8 95 95.2 95.4

Precizitāte ar parasto un vidējo perceptronu

Vidējais Parastais

Page 26: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2094.2

94.3

94.4

94.5

94.6

94.7

94.8

94.9

95

95.1

95.2

95.3

Iterāciju skaits un precizitāte

Page 27: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

Tilde

LU MII

90.4 90.8 91.2 91.6 92 92.4 92.8 93.2 93.6 94 94.4 94.8 95.2 95.6

Vārdu secība un precizitāte

Parasta Apgriezta

Page 28: Latviešu valodas morfosintaktiskais marķētājs

RezultātiPrecizitāte ar 10-kārtīgu šķērsvalidāciju

Korpuss Vārdšķira Tags Lemma Kopējais

Tilde 98,58% 95,21% 99,27% 95,20%

LU MII 98,29% 94,33% 98,24% 94,32%

Ticamības intervāls LU MII Tilde

90% 94,19 - 94,45 95,10 - 95,30

95% 94,17 - 94,47 95,09 - 95,32

99% 94,12 - 94,52 95,05 - 95,36

Page 29: Latviešu valodas morfosintaktiskais marķētājs

RezultātiSalīdzinājums ar citiem marķētājiem

Citas valodas

Zinātniskais raksts Precizitāte rakstā PerceptronsPinnis un Goba (2011) 91,51% 94,83%

Paikens et al. (2013) 93,6% 93,67%

Valoda Vārdšķira Tags Lemma Kopējais

Lietuviešu 98,12% 93,95% 99,06% 93,93%

Igauņu 98,65% 97,26% 99,16% 97,01%

Page 30: Latviešu valodas morfosintaktiskais marķētājs

Paveiktais• Bakalaura darbs

• Problēmas apraksts & piedāvātais risinājums• Priekšapstrāde• Morfoloģija un korpusi• Markēšana

• Perceptrons• Citi rīki

• Implementācija• Eksperimenti• Novērtēšana

• Kļūdu analīze