Latviešu valodas morfosintaktiskais marķētājs Bakalaura darbs Pēteris Ņikiforovs
Latviešu valodas morfosintaktiskais
marķētājsBakalaura darbs
Pēteris Ņikiforovs
ProblēmaLatviešu valodā gandrīz 50% vārdu ir daudznozīmīgi
roku
Problēma
es māju ar roku es roku bedri es klausos roku
lietvārdssiev. dz., vsk.
darbības vārdsvnk. tagadne, vsk., 1.pers.
lietvārdsvīr. dz., vsk.
UzdevumsMarķēšana
Morfosintaktiskās īpašības
Es māju ar roku
vietniekvārds darbības vārds prievārds lietvārds
N-fpa---------n-------------
N – lietvārds (noun)f – siev. dzimte (feminine)p – daudzskaitlis (plural)a – akuzatīvs (accusative)n – nav deminutīvā- - neattiecas
Risinājums• Mašīnmācīšanās• Klasifikācijas uzdevums• Perceptrons
Pielietojums• Sintaktiskā parsēšana• Nosaukto entitāšu atrašana• Terminu identificēšana• Mašīntulkošana – faktorētie modeļi
Korpusi
Nosaukums SkaitsTeikumi 7021Tekstvienības 108043
Unikālās tekstvienības 22952
Tagi 441Daudznozīmīgās tekstvienības 49%
Nosaukums SkaitsTeikumi 7462Tekstvienības 126230Unikālās tekstvienības 25884Tagi 1594Normalizēti tagi 984Daudznozīmīgās tekstvienības 47%
Populārākie tagiTags Skaits
N-fsg---------n------------- 1919
---------------------------- 1817
N-fpa---------n------------- 1553
N-fpa---------n------------- 1449
N-fpn---------n------------- 1466
N-fsa---------n------------- 1275
N-fsn---------n------------- 1257
Tags Skaits
v__i___30 1851
n_fsg 1817
n_fpn 1783
n_fpa 1745
n_fsn 1727
n_msv 1700
n_fpv 1680
Perceptrons• Pārraudzītās mašīnmācīšanās algoritms• Lineārā klasifikācija• Vairāku klašu perceptrons• Vidējais perceptrons• Pakāpeniska (online) mācīšanās• Kļūdu vadīts (error driven)
Pazīmes
Uzdevums
Ievaddati
Svari no apmācībām
Vārdšķiras noteikšana
vietniekvārds = 1 + 3 + 0 = 4
Vārdšķiras noteikšana
darbības vārds = -1 + 6 + 3 = 8lietvārds = 2 + 2 + 1 = 5
Izvaddati
Diagramma
Apmācības• Atkārto 1 .. n reizes:
• sajauc teikumus jauktā secībā• katram teikumam:• katram vārdam teikumā:• pareģo vārdšķiru, kā iepriekš stāstīts• vai pareģoja pareizi?• ja jā, tad ejam tālāk• citādi• pieskaitām +1 svariem pazīmēm pareizajai vārdšķirai• pieskaitām -1 svariem pazīmēm nepareizi pareģotajai vārdšķirai
Apmācības
vietniekvārds = 0 + 0 + 0 = 0
Apmācības
lietvārds = 0 + 0 + 0 = 0darbības vārds = 0 + 0 + 0 = 0
Apmācības
Vidējais perceptronsfunkcija apmācības(F, T, S, it)
Wt,f = 0 katram t ∈ T, f ∈ F atkārtot it reizes
katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) h += t atgriež W
funkcija apmācības(F, T, S, it)
Wt,f = 0 katram t ∈ T, f ∈ F Ut,f = 0 katram t ∈ T, f ∈ F c = 1
atkārtot it reizes
katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) Ut,f += 1 ∙ f(i,s,h) ∙ c Ut^,f -= 1 ∙ f(i,s,h) ∙ c h += t c += 1 atgriež W - U ∙ 1/c
A Course in Machine Learning - Hal Daumé IIIhttp://www.ciml.info/dl/v0_8/ciml-v0_8-ch03.pdf#page=14
PazīmesSkaits
Pazīmju skaits (vismaz 1x)
58 534
Tagi (vismaz 1x) 654
Pazīmes no katra taga
173 873
Eksperimenti• pašreizējais vārds• nākamais vārds• iepriekšējais vārds• iepriekšējā vārda vārdšķira• iepriekšējā vārda tags• iepriekšējie divu vārdi• iepriekšējo divu vārdu tagi• nākamie divi vārdi
• iepriekšējais un nākamais vārds• pašreizējā vārda pēdējie 4 burti• pašreizējā vārda pēdējie 3 burti• pašreizējā vārda pēdējie 2 burti• pašreizējā vārda pēdējais burts• pēdējā iepriekšējā lietvārda tags• iepriekšējā lietvārda vai prievārda,
kurš nav ģenitīva vai lokatīva locījumā, tags
Eksperimenti
Tilde
LU MII
93.2 93.4 93.6 93.8 94 94.2 94.4 94.6 94.8 95 95.2 95.4
Precizitāte ar parasto un vidējo perceptronu
Vidējais Parastais
Eksperimenti
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2094.2
94.3
94.4
94.5
94.6
94.7
94.8
94.9
95
95.1
95.2
95.3
Iterāciju skaits un precizitāte
Eksperimenti
Tilde
LU MII
90.4 90.8 91.2 91.6 92 92.4 92.8 93.2 93.6 94 94.4 94.8 95.2 95.6
Vārdu secība un precizitāte
Parasta Apgriezta
RezultātiPrecizitāte ar 10-kārtīgu šķērsvalidāciju
Korpuss Vārdšķira Tags Lemma Kopējais
Tilde 98,58% 95,21% 99,27% 95,20%
LU MII 98,29% 94,33% 98,24% 94,32%
Ticamības intervāls LU MII Tilde
90% 94,19 - 94,45 95,10 - 95,30
95% 94,17 - 94,47 95,09 - 95,32
99% 94,12 - 94,52 95,05 - 95,36
RezultātiSalīdzinājums ar citiem marķētājiem
Citas valodas
Zinātniskais raksts Precizitāte rakstā PerceptronsPinnis un Goba (2011) 91,51% 94,83%
Paikens et al. (2013) 93,6% 93,67%
Valoda Vārdšķira Tags Lemma Kopējais
Lietuviešu 98,12% 93,95% 99,06% 93,93%
Igauņu 98,65% 97,26% 99,16% 97,01%
Paveiktais• Bakalaura darbs
• Problēmas apraksts & piedāvātais risinājums• Priekšapstrāde• Morfoloģija un korpusi• Markēšana
• Perceptrons• Citi rīki
• Implementācija• Eksperimenti• Novērtēšana
• Kļūdu analīze