Jezikovne tehnologije in nove metode Špela Arhar Amebis, d. o. o., Kamnik
Jan 31, 2016
Jezikovne tehnologije in nove metode
Špela ArharAmebis, d. o. o., Kamnik
Jezikovne tehnologije in nove metode, 6. 2. 2009
2
prepoznavain sinteza govora
strojno prevajanje
slovnično pregledovanje besedil
povzemanje besedil
iskanje informacij
dialoški sistemi
Jezikovne tehnologije in nove metode, 6. 2. 2009
3
4
Jezikovne tehnologije in nove metode, 6. 2. 2009
Jezikovne tehnologije in nove metode, 6. 2. 2009
5
napake na različnih mestih
Jezikovne tehnologije in nove metode, 6. 2. 2009
6
Rupnik, Grčar, Erjavec, IS-LTC 2008
število besed
označevanje
100.003 vse besede v pregledanem korpusu
86.617 TnT pravilno
85.719 Amebis pravilno
78.011 oba označevalnika pravilno
7.708 Amebis pravilno, TnT nepravilno
8.606 Amebis nepravilno, TnT pravilno
3.238 oba nepravilno in enako
2.440 oba nepravilno in različno
testiranje nabora učnih algoritmov ter učnih
parametrov za avtomatsko identifikacijo pravilne
oznake –79.73 % uspešnost
večji učni korpusustrezno zasnovan oblikoslovni leksikon
Jezikovne tehnologije in nove metode, 6. 2. 2009
7
Oznake na štirih nivojih:lema
oblikoskladenjski nivoskladenjski nivo
lastna imena
učenje statističnih modelov za avtomatsko označevanje
Jezikovne tehnologije in nove metode, 6. 2. 2009
8
Leksikon SSJ
samostalnik
izpeljani svojilni pridevnik (-ov/-ev, -in)
pri glagolnikih (-ev, -nje) izvorni glagol
pri občnih prekrivno lastno ime
pri lastnih prekrivno občno ime
pri izpeljanih na –ost izvorni pridevnik
<WordForm> <feat att="zapisOblike" val="izdelat"/> <feat att="oblika" val="namenilnik"/></WordForm> <WordForm> <feat att="zapisOblike" val="izdelal"/> <feat att="oblika" val="deležnik"/> <feat att="spol" val="moški"/> <feat att="število" val="ednina"/></WordForm>
<WordForm> <feat att="zapisOblike" val="izdelat"/> <feat att="oblika" val="namenilnik"/></WordForm> <WordForm> <feat att="zapisOblike" val="izdelal"/> <feat att="oblika" val="deležnik"/> <feat att="spol" val="moški"/> <feat att="število" val="ednina"/></WordForm>
Jezikovne tehnologije in nove metode, 6. 2. 2009
9
Leksikon SSJ• okrog 100.000 (premišljeno izbranih)
enot• specifikacije z DTD-ji za xml• za različne namene
Vzorec prinaša informacijo o:- zaporednem mestu, na katerem se nahaja posamezna enota pri zapisu večbesedne enote,- ali se enota zapisuje z veliko ali z malo začetnico,- ali se kot del lastnega imena enota pri pregibanju obnaša enako kot njen enobesedni leksikonski referent, - ločilo, ki ločuje enoti ("presledek", "vezaj", "pomišljaj"),- kateri element v vzorcu predstavlja jedro zveze.
Vzorec prinaša informacijo o:- zaporednem mestu, na katerem se nahaja posamezna enota pri zapisu večbesedne enote,- ali se enota zapisuje z veliko ali z malo začetnico,- ali se kot del lastnega imena enota pri pregibanju obnaša enako kot njen enobesedni leksikonski referent, - ločilo, ki ločuje enoti ("presledek", "vezaj", "pomišljaj"),- kateri element v vzorcu predstavlja jedro zveze.
<WordForm> <feat att="število" val="ednina"/> <feat att="sklon" val="rodilnik"/>
<FormRepresentation><feat att="zapisOblike" val=“okvirja"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> <FormRepresentation><feat att="zapisOblike" val=“okvira"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> </WordForm>
<WordForm> <feat att="število" val="ednina"/> <feat att="sklon" val="rodilnik"/>
<FormRepresentation><feat att="zapisOblike" val=“okvirja"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> <FormRepresentation><feat att="zapisOblike" val=“okvira"/><feat att="norma" val="variantno"/><feat att="pogostnost" val="3000"/> </FormRepresentation> </WordForm>
Jezikovne tehnologije in nove metode, 6. 2. 2009
10
Hvala za pozornost!