Postupci i statistike slogovanja za talijanski jezik Pokos, Marija Undergraduate thesis / Završni rad 2016 Degree Grantor / Ustanova koja je dodijelila akademski / stručni stupanj: University of Rijeka, Faculty of Humanities and Social Sciences / Sveučilište u Rijeci, Filozofski fakultet Permanent link / Trajna poveznica: https://urn.nsk.hr/urn:nbn:hr:186:643135 Rights / Prava: In copyright Download date / Datum preuzimanja: 2021-10-09 Repository / Repozitorij: Repository of the University of Rijeka, Faculty of Humanities and Social Sciences - FHSSRI Repository
51
Embed
Postupci i statistike slogovanja za talijanski jezik
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Postupci i statistike slogovanja za talijanski jezik
Pokos, Marija
Undergraduate thesis / Završni rad
2016
Degree Grantor / Ustanova koja je dodijelila akademski / stručni stupanj: University of Rijeka, Faculty of Humanities and Social Sciences / Sveučilište u Rijeci, Filozofski fakultet
Permanent link / Trajna poveznica: https://urn.nsk.hr/urn:nbn:hr:186:643135
Rights / Prava: In copyright
Download date / Datum preuzimanja: 2021-10-09
Repository / Repozitorij:
Repository of the University of Rijeka, Faculty of Humanities and Social Sciences - FHSSRI Repository
*C je simbol za suglasnik, a V je simbol za samoglasnik.
Rezultati (Adsett, Marchand i Kešelj, 2009) rastavljanja riječi na slogove prikazani su za svaku
vrstu riječi posebno, a grafikon na slici 2 prikazuje postotke pogreške. Hall-ovim pravilom
ustanovljeno je više 20% pogreške za imenice, manje od 20% za pridjeve te više od 10% Za
glagole i priloge. Cioni-jevim pravilom ustanovljeno je oko 15% pogreške za imenice, oko 12%
pogreške za pridjeve, manje od 10% pogreške za glagole i 10% pogreške za priloge. Bergamini-
jev SYL-LABE algoritam ima oko 12% pogreške za imenice, oko 13% pogreške za pridjeve,
10% pogreške za glagole i oko 15% pogreške za priloge.
Slika 2 Postotak pogreške po vrstama riječi (Adsett, Marchand i Kešelj, 2009)
17
4. Parser
Slika 3 Početna datoteka
Početna datoteka podijeljena je u tri stupca. Prvi stupac sadržava riječ, drugi značenje riječi, a
treći stupac riječ rastavljenu na slogove fonetskim znakovima. Prvi korak prema cilju bio je
rastaviti datoteku u dvije datoteke, jednu u kojoj će se nalaziti riječ i njezino značenje i drugu
u kojoj će biti riječ i ta ista riječ rastavljena na slogove. Rastavljanju datoteka prethodilo je
parsiranje trećeg stupca na način da su se iz niza maknule zagrade i nule koje označavaju
nenaglašeni slog, a umjesto zagrada dodavale su se povlake kako bi se lakše snalazilo između
slogova. U parsiranom nizu ostale su jedinice koje označavanju naglašeni slog.
Iz niza (((a1) 1) ((b a) 0) ((k i) 0))) pomoću koda koji se nalazi u Privitku 1 dobio se niz a11-
ba-ki.
18
Slika 4 Riječ i vrsta riječi
Slika 5 Riječ i riječ rastavljena na slogove fonetskim znakovima
Nakon parsiranja bilo je potrebno implementirati pravila za rastavljanje riječi na slogove. U
programu NetBeans IDE 8.0.2 pomoću jezika C++ implementirano je prvih pet pravila iz
prijašnje cjeline. Pravilo šest nije implementirano iz razloga što postoje prividni dvoglasnici
19
koje je potrebno rastavljati, a njih se može prepoznati intuitivno što je problem kod računalne
implementacije. Implementacija pravila vidljiva je u Privitku 1.
Nakon implementacije pravila bilo je potrebno rastaviti riječ iz prve kolone na slogove. Očito
je da smo dobili zapis u ortografskom obliku. Cilj ovog rada je usporediti dva ortografska
zapisa, pa je potrebno vratiti početni fonetski zapis u ortografski. To se radilo pomoću fonetskih
pravila za svako slovo posebno. Fonetska pravila u prijašnjem poglavlju su pravila nulte razine,
a u rječniku se nalaze i fonetski znakovi koji kazuju na kompromisnu transfonemizaciju1 pa se
kod vraćanja koristilo ovim promjenama (tablica 6):
Tablica 6 Promjene iz fonetskog zapisa u ortografski za sva slova
Fon. Ort. Fon. Ort.
ki- chi tS c
k- c- L-Li -gli
ko co L-L -gli
ka ca J-J -gn
E e j i
O o dz z
nja nia ke che
ts z w u
kja chia dZ- g-
dZi gi dZ gi
S-S -sci S-Si -sci
1 Hrvatski i talijanski fonemski inventar imaju velike sličnosti te iz tog razloga nema potrebe za fonološkom adaptacijom posuđenica te replika zadržava fonološki oblik modela. U tom slučaju može se govoriti o nultoj transfonemizaciji, kod koje se fonemi jezika davatelja zamjenjuju odgovarajućim fonemima jezika primatelja čiji opis odgovara opisu fonema modela, odnosno samoglasnici se ne razlikuju po otvoru i mjestu artikulacije, a suglasnici po mjestu i načinu artikulacije, a kao primjer kompromisne transfonemizacije može se uzeti degeminacija. Na primjer kada se u hrvatskom jeziku talijanski fonem /b b/ mijenja sa hrvatskim /b/, /tts/ sa /c/, /ddӡ/ sa /đ/ i /dž/… (Sočanac, 2004).
20
k c dZe ge
Neka slova imaju iste fonetske znakove, odnosno jedno slovo predstavlja dva različita glasa,
zatim kod slova koja dolaze iz drugih jezika pojavljuju se nove promjene te zbog toga dolazi
do ovih zamjena:
za slovo j prikaz je u tablici 7 i 8:
Tablica 7 Promjene iz fonetskog zapisa u ortografski za slovo j
Fon. Ort. Fon. Ort.
dZa ja dZo jo
dZu ju dZe je
dZi ji i (na prvom mjestu) j
tablica 7 prikazuje fonetske znakove koji su se mijenjali te njihove pripadajuće ortografske
znakove kojima su se zamijenili kod zapisa za slovo j, a primjeri promijene mogu se vidjeti u
tablici 8.
Tablica 8 Primjeri promjene iz fonetskog zapisa u ortografski za slovo j
FONETSKI ORTOGRAFSKI PRAVILIMA
dZak-k jac-c ja-c-ques
dZOn jon joh-n
dZu-ras-sik ju-ras-sic ju-ras-sic
dZE-jn je-jn ja-ne
i-vOn-ne j-von-ne jvon-ne
jadz-dzi-sta jaz-zi-sta jaz-zi-sta
21
Za slovo k prikaz je u tablici 9 i 10:
Tablica 9 Promjene iz fonetskog zapisa u ortografski za slovo k
Fon. Ort. Fon. Ort.
S sh w v
y ni
tablica 9 prikazuje primjere promjene kod slova k, a u tablici 10 vidljivi su i primjeri promjena.
Tablica 10 Promjene iz fonetskog zapisa u ortografski za slovo k
FONETSKI ORTOGRAFSKI PRAVILIMA
ka-laS-nni-kov ka-lash-nni-kov ka-la-shni-kov
kE-nja ke-nia ken-ya
Za slovo q prikaz je i tablici 11 i 12:
Tablica 11 Promjene iz fonetskog zapisa u ortografski za slovo q
Fon. Ort. Fon. Ort.
q k kwi qui
kwa qua kwo quo
kwe que
tablica 11 prikazuje koje promjene iz fonetskog u ortografski zapis su se dešavale kod slova q,
a u tablici 12 vidimo i primjere promjena.
22
Tablica 12 Primjeri promjene iz fonetskog zapisa u ortografski za slovo q
FONETSKI ORTOGRAFSKI PRAVILIMA
kwa-dra-no qua-dra-no qua-dra-no
kwel-lo quel-lo quel-lo
kwin-di quin-di quin-di
kwo-te-re-te quo-te-re-te quo-te-re-te
Za slovo w prikaz je u tablici 13 i 14:
Tablica 13 Promjene iz fonetskog zapisa u ortografski za slovo w
Fon. Ort. Fon. Ort.
v w vu w
S-S sh
tablica 13 prikazuje koje promjene su se koristile za slovo w, a tablica 14 sadržava neke primjere
riječi za koje su se radile promjene.
Tablica 14 Primjeri promjene iz fonetskog zapisa u ortografski za slovo w
FONETSKI ORTOGRAFSKI PRAVILIMA
ve-ber we-ber we-ber
vu-vu-vu w-w-w w-w-w
wOS-Sin-ton wo-shin-ton wa-shin-gton
23
Za slovo y prikaz je u tablici 15 i 16:
Tablica 15 Promjene iz fonetskog zapisa u ortografski za slovo y
Fon. Ort. Fon. Ort.
j y S sh
i y
tablica 15 prikazuje promjene koje su se dešavale za zapise kod slova y, a tablica 16 sadržava
primjere tih promjena.
Tablica 16 Primjeri promjene iz fonetskog zapisa u ortografski za slovo y
FONETSKI ORTOGRAFSKI PRAVILIMA
ja-le ya-le ya-le
jOr-kS-nga-ir yor-ksh-nga-ir yor-kshi-re
i-a-ma y-a-ma ya-ma-ha
Za slovo x prikaz je u tablici 17 i 18:
Tablica 17 Promjene iz fonetskog zapisa u ortografski za slovo x
Fon. Ort.
k-s x
tablica 17 prikazuje koje promjene iz fonetskog u ortografski zapis su se dešavale kod slova x,
a u tablici 18 vidimo i primjere promjena.
Tablica 18 Primjeri promjena iz fonetskog zapisa u ortografski za slovo x
FONETSKI ORTOGRAFSKI PRAVILIMA
k-se-nO-fo-bo xe-no-fo-bo xe-no-fo-bo
24
Nakon tih promjena dobivena je nova datoteka u kojoj se nalazila riječ iz početnog fonetskog
zapisa promijenjena u ortografski zapis.
Slika 6 Ortografski zapis
Promjena iz fonetskog u ortografski zapis je bila posljednji korak prema usporedbi dva
ortografska zapisa. Odnosno dva načina razdvajanja slogova. U slijedećem poglavlju prikazat
će se rezultati dobiveni analizom.
25
5. Rezultati
Prva usporedba bila je napravljena između fonetskog i ortografskog zapisa, a dvije datoteke
uspoređivale su se kodom koji se nalazi u Privitku 2. Uspoređeno je ukupno 440084 riječi, a
pojavilo se 340160 pogrešaka. To znači da je tokom usporedbe pronađeno 77,29% pogreške i
22,71% točno rastavljenih riječi što se može vidjeti na slici 7.
Slika 7 Rezultat pogreške između fonetskog i ortografskog zapisa
Kao što je rečeno prije, promjene iz fonetskog zapisa u ortografski zapis vršile su se za svako
slovo posebno. Postoci pogreške dobiveni programom koji se nalazi u Privitku 3 prikazuju
postotak pogrešaka koje su se desile kod svakog slova zasebno, a rezultati su vidljivi u tablici
19 i na grafikonu na slici 8.
Tablica 19 Postotak pogreške po slovima
A 37,18% B 33,06% C 38,46% D 44,42% E 47,49%
F 29,37% G 33,17% H 100% I 50,68% J 40,84%
K 48,89% L 31,97% M 27,11% N 35,57% O 30,41%
P 28,63% Q 23,59% R 41,65% S 67,25% T 34,02%
U 35,15% W 60% Y 50% Z 25,94% X 50,98%
V 28,50%
26
Slika 8 Grafikon koji prikazuje postotak pogreške po slovima
Zadnji korak bila je usporedba ortografskog zapisa dobivenog implementacijom pravila i
ortografskog zapisa vraćanog iz fonetskog oblika. Uspoređeno je 440084 riječi korištenjem
koda iz Privitka 3, a analizom je utvrđena pogreška na 185357 riječi što iznosi 42,12% pogreške
i 57,88% točno rastavljenih riječi (slika 9).
Nakon zadnjeg parsiranja ispravljeno je 35,17% zapisa.
Slika 9 Rezultat pogreške između dva ortografska zapisa
Pogreške:
1) Najveći postotak pogreške pojavio se kod slova H. Razlog tome je što se slovo H u
talijanskom jeziku ne izgovara te se prilikom fonetskog zapisa ne zapisuje. Odnosno ne
postoji fonetski znak koji bi označavao slovo H na početku riječi i zbog toga se slovo H
na početku riječi ne može vraćati u ortografski zapis. Neki primjeri pogrešaka kod slova
H su:
Ortografsko: an-di-kap-pa-no;
pravilima: han-di-cap-pa-no;
ortografsko: an-di-kap-pan-te;
pravilima: han-di-cap-pan-te;
27
ortografsko: an-di-kap-pan-ti;
pravilima: han-di-cap-pan-ti.
2) U setu dobivenih podataka pojavljuju se znakovi: ŕ, ň, é, ě, ů koji su fonetskim zapisom
rastavljeni na a, o, e, i, u. Ti znakovi su vjerojatno kodirani prilikom prenošenja
podataka, a označavaju talijanska slova sa naglaskom, odnosno slova à, ò, è, ì, ù. Tu
dolazi do pogreške jer kod rastavljanja pravilima se uzima izvorna riječ te parser
rastavlja nju na slogove, dok se kod vraćanja u ortografski zapis koristi već postojeći
fonetski koji prepoznaje ta slova kao samoglasnike.
Ortografsko: a-ba-ca;
pravilima: a-bac-ŕ;
ortografsko: a-ban-do-no;
pravilima: a-ban-don-ň;
ortografsko: e;
pravilima: é;
ortografsko: i;
pravilima: ě;
ortografsko: u;
pravilima: ů.
3) Problem dvoglasa i troglasa, odnosno problem šestog pravila koje govori da se dvoglasi
i troglasi ne rastavljaju osim u slučaju da se ne radi o „prividnim dvoglasima“. U kodu
su implementirani dvoglasi i troglasi koje program prepoznaje te se zbog toga oni u
ovom slučaju ne rastavljaju. Problem se javlja opet kod vraćanja iz fonetskog u
ortografski zapis gdje su ti dvoglasi podijeljeni na slogove.
Ortografsko: ba-li-a;
pravilima: ba-lia;
ortografsko: fab-bri-che-re-i;
pravilima: fab-bri-che-rei;
ortografsko: na-bis-se-ra-i;
pravilima: na-bis-se-rai;
28
ortografsko: zu-ma-i;
pravilima: zu-mai.
4) Većina grešaka se dešava kod riječi koje su posuđene iz drugih jezika. Neke od tih
grešaka možemo pridodati prije spomenutoj greški kod slova H koje se u talijanskom
jeziku ne izgovara te se ni ne zapisuje fonetskim zapisom. Isto tako većina posuđenica
se rastavlja po pravilima slogovanja jezika iz kojeg dolazi.
Ortografsko: nen-si;
pravilima: nan-cy;
ortografsko: y-a-ma;
pravilima: ya-ma-ha;
ortografsko: wal-ter;
pravilima: wal-ther.
5) Promjena s u /z/ također je jedna od učestalijih pogrešaka. Kao što se vidi u poglavlju
sa fonetskim pravilima slovo S u fonetskoj transkripciji se zapisuje sa /z/ i sa /s/. Zbog
toga kod vraćanja u ortografski zapis nije točno sigurno koje /z/ se vraća u s, a koje
ostaje z. Kad bi vraćali fonetsko /z/ u s, zamijenila bi se sva slova z pa čak i ona koja
nije potrebno mijenjati.
Ortografsko: xa-u-za;
pravilima: xau-sa;
ortografsko: wa-le-za;
pravilima: wa-le-sa.
29
Slika 10 Usporedba po slovima između fonetskog zapisa i ortografskog zapisa
Grafikon na slici 10 prikazuje usporedbu između dva zapisa, ortografskog (prikazanog plavom
bojom) i fonetskog (prikazanog zelenom bojom), za svako slovo zasebno. Promatrajući
grafikon vidimo da se nakon parsiranja, zapis ispravio za većinu slova, a za neka i za više od
50%. Postoci ispravljenog zapisa vidljivi su u tablici 20.
Tablica 20 Postotak ispravljenog zapisa
A 33,45% B 38,86% C 61,54% D 30,41% E 32,24%
F 39,45% G 50,30% H 0% I 2 5,06% J 42,07%
K 25,18% L 40,93% M 46,50% N 36,33% O 39,46%
P 41,83% Q 76,41% R 33,95% S 19,94% T 30,15%
U 36,92% W 33,33% Y 50% Z 74,06% X 49,02%
V 41,77%
30
6. Zaključak
Jedna od važnih stvari jezika je pravilno rastavljanje riječi na slogove. Slogovanje se najčešće
koristi u trenutku kada cijela riječ ne stane u jedan red kod pisanja rukom ili kod tiskanja novina
te se mora rastaviti na slogove. Postoje generalna pravila za rastavljanje riječi na slogove, ali
ponekad se znaju pojaviti sumnje kod neuobičajenih slučajeva (Serianni, 2005). Za rješavanje
tih sumnji imamo pravila koja pomažu da slogovanje bude što točnije, a ona su navedena u
prijašnjim poglavljima ovog rada. Slogovanje se koristiti i u logopediji kod liječenja nekih
poremećaja kao što je disleksija, a koristi se i u računalnoj tehnici kod prepoznavanja govora te
je prisutno od samog početka našeg života kada počinjemo sa učenjem jezika.
U ovom radu rastavljanje na slogove temeljilo se na zadanom rječniku talijanskog jezika.
Parsiranjem, vraćanjem u ortografski zapis i implementiranjem pravila za slogovanje zapis se
preoblikovao i mijenjao te je bio spreman za usporedbu dva ortografska zapisa. Prva usporedba
iznosila je 77,29% pogreške, druga usporedba 42,12% pogreške. Vidimo da je nakon prvog
parsiranja ispravljeno 35,17% zapisa.
Analizom su utvrđene greške koje se pojavljuju između dva ortografska zapisa za svako slovo
posebno. Neke od učestalijih, koje se pojavljuju kod svih slova, navedene su u prethodnom
poglavlju.
Uspoređivanjem grafikona sa slike 2 i slike 8 može se zaključiti da se i sa nekim rezultatima
približilo rezultatu dobivenom kod istraživanja Adsett, Marchand i Kešelj, ali imajmo na umu
da su na slici 2 prikazani rezultati pogreške podijeljeni prema vrstama riječi dok su rezultati na
slici 8 prikazani za svako slovo posebno neovisno o vrstama riječi.
Smatram da bi u daljnjem radu bilo potrebno napraviti još nekoliko preinaka kako bi se još više
smanjio postotak pogreške. Neke od mogućnosti su implementacija riječi u kojima se pojavljuju
„prividni dvoglasi“ te posebna pravila po kojima bi se te riječi rastavljale. Zatim prepoznati
koje slovo je točno kodirano znakovima: ŕ, ň, é, ě, ů te ih vratiti u odgovarajuće oblike. U
početnom rječniku nalaze se i posuđenice koje imaju drugačiji izgovor i zapis. Trebalo bi
proučiti pravila po kojima se te riječi rastavljaju na slogove. Uglavnom cilj bi bio pronaći
rješenja za utvrđene pogreške.
31
7. Bibliografija
Adsett, Connie R., Yannick Marchand, i Vlado Kešelj. 2009. Syllabification Rules Versus
Data-driven Methods in a Language with Low Syllabic Complexity: The Case of
Italian. Nuova Scotia: Institute for Biodiagnostics (Atlantic) i Faculty of Computer
science.
Anić, Vladimir. 2007. Rječnik hrvatskoga jezika. Zagreb: 2007.
Cosi, Piero, Fabio Tesser , Carlo Drioli, Graziano Tisato, i Roberto Gretter. 2005. FESTIVAL