Top Banner
ReLDI ZA POČETNIKE (1) Resursi i alati (2) Instrumenti Nikola Ljubešić * , Maja Miličević * Sveučilište u Zagrebu Univerzitet u Beogradu Empirijski podaci u istraživanjima jezika: resursi i metode (2) Zagreb, 28. lipnja 2016.
60

-3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Dec 23, 2016

Download

Documents

lamngoc
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

ReLDI ZA POČETNIKE(1) Resursi i alati (2) Instrumenti

Nikola Ljubešić∗, Maja Miličević†∗ Sveučilište u Zagrebu† Univerzitet u Beogradu

Empirijski podaci u istraživanjima jezika: resursi i metode (2)Zagreb, 28. lipnja 2016.

Page 2: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Uvod u ReLDI

Kontekst

Empirijska istraživanja jezika:

• Temeljena na resursima i alatima (korpusima, leksikonima... /tegerima, lematizatorima...)

• Temeljena na instrumentima za prikupljanje podataka(testovima, upitnicima, eksperimentalnim stimulusima...)

Situacija u empirijskim istraživanjima hrvatskog i srpskog jezika:

• Resursi i alati često nisu javno dostupni• Alati se razvijaju odvojeno za hrvatski i srpski

• Instrumenti za prikupljanje podataka uglavnom nisu javno dostupni• Istraživačima nedostaje obuka u upotrebi resursa, alata i instrumenata

2 / 60

Page 3: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Uvod u ReLDI

→ ReLDI

Regional Linguistic Data InitiativeDvogodišnji institucionalni projekt Sveučilišta u Zagrebu (Filozofskifakultet), Beogradu (Filološki fakultet) i Zürichu (CorpusLab), financiranod strane Švicarske nacionalne zaklade za znanost u okviru programaSCOPES (Scientific Co-operation between Eastern Europe andSwitzerland, projekt br. 160501)

Ciljevi projekta(1) Omogućavanje pristupa resursima, alatima i instrumentima zaprikupljanje empirijskih jezičnih podataka za hrvatski i srpski jezik (uzmaksimalni transfer između jezika)(2) Obuka i regionalno umrežavanje istraživača zainteresiranih zaproučavanje hrvatskog i srpskog jezika

3 / 60

Page 4: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Uvod u ReLDI

Komponente projekta

ReLDI čine:

• Resursi i alati• Pristup putem grafičkog sučelja i mrežnog servisa• Izvorni kod za samostalnu upotrebu

• Instrumenti• Repozitorij materijala za prikupljanje podataka

• Obuka i umrežavanje• Četiri seminara• Online kursevi na platformi Open edX

4 / 60

Page 5: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Uvod u ReLDI

Pristup - EN [ reldi.spur.uzh.ch ]

5 / 60

Page 6: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Uvod u ReLDI

Pristup - HR/SR [ reldi.spur.uzh.ch/hr-sr/ ]

6 / 60

Page 7: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati

Page 8: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati

Što su to jezični resursi i alati

• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,

modeli

• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...

8 / 60

Page 9: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati

Što su to jezični resursi i alati

• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,

modeli

• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...

9 / 60

Page 10: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Primarni resursi

Page 11: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Korpusi

• jednojezični korpusi• referentni korpusi• mrežni korpusi – {hr,sr,bs,sl}WaC, Twitter• ručno označeni korpusi – SETimes.HR, hr500k, SETimes.SR,

Tweet.HR, Tweet.SR

• višejezični korpusi• SETimes korpus• mrežni korpusi – {hr,sr,sl}enWaC• OPUS kolekcija

11 / 60

Page 12: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Referentni korpusi – hrvatski

• Hrvatski nacionalni korpus (http://hnk.ffzg.hr)• u verziji 3.0 (2013.) 216 milijuna pojavnica• posljednja opisana verzija 2.5 u radu iz 2009., veličine 101 milijun

pojavnica, najvećim dijelom novinski tekstovi, ∼4% književna djela• pretraživ na

http://filip.ffzg.hr/bonito2/run.cgi/first_form• nije preuziv

• Hrvatska jezična riznica (http://riznica.ihjj.hr)• 72% novinski tekstovi, 28% književni, ∼100 milijuna pojavnica• u procesu označivanja ReLDI alatima• pretraživ na http://riznica.ihjj.hr/philologic/Cijeli.

whizbang.form.en.html• bit će dodan i u SketchEngine• za sada nedostupan za preuzimanje

12 / 60

Page 13: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Referentni korpusi – srpski

• Korpus savremenog srpskog jezika SrpKor(http://www.korpus.matf.bg.ac.rs)

• 122 milijuna riječi• 73,69% novinski tekstovi, ostalo književno-umjetnički, znanstveni,

znanstveno-popularni i administrativni• pretraživ preko sučelja dostupnog na zahtjev• podskup preuziv pod CC-BY-NC-SA kroz kontakt s autorima

13 / 60

Page 14: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Mrežni korpusi

1. puzanje vršne domene za HTML dokumentima (.hr,.rs)2. predviđanje kodiranja3. crpljenje sadržaja – generički crpitelji, preskupo (nemoguće?)

oblikovati crpitelj po izvoru4. identifikacija jezika5. segmentacija6. uklanjanje bliskih duplikata7. normalizacija8. jezikoslovno označivanje

14 / 60

Page 15: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Mrežni korpusi hrWaC i srWaC

• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-web-corpus/https://reldi.spur.uzh.ch/blog/serbian-web-corpus/

• CLARIN repozitorijhttp://hdl.handle.net/11356/1064http://hdl.handle.net/11356/1063

• NoSketchEngine pretragahttp://nl.ijs.si/noske/

15 / 60

Page 16: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Stranica projekta

16 / 60

Page 17: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Stranica projekta

17 / 60

Page 18: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

CLARIN repozitorij

18 / 60

Page 19: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

NoSketchEngine

19 / 60

Page 20: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

NoSketchEngine

20 / 60

Page 21: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Twitter korpus zapadnih južnoslavenskih jezika

• prikupljanje podataka preko Twitter API-ja od lipnja / juna 2013. dodanas

• za hrvatski / srpski / bosanski / crnogorski do prosinca / decembra2015. prikupljeno 1,350,101 tvitova koji su i geokodirani, cijelakolekcija ∼15 milijuna tvitova

• problem dijeljenja podataka – Twitter dozvoljava direktno dijeljenjemax. 50k tvitova, više preko

• potprojekt ReLDI-ja: istraživanje prostorne distribucije nizajezikoslovnih varijabli na kolekciji geokodiranih tvitova

• prva varijabla: refleks jata

21 / 60

Page 22: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

22 / 60

Page 23: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Korpusi za učenje SETimes.HR i SETimes.SR

• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/

• GitHubhttps://github.com/uzh/reldi/tree/master/corpora

23 / 60

Page 24: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Korpusi za učenje Tweet.HR i Tweet.SR

• kolekcije od 4000 tvitova po jeziku• ručno označivanje na 5 razina• kako se označivanje dovrši kolekcija će se moći dijeliti preko CLARIN-a

24 / 60

Page 25: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Primarni resursi

Višejezični korpusi

• SETimes korpushttp://nlp.ffzg.hr/corpora/setimes/

• hrenWaC mrežni korpushttp://hdl.handle.net/11356/1058

• srenWaC mrežni korpushttp://hdl.handle.net/11356/1059

• OPUS kolekcija paralelnih korpusahttp://opus.lingfil.uu.se

25 / 60

Page 26: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Sekundarni resursi

Page 27: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Sekundarni resursi

Leksikoni

• flektivni morfološki leksikoni hrLex i srLex• stranica projekta

https://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-lexicon/https://reldi.spur.uzh.ch/blog/serbian-lexicon/

• CLARINhttp://hdl.handle.net/11356/1056http://hdl.handle.net/11356/1057

• GitHubhttps://github.com/uzh/reldi/tree/master/lexicons

• mrežno sučeljehttp://nl.ijs.si/services/

27 / 60

Page 28: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Sekundarni resursi

Mrežno sučelje

28 / 60

Page 29: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Sekundarni resursi

Kako su leksikoni izgrađeni

29 / 60

Page 30: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Sekundarni resursi

hrMWELex i srMWELex

30 / 60

Page 31: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Jezični alati

Page 32: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Dostupnost jezičnih alata

• GitHubhttps://github.com/uzh/reldi/tree/master/tools

• mrežno sučeljehttp://nl.ijs.si/services/

• mrežni servis / Python knjižnicahttps://github.com/uzh/reldi/tree/master/lib/

32 / 60

Page 33: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Segmentacija, morfosintaktičko označivanje i lematizacija

• segmentacija temeljena na pravilima• dva moda segmentacije – standardni i nestandardni tekst• morfosintaktičko označivanje

• temeljeno na statističkom modeliranju hr500k korpusa• zapise iz hrLex, tj. srLex leksikona koristi se kao značajke / varijable• točnost ∼92.5% na punom MSD-u, ∼98.5% na razini vrste riječi• na slovenskom smanjenje pogreške od 25%, na hrvatskome 50%

• lematizacija• temeljena na hrLex, tj. srLex leksikonu• neviđene riječi lematizira se statističkim modelom naučenom na hr500k

korpusu i odgovarajućem leksikonu• točnost ∼98.5%

• u sljedećoj iteraciji dorada srpski će se modeli učiti naSETimes.SR+hr500k

• sr500k još nije striktno dogovoren (follow-up projekt?)33 / 60

Page 34: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Mrežno sučelje

34 / 60

Page 35: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Python knjižnica

35 / 60

Page 36: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Sintaktičko raščlanivanje

• inicijativa UniversalDependencieshttp://universaldependencies.org

• ovisnosno sintaktičko raščlanivanje s 40 univerzalnih oznaka• trenutno pokriva 40 jezika• hrvatski je u inicijativi već prisutan dvije godine• na dodavanju srpskoga se upravo radi• parser učen na hrvatskim (i slovenskim) podacima bit će dodan u APIdo kraja godine

• na srpskim podacima će se parser naučiti kada bude gotovooznačivanje podataka

36 / 60

Page 37: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Resursi i alati Jezični alati

Normalizacija teksta

• rekonstrukcija dijakritika• vjerojatnosti p(kuća|kuca) i p(kuca|kuca) naučene na korpusu• korišten i sekvencijalni jezični model naučen na istom korpusu

p(moje, srce, kuca) >> p(moje, srce, kuća)• prisutna već u API-ju, dostupna preko Python knjižnice• točnost na razini pojavnice ∼99.5% (točnost drugog javno dostupnog

alata ∼97% na standardnom tekstu te ∼94% na nestandardnom)• standardizacija teksta strojnim prevođenjem na razini znakova

• statističko strojno prevođenje (vrlo slično Google Translate), umjestoda se prevodi nizove riječi, prevodi se nizove znakova

• jača generalizacija, ako su viđeni "radil" > "radio" te "ljubil" > "ljubio",vjerojatno će uspješno biti normalizirano i neviđeno "pazil" > "pazio"

• učenje na Tweet.HR i Tweet.SR (te JANES korpusu za slovenski)• prvi rezultati za slovenski ukazuju na uklanjanje ∼70% "pogreške" na

nestandardnim tvitovima te ∼50% "pogreške" na standardnima

37 / 60

Page 38: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Page 39: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Cilj(evi)

Repozitorijum instrumenata za prikupljanje podataka

→ Pronalaženje sistemskog rešenja za distribuciju instrumenata zaprikupljanje podataka o/na srpskom i hrvatskom jeziku

→ Podsticanje istraživača na deljenje instrumenata

39 / 60

Page 40: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Kakvi instrumenti?

Svi instrumenti relevantni za istraživanje srpskog i hrvatskog jezika,bez obzira na poddisciplinu lingvistike

• Zadaci• Zadaci leksičke odluke• Zadaci procene prihvatljivosti• Upitnici za ispitivanje motivacije• ...

• Formati• Tekst (liste reči/pseudoreči, rečenice, tekstovi)• Slike, video snimci, audio snimci• Skriptovi za eksperimentalni softver• ...

+ Rezultati istraživanja

40 / 60

Page 41: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Zbog čega?

Trenutno, kada istraživači izrade instrumente koji su im potrebni...• ... koriste ih za sopstvena istraživanja• ... objavljuju rezultate istraživanja, ali ne i instrumente

• Opisi instrumenata u metodološkim odeljcima radova često nisudetaljni i sadrže samo primere stimulusa

• Nije retkost da se celoviti instrumenti ne prilažu uz rad

→ Mnogo napora se ulaže u izradu instrumenata koji se koriste jednom

→ Istraživanja je teško evaluirati i replicirati

Ovakva praksa suprotna je tendenciji u domenu resursa i alata, gde jenivo dostupnosti svih vrsta podataka svakim danom sve viši

41 / 60

Page 42: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Srodne inicijative

Jezički resursi:http://www.clarin.eu (+ lokalni sajtovi)

Terenska lingvistika:http://fieldmanuals.mpi.nl

Usvajanje drugog jezika:http://www.iris-database.org

Psihologija/psiholingvistika:http://www.cogsci.nl/stimulus-setshttp://www.psychwiki.com/wiki/Archives_of_data_and_stimuli

Društvene nauke uopšte:http://reshare.ukdataservice.ac.ukhttps://figshare.comhttp://datadryad.org

42 / 60

Page 43: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

CLARIN (Common Language Resources and Technology Infrastructure)

43 / 60

Page 44: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

CLARIN

44 / 60

Page 45: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

MPI’s L&C Field Manuals and Stimulus Materials

45 / 60

Page 46: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

IRIS (Instruments for Research into Second Language Learning)

46 / 60

Page 47: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

IRIS

47 / 60

Page 48: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

IRIS

http://www.iris-database.org/iris/Content/assets/IRISFlyer.pdf

48 / 60

Page 49: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

ReLDI

49 / 60

Page 50: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

ReLDI

50 / 60

Page 51: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

ReLDI

51 / 60

Page 52: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

ReLDI

52 / 60

Page 53: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

ReLDI

53 / 60

Page 54: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Šta se može raditi sa instrumentima?

Creative Commons licence(https://creativecommons.org/licenses/)

• BY-NC (Autorstvo–Nekomercijalno)• BY-NC-SA (Autorstvo–Nekomercijalno–Deliti pod istim uslovima)• BY-NC-ND (Autorstvo–Nekomercijalno–Bez prerade)

54 / 60

Page 55: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Licenca i citiranje

55 / 60

Page 56: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Kontrola kvaliteta

Radovi objavljeni na osnovu instrumenata

• Bibliografska odrednica• (Link za) rad u celini

56 / 60

Page 57: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Radovi

57 / 60

Page 58: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Perspektive

Repozitorijum će nastaviti da postoji i po završetku projekta, uz brojnemogućnosti za dalji razvoj

Tok daljeg razvoja i dalje opcije zavisiće i od saradnje sa istraživačima kojimogu/žele da prilože svoje instrumente

→ → →

58 / 60

Page 59: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Instrumenti

Neophodnost saradnje zajednice istraživača

Otvoren poziv za učešće

Kontakt:[email protected]

59 / 60

Page 60: -3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm ...

Hvala na pažnji!