Uvod u računalnu metodologiju za jezično istraživanje Heterogenost jezika – žanrovi i domene
Jan 15, 2016
Uvod u računalnu metodologiju za jezično istraživanje
Heterogenost jezika – žanrovi i domene
Jezik i tekst JEZIK je OBJEKT proučavanja lingvistike Je li moguće pokazati na neki tekst i
proglasiti ga prikladnim za opis jezika? Koji bi tekst (ili vrsta teksta) bio
prototipičan za opis određenog jezika? Rečenice se istoga jezika značajno
razlikuju u različitim žanrovima!
Žanrovi ŽANROVI: novinski, prozni, znanstveni,
SMS, pričaonice (chatrooms)… Značajna razlika u: strukturi, dužini
rečenice, vokabularu i stilu pisanja. Rečenica:
Teško je ful biti kul… pripada žanru pričaonica, ali nikako ne
pripada znanstvenom!
Je li ovo engleski jezik? (beletristika)
Je li ovo engleski jezik? (novinski članak)
Je li ovo engleski jezik? (znanstveni članak)
Je li ovo engleski jezik? (Windows help)
Je li ovo engleski jezik? (Wikipedia)
Je li ovo engleski jezik? (Chat room)
Je li ovo engleski jezik? (SMS) Pogledajte svoje SMS poruke! C U 4 FIVE DAYS.
SMS jezik Bira se jezik prilagođen mediju Jezik SMS poruka značajno odudara
od standarda Jezična ekonomija dolazi do izražaja Sudionici komunikacije pristaju na
povećanu cijenu napora za kodiranje/dekodiranje poruke
Žanrovi – stupanj strukturiranosti
ADMINISTRATIVNI
ZNANSTVENI
PROZNI
NOVINSKI
RAZGOVORNI
POEZIJA
SMS…
visoka struktu
ra
niska struktu
ra
Kontrolirani jezik
“Slobodni” jezik
Domena Definirana sadržajem teksta, npr.
ekonomija, pravo, medicina, sport …Kuhajte na laganoj vatri 30 minuta.
Pripada domeni recepata, ali ne i domeni prava ili sporta!
Razlike među domenama nisu lingvistički motivirane, više utječu kognitivne granice
Ali domena uvelike utječe na jezik koji se koristi u diskursu!
Kontrolirani jezik - podjezik Podjezik (sublanguage) – Podskup
nekog prirodnog jezika koji je nastao spontano iz semantičkog ograničenja domene
Preduvjet: zajednica govornika koja dijeli specijalizirano znanje o ograničenoj semantičkoj domeni
Evoluira prešutnim konsenzusom stručne zajednice govornika (korisnika)
Jezik kao sredstvo komunikacije Čovjek: proizvodi varijabilne i teško
predvidive strukture Stroj: u stanju konzistentno obrađivati
uniformne jezične strukture
Što je prepreka uspješnom strojnom prevođenju?
Ili barem uspješnoj ekstrakciji “znanja” iz digitaliziranih tekstova
Kontrolirani prirodni jezik (Controlled natural language)
Dio nekog drugog jezika kojemu su s namjerom uvedena ograničenja u terminologiji i gramatici
Kontrolirani prirodni jezik - uvođenjem ograničenja nastoji reducirati višeznačnost koja proizlazi iz prirodnog jezika
Kontrolirani jezik Ograničenjima na leksičko/semantičkoj
i sintaktičkoj razini podiže F-mjeru:1. Leksički: popis dopuštenih i nedopuštenih
riječi/pojavnica2. Sintaktički: pravila propisivanja strukture
rečenica (kratke rečenice, prijedložne fraze…)
3. Semantički: 1.) + ograničenja koja proizlaze iz domene
Postojeći KJ Najpoznatiji: Simplified English (SE) Često se pogrešno koristi kao generički
naziv za sve kontrolirane jezike Caterpillar Fundamental English (CFE) –
prvi KJ AECMA Simplified English – European
Association of Aerospace Industries PENG (Processable ENGlish) ClearTalk … Danas preko 40!
Zašto proučavati KJ ili podjezik? Zbog uvedenih ograničenja moguće je
obaviti gotovo cjelovit lingvistički opis Oni su podsustavi (mikrokozmosi)
prirodnih jezika Za računalnu lingvistiku igraju istu ulogu
kao i vinske muhe (dorosophila) za proučavanje genetike
Obrada znatno lakša i uspješnija u usporedbi s prirodnim jezikom u cjelini
SE - primjer
Primjena KJ i podjezika danas Industrija (priručnici) → početak →
automatski prijevodi na više jezika Prijenos obavijesti od vitalnog
značaja: kontrola zračnog prometa, policija, hitne službe, …
Organizacija znanja, indeksiranje tekstova, document mangement systems…
Institute for Applied Linguistics – Kent University