Top Banner
Uvod u računalnu metodologiju za jezično istraživanje Heterogenost jezika – žanrovi i domene
22

Uvod u računalnu metodologiju za jezično istraživanje

Jan 15, 2016

Download

Documents

Libby

Uvod u računalnu metodologiju za jezično istraživanje. Heterogenost jezika – žanrovi i domene. Jezik i tekst. JEZIK je OBJEKT proučavanja lingvistike Je li moguće pokazati na neki tekst i proglasiti ga prikladnim za opis jezika? - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Uvod u računalnu metodologiju za jezično istraživanje

Uvod u računalnu metodologiju za jezično istraživanje

Heterogenost jezika – žanrovi i domene

Page 2: Uvod u računalnu metodologiju za jezično istraživanje

Jezik i tekst JEZIK je OBJEKT proučavanja lingvistike Je li moguće pokazati na neki tekst i

proglasiti ga prikladnim za opis jezika? Koji bi tekst (ili vrsta teksta) bio

prototipičan za opis određenog jezika? Rečenice se istoga jezika značajno

razlikuju u različitim žanrovima!

Page 3: Uvod u računalnu metodologiju za jezično istraživanje

Žanrovi ŽANROVI: novinski, prozni, znanstveni,

SMS, pričaonice (chatrooms)… Značajna razlika u: strukturi, dužini

rečenice, vokabularu i stilu pisanja. Rečenica:

Teško je ful biti kul… pripada žanru pričaonica, ali nikako ne

pripada znanstvenom!

Page 4: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (beletristika)

Page 5: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (novinski članak)

Page 6: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (znanstveni članak)

Page 7: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (Windows help)

Page 8: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (Wikipedia)

Page 9: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (Chat room)

Page 10: Uvod u računalnu metodologiju za jezično istraživanje

Je li ovo engleski jezik? (SMS) Pogledajte svoje SMS poruke! C U 4 FIVE DAYS.

Page 11: Uvod u računalnu metodologiju za jezično istraživanje

SMS jezik Bira se jezik prilagođen mediju Jezik SMS poruka značajno odudara

od standarda Jezična ekonomija dolazi do izražaja Sudionici komunikacije pristaju na

povećanu cijenu napora za kodiranje/dekodiranje poruke

Page 12: Uvod u računalnu metodologiju za jezično istraživanje

Žanrovi – stupanj strukturiranosti

ADMINISTRATIVNI

ZNANSTVENI

PROZNI

NOVINSKI

RAZGOVORNI

POEZIJA

SMS…

visoka struktu

ra

niska struktu

ra

Kontrolirani jezik

“Slobodni” jezik

Page 13: Uvod u računalnu metodologiju za jezično istraživanje

Domena Definirana sadržajem teksta, npr.

ekonomija, pravo, medicina, sport …Kuhajte na laganoj vatri 30 minuta.

Pripada domeni recepata, ali ne i domeni prava ili sporta!

Razlike među domenama nisu lingvistički motivirane, više utječu kognitivne granice

Ali domena uvelike utječe na jezik koji se koristi u diskursu!

Page 14: Uvod u računalnu metodologiju za jezično istraživanje

Kontrolirani jezik - podjezik Podjezik (sublanguage) – Podskup

nekog prirodnog jezika koji je nastao spontano iz semantičkog ograničenja domene

Preduvjet: zajednica govornika koja dijeli specijalizirano znanje o ograničenoj semantičkoj domeni

Evoluira prešutnim konsenzusom stručne zajednice govornika (korisnika)

Page 15: Uvod u računalnu metodologiju za jezično istraživanje

Jezik kao sredstvo komunikacije Čovjek: proizvodi varijabilne i teško

predvidive strukture Stroj: u stanju konzistentno obrađivati

uniformne jezične strukture

Što je prepreka uspješnom strojnom prevođenju?

Ili barem uspješnoj ekstrakciji “znanja” iz digitaliziranih tekstova

Page 16: Uvod u računalnu metodologiju za jezično istraživanje

Kontrolirani prirodni jezik (Controlled natural language)

Dio nekog drugog jezika kojemu su s namjerom uvedena ograničenja u terminologiji i gramatici

Kontrolirani prirodni jezik - uvođenjem ograničenja nastoji reducirati višeznačnost koja proizlazi iz prirodnog jezika

Page 17: Uvod u računalnu metodologiju za jezično istraživanje

Kontrolirani jezik Ograničenjima na leksičko/semantičkoj

i sintaktičkoj razini podiže F-mjeru:1. Leksički: popis dopuštenih i nedopuštenih

riječi/pojavnica2. Sintaktički: pravila propisivanja strukture

rečenica (kratke rečenice, prijedložne fraze…)

3. Semantički: 1.) + ograničenja koja proizlaze iz domene

Page 18: Uvod u računalnu metodologiju za jezično istraživanje

Postojeći KJ Najpoznatiji: Simplified English (SE) Često se pogrešno koristi kao generički

naziv za sve kontrolirane jezike Caterpillar Fundamental English (CFE) –

prvi KJ AECMA Simplified English – European

Association of Aerospace Industries PENG (Processable ENGlish) ClearTalk … Danas preko 40!

Page 19: Uvod u računalnu metodologiju za jezično istraživanje

Zašto proučavati KJ ili podjezik? Zbog uvedenih ograničenja moguće je

obaviti gotovo cjelovit lingvistički opis Oni su podsustavi (mikrokozmosi)

prirodnih jezika Za računalnu lingvistiku igraju istu ulogu

kao i vinske muhe (dorosophila) za proučavanje genetike

Obrada znatno lakša i uspješnija u usporedbi s prirodnim jezikom u cjelini

Page 20: Uvod u računalnu metodologiju za jezično istraživanje

SE - primjer

Page 21: Uvod u računalnu metodologiju za jezično istraživanje

Primjena KJ i podjezika danas Industrija (priručnici) → početak →

automatski prijevodi na više jezika Prijenos obavijesti od vitalnog

značaja: kontrola zračnog prometa, policija, hitne službe, …

Organizacija znanja, indeksiranje tekstova, document mangement systems…

Page 22: Uvod u računalnu metodologiju za jezično istraživanje

Institute for Applied Linguistics – Kent University