ITI zinātniskais seminārs: Inguna Skadiņa un Raivis Skadiņš "Latviešu valoda jaunajās tehnoloģijās"

Post on 07-Feb-2017

106 Views

Category:

Technology

6 Downloads

Preview:

Click to see full reader

Transcript

Latviešu valoda jaunajās tehnoloģijās

Raivis Skadiņš un Inguna Skadiņa

KAS IR TILDE?

Nodrošinātlatviešu valodai

tādu pašu atbalstu jaunajās tehnoloģijās kā plaši lietotām valodām

Kas ir Tilde?

Darbības virzieni un kompetence

Tulkošanas tehnoloģijas

Terminoloģijas risinājumi

Runas tehnoloģijas

Multimodāli virtuālie asistenti

Pareizrakstības līdzekļi

Mācību līdzekļi

Valodas resursi

• 6 zinātņu doktori, 2 doktoranti

• Aktīva dalība starptautiskās valodas tehnoloģiju organizācijās un projektos

• Vairāk nekā 120 zinātniskās publikācijas starptautisko konferenču rakstu krājumos

• Dalība ES līdzfinansētos pētniecības projektos kopš 2002. gada

• Tilde ir piedalījusies vai piedalās 14 projektos

• Vadījusi 5 projektus

Eiropas mēroga pētniecības aktivitātes

Sadarbība

vairāk nekā 40 sadarbības partneru

LATVIEŠU VALODA JAUNAJĀS TEHNOLOĢIJĀS

Kā Pēcis Beisikānis Maiju Saprātiņu programmēt mācīja B.Martuzāns, 1986

Pirms neilga laika angļu valoda kalpoja par saziņas valodu tīmeklī, jo lielākā daļa satura bija angļu valodā.

Tagad tīmekļa satura apjoms citās valodās ir strauji pieaudzis

Bet kā ar tehnoloģijām, kas “saprot” un prot lietot valodu?

Valodu tehnoloģiju iespējas un izaicinājumi

DIGITĀLĀS TEKSTU KRĀTUVESNevienam nerada šaubas nepieciešamība veidot digitālās resursu krātuves, kurās apkopota gan runātā, gan rakstītā valoda

Digitālā bibliotēka

http://www.korpuss.lv/senie/

saeima.korpuss.lv

http://letonika.lv/literatura

PAMATTEHNOLOĢIJAS

Valodas tehnoloģiju iespējas

Valodas tehnoloģijas kļuvušas par mūsu ikdienu

– lietojam meklēšanas rīkus

– uzticamies pareizrakstības pārbaudes rīkiem

– klausāmies automašīnas navigācijas sistēmas mutiskās norādes

– vēlamies uzticamus tulkošanas rīkus

Pareizrakstības pārbaude

• Parasti izceļ kļūdaini uzrakstītus vārdus un piedāvā labojumus

• Pareizrakstības pārbaudes rīki atrod arī sintakses kļūdas

• Pareizas sintakses likumsCSENT -> main:SENT pm:T cc:C cc:SENT

cc:C.ConjType==Coord

pm:T.PunctType==comma

• Kļūdainas sintakses likumsDESCR "Pieturzīmes kļūda"

ERROR-6 -> main:SENT cc:C cc:SENT

cc:C.ConjType==Coord

GRAMMCHECK MarkSpaceBefore(cc:C)

SUGGEXPLAN "Starp divām patstāvīgām teikuma daļām ir jāliek komats"

SUGGEST (","+cc:C)

Pareizas un kļūdainas sintakses likumu pāris

AUTOMATIZĒTA TULKOŠANA

Latvijas iedzīvotāji nelasa vai reti lasa informāciju Internetā,

ja tā nav dzimtajā valodā

46%

Latvijas nodarbinātie iedzīvotāji neveic vai reti veic profesionālo komunikāciju Internetā, ja tā nav dzimtajā valodā

64%

Statistiskās MT sistēmas

1947. gada 4.martā Vorens Vīvers(Warren Weaver) Norbertam Vīneram(Norbert Wiener) vēstulē izklāsta idejupar datora izmantošanu tulkošanā

… Also knowing nothing official about, but having guessed and inferred considerable about, powerful new mechanized methods in cryptography... one naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols. I will now proceed todecode.”...

Kad es redzu tekstu krieviski, es saku “Tas īstenībā ir rakstīts angliski, bet ir nokodēts ar dīvainiem simboliem. Es to atkodēšu”

23

Mašīntulkošana

Ideja par datoru izmantošanu dabiskās valodas teksta tulkošanā radās 1946. gadā

Mi pyeryedayem mislyi posryedstvom ryechi.

We transmit thoughts by means of speech.

Statistiskā MT iemācās tulkošanu no divu veidu datiem:• Cilvēka veiktajiem tulkojumiem

• Tekstiem mērķvalodā

• Jo vairāk datu, jo labāk

• Svarīgi, lai tie būtu piemēroti dati!

Kā darbojas mūsdienu MT?

25

Kā darbojas mūsdienu MT: trenēšana

Paralēlais korpuss(angļu-latviešu)

Korpuss mērķvalodā

(latviešu)

Tulkošanas modelisP(A|L)

Valodas modelisP(L)

26

Kā darbojas mūsdienu MT: tulkošana

Tulkošanas modelisP(A|L)

Valodas modelisP(L)

Teikums angļu valodā

Teikums latviešu valodā

Dekoderisargmaxl P(L)P(A|L)

27

Kurš teikums, ir kura tulkojums

Sastatījums teikuma līmenī

Take the cone on the square. Take the block.Take the green block.

Paņem konusu no kvadrāta.Paņem klucīti.Paņem zaļo klucīti.

Kā tulkojami vārdi un vārdu savienojumi

Vārdu sastatīšana, tulkojumu varbūtības

blockgreentake

klucītiszaļšpaņemt

Kāds ir pareizs teikums mērķvalodā

Valodas modelis Paņem zaļo klucīti.Paņem klucīti zaļo.

Ko dators iemācās no tekstiem?

28

Sastatīšana teikuma līmenī

29

Take the cube.

Take the green cube on the red circle.

Take the green cube,put the cube on the red

circle.

Put the cone on the red circle on the square.

Paņem kubu.

Paņem zaļo kubu no sarkanā apļa.

Noliec kubu uz sarkanā apļa.

Pārliec konusu no sarkanā apļa uz kvadrāta.

Paņem zaļo kubu.

William A. Gale and Kenneth Ward Church (1991): A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA, Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics (ACL)

Sastatīšana vārdu līmenī

http://www.lr-coordination.eu/sites/default/files/presentation/GER_workshop-master-S7a-Josef%20van%20Genabith-final-DE.pdf

Sastatīšana vārdu līmenī

31http://www.lr-coordination.eu/sites/default/files/presentation/GER_workshop-master-S7a-Josef%20van%20Genabith-final-DE.pdf

Vārdu tulkojumu izguve

32

Teikuma līmeņa sastatījums

Take the block. Paņem klucīti.

Take the green block. Paņem zaļo klucīti.

Take the red square. Paņem sarkano kvadrātu.

Put the square on the red block. Noliec kvadrātu uz sarkanā klucīša.

Put on the red square. Noliec uz sarkanā kvadrāta.

Vārdu tulkojumu izguve

33

Vārdu pāru biežumi

take paņem 3

klucīti 2

...

block klucīti 2

klucīša 1

green zaļo 1

red sarkano 1

sarkanā 2

on uz 2

put noliec 2

.....

Sastatījums

Take the block. Paņem klucīti.

Take the green block. Paņem zaļo klucīti.

Take the red square. Paņem sarkanokvadrātu.

Put the square onthe red block.

Noliec kvadrātu uzsarkanā klucīša.

Put on the redsquare.

Noliec uz sarkanākvadrāta.

Tulkošanas modelis

34

Put the red blockVārdu pāru biežumi

take paņem 3

klucīti 2

...

block klucīti 2

klucīša 1

green zaļo 1

red sarkano 1

sarkanā 2

on uz 2

put noliec 2

.....

?

Tulkošanas modelis

35

Put the red block

Vārdu pāru biežumi

take paņem 3

klucīti 2

...

block klucīti 2

klucīša 1

green zaļo 1

red sarkano 1

sarkanā 2

on uz 2

put noliec 2

.....

? Noliec sarkano klucīti2/2 1/3 1/3

Noliec sarkano klucīša2/2 1/3 1/3

Noliec sarkanā klucīti2/2 2/3 2/3

Noliec sarkanā klucīša2/2 2/3 1/3

Tulkošanas modelis

36

Put the red blockVārdu pāru biežumi

take paņem 3

klucīti 2

...

block klucīti 2

klucīša 1

green zaļo 1

red sarkano 1

sarkanā 2

on uz 2

put noliec 2

.....

?

Noliec sarkanā klucīti

Valodas modelis

37

• Kas ir laba valoda?• Kuri vārdi var kuriem sekot un kuri nevar?• Kādi ir pareizie locījumi?

Noliec sarkano klucīti

Noliec sarkano klucīša

Noliec sarkanā klucīti

Noliec sarkanā klucīša

Valodas modelis• Valodas modelis novērtē pārtulkoto vārdu virkni L, t.i.,

novērtē vai tas ir pareizs teikums P(L)• Valodas modeļa veidošanai izmanto lielus monolingvālus

tekstu korpusus• Lai noskaidrotu, kas ir “laba” vai “slikta” valoda, tiek

izmantoti valodas n-grammu modeļi, visbiežāk 3-grammas, 5-grammas, 7- grammas

P(noliec sarkano klucīti) P(noliec|teikuma sākums) *P(sarkano | teikuma sākums, noliec) *P(klucīti |noliec, sarkano) *P(teikuma beigas| noliec, sarkano) *P(teikuma beigas |sarkano)

38

Valodas modelis

39

• Kas ir laba valoda?• Kuri vārdi var kuriem sekot un kuri nevar?• Kādi ir pareizie locījumi?

Noliec sarkano klucīti2 0.1 0.1 0.1 0.1Noliec sarkano klucīša2 0.1 0.1 0. 1 0.1Noliec sarkanā klucīti2 0.1 0.1 0.1 0.1Noliec sarkanā klucīša2 0.1 0.1 1 1

Sastatījums

Take the block. Paņem klucīti.

Take the green block. Paņem zaļo klucīti.

Take the red square. Paņem sarkanokvadrātu.

Put the square onthe red block.

Noliec kvadrātu uzsarkanā klucīša.

Put on the redsquare.

Noliec uz sarkanākvadrāta.

Statistiskā mašīntulkošana

40

Vārdu pāru biežumi

take paņem 3

block klucīti 2

klucīša 1

green zaļo 1

red sarkano 1

sarkanā 2

...

+

Tulkojums mērķvalodā

Put the red block

Noliec sarkanā klucīša

Tulkošana

Paralēlais korpuss(angļu-latviešu)

Korpuss mērķvalodā

(latviešu)

Tulkošanas modelisP(A|L)

Valodas modelisP(L)

Teikums angļu valodā

Teikums latviešu valodā

Dekoderisargmaxl P(L)P(A|L)

41

• Tulkojot vārdus, tiek zaudēts konteksts: piemēram, saskaņojums (paņem sarkanā klucīti …) u.c.

• Daļēji risina valodas modelis

• Labāks risinājums ir frāzēs balstīts modelis - ne tikai vārdu tulkojumi, bet arī frāžu tulkojumi

Frāzēs balstīta SMT

42

Statistiskā mašīntulkošana

43

Biežumu statistika

take paņem 4

block klucīti 2

klucīša 1

green zaļo 2

zaļā 1

red sarkano 1

sarkanā 2

on uz 3

put noliec 3

square kvadrāta 1

kvadrātu 2

Sastatījums

Take the block. Paņem klucīti.

Take the green block. Paņem zaļo klucīti.

Take the green square. Paņem zaļo kvadrātu.

Take the red square. Paņem sarkanokvadrātu.

Put the square on thered block.

Noliec kvadrātu uzsarkanā klucīša.

Put on the red square. Noliec uz sarkanākvadrāta.

Put on the green block. Noliec uz zaļā klucīša.

44

Biežumu statistika

take paņem 4

block klucīti 2

klucīša 1

green zaļo 2

zaļā 1

red sarkano 1

sarkanā 2

on uz 3

put noliec 3

square kvadrāta 1

kvadrātu 2

Put the red square on thegreen block

Noliec sarkanā kvadrātu uz zaļo klucīti

Statistiskā mašīntulkošana

45

Biežumu statistika

the red square sarkano kvadrātu 1

on the green block uz zaļā klucīša 1

on the red squire uz sarkanā kvadrāta 1

put noliec 3

....

Sastatījums

Take the block. Paņem klucīti.

Take the green block. Paņem zaļo klucīti.

Take the green square. Paņem zaļo kvadrātu.

Take the red square. Paņem sarkano kvadrātu.

Put the square on the red block. Noliec kvadrātu uz sarkanā klucīša.

Put on the red square. Noliec uz sarkanā kvadrāta.

Put on the green block. Noliec uz zaļā klucīša.

Statistiskā mašīntulkošana

46

Noliec sarkano kvadrātu uz zaļā klucīša

Biežumu statistika

the red square sarkano kvadrātu 1

on the green block uz zaļā klucīša 1

on the red squire uz sarkanā kvadrāta 1

put noliec 3

Put the red square on the green block

Mašīntulkošanas sistēmas izveides soļi

47

VALODU VIRZIENS JOMA BLEU

Angļu-latviešu Valsts pārvalde 55,58

Latviešu-angļu Valsts pārvalde 60,93

Latviešu-krievu Valsts pārvalde 65,88

Apsteigts Google un Microsoft: sasniegta

pasaulē labākā mašīntulkošanas kvalitāte

Baltijas valstu valodām

Skype Translator

51http://www.skype.com/en/translator-preview/

Neironu tīklu lietojums MT

Pašlaik vislabākie rezultāti

Pirmie eksperimentālie rezultāti

K. Stevens. Neural Networks and Google Translate: http://lectures.ms.mff.cuni.cz/view.php?rec=278

Valodas modeļu pārvērtēšana

52

RUNAS TEHNOLOĢIJAS

Runas atpazīšanas korpuss

Ortogrāfiski marķēts latviešu valodas runas korpuss:– Ortogrāfiski marķēti dati (100 stundas)

– Fonētiski marķēti dati (4 stundas)

Runātās valodas korpuss

Sadalījums pa vecuma grupām

Balss atpazīšanas procesa izpēte

• Modelē akustiskās pārejas fonēmās un starp tām

• Modelēšana ar HMM modeli (HiddenMarkov Model)

• «Apmācīšana» uz transkribētiem balss datiem

Akustiskais modelis

Grafēmu-fonēmu modelis

Valodas modelis

• Modelē grafēmu izrunu

• Vienkāršākais modelis –izrunas vārdnīca

• Komplicētāki modeļi, piem., ar Finite StateTransducers

• Modelē iespējamo vārdu secību teikumā.

• Vienkāršākie modeļi ar CFG.

• Vispārējs varbūtisks valodas modelis ar n-grammām

Audiosignāla parametri-

zācija

• Attīra trokšņu un fona ietekmi

• Normalizē audiosignālu, līdzsvarojot akustiskos, tembrālos un tonālos parametrus

Balss atpazīšanas process

Speech signal

Feature extraction

Acoustic model

Languagemodel

Combining both models

Best hypothesis

𝑃 𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐 𝑠𝑖𝑔𝑛𝑎𝑙|𝑇

𝑃(𝑇)

𝑎𝑟𝑔max𝑇

VIRTUĀLIE SARUNU BIEDRI

Virtuālie sarunu biedri

Tjūringa tests (1950)

Arhitektūra

Runas atpazīšanas un runas sintēzes

tīmekļa pakalpojumiGoogle, Nuanse

iPhone

Android

Windows Phone

Ms Windows

Lietotāja iekārtas

Vairāku aģentu dialoga vadības

sistēma

Ārējās zināšanu bāzesĀrējās zināšanu

bāzesĀrējās zināšanu bāzes

text, ID, GPS, ...

text/xml, ID

Pirmais prototips: valūtas konvertors Ēriks

• Dialogsistēma ierobežotas lietošanas scenārijam.

• Eksperimentāla lietotne, kas palīdzēja Latvijas iedzīvotājiem vieglāk orientēties valūtas konvertācijas procesā 2014. gada pirmajos mēnešos, kad notika pāreja no latiem uz eiro.

• Pirmā multimodālā dialogsistēma, kas demonstrē skaitļu atpazīšanu runā latviešuvalodā.

Meklēšana tīmeklīKāds

šodien datums

?

Kurā vietā atrodas vaicātājs

Kur meklējamas laika ziņas?

Kāds būs laiks 24. februārī

Rīgā?

Kāds rīt būs laiks?

Laura• Dialogsistēma Laura ir virtuālā

sarunbiedra prototips.• Laura saprot vienkāršus

jautājumus angļu valodā un var sniegt atbildes uz tiem.

• Sarunas laikā pauž emocijas.

• Papildus prot arī: • Atbildēt par laikapstākļiem;• Noteikt attālumu;• Noteikt atrašanās vietu;• Tulkot no angļu valodas uz spāņu, krievu

un franču valodām u.tml.

Laura Riga Guide• Laura Riga Guide iepazīstina

lietotājus ar Rīgu un Latviju.

• Pielāgota saskarne; Papildus servisi iekļauj:

• Google Maps /Google Directions

• Foursquare

Mobils mācību palīglīdzeklis reizrēķina apguvei latviešu

valodā

Reizrēķins• Multimodālās dialogsistēmas

prototips Reizrēķins veidots kā spēle un palīgs bērniem reizrēķinazināšanu nostiprināšanai latviešuvalodā.

• Runas atpazīšana reālā laikā.

• Pauž emocijas atkarībā no atbildes pareizības.

• Interaktīvs 3D tēls.

Multimodālā sapludināšana –emocionāls, bērnam saprotams

virtuālais tēls, kas reaģē atbilstoši situācijai

PALDIES PAR UZMANĪBU!

JAUTĀJUMI?

top related