Top Banner
Ugradjivanje reči i fraza u vektorske prostore i polu-nadgledano otkrivanje semantičkih sličnosti Jelena Milovanović , asistent u istraživanju Istraživačko razvojni institut NIRI
112

Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Jan 06, 2017

Download

Data & Analytics

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Ugradjivanje reči i fraza u vektorske prostore i polu-nadgledano otkrivanje

semantičkih sličnosti

Jelena Milovanović , asistent u istraživanju

Istraživačko razvojni institut NIRI

Page 2: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic
Page 3: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic
Page 4: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic
Page 5: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

cat

dog

Page 6: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

PregledPregled

● Uvod● Detekcija fraza● Ugradjivanje reči i fraza u vektorske prostore● Obrada podataka● Zaključak

Page 7: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Osvežavanje ontologije poslovnih veština

Uvod: Uvod: PrimenaPrimena

Page 8: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Osvežavanje ontologije poslovnih veština

● presentional_skills● comunication_skills

Uvod: Uvod: PrimenaPrimena

Page 9: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Osvežavanje ontologije poslovnih veština

● presentional_skills● comunication_skills● inter_personal_skills● influencing_skills● organisational_skills● problem_solving_skills● analitical_skills

Uvod: Uvod: PrimenaPrimena

Page 10: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Uvod: Metod polu-nadgledanog Uvod: Metod polu-nadgledanog dobijanja informacijadobijanja informacija

Pedloženi metod sastoji se iz dva osnovna koraka i koristi:

● Grupu modela poznatu pod skraćenicom Word2Vec za ugrađivanje reči i fraza u vektorske prostore

● Hijerarhijsko aglomerativno klasterovanje za dobijanje informacija

Page 11: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Jedan-od reprezentacija reči (One-hot)

House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]

Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]

Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]

Vektorska reprezentacija reči Vektorska reprezentacija reči

Page 12: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Jedan-od reprezentacija reči (One-hot)

House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]

Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]

Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]

Vektorska reprezentacija reči Vektorska reprezentacija reči

I live in the house I live in the ?

Page 13: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Vektorska reprezentacija reči Vektorska reprezentacija reči

Page 14: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Vektorska reprezentacija reči Vektorska reprezentacija reči

Page 15: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli Word2Vec modeli Distribuirana reprezentacija rečiDistribuirana reprezentacija reči

Cottage [0,34 1,43 -6,8...0.5 ]

House [0,38 1,52 -6,8...0.5 ]

Music[7,45 4,78... -8,7 4,5 ]

Cottage

DOG

Moon

Sun

House

Page 16: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Distributivna hipoteza:

Reči i fraze koje se javljaju u istim kontekstima teže da imaju isto značenje

Fert, 1957

Word2Vec modeliWord2Vec modeli: : Distributivna hipotezaDistributivna hipoteza

Page 17: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Distributivna hipotezaDistributivna hipoteza

I have built a house for my family.

I have built a cottage for my family.

It takes the Moon 28 days to make a complete orbit of the Earth

Page 18: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic
Page 19: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 20: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 21: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 22: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 23: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

2D projekcija 1000-dimenzionih vektora dobijena metodom glavnih komponenti (eng.

Principal Component analysis)

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 24: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

vec(''king'') - vec(''man'') + vec(''woman'') = vec(''queen'')

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

vec(''king'') - vec(''man'') = vec(''queen'') - vec(''woman'')

Page 25: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

athens : greece

= baghdad :

?

bulgaria : lev

= sweden : ?

boy : girl

= brother : ?

amazing : amazingly

= apparent : ?

acceptable

: unacceptable

= aware : ?

bad : worse

= big : ?

Word2Vec modeliWord2Vec modeli: : Relacije izmedju vektoraRelacije izmedju vektora

Page 26: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju prostoraRelacije izmedju prostora

Page 27: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : Relacije izmedju prostoraRelacije izmedju prostora

Page 28: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli: : KorpusKorpus

Page 29: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Nenadgledano učenje

● Za treniranje se koriste tekstualni dokumenti koji se sastoji od reči i fraza

● Radi sa velikim korpusima

● Vektori semantički sličnih reči nalaze se u blizini

● Dobijeni vektorski prostor sadrži sintaksne i semantičke relacije koje su uslovljene relativnim položajem vektora

Word2Vec modeliWord2Vec modeli: : KarakteristikeKarakteristike

Page 30: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Uvod: Uvod: Obrada podataka Obrada podataka

● Polu-nadgledano dobijanje informacija

● Upit se sastoji od poznatih termina koje nazivamo semenima

● Cilj: Izdvajanje termina koji imaju slično semantičko značenje kao i semena

Page 31: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Uvod: Uvod: Obrada podataka Obrada podataka

● Korišćen algoritam hijerarhijskog aglomerativnog klasterovanja

● Reči i fraze predstavljene listovima

● Odsecanje stabla u u čvoru koji je semenima najbliži zajednički predak

● Dobijeni klasteri pored semena sadrže reči i fraze semantički slične semenima

Page 32: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

OOdsecanje stabla u čvoru koji je najbliži dsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenimaOOdsecanje stabla u čvoru koji je najbliži dsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima

Page 33: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

OOdsecanje stabla u čvoru koji je najbliži dsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima

Page 34: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

OOdsecanje stabla u čvoru koji je najbliži dsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima

Page 35: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Luxemburg● Estonia● Sloavakia● Croatia● Latvia● Lithuania● Slovenia● Belgium● Denmark● Netherlands● Switzerland

OOdsecanje stabla u čvoru koji je najbliži dsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima

Page 36: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Proces dobijanja Proces dobijanja informacijainformacija

1. Prikupljanje dokumentata2. Procesiranje korpusa (izbacivanje znakova interpunkcije)

3. Detekcija fraza4. Treniranje Word2Vec modela5. Aglomerativno hijerarhijsko klasterovanje dobijenih vektora

6. Odsecanje stabla pomoću semena i dobijanje podataka

Page 37: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Detekcija frazaDetekcija fraza

● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise Mutual Pointwise Mutual InformationInformation)

● PMI je jedinica povezanosti dva događaja i dobija se

Page 38: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Detekcija frazaDetekcija fraza

● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise Mutual Pointwise Mutual InformationInformation)

● PMI je jedinica povezanosti dva događaja i dobija se

Page 39: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Detekcija frazaDetekcija fraza

● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise Mutual Pointwise Mutual InformationInformation)

● PMI je jedinica povezanosti dva događaja i dobija se

● Dužina fraza uslovljena je brojem iteracija

Page 40: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Detekcija frazaDetekcija fraza

● working_class● french_revolution● should_be● google_maps● adobe_photoshop● classical_guitar● kennedy_space_center● artificial_intelligence_laboratory● american_central_intelligence_agency● british_prime_minister_winston_churchill

Page 41: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli

● Model Kontinualne grupe reči (eng. Continuous bag of words - CBOW)

● Model preskakanja reči (eng. Skip-gram)

Page 42: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeliWord2Vec modeli

Page 43: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model

● Model kontinualne grupe (vreće) reči● Opisuje kako neuronska mreža uči vektorske reprezentacije reči

Page 44: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 45: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 46: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 47: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 48: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Linearna aktivaciona funkcija skrivenog sloja

● Softmax sloj izlaznih neurona

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 49: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 50: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 51: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 52: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKriterijumska funkcijaKriterijumska funkcija

Page 53: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : Word2Vec modeli : Stohastički gradijentni spustStohastički gradijentni spust

Page 54: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW modelKontekst dužine 1Kontekst dužine 1

Page 55: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške u nazadu nazad

wki w'ki

Page 56: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške unazadunazad

Page 57: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške unazadunazad

Page 58: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške unazadunazad

Page 59: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške unazadunazad

Page 60: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Tehnika propagiranja greške Tehnika propagiranja greške unazadunazad

v

v'V

Page 61: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model

Page 62: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram

Page 63: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram

Page 64: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram

Page 65: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli : OptimizacijaWord2Vec modeli : Optimizacija

● Hijerarhijski sloj izlaznih neurona (eng. Hierarchical softmax)

● Uzimanje negativnih uzoraka (eng. Negative Sampling)

Page 66: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Koristi se hijerarhijski sloj umesto softmax sloja

● Reči se predstavljaju binarnim stablom gde je broj listova jednak dužini rečnika

● Svaka reč predstavljna je jednim listom

● Verovatnoća pojavljivanja reči u datom kontekstu računa se na osnovu puta od korena do lista kojim je predstavljena

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 67: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 68: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

p (chair | contekst) =

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 69: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

p (chair | contekst) = p ( skretanje levo u čvoru 1)

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 70: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

p (chair | contekst) = p ( skretanje levo u čvoru 1) * p ( skretanje levo u čvoru 2)

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 71: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

p (chair | contekst) = p ( skretanje levo u čvoru 1) * p (skretanja levo u čvoru 2) * * p (skretanja desno u čvoru 4)

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 72: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim čvorovima stabla

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 73: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim čvorovima stabla

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

● Izlaz iz j-tog neurona je verovatnoća grananja u levo u tom čvoru

Page 74: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

● P(w) skup čvorova na putu od korena do lista

● Verovatnoća grananja u pravcu reči u čvoru j

● Ako se put grana u levo jednaka (izlaz iz j-tog

nerona) u suprotnom

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 75: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

● P(w) skup čvorova na putu od korena do lista

● Verovatnoća grananja u pravcu reči u čvoru j

● Ako se put grana u levo jednaka (izlaz iz j-tog

nerona) u suprotnom

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 76: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

Page 77: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli: Word2Vec modeli: Hierarchical softmaxHierarchical softmax

● Najbolji rezultati se postižu kada se reči predstavljaju Huffman-ovim stablom

Page 78: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Negative samplingNegative sampling

● Ne moraju da se koriste neuronske mreže

● Problem estimacije verovatnoća posmatra se kao klasifikacioni i rešava uz pomoć Logističke regresije

Page 79: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Negative samplingNegative sampling

● D – skup pozitivnih primera(svih parova (reč,kontekst) koji su se javili u korpusu)

● D' – skup negativnih primera(svih parova (reč,kontekst) koji se nisu javili u korpusu)

● Cilj da dobijemo klasifikator koji dodeljuje labelu Z = 1 (par pripada skupu D) ili Z = 0 (ne pripada skupu D)

Page 80: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Negative sampling Negative sampling & CBOW& CBOW

● ( , ) - trening primer

● - skup negativnih primera generisanih na ●

osnovu raspodele P(w) =

| | | = k ( 2 < k < 5 V 15 < k < 20)

Page 81: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Negative sampling Negative sampling & CBOW& CBOW

Page 82: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Testovi analogijskog povezivanja

germany

: berlin

= france : paris

Word2Vec modeli: Word2Vec modeli: Merenje kvalitetaMerenje kvalitetavektoravektora

Page 83: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Testovi analogijskog povezivanja

germany

: berlin

= france : paris

germany

: berlin

= france : ?

Word2Vec modeli: Word2Vec modeli: Merenje kvalitetaMerenje kvalitetavektoravektora

Page 84: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Testovi analogijskog povezivanja

vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)

germany

: berlin

= france : paris

germany

: berlin

= france : ?

Word2Vec modeli: Word2Vec modeli: Merenje kvalitetaMerenje kvalitetavektoravektora

Page 85: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Testovi analogijskog povezivanja

germany

: berlin

= france : paris

germany

: berlin

= france : x

vec(paris) - vec (france) ≈ vec (germany) – vec (berlin) vec(x) ≈ vec (germany) – vec (berlin) + vec (france)

Word2Vec modeli: Word2Vec modeli: Merenje kvalitetaMerenje kvalitetavektoravektora

Page 86: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Testovi analogijskog povezivanja

germany

: berlin

= france : paris

germany

: berlin

= france : x

vec(paris) - vec (france) ≈ vec (germany) – vec (berlin) vec(x) ≈ vec (germany) – vec (berlin) + vec (france)

x = paris ✔

Word2Vec modeli: Word2Vec modeli: Merenje kvalitetaMerenje kvalitetavektoravektora

Page 87: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: TestiranjeWord2Vec modeli: Testiranje

● 5 tipova semantičkih relacija● 9 tipova sintaksičkih relacija● 8869 semantičkih pitanja● 10 675 sintaksičkih pitanja

Page 88: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: TestiranjeWord2Vec modeli: Testiranje

Page 89: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Mere sličnostiMere sličnosti

a : b

= a* : b*

vec(b*) ≈ vec(a) – vec(b) + vec(a*)

Page 90: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Mere sličnostiMere sličnosti

a : b

= a* : b*

vec(b*) ≈ vec(a) – vec(b) + vec(a*)

Page 91: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Mere sličnostiMere sličnosti

log log log

Page 92: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: Mere sličnostiMere sličnosti

log log log

london : england

= baghdad :

?

cos similarity : mosulcos mul : iraq

Page 93: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Word2Vec modeli: Word2Vec modeli: NedostaciNedostaci

● Dvosmislenost

● Korpus je niz tokena

Page 94: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podatakaObrada podataka

● Hijerarhijsko aglomerativno klasterovanje

Page 95: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podatakaObrada podataka

● Hijerarhijsko aglomerativno klasterovanje

● Problem:

Page 96: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podatakaObrada podataka

● Hijerarhijsko aglomerativno klasterovanje

● Problem: Složenost izračunavanja i memorijskih zahteva

Page 97: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podatakaObrada podataka

● Hijerarhijsko aglomerativno klasterovanje

● Problem:Složenost izračunavanja i memorijskih zahteva

● Ne može se koristiti standardni algoritam za klasterovanje rečnika koji sadrže više od 30 000 reči

Page 98: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

● Hibridni algoritam

Page 99: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

● Hibridni algoritam

Kombinuje:

A) Metod sredjih vrednosti (eng. K-means)

B) Hijerarhijsko aglomerativno klasterovanje

Page 100: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 101: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 102: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 103: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 104: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 105: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 106: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Obrada podataka: Obrada podataka: Hibridni algoritamHibridni algoritam

Page 107: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Dobijanje informacijaDobijanje informacija

● Iz stabla se podaci dobijaju polu-nadgledano● Sečenje stabla u najbližem zajedničkom pretku● Dobijaju se klasteri koji sadrže semena i njima semantički

slične termine

Page 108: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

ZaključakZaključak

● Metod se može koristiti za izdvajanje sličnih termina● Za izdvajanje isith termina neophodna je kontrola od

strane korisnika

Page 109: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

ZaključakZaključak

● C++● Java● Perl● Cobol● Assembler● Pascal● Visual Basic

Page 110: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

ZaključakZaključak

● C++● Java● Perl● Cobol● Assembler● Pascal● Visual Basic● Visual c++● Eclipse● Programming language

Page 111: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

Zaključak: Zaključak: Vektorski prostori Vektorski prostori

● Korišćenjem različitih mera za upoređivanje vektora otkrivaju se različite sličnosti između reči

● Za otkrivanje semantičkih sličnosti potrebno je detaljno istražitivanje prostora pa čak i unapređenje prostora i prilagođavanje konkretnom zahtevu korisnika

Page 112: Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

HVALA NA PAŽNJI!