Top Banner
Objavovanie znalostí v textoch TU Košice TEXT MINING 4 Objavovanie znalostí v textoch Peter Bednár
30

TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Feb 03, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

TEXT MINING 4

Objavovanie znalostí v textochPeter Bednár

Page 2: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Úlohy dolovania z textov

• Klasifikácia

– Zaradenie dokumentu do preddefinovaných kategórií

• Zhlukovanie

– Nájdenie a popis zhlukov podobných dokumentov

• Extrahovanie tém

– Vyextrahovanie hlavných tém v dokumentoch

• Analýza sentimentu

– Určenie polarity textu

• Extrahovanie informácií

– Extrahovanie entít, udalostí, vzťahov a faktov

2

Page 3: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Extrahovanie tém (1)

• Úlohou je 1) nájsť témy zastúpené v množine dokumentov a 2)

popísať témy tak aby ich bolo možné interpretovať

• Najčastejšie sa používajú nekontrolované metódy

• Vhodná je vektorová reprezentácia + slovné spojenia

• Predpoklady:

– Obsah jedného dokumentu môže byť zložený z viacerých tém

– Témy je možné reprezentovať možinou charakteristických slov

alebo fráz

– Jedno slovo môže vyjadrovať rôzne témy (v každej sa však

vyskytuje v kontexte iných slov)

3

Page 4: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Extrahovanie tém (2)

• Vyhodnotenie

– Na nezávislej množine sa otestuje ako dobre model dokáže

popísať nové dáta (za predpokladu rovnakého zastúpenia tém)

– Ale podobne ako pri zhlukovaní, dôležitá je interpretácia

expertom a vizualizácia výsledkov

4

Page 5: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Extrahovanie tém a LSI (1)

• Term-dokument matica bola rozložená na súčin matíc T S DT

• Komponenty LSI sme prirovnali k témam, pričom platilo, že:

– Počet tém bol daný počtom komponentov LSI k

– Každej téme zodpovedal stĺpcový vektor v matici T, ktorého

hodnoty Ti,t určovali, do akej miery term i vyjadruje tému t

– Každej téme zodpovedal stĺpcový vektor v matici D, ktorého

hodnoty Dj,t určovali, do akej miery dokument j obsahuje tému t

– Témy boli vážené pre celú množinu dokumentov singulárnymi

hodnotami st ≥ 0 z diagonálej matice S

5

Page 6: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Extrahovanie tém a LSI (2)

• Váha termu v dokumente sa rozložila podľa:

Ai,j = Ti,1s1Dj,1 + Ti,2s2Dj,2 + ... + Ti,k skDj,k

• Hlavným problémom LSI pre extrahovanie tém je to, že hodnoty Ti,t

a Dj,t nie sú ohraničené a môžu nadobúdať zápornú hodnotu, čo

znemožňuje jednoduchú interpretáciu príslušnosti medzi termami a

témami, resp. témami a dokumentami

• Pre jednoduchú interpretáciu by mali byť hodnoty Ti,t a Dj,t kladné a

ohraničené

6

Page 7: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

LSI – príklad (1)

7

manažmentznalosť

dátainformácia

úlohafinancie

manažérprojekt

návratnosťpresnosť

vyhľadávaniehits

pagerankreprezentácia

rozpočetganttpert

dolovanieoptimalizácia

cieľ

do

k. 1

do

k. 2

do

k. 3

do

k. 4

do

k. 5

dok. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

tém

a 1

tém

a 2

tém

a 3

tém

a 4

tém

a 5

tém

a 6

tém

a 7

tém

a 8

tém

a 9

tém

a 1

0

dok.1

dok.2

do

k. 3

do

k. 4

dok. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

téma. 1téma. 2téma. 3téma. 4téma. 5téma. 6téma. 7téma. 8téma. 9téma. 10

T SA

DT

= ×

Page 8: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

LSI – príklad (2)

8

manažmentznalosť

dátainformácia

úlohafinancie

manažérprojekt

návratnosťpresnosť

vyhľadávaniehits

pagerankreprezentácia

rozpočetganttpert

dolovanieoptimalizácia

cieľ

do

k. 1

do

k. 2

do

k. 3

do

k. 4

do

k. 5

dok. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

do

k. 1

do

k. 2

do

k. 3

dok. 4

do

k. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

do

k. 1

do

k. 2

do

k. 3

dok. 4

do

k. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

A-1A A-9,-10

Page 9: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

12

3

4

5

678 9

10

0

0,1

0,2

0,3

0,4

0,5

0,6

0 0,1 0,2 0,3 0,4 0,5 0,6

12345

6

7

8

9

10

0

0,1

0,2

0,3

0,4

0,5

0,6

0 0,1 0,2 0,3 0,4 0,5 0,6

1 2

3

4

5

6

7

8

9 10

-0,5

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0,5

0 0,1 0,2 0,3 0,4 0,5

LSI – príklad (3)

9

znalo

pro

jekt

tém

a 2

téma 1

manažment manažment

Pri LSI sú dokumenty o manažmente znalostí a

manažmente projektov výrazne oddelené. Pri

tf-idf pre dopyt manažment + znalosť je ako

najpodobnejší chybne zaradený dokument 10,

a naopak, pre manažment + projekt by nemusel

byť zaradený dokument 9

Priestor LSI Priestor tf-idf

Page 10: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Pravdepodobnostný model tém

• Pravdepodobnostný model tém pre danú množinu n dokumentov a

počet tém k priradí:

– Pre každú tému t rozdelenie pravdepodobnosti βt = (βt,1, βt,2, ..., βt,m), βt,i (0, 1), βt,1 + βt,2 + ... + βt,m = 1, kde pravdepodobnosť

βt,i určuje, do akej miery term i vyjadruje tému t

– Pre každý dokument j rozdelenie pravdepodobnosti θj = (θj,1, θj,2, ..., θn,j), θj,t (0, 1), θj,1 + θj,2 + ... + θj,n = 1, kde

pravdepodbnosť θt,j určuje, do akej miery dokument j obsahuje

tému t

10

Page 11: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Latentná Dirichletová Alokácia – LDA (1)

• Nie každé rozdelenie je vhodné na reprezentovanie príslušnosti

termov ku témam

– Napr. ak máme celkovo 10 slov, pri uniformnom rozdelení βt = (0.1, 0.1, 0.1, ..., 0.1) každé slovo vyjadruje tému t s rovnakou

pravdepodobnosťou, t.j. o žiadnom slove nemôžeme povedať,

že charakterizuje danú tému t

• Vhodné je rozdelenie, kde sa len niektorým termom priradí vysoká

pravdepodobnosť, a ostatným sa priradí veľmi malá

– Napr. podľa rozdelenia βt = (0.45, 0.0125, 0.45, 0.0125, ..., 0.0125)vieme rozlíšiť, že slová 1 a 3 sú charakteristické pre tému t (obe

vyjadrujú tému s rovnakou pravdepodobnosťou 0.45), všetky

ostatné slová sa takmer nevyskytujú

11

Page 12: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Latentná Dirichletová Alokácia – LDA (2)

• Podobne je to pri dokumentoch, chceme aby bol dokument zložený

len z menšieho počtu tém:

– Napr. pre 4 témy podľa rozdelenia θj = (0.6, 0.025, 0.025, 0.35) je

obsah dokumentu j tvorený hlavne témou 1 (60%) a 4 (35%)

• Vhodné rozdelenie je Dirichletove rozdelenie pravdepodobnosti,

ktoré sústredí väčšiu časť pravdepodobnosti na malý počet hodnôt

(termov, tém, atď.)

– Rozdelenie má parameter 0 < α - čím menšia hodnota, tým je

pravdepodobnosť sústredená na menší počet hodnôt (pre α = 1dostaneme uniformné rozdelenie)

12

Page 13: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Latentná Dirichletova Alokácia – LDA (2)

• Metóda LDA je pravdepodobnostná metóda založená na

predpoklade, že pravdepodobnosti termov pre každú tému a

pravdepodobnosti tém pre každý dokument majú Dirichletové

rozdelenie

• Vstupné parametre:

– k - počet extrahovaných tém

– αt - parameter Dirichletovho rozdelenia pre priradenie termov,

určuje počet charakteristických termov pre jednu tému

– αd - parameter Dirichletovho rozdelenia pre priradenie tém,

určuje predpokladaný počet rôznych tém v jednom dokumente

• Vstupné dáta: term-dokument matica s frekvenciami termov (nnn

váhovanie)

13

Page 14: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

LDA – príklad

14

0 0,05 0,1 0,15 0,2

manažmentznalosť

dáta

informácia

úlohafinancie

manažér

projekt

návratnosťpresnosť

vyhľadávanie

hits

pagerank

reprezentáciarozpočet

gantt

pert

dolovanieoptimalizácia

cieľ

0 0,05 0,1 0,15 0,2

manažmentznalosť

dáta

informácia

úlohafinancie

manažér

projekt

návratnosťpresnosť

vyhľadávanie

hits

pagerank

reprezentáciarozpočet

gantt

pert

dolovanieoptimalizácia

cieľ

β1 - Téma 1 β2 - Téma 2

Téma 1 Téma 2

θ1 = (1,12E-03, 9,99E-01)θ2 = (9,95E-04, 9,99E-01)θ3 = (8,14E-04, 9,99E-01)θ4 = (1,19E-03, 9,99E-01)θ5 = (1,28E-03, 9,99E-01)θ6 = (9,99E-01, 1,12E-03)θ7 = (9,99E-01, 1,05E-03)θ8 = (9,99E-01, 1,49E-03)θ9 = (9,97E-01, 2,55E-03)θ10 = (9,99E-01, 1,38E-03)

Page 15: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

LSI a LDA - zhrnutie a porovnanie

Latentné Sémantické Indexovanie

- LSI

• Vhodné na redukciu

príznakového priestoru a

zlepšenie vyhľadávania

informácií

• Projekcia dát pre 2D/3D

vizualizáciu

15

Latentná Direchletova Alokácia -

LDA

• Určená pre pravdepodobnostné

modelovanie tém

Obidve metódy nezohľadňujú poradie slov v dokumente.

Page 16: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Analýza tém v dátových prúdoch

• Textové dáta sú publikované postupne v čase – napr. novinové

články, správy na sociálnom webe, atď.

• Cieľom je analyzovať, ako sa témy menili v čase

– Detegovať vznik novej témy, alebo ďalší výskyt predošlej témy

– Analyzovať trendy (stúpajúca/klesajúca populárnosť témy)

• Najjednoduchší spôsob je analyzovať celú množinu za dané

obdobie a zobraziť histogram dokumentov zaradených do

jednotlivých tém

• Rozšírené metódy okrem priradenia tém termom a dokumentom

modelujú aj výskyt témy v čase – rozdelenie pravdepodobnosti pre

časovú os

16

Page 17: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Interpretovanie tém

• Podľa pravdepodobnostného modelu:

– Vieme zistiť, ktoré slová sú charakteristické pre danú tému (majú

väčšiu pravdepodobnosť βt,i )

– Podľa θj,t vieme rozhodnúť, ktorý dokument obsahuje danú tému

• Podobne ako pri zhlukovaní, okrem slov môžeme vyextrahovať vety,

ktoré obsahujú čo najviac slov charakteristických pre danú tému

• Dôležitá je vizualizácia a interaktívne prehliadanie

17

Page 18: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Vizualizácia tém (1)

18

http://vis.stanford.edu/papers/termite

Page 19: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Vizualizácia tém (2)

19

http://www.memetracker.org/

Page 20: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Analýza sentimentu (1)

• Základným cieľom je priradiť textom subjektívnu polaritu – t.j.

rozhodnúť, či je text pozitívny, alebo negatívny

• Rozšírená úloha rozlišuje viacero stupňov polarity (napr. počet

hviezdičiek pri hodnotení filmov a pod.)

• Využitie hlavne v marketingu, starostlivosti o zákazníka, pri

prieskumoch verejnej mienky

• Vhodná je vektorová reprezentácia + slovné spojenia, alebo kratšie

postupnosti slov

• Vyhodnotenie na testovacej množine

– Chyba klasifikácie a kontingenčná tabuľka

– Subjektívne vnímanie môže spôsobiť nízku zhodu aj medzi

ľuďmi (okolo 79%)

20

Page 21: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Analýza sentimentu (2)

• Pozitívne/negatívne slová

– Slová všeobecne vyjadrujúce pozitívny, alebo negatívny

sentiment - dobrý/zlý

• Stupňovanie polarity

– Kontext, ktorý modifikuje stupeň, ale nemení sa polarita - celkom

dobrý, úplne zlý, nie až taký zlý

• Negácia

– Kontext, ktorý mení polaritu výrazu

– Jednoduchá priama negácia - nie je dobrý

– Rozšírené frázy - nemyslím si, že je dobrý, mal byť dobrý (môže

vyjadrovať nenaplnené očakávanie)

21

Page 22: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Analýza sentimentu (3)

• Sarkazmus, irónia, implikácie a prenesený význam

• Doménová závislosť

– Niektoré slová, alebo tvrdenia v jednej doméne indikujú pozitívnu

polaritu a v inej negatívnu: nepredvídateľný scenár -

nepredvídateľné ovládanie, smiešna komédia - smiešna dráma,

prečítajte si knihu

• Kultúrna závislosť

– Slangové výrazy

– Rozličný spôsob vyjadrovania a vnímania - napr. Britská vs.

Americká angličtina: that‘s not bad, I almost agree, ...

22

Page 23: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Analýza sentimentu - dôležitosť kontextu

Vážení predajcovia <oddelenie predaja>

Včera som navštívil <konkurenčnú predajňu>. Majú skvelý výber,

najlepšie ceny, a nápomocný personál.

Vaša firma je nanič.

S pozdravom ...

• Správne klasifikovanie sentimentu vyžaduje vo všeobecnosti

rozšírený kontext a zachovanie syntaktických väzieb

23

Page 24: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Metódy analýzy sentimentu (1)

• Slovníkové metódy

– Slovník pozitívnych/negatívnych slov + pravidlá pre stupňovanie

a negáciu

• SentiWordNet

– Slovník založený na WordNete, každému synsetu je priradená

hodnota polarity a objektivity

• MPQA subjectivity lexicon

– Slovník slov používaných pri subjektívnych vyjadreniach s

priradenou polaritou

24

Page 25: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Metódy analýzy sentimentu (2)

• Nízka zhoda pri manuálne vytváraných slovníkoch

• Automatické metódy pre rozšírenie slovníka

– Založené na spoluvýskyte slov - vzájomná informácia

– kde P(w) = počet výskytov slova w / celkový počet výskytov slov

a P(w1, w2) = počet spolu výskytov w1 a w2 / celkový počet

výskytov dvojíc slov

– Založené na selekcii termov na klasifikovanej množine textov -

informačný zisk, χ2 štatistika

25

Page 26: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Metódy analýzy sentimentu (3)

• Kontrolované metódy učenia

– Segmentovanie na vety, alebo krátke slovné spojenia, ktoré

obsahujú subjektívny obsah môže zlepšiť presnosť

– Lineárne klasifikátory (hlavne SVM)

– Využitie aktívneho a semikontrolovaného učenia

• Kombinované metódy

– Počiatočná klasifikácia slovníkovou metódou (tzv. bootstrap) +

rozšírenie naučeným modelom

26

Page 27: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Využitie semikontrolovaného a aktívneho

učenia

27

Rozdelenie na

trénovacie a

testovacie dáta

Klasifikácia

slovníkovou

metódou

text

výsledný

klasifikátor

Aktívny výber

trénovacích dát

Vyhodnotenie

Manuálna

klasifikácia

Učenie

klasifikátora

U

X0

TXn

f

Page 28: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Rozšírené úlohy analýzy sentimentu

• Aspektová analýza sentimentu

– Z textu sa vyextrahujú hodnotené entity a ich aspekty/vlastnosti

(napr. produkt a jeho vlastnosti - veľkosť displeja, kapacita

batérie a pod.)

– Hodnotí sa sentiment pre každý aspekt/vlastnosť samostatne

– Vyžaduje extrahovanie entít a rozlíšenie, ku ktorým aspektom sa

vyjadrenie sentimentu vzťahuje (v jednej vete môže byť napr.

pozitívne aj negatívne hodnotenie rôznych aspektov)

• Analýza sentimentu tém

– Vyžaduje extrahovanie tém, resp. klasifikáciu do

preddefinovaných tém

28

Page 29: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

Klasifikácia emócií

• Cieľom je rozpoznať emócie vyjadrené v texte

• Klasifikačná úloha, ktorá zaradí text do preddefinovaných kategórií

podľa rozdelenia emócií

• Základné rozdelenie podľa Ekmana: hnev, znechutenie, strach,

šťastie/veselosť, smútok a prekvapenie

• Existuje aj viacero vektorových modelov - odhadujú sa spojité

premenné v rôznych dimenziách, ktoré vyjadrujú napr. polaritu,

intenzitu, pasívnosť/aktívnosť

29

Page 30: TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

Peter Bednár

SenticNet model

• Je založený na tzv. modeli

presýpacích hodín

• 30 000 ohodnotených pojmov

• 4 dimenzie (sensitivity, aptitude,

attention, pleasantness) ktorých

kombinácia definuje 16 základných

emócií

• http://sentic.net/

30