Page 1
CLARIN-PL
Słowosiec 3.0 - leksykalna siec semantyczna jezyka polskiego i jej zastosowanie w analizie znaczen
Paweł Kedzia, Marek Maziarz, Maciej Piasecki i Piotr Pezik*
Politechnika Wrocławska *Uniwersytet Łódzki
Katedra Inteligencji Obliczeniowej Wydział Filologiczny
Grupa Naukowa G4.19 Instytut Anglistyki
pawel.kedzia@, marek.maziarz@, [email protected] [email protected]
2015-04-14
Page 2
Plan prezentacji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 3
Plan prezentacji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1. Wstęp
2. Relacje
3. Dodatkowe elementy opisu
4. Proces budowy Słowosieci
5. Efekt
6. Zastosowania
7. Ujednoznacznianie znaczeń słów
8. WoSeDon
9. Stenogramy sejmowe
Page 4
1. Wstęp
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 5
Wordnet
Uniwersytet w Princeton, lata 80., psycholingwistyka i
lingwistyka informatyczna (J. Miller, Ch. Fellbaum)
Badania nad językiem dzieci
Wielka sieć leksykalno-semantyczna języka angielskiego
Cztery części mowy
rzeczowniki, czasowniki, przymiotniki i przysłówki
Synset – zbiór prawie synonimów (ang. near synonyms)
Relacje semantyczne
Podstawowy zasób językowy
Global Wordnet Association
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 6
Relacyjna semantyka leksykalna
System semantyczny języka jako sieć relacji
John Lyons (1963), Structural semantics
znaczenie wyrazu = zbiór jego relacji znaczeniowych
główne relacje znaczeniowe (sense relations): synonimia,
antonimia, hiponimia, meronimia (relacje paradygmatyczne)
Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60.
model „sens ↔ tekst”
funkcje leksykalne paradygmatyczne i syntagmatyczne
(Mel’čuk 1996),
neostrukturalizm
Alan Cruse, Gregory Murphy (Uniwersytet w Manchester),
lata 80.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 7
Słowosieć (plWordNet)
Pochodzenie
Politechnika Wrocławska, 2005-2013
szereg projektów
cel: bardzo obszerny opis systemu
relacji leksykalno-semantycznych
Relacje leksykalno-semantyczne, ok. 40 głównych typów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rzeczownik czasownik przymiotnik
hiponimia
meronimia
antonimia
mieszkaniec
role semantyczne
…
hiponimia
kauzacja
procesywność
zawieranie roli
aspektowość
…
hiponimia
wartość cechy
gradacyjność
charakteryzowanie
symilatywność
…
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 8
Synset
• Synset
– zbiór jednostek leksykalnych o wspólnych relacjach
konstytutywnych, np. hiperonimii, holo/meronimii, …
– jednostki zawarte w synsecie są uznawane za synonimy
– jest rodzajem skróconego zapisu, np.
{afekt 1, uczucie 2} hiperonim
{miłość 1, umiłowanie 1, kochanie 1}
• Relacje konstytutywne
– podstawa konstrukcji synsetu, współdzielone i relatywnie częste
• Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 9
Bogata sieć relacji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 10
2. Relacje
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 11
Relacje
1. Relacje synsetów = pomiędzy zbiorami synonimów.
2. Relacje jednostek leksykalnych = pomiędzy znaczeniami.
3. Relacja synonimii.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 12
Relacje synsetów
relacje pomiędzy zbiorami synonimów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
0% 20% 40% 60% 80%
hiponimia
meronimia
fuzzynimia
bliskoznaczność
instancja
mieszkaniec Rzeczowniki
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 13
Hiponimia
Najważniejsza z relacji synsetów
66% instancji wszystkich relacji synsetów
kościec każdego wordnetu
65,9%
15,1% 12,4%
3,7% 2,6% 0,3% 0%
10%
20%
30%
40%
50%
60%
70%
Rzeczowniki
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 14
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) « każdy ssak z rodziny kotowatych»
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1.
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.
Jeśli coś nie jest kotem1, to nie może być tygrysem1.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 15
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) «każdy ssak z rodziny kotowatych»
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1.
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.
Jeśli coś nie jest kotem1, to nie może być tygrysem1.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 16
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) «każdy ssak z rodziny kotowatych»
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1. TAK
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. TAK
Jeśli coś nie jest kotem1, to nie może być tygrysem1. TAK
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 17
Hiponimia
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
«każdy ssak z rodziny kotowatych»
«Panthera tigris»
«Panthera leo» «Panthera onca»
«Acinonyx jubatus»
Page 18
Hiponimia
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 19
Hiponimia
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
tygrys1 (zw) «Panthera tigris»
kot1 (zw) «każdy ssak z rodziny kotowatych»
drapieżnik1 (zw)
mięsożerca1 (zw)
istota żywa1 (zw)
organizm1 (rz)
Page 20
Hiponimia
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
hiperonim
hiponimy
Page 21
Meronimia
relacja część – całość
druga w kolejności, 15% instancji relacji
65,9%
15,1% 12,4%
3,7% 2,6% 0,3% 0%
10%
20%
30%
40%
50%
60%
70%
Rzeczowniki
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 22
Meronimia
relacja część – całość
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
holonim (całość)
meronimy (części) 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 23
Meronimia
test podstawieniowy
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
holonim (całość) meronim (część)
Meronimia
Kiosk3 jest częścią okrętu podwodnego1.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 24
Meronimia
test podstawieniowy
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
holonim (całość) meronim (część)
Meronimia
Kiosk3 jest częścią okrętu podwodnego1. TAK
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 25
Relacje jednostek leksykalnych
relacje pomiędzy jednostkami leksykalnymi (znaczeniami)
nie mniej ważne niż relacje synsetów
dostarczają informacji dodatkowej
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 26
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 27
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
«o zwierzętach: gryźć»
«używac sztyletu w celu zadania ciosu»
«kaleczyc, ranic, rozcinając ciało i odsłaniając wewnetrzne tkanki»
Page 28
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 29
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 30
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 31
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 32
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 33
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 34
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 35
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwac1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem»
NARZĘDZIE «sztyletuje sie sztyletem1 (wytw)»
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 36
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwac1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem»
sztyletowac1 (wal) «kaleczyc (kogoś) sztyletem»
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 37
Relacje jednostek leksykalnych
1. Relacje o charakterze derywacyjnym:
np. rola – agens:
rozpruwacz1 (os) rozpruwać1 (dtk),
np. zawieranie roli – narzędzie:
sztyletować1 (wal) sztylet1 (wytw).
2. Pozostałe relacje:
antonimia: miłość1 (czuj) ↔ nienawiść1 (czuj),
konwersja: mąż2 (os) ↔ żona1 (os).
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 38
Relacja synonimii
Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
Synonimia w wordnetach = synonimia częściowa.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 39
Relacja synonimii
Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
Synonimia w wordnetach = synonimia częściowa.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 40
Relacja synonimii
Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
Synonimia w wordnetach = synonimia częściowa.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 41
Relacja synonimii
Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
Synonimia w wordnetach = synonimia częściowa.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 42
Relacja synonimii
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
{afekt 1, uczucie 2}
hiponimia
{miłość 1, umiłowanie 1, kochanie 1}
Page 43
3. Dodatkowe elementy opisu
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 44
Rejestr jednostki leksykalnej
Rejestr = zakres stosowalności jednostki leksykalnej.
11 rejestrów Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 45
Rejestr jednostki leksykalnej
Rejestr = zakres stosowalności jednostki leksykalnej.
11 rejestrów Słowosieci:
nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 46
Rejestr jednostki leksykalnej
Rejestr = zakres stosowalności jednostki leksykalnej.
11 rejestrów Słowosieci:
nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
hulk1 (wytw) specj.
holk1 (wytw) specj.
tygrys1 (zw) og.
rozpruwacz1 (os) pot.
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 47
Rejestr jednostki leksykalnej
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 48
Glosy
Glosy to skrócone definicje.
W Słowosieci jest ich ponad 90 tys.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 49
Glosy
Glosy to skrócone definicje.
W Słowosieci jest ich ponad 90 tys.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
tygrys1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka
łożyskowego z rodziny kotowatych (Felidae), największy z
żyjących współcześnie czterech wielkich, ryczących kotów z
rodzaju Panthera, jeden z największych drapieżników
lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom»
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów,
masakruje różne części ciała»
Page 50
Przykłady użycia
dokumentacja korpusowa lub ilustracja znaczenia
preparowane lub ze źródeł o otwartej licencji
ponad 100 tys. opisanych znaczeń (głównie rzeczowników i
przymiotników)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
tygrys1 (zw) og.
«Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny
kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich,
ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych
– wielkością ustępuje jedynie niektórym niedźwiedziom»
„Umiejętność chowania pazurów umożliwia tygrysowi bardzo
ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.” (źródło: Wikipedia)
Page 51
Dziedziny Słowosieci
skróty w nawiasach:
tygrys1 (zw) zw = zwierzęta
fluita1 (wytw) wytw = wytwory (artefakty)
rozpruwacz1 (os) os = osoby, ludzie
sztyletować1 (wal) wal = walka i rywalizacja
rozpruwać1 (dtk) dtk = kontakt fizyczny
zamek1 (msc) msc = miejsce
nienawiść1 (czuj) czuj = uczucia, emocje
mają techniczny charakter
pomagają w orientowaniu się w sieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 52
Dziedziny Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
pejoratywne określenia ludzi
gatunki i rasy zwierząt
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 53
Nastawienie emocjonalne
ANOTACJA NASTAWIENIEM EMOCJONALNYM
Emocje podstawowe –
radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie
czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992;
Plutchik 1980)
Wartości uniwersalne –
użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda,
prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i
nieszczęście (Puzynina 1992)
Nastawienie –
pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.
Ponad 20 000 oznakowanych jednostek.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 54
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 55
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
pierwszy anotator
emocje podstawowe wartości nastawienie
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 56
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
drugi anotator
Page 57
4. Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 58
Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Kto tworzy Słowosieć?
zespół 20-30 polonistów, 10 anglistów
informatycy, specjaliści od przetwarzania języka
sztuczna inteligencja (narzędzia półautomatyczne)
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 59
Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Korpus Słowosieci
2 mld tokenów
siatka haseł
(słowa najczęstsze)
wyróżnić znaczenia konkordancer korpusu
narzędzia komputerowe
automatyczne
przykłady użycia
Sketch Engine
Inforex
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 60
Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Korpus Słowosieci
2 mld tokenów
siatka haseł
(słowa najczęstsze)
wyróżnić znaczenia konkordancer korpusu
narzędzia komputerowe
automatyczne
przykłady użycia
n.a. - przykłady użycia -> wyróżnianie znaczeń, przykłady
typowe, 10 znaczeń (Marek) `o zwierzętach: gryźć używając zębów,
powodując rany’ `o zjawiskach pogodowych (np. mrozie): gryźć,
szczypać’
Przykłady użycia wyrazu kąsać
`o owadach:
gryźć’ `o zmartwieniach, wyrzutach sumienia:
gryźć’ `o ludziach: dokuczać, szkodzić komuś’
1
2
3
4
5
6
7
8
9
10
Page 61
Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Korpus Słowosieci
2 mld tokenów
siatka haseł
(słowa najczęstsze)
wyróżnić znaczenia
narzędzia komputerowe
słowniki, encyklopedie,
leksykony…
zespół Słowosieci wytyczne
zdefiniować jednostkę
przypisać relacje = podpiąć
Tkacz Wordnetu
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 62
Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
antonim hiperonim hiponim kohiponim
wyraz bliskoznaczny holonim
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 63
5. Efekt
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 64
Słowosieć w liczbach
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
haseł 167 000 156 000
synsetów 178 000 118 000
jednostek 237 000 207 000
relacji > 500 000 > 500 000
0
20 000
40 000
60 000
80 000
100 000
120 000
140 000
rzeczownik czasownik przymiotnik przysłówek
Słowosieć WordNet
Liczba haseł (lematów) w Słowosieci i w WordNecie
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 65
Słowosieć w liczbach
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Słowosieć a słowniki polszczyzny współczesnej
0 50 100 150 200
Słowosieć
Praktyczny słownik współczesnej polszczyzny
Słownik języka polskiego W. Doroszewskiego
Uniwersalny słownik języka polskiego
Inny słownik języka polskiegohaseł [tys.]
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 66
Słowosieć w liczbach
Słowosieć 2.3
koniec kwietnia br.
przymiotnik + nastawienie
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 67
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Słowosieć online Słowosieć mobilna WordnetLoom-
Viewer
www.clarin-pl.eu
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 68
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
www.plwordnet.pwr.wroc.pl/wordnet
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 69
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Słowosieć mobilna
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 70
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
WordnetLoom
Page 71
6. Zastosowania
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 72
Zastosowania: projekty
badawcze (wybrane)
Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012)
Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012)
Wyznaczanie pól semantycznych
Grupowanie czasowników na potrzeby badania klas alternacji
Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy
Wspomagana komputerowo analiza danych jakościowych
Badania nad frazeologią
Nauka języka
„przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców” (Uniwersytet Masaryka, Brno)
Konstrukcja programów do nauki języka
Badanie treści prac uczniowskich/studenckich
Edukacyjne: językoznawstwo, leksykologia, leksykografia
Tłumaczenia
Analiza leksykalizacji pojęć
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 73
Zastosowania (wybrane)
Wyszukiwanie semantyczne w korpusach tekstu
Grupowanie semantyczne tekstów
określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński,
2012)
Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010)
Korekta rozpoznawania mowy w systemach dialogowych
Systemy odpowiedzi na pytania w języku naturalnym
Np. do rozpoznania typu pytania
Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i
Marciniak, 2012)
Wnioskowania w oparciu o logiki naturalne
Tworzenie programów do grania w gry słowne
Wykrywanie i generowanie pleonazmów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 74
Zastosowania (wybrane)
Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek
and Dobrowolski, 2013)
Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al.,
2013)
Miara podobieństwa semantycznego słów na potrzeby analizy ontologii
(Lula and Paliwoda-Pękosz, 2009)
Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and
Gołuchowski, 2012)
Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19)
Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski,
2012, własne G4.19, 2015)
Rozpoznawanie powiązań anaforycznych (własne G4.19)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 75
7. Ujednoznacznianie sensów
słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 76
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Idea ujednoznaczniania sensów słów:
zamek
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 77
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Idea ujednoznaczniania sensów słów (cd.):
zamek
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 78
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Idea ujednoznaczniania sensów słów (cd.):
zamek
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 79
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Idea ujednoznaczniania sensów słów (cd.):
zamek
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 80
Ujednoznacznianie sensów słów
Idea ujednoznaczniania sensów słów (cd.):
Po powrocie z pracy zepsułem zamek.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
`
`
`
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 81
Ujednoznacznianie sensów słów
Idea ujednoznaczniania sensów słów (cd.):
Po powrocie z pracy zepsułem zamek w drzwiach.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
`
`
`
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 82
Ujednoznacznianie sensów słów
Proces polegający na przypisaniu słowu odpowiedniego
znaczenia wybranego ze zbioru znaczeń słów,
odpowiadającego znaczeniu słowa w danym kontekście.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 83
Ujednoznacznianie sensów słów
Uczenie na podstawie oznaczeń w tekstach:
Wymagane duże zasoby ręcznie oznaczonych tekstów;
Czasochłonność ręcznego oznaczania tekstów (koszty);
Każde słowo z osobna posiada swoje anotacje;
Rozpoznawanie znaczeń kolejnego słowa = anotacje tego
słowa = kolejne koszty;
Zaleta: duża dokładność systemu;
Wada: niska kompletność rozpoznawanych znaczeń;
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 84
Ujednoznacznianie sensów słów
Uczenie bez wstępnego oznaczania w tekście:
Nie jest wymagane wstępne znakowanie znaczeń w tekstach;
Wykorzystanie istniejących struktur opisujących zależności
między znaczeniami słów (Słowosieć);
Zaleta: dużo większa kompletność rozpoznawanych słów w
stosunku do ujednoznaczniania na podstawie ręcznych
anotacji;
Wada: mniejsza dokładność rozpoznawanych w stosunku do
systemów uczonych na podstawie ręcznych oznaczeń;
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 85
Ujednoznacznianie sensów słów
Nienadzorowane podejście oparte o przetwarzanie grafu.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
„Po powrocie z pracy zepsułem zamek w drzwiach.” – graf dla słowa „zamek”.
Page 86
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
„Po powrocie z pracy zepsułem zamek w drzwiach.”
Page 87
Ujednoznacznianie sensów słów
Proces aktywacji synsetów – Nienadzorowane podejście
oparte o przetwarzanie grafu.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
. . .
budowla obronna
rezydencja zamknięcie
zatrzask
furtka drzwi
kurtka zapięcie
garnitur posiadać
Mam zamek w kurtce i garniturze.
zamek-1
(budowla)
mieć zamek-6
(suwak)
zamek-2
(w drzwiach)
strażnica baszta
brama
. . . . . . . . .
. . .
. . .
. . . . . . . . . . . .
. . .
. . . 6
16
1
6
1
6
1
6
16
1
0
0
0
0
0 0 0
0
0
0
0
Page 88
Ujednoznacznianie sensów słów
„Surowe” wyjście WoSeDona – anotacje WSD dla słowa „zamek” w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach.
<tok>
<orth>zamek</orth>
<lex disamb="1">
<base>zamek</base><ctag>subst:sg:acc:m3</ctag>
</lex>
<prop key="sense:ukb:syns_id">4190</prop>
<prop key="sense:ukb:syns_rank">4190/0.1871610737
43594/0.1711723551 46716/0.1504792310
4189/0.1383621756 46718/0.1349534529
52769/0.1107446943 43596/0.1071270174</prop>
<prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop>
</tok>
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.
Page 89
8. WoSeDon
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 90
WoSeDon
Narzędzie do generowania i przeglądania list
frekwencyjnych znaczeń Słowosieci z korpusów tekstów.
Korpus musi posiadać wcześniej przypisane znaczenia, za
co również odpowiada WoSeDon w fazie wstępnej
przetwarzania tekstu (preprocessingu).
Dostępność poprzez przeglądarkę pod adresem:
http://wosedon.clarin-pl.eu/home
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 91
WoSeDon – okno główne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 92
WoSeDon – schemat działania
Korpus w
DSpace
Przetwarzanie korpusu do CCL
(WCRFT, Liner, WoSeDon)
Przejście do
WoSeDon’a
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 93
WoSeDon – funkcjonalność
Generowanie i przeglądanie list frekwencyjnych znaczeń z
korpusów tekstów.
Generowanie listy bezpośrednio z DSpace poprzez
kliknięcie w przycisk:
Ewentualnie poprzez wklejenie URI (np.
http://hdl.handle.net/11321/114) do WoSeDona:
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 94
WoSeDon – funkcjonalność
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 95
WoSeDon – funkcjonalność
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 96
WoSeDon – dalsze prace
Wyznaczanie „znaczeń tematów” – znaczenia, które łącznie
pokrywają 50% korpusu.
Rozwój interfejsu o kolejne informacje np. liczba wszystkich
znaczeń w korpusie, liczba różnych znaczeń itp.
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 97
9. Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Page 98
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Sejm ostatnich kadencji
lata 2006-2014
metadane:
data
partia
poseł
automatycznie ujednozna-
cznione sensy słów
prezentacja w aplikacji
KOPER autorstwa dra
P. Pęzika
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 99
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
http://clarin.pelcra.pl/PSCWSDWeb
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 100
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
http://clarin.pelcra.pl/PSCWSDWeb
składnia zapytań – wersja robocza
<lemma=kryzys:30679>
↑ ↑
hasło ID synsetu
ID synsetu identyfikuje znaczenia
konkordancja + trendy (szeregi czasowe)
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 101
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej)
kryzys 2 (pos) (kryzys gospodarczy, recesja)
kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński)
kryzys 4 (zdarz) (w chorobie)
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 102
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
kryzys 4 (zdarz) (w chorobie)
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 103
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
konkordancje
ściąganie
w formacie *.xls
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 104
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
ściąganie w różnych formatach
graficznych
Page 105
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
kryzys 2 (pos)
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 106
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 107
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
klikalne punkty
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 108
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
A przecież , jak mówiłem
wcześniej , taki kryzys
mógłby także zagrozić
stabilności polskiego systemu
bankowego.
minister Jacek Rostowski, PO, 2009-05-22
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 109
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 110
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
Z tego, co
usłyszałem
w exposé,
wynika, że
kryzys
gospodarczy nie stuka do naszych drzwi,
nie łomocze - jest już w przedpokoju,
powiesił płaszcz, założył kapcie i zaczyna
czuć się jak u siebie w domu .
poseł Leszek Miller, SLD, 2011-11-
18
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 111
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 112
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
Taką potrzebą chwili na przykład uzasadnialiśmy
zmiany, które weszły w 2009 r. i obowiązywały
przez 2 lata w okresie tzw. - niektórzy tak to
nazywają - pierwszej fali
kryzysu .
poseł Adam Szejnfeld, PO, 2011-03-7
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 113
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
Page 114
Stenogramy sejmowe Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Plany:
pozostałe kadencje Sejmu
wyszukiwanie po polach leksykalnych
- tj. po grupie hiponimów danej jednostki
- np. hiponimy rzeczownika kobieta
w zn. «dorosły człowiek płci żeńskiej»
Page 115
CLARIN-PL
Dziękujmy bardzo za uwagę