"Szemantikus beszélgetése k" - 2002. november 29., Műegyetem R épület #201 Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE
36
Embed
Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei
Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei. Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE. Információ és jelentés: Gizike és gőzeke. Információ = jelentés vs. információ jelentés - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei
Darányi Sándor
Tartalomelméleti Virtuális Kutatócsoport
Információ- és Tudásmenedzsment Tanszék, BMGE
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
valamilyen tartalom ritkasága Információ2 = a ritkaság valószínűségi mértéke a
rendezetlenségből levezetve (jelentés nélkül); a valószínűség reciproka
Shannon-Weaver; Machlup-Mansfield
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér és szemantika
Információ a vektortérben: átkódolás eredménye (szövegből szám) Érthetetlen, az osztályozás mitől jó (= mitől
szemantikus) Tehát a vektortérben ott kell legyen a szemantika De hol?
A fő válfajok: Wittgenstein / Saussure, Carnap, Bloomfield / Uexküll, Frege / Peirce Trier és a szemantikai mező (1934)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 1
“Meaning is use” (Wittgenstein, PhI [1953]: § 43) [1] (az ún. pragmatikus irány) “Use” = (1) „szövegkörnyezet”, (2) „az említés
gyakorisága”, ismétlés, bevésés Az input mátrix a változók értékeinek előfordulását
ill. együttes előfordulását kódolja Ez megfelel a “use” mindkét értelmének A fogalmi tér W-szemantikus
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 2
Saussure: a nyelv = szövet, a szójelentés kontextuális, a struktúrában elfoglalt helytől függ (az ún. strukturalista irány) Jelentés = helyiérték A jel kételemű, forma és szubsztancia egyvelege Ágoston, a skolasztikusok, Hobbes, Locke, Port-
Royal, Hjelmslev, Cassirer, Jakobson… A fogalmi tér S-szemantikus is
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 3
Carnap, cf. Lyons: a logikai szemantikában a fogalmak tartalma és terjedelme fordítottan arányos Minél több intenzió, annál kevesebb extenzió Vö. input mátrix, értékek gyakorisága Vö. tezaurusz, BT :: NT A fogalmi tér C-szemantikus is
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 4
Bloomfield: inger-ingerület modell A jelentés a következmény A jelentés kételemű (az ún. antimentalista,
behaviourista irány) Vö. vektortér időbeli változásai A fogalmi tér B-szemantikus is
Uexküll: az észlelet mint buborék
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés a vektortérben 5
Frege / Peirce: az ún. mentalista irány A jel háromelemű (tárgy, hordozó, jelentés /
fogalom) Platón, Arisztotelész, a sztoikusok, Boethius,
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Dióhéjban a modellről 1
A vektorteres IR modell a szemantikai differenciál elvén működik (hasonló : nem hasonló = közeli : nem közeli)
A kereső algoritmus a tárgyszóvektor és a dokumentumvektor távolságát minimalizálja
Az eredmények láttatására különböző metaforákat használnak
A metaforák mind visszavezethetők a mezőre
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Dióhéjban a modellről 2
A szemantikának van egy arány-oldala: a kifejezések értelme egymáshoz viszonyítható, a skála láttatható, noha sok esetet sok szempontból hasonlítunk össze (Osgood et al. 1957, affektív jelentés)
A sokváltozós osztályozási algoritmusok ilyen skálákat hoznak létre
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
BIG SMALL
CARNIVORE
HERBIVORE
..
..
..
.
.
ELEPHANT
HYPPO
MOUSE
GOAT
PIG
CAT
TYRANNOSAURUS
TIGER
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
A „főzni” ige szemantikai mezeje (Lehrer 1974)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Figure 2: Beliefs corpus, n=520, semantic field of headings 1-100 (default angle)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Néhány vizualizálási metafora a felhasználói felülethez (GUI)
(Vonalkód, brokkoli, fa, stb.) Csillagászat (galaxis) Térkép
3-d domborzati 2-d rétegvonalas
Háttérsugárzás (= a tartalom mint hő)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Közös tárgyszó- és dokumentumgalaxis a vektortérben (Sophia adatbázis, 1389 dokumentum x 1839 tárgyszó, k = 3 [353] faktor)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Önszervező (Kohonen-) térkép
A dokumentumokat egy felületre vetíti
Metafora:
”földrajzi” szomszédság = a szemantikai tartalom hasonlóságát takarja
(The Websom Project, http://websom.hut.fi)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
ThemeScapesTM
”Topográfiák” – hegycsúcsok mint tartalmi indikátorok
Metafora:
A közelség tartalmi hasonlóságot jelez
A domborzat magassága kontextusban ábrázolja a fontosságot
(SPIRE project, Pacific Northwest National Laboratory, USA )
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés rétegvonalas térképe (John Old, IUB)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Szójelentés mint domborzat (John Old, IUB)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Kölcsönös idézés mint domborzat (John Old, IUB)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér mezőábrázolása, 1. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Ugyanaz különböző nagyításban
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
F A C T 2 4 b e t e g : 1 8 1 & 3 9 . 0 2 9F A C T 2 4 2 9 A j e g y i n g e t e l k e l l t e n n i é h a a g y e r e k b e t e g , a k k o r a z & 0 . 3 2 6 8 1 P é n t e k e n n e m j ó t i s z t a r u h á t f e l v e n n i , m e r t s z e r i n t ü k k i & 0 . 4 3 9 1 2 3 8 T o j á s h é j a t n e m j ó a t ű z b e d o b n i , m e r t b e t e g s é g l e s z a & 0 . 4 3 4 1 4 0 5 H a v a l a k i f e s z ü l e t r e n í z , m e g f á j d ú ' a f e j e . & 0 . 4 9 7 1 4 5 6 A k i é j j e l t ü k ö r b e n é z , g y o m o r f á j ó s l e s z . & 0 . 4 9 7 ( . . . )
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Vektortér mezőábrázolása, 2. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Forma : tartalom = hordozó : hordozott
Ha kettéválasztjuk a hordozót és a hordozottat, akkor nem írhatja le őket egy sajátállapot Hordozó és hordozott: kettős sajátállapot Modularitás: többes sajátállapot
Van-e a jelentésnek olyan fizikai megfelelője, amilyen az információnak a kétállapotú jelenségek? Van, ha csinálunk Információátvitel helyett tartalomátvitel
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Értelmezési és alkalmazási lehetőségek
A geometria mint ismeretábrázolási séma Valós vs. komplex vektortér
Dokumentumkeresés
Nyelvközi keresés
A nyelv mint fizika Szimbólumok téreloszlása A klasszikus mechanika képletei
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Valós vs. komplex vektortér
Dokumentumkeresés: komplex tárgyszó, komplex dokumentum Ábrázolja mind a 2-, mind a 3-elemű jelet Cél: zajszűrés Cél: értelmezett háló (Semantic Web)
Nyelvközi keresés: iker-korpuszoktól a különbözőek felé Dokumentum vs. motívum-keresés
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Komplex keresés
Miért nem elég a valós koordináta? A tárgyszó második koordinátájára zajszűrés miatt
van szükség A dokumentum második koordinátája a tárgyszó
komplex volta miatt kell Most a keresés értékelése van soron (= mennyire
zajos, vö. munkahipotézis) (Még) nem komplex indexelés
Semantic Web „Értelmező” robot
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
A nyelv mint fizika
Szimbólumok tér(idő-)eloszlása Nyelv Osztályozás Közgazdaság
Eloszlások fizikai törvényei Egyedi szimbólum = specifikus fizikai
ismérv, vö. hely, súly (vö. Saussure, helyiérték) Egy lépésben átvitel, bitsorozat helyett
"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201
Gyors tartalomátvitel
Analóg számítástechnikához Nem bit-alapú tartalomátvitel
Az ideografikus írás elve Feleltessük meg a fogalmakat helyeknek
az n-dimenziós térben Kódoljuk ezeket a helyeket pl. színekkel Modem és spektroszkóp