Ondřej Černoš Ondřej Černoš UISK UISK [email protected] [email protected] 602372810 602372810 Sémantický web – principy, prostředky, Sémantický web – principy, prostředky, aplikace aplikace
Ondřej ČernošOndřej ČernošUISKUISK
[email protected]@gmail.com602372810602372810
Sémantický web – principy, prostředky, Sémantický web – principy, prostředky, aplikaceaplikace
04/29/09 2
Kdo jsem
Ondřej Černoš, absolvent FEL ČVUT (kybernetika)doktorand UISK, téma blízké sémantickému webu
04/29/09 3
Web
Co je web?Web je databáze znalostíWeb je hromada syntakticky strukturovaných datWeb je propojená hromada strukturovaných datWeb je informační systém s vlastní svébytnou architekturou
04/29/09 4
Web – technické pozadí
Co je na Webu?na webu existují Zdroje (Resource) – stránky, obrázky, feedy (RSS, Atom) atd.entity existující na webu mají jména
URI – Unified Resource IdentificatorURL jako aplikace URI – Unified Resource LocatorJména (URI) jsou globálně unikátní
04/29/09 5
Web – technické pozadí
Jakým způsobem jsou zdroje na webu?Zdroje jsou reprezentovány nějakou serializací, kterou umí přenosová soustava přenášet
značkovací jazyky – HTML (aplikace SGML, šedesátá léta)formáty obrázků – PNG, JPG apod.streamované videoXML jazyky (aplikace)JSON, YAML, atd. atp.
Reprezentace nejsou zdroji!
04/29/09 6
Web – technické pozadí
SGML a nástupci jako reprezentační jazyky hypertextuve značkovacích jazycích existují prostředky pro odkazování na jiné zdroje na webu
známé html tagy: anchor (a), img apod.značkovací jazyky jsou standardizované, otevřenéznačkovací jazyky popisují strukturu dokumentů
z.j. umí označit odstavec, nadpis apod.tedy značkovací jazyky řeší syntax dokumentů
04/29/09 7
Web – technické pozadí
Mluvili jsme o transportním mechanismu – co to je?HyperText Transfer Protocol (HTTP)definuje “architekturu informačního systému” zvaného webarchitektura identifikována jako REST – Representational State Transfer
04/29/09 8
Web – REST
REST – identifikace jedinečných vlastností webuAplikační stav je abstrahován do prostředků (Resource)Zdroj je unikátně identifikovaný (URI)Všechny zdroje sdílejí jednotný interface (rozhraní) k práci s reprezentací těchto
omezený počet známých typů reprezentací (content type – MIME typy)omezený počet operací nad reprezentacemi zdrojů (GET, PUT, POST, DELETE)
04/29/09 9
Web – REST
Další vlastnosti REST architekturyprotokol architektury (HTTP) je typu klient-serverprotokol je bezestavový (vždy se ve výměně reprezentací zdrojů mezi klientem a serverem zasílá vše co je nutné k porozumění dotazu či odpovědi)protokol je cachovaný (důležité pro škálovatelnost)
04/29/09 10
Jak to vše souvisí se sémantickým webem?
Sémantický web staví na úspěšných a prověřených vlastnostech webu tak jak je známe teďSémantický web dále staví na pojmu zdroje, užívá URI, jako aplikační architekturu užívá REST – tedy je to stále webPro pochopení směru, jakým rozvíjí sémantický web ten web, který známe dnes, je nutné znát fundament webu
04/29/09 11
Hranice užití webu
Na webu používáme mnohé aplikaceaplikace pracují s různými zdroji různěaplikace reprezentují zdroje (světa) svojí vlastní reprezentací, která nemusí být sdílená
Aplikace neumějí spolupracovatpředstavme si aplikaci pro rezervaci hotelů, mapovou aplikaci a aplikaci ministerstva životního prostředí mapující národní parky. Spolupráce? Vesměs žádná.
04/29/09 12
Hranice užití webu
Čím to je?na webu jsou zdroje, které mluví o světěreprezentace zdrojů jsou syntanticky strukturovanéneumíme ovšem mluvit o těchto zdrojích – chybějí metadata, tedy data o datech – data o datech o světě
04/29/09 13
Sémantický Web – metadata
Jaké známe metadatové systémy z prostředí webu a informační vědy?
tagy – social tagging, kolektivní znalostní systématributy v souborovém systému – autor, doba vzniku apod.
Jsou to různé systémy, navzájem nespolupracující a mající různá svá omezení (tagy – čím užívanější tag, tím menší nese informaci, apod.)
04/29/09 14
Sémantický Web – metadata
Kvůli roztříštěnosti způsobů práce s metadaty vznikl obecný frameworkRDF – Resource Description Framework
Resource – o tom jsme již hovořiliDescription – popis, chceme mluvit o zdrojíchFramework – RDF umožňuje tvořit popisy, nepředepisuje popis
04/29/09 15
Sémantický Web – metadata
Jak mluvíme o věcech?říkáme, že něco je něco jinéhotriviální referenční sémantika – link mezi symbolem a věcí (pro naše účely bohatě stačí)
Přesně toto umožňuje RDF:subject verb object
“U zeleného vola” “je” “hotel”.“Hotel” “je” “třída ubytovacích zařízení”.“Třída ubytovacích zařízení” “je podtřída” “obytných budov”.
04/29/09 16
Sémantický web – RDF
Co definuje RDF jako standard?Sdílenou sémantiku trojic “subject verb object”Různé formy reprezentace (viz!) těchto trojicNěkolik sloves a podstatných jmen
04/29/09 17
Sémantický web – RDF
RDF tedy umožňuje tvořit trojice “subject verb object”. K čemu to je?
sdílený slovník podstatných jmen a slovesRDF nevynucuje reprezentaci trojic – může být tedy reprezentováno například XML jazykem (RDF/XML) vloženým do webových stránek
příklad s hotelem a webem národních parků – sdílená podstatná jména (pojmenování objektů světa) a slovesa (vazby mezi nimi) umožní propojit znalosti jedné aplikace se znalostmi aplikace druhé.
04/29/09 18
Sémantický web – RDF
RDF tedy tvoří jakési grafy.různé aplikace (rozptýlené po webu) vystavují reprezentace trojic. Můžeme trojici chápat jako graf, kde subject je uzel, verb je orientovaná hrana, object je uzel.Grafy pak lze spojovat – jsou-li nalezeny společné uzly.
RDF dosahuje globálně unikátních pojmenování známým mechanismem URI. Subject, verb i object reprezentujeme globálním identifikátorem.
04/29/09 19
Sémantický web – RDF
Co je tedy sémantický web v RDF?Globální orientovaný graf tvrzení “subject verb object”.Tomuto grafu pak lze klást dotazy, podobné databázovým dotazům (SPARQL).
Co jsme získali?Znalosti jsou strojově zpracovávatelné.Znalosti jsou jednotně reprezentované, tudíž snáze dostupné. (Někdo někdy zkoušel destilovat znalosti z webu, i tak přehledného jako Wikipedia? Dotaz: “seznam všech německých spisovatelů narozených mezi lety 1840-1860”).
04/29/09 20
Sémantický web – RDF
Příklady.Struktura univerzity.
uni:UK rdf:type uni:UNI.uni:FF uni:facultyOf uni:UK.ff:UISK rdf:type uni:Department.ff:UISK uni:departmentOf uni:FF.
Co říkáme je snad očividné. Představme si, že úplně jiný web říká toto:
ff:UISK uni:head ff:PapikKde Papíka patrně najdeme?
04/29/09 21
Sémantický web – RDF
Viděli jsme:trojice RDF výrazů serializované v N3 serializacijména ve formátu namespace:identifikátordvě aplikace (dvě stránky?) hovořící o společném subjektu: ff:UISK
Kde je URI?formát namespace:identifikátor je zkratka pro snadnou čitelnostff může být například zkratka od URL http://www.ff.cuni.cz - globálně unikátní jméno fakulty
04/29/09 22
Sémantický web – RDF
RDF také samo definuje některé zdroje.rdf:type – sloveso, říká “je typu” či “má třídu” apod.další viz standard
Co dál jsme viděli?Kdokoliv mohl něco říct – kdokoliv může vystavit trojici na webu – (anyone anything any topic – AAA principle)Open World Assumption – onen kdokoliv to může říct kdykoliv – nové znalosti se mohou kdykoliv vyjevit z různých zdrojů
04/29/09 23
Sémantický web – RDF
Představme si, že podle výše zmíněných principů někdo někdy řekne toto:msmt:UK_FF_UISK msmt:director empl:Papik
jako lidé vidíme, že toto říká totéž jako výše zmíněná trojice ff:UISK uni:head ff:Papikpřesto to říká to samé – z toho plyne poučení, poslední princip jako důsledek předchozích:Nonunique naming assumption – stejné věci mohou mít různá jména. Jak vyjádříme stejnost?
04/29/09 24
Sémantický web – jdeme za RDF
Výše jsme narazili na problém stejnosti objektu který je reprezentován dvěma různými jmény.Kudy z toho ven?
04/29/09 25
Sémantický web – jdeme za RDF
Z jiných obecných frameworků známe pojem schematu, jazyk omezující možnosti toho, co se dá říci
XML – obecný značkovací jazykXHTML – schematem omezený jazyk, převyprávění HTML v XML
Podobně pro RDF existují schemata RDFS a OWL.
04/29/09 26
Sémantický web – RDFS a OWL
Co je schema?schema je formálně popsané omezení širšího jazyka
omezení: v schematem vymezeném jazyce nemůžeme již říct vše, co jsme mohli v širším jazyceomezení: schema definuje sémantiku toho, co říkáme – tato je pak sdílená (viz výše nonunique naming assumption a AAA principle)omezení: kombinace výroků pak dovoluje usuzovat nové znalosti, které nebyly explicitně formulovány
04/29/09 27
Sémantický web – RDFS a OWL
RDFS – schema přímo v názvuOWL – Web Ontology LanguageOba jazyky na různé úrovni definují sdílený slovník a jeho sémantiku.
slovník: seznam podstatných jmen a sloves k užitísémantika: důsledky užití slov z tohoto slovníku
04/29/09 28
Sémantický web – RDFS a OWL
Slovník RDFS a OWL – základní pojmy:rdfs:Class – třída věcí. Z užití nic neplyne: používá se pro snadnost orientace.rdfs:Property – verb. Řekneme o něčem, že je to sloveso.
04/29/09 29
Sémantický web – RDFS a OWL
rdfs:subClassOf – řekneme, že něco je subtřída, pak platí toto, předpoklady:
a:A rdf:type rdfs:Class.b:B rdfs:subClassOf a:Ax:X rdf:type b:B
důsledek:x:X rdf:type a:A.
Sémantika rdfs:subClassOf leží v onom vyvození.ekvivalentně pro slovesa rdfs:subPropertyOf
04/29/09 30
Sémantický web – RDFS a OWL
Jak sloučíme ona tvrzení uvedená výše?ff:UISK uni:head ff:Papikmsmt:UK_FF_UISK msmt:director empl:Papik
Úkol: sloučit informace ze zdrojů obsahující tyto trojice.Návrh (AAA!):
ff:Papik rdf:type foaf:Personempl:Papik rdf:type empl:Employeeempl:Employee rdfs:subClassOf foaf:Person
závěr: empl:Papik rdf:type foaf:Person! - kudy dál?
04/29/09 31
Sémantický web – RDFS a OWL
RDFS umožňuje mluvit o třídách věcí a jejich hierarchii a o vlastnostech věcí a jejich hierarchiiOWL jde mnohem dál: definuje řadu slov, jejichž užití tvoří ontologiiOntologie: formální reprezentace množiny konceptů – jednoduše systém, který definuje co “je” a co se o tom dá “říct”.
04/29/09 32
Sémantický web – OWL a ontologie
Prostředky tvorby ontologií.owl:Restriction – třída věcí, které mají nějaké vlastnosti
příslušnost věci do třídy již není výsledkem prostého konstatování, ale důsledkem toho, že věc má nějakou vlasnost
uni:Faculty owl:equivalentClass [ a owl:Restriction; owl:onProperty uni:head; owl:allValuesFrom uni:Dean ].říkáme: fakulta je taková věc, jíž šéfuje děkan
04/29/09 33
Sémantický web – OWL a ontologie
Prostředky tvorby ontologií.vyjádření stejnosti: owl:equivalentClass, owl:equivalentProperty, owl:sameAs
v našem příkladě můžeme říci: msmt:UK_FF_UISK owl:sameAs ff:UISK. Lepší je ovšem toto usoudit z vlastností tříd a členů těchto tříd než to explicitně prohlásit.
vlastnosti vlastností: owl:TransitiveProperty (a<b, b<c, pak a<c), owl:FunctionalProperty, owl:SymmetricProperty apod.
04/29/09 34
Sémantický web – OWL a ontologie
Kontradikce. Uzavření světa.OWL umožňuje částečně uzavřít svět, například tímto tvrzením:
uni:Department rdfs:subClassOf [ a owl:Restriction; owl:onProperty uni:head; owl:maxCardinality 1 ]
katedra je podtřída věcí, které mají právě jednoho šéfapotom můžeme z těchto tvrzení:
ff:UISK uni:head ff:Papikff:UISK uni:head ff:Richard_Papik
vydedukovat, žeff:Papik owl:sameAs ff:Richard_Papik
04/29/09 35
Sémantický web – OWL a ontologie
V předchozím příkladu jsme uzavřeli svět: již nikdo nemůže přijít s novým šéfem UISKu. V případě že se tak stane, musíme usoudit, že je to jen jiné jméno pro toho samého.FOAF definuje Person jako stejnou, jestliže má stejný hash emailové adresy (identifikátor). Jestliže ovšem z FOAF plyne, že
ff:Papik owl:differentFrom ff:Richard_Papikpak jsme narazili na kontradikci. Model v ontologii není
splnitelný. Někdo musí některé tvrzení odstranit.
04/29/09 36
Sémantický web – OWL a ontologie
Tvorba ontologií je komplexním procesem identifikace, modelování světa a programováníOntologie má být jednoduchá – příliš složitá ontologie omezuje užití a vede ke kontradikcímOntologie má řešit svůj obor zájmů a nepouštět se do přílišných obecností (my:MovableThing rdfs:subClassOf my:ThingRepresentedByShapedMass)
04/29/09 37
Sémantický web – aplikace, užití
Existuje několik obecně známých ontologií:FOAF – řeší lidi, identifikaci, kontakty, sociální sítěSKOS – ontologie pro stavbu znalostních systémů a sjednocování thesaurů (core:narrower, core:related, core:Concept, skos:prefLabel apod.)Dublin Core – sada ontologií pro popis publikací, muzejních exponátů apod.
04/29/09 38
Sémantický web – aplikace, užití
RDF trojice lze serializovat do obyčejného HTML: RDFa (RDF in Attributes) – publikace, kontaktní informace na webu lze udržovat ve FOAF a Dublin Core: tyto informace budou strojově zpracovávatelnépomocí dalších ontologií (hCalendar) lze na webu distribuovat události atd. atp.
04/29/09 39
Sémantický web – aplikace, užití
Pokročilé aplikaceDBPedia – ontologie + data z Wikipedie převedená do RDF trojic
němečtí spisovatelé narození mezi lety 1840 a 1860? SPARQL dotaz. Porovnejte s klasickou Wikipedií.
NEPOMUK – social semantic desktop – sada ontologií a API pro sémantické technologie na desktopu. Někdy jsme přemýšleli o tom, proč si váš počítač nepamatuje s jakým emailem vám jako příloha přišel nějaký dokument?
04/29/09 40
Sémantický web – alternativy kritika
K RDF existuje historická alternativa, tzv. mikroformáty.serializace do class atributů definovaných v HTMLomezené ontologie, nelze rozšiřovatde facto ad hoc hack (sic) nad něčím, co bylo určeno k jiným účelům (class atribut – CSS)
V komunitě sémantického webu zastánci RDF i mikroformátů – svaté války
04/29/09 41
Sémantický web – alternativy kritika
Projekt sémantického webu bývá osočován z akademismu a odtrženosti od praxe
OWL má kořeny v Description Logictechnologie vycházejí z akademického prostředí a ne korporátníhomnohé korporace mají vlastní zájmy – například google investoval kvanta peněz do analýzy dat, sémantický web by mu mohl narušovat byznys (skupina WhatWG tvořící pod dohledem zaměstnance Google HTML5 do něj odmítá začlenit prostředky pro možné užití RDFa)
04/29/09 42
Sémantický web – alternativy kritika
Budoucnost Sémantického webuvíce a více webů zařazuje do svých stránek sémantické informace (serializované trojice – whitehouse.gov užívá, bbc uvažuje, atd.)záleží na postoji specifikátorů HTMLvznikají aplikace typu twine.com pro social bookmarking postaveném na RDF a ontologiích – doporučování na základě podobností a podobné social web standardnostiNicméně budoucnost je nejistá, nástup je pomalý
Ondřej ČernošOndřej ČernošUISKUISK
[email protected]@gmail.com602372810602372810
Děkuji za pozornost. Otázky?Děkuji za pozornost. Otázky?