Ondřej Černoš: Sémantický web

Post on 24-Jan-2017

37 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

Transcript

Ondřej ČernošOndřej ČernošUISKUISK

cernoso@gmail.comcernoso@gmail.com602372810602372810

Sémantický web – principy, prostředky, Sémantický web – principy, prostředky, aplikaceaplikace

04/29/09 2

Kdo jsem

Ondřej Černoš, absolvent FEL ČVUT (kybernetika)doktorand UISK, téma blízké sémantickému webu

04/29/09 3

Web

Co je web?Web je databáze znalostíWeb je hromada syntakticky strukturovaných datWeb je propojená hromada strukturovaných datWeb je informační systém s vlastní svébytnou architekturou

04/29/09 4

Web – technické pozadí

Co je na Webu?na webu existují Zdroje (Resource) – stránky, obrázky, feedy (RSS, Atom) atd.entity existující na webu mají jména

URI – Unified Resource IdentificatorURL jako aplikace URI – Unified Resource LocatorJména (URI) jsou globálně unikátní

04/29/09 5

Web – technické pozadí

Jakým způsobem jsou zdroje na webu?Zdroje jsou reprezentovány nějakou serializací, kterou umí přenosová soustava přenášet

značkovací jazyky – HTML (aplikace SGML, šedesátá léta)formáty obrázků – PNG, JPG apod.streamované videoXML jazyky (aplikace)JSON, YAML, atd. atp.

Reprezentace nejsou zdroji!

04/29/09 6

Web – technické pozadí

SGML a nástupci jako reprezentační jazyky hypertextuve značkovacích jazycích existují prostředky pro odkazování na jiné zdroje na webu

známé html tagy: anchor (a), img apod.značkovací jazyky jsou standardizované, otevřenéznačkovací jazyky popisují strukturu dokumentů

z.j. umí označit odstavec, nadpis apod.tedy značkovací jazyky řeší syntax dokumentů

04/29/09 7

Web – technické pozadí

Mluvili jsme o transportním mechanismu – co to je?HyperText Transfer Protocol (HTTP)definuje “architekturu informačního systému” zvaného webarchitektura identifikována jako REST – Representational State Transfer

04/29/09 8

Web – REST

REST – identifikace jedinečných vlastností webuAplikační stav je abstrahován do prostředků (Resource)Zdroj je unikátně identifikovaný (URI)Všechny zdroje sdílejí jednotný interface (rozhraní) k práci s reprezentací těchto

omezený počet známých typů reprezentací (content type – MIME typy)omezený počet operací nad reprezentacemi zdrojů (GET, PUT, POST, DELETE)

04/29/09 9

Web – REST

Další vlastnosti REST architekturyprotokol architektury (HTTP) je typu klient-serverprotokol je bezestavový (vždy se ve výměně reprezentací zdrojů mezi klientem a serverem zasílá vše co je nutné k porozumění dotazu či odpovědi)protokol je cachovaný (důležité pro škálovatelnost)

04/29/09 10

Jak to vše souvisí se sémantickým webem?

Sémantický web staví na úspěšných a prověřených vlastnostech webu tak jak je známe teďSémantický web dále staví na pojmu zdroje, užívá URI, jako aplikační architekturu užívá REST – tedy je to stále webPro pochopení směru, jakým rozvíjí sémantický web ten web, který známe dnes, je nutné znát fundament webu

04/29/09 11

Hranice užití webu

Na webu používáme mnohé aplikaceaplikace pracují s různými zdroji různěaplikace reprezentují zdroje (světa) svojí vlastní reprezentací, která nemusí být sdílená

Aplikace neumějí spolupracovatpředstavme si aplikaci pro rezervaci hotelů, mapovou aplikaci a aplikaci ministerstva životního prostředí mapující národní parky. Spolupráce? Vesměs žádná.

04/29/09 12

Hranice užití webu

Čím to je?na webu jsou zdroje, které mluví o světěreprezentace zdrojů jsou syntanticky strukturovanéneumíme ovšem mluvit o těchto zdrojích – chybějí metadata, tedy data o datech – data o datech o světě

04/29/09 13

Sémantický Web – metadata

Jaké známe metadatové systémy z prostředí webu a informační vědy?

tagy – social tagging, kolektivní znalostní systématributy v souborovém systému – autor, doba vzniku apod.

Jsou to různé systémy, navzájem nespolupracující a mající různá svá omezení (tagy – čím užívanější tag, tím menší nese informaci, apod.)

04/29/09 14

Sémantický Web – metadata

Kvůli roztříštěnosti způsobů práce s metadaty vznikl obecný frameworkRDF – Resource Description Framework

Resource – o tom jsme již hovořiliDescription – popis, chceme mluvit o zdrojíchFramework – RDF umožňuje tvořit popisy, nepředepisuje popis

04/29/09 15

Sémantický Web – metadata

Jak mluvíme o věcech?říkáme, že něco je něco jinéhotriviální referenční sémantika – link mezi symbolem a věcí (pro naše účely bohatě stačí)

Přesně toto umožňuje RDF:subject verb object

“U zeleného vola” “je” “hotel”.“Hotel” “je” “třída ubytovacích zařízení”.“Třída ubytovacích zařízení” “je podtřída” “obytných budov”.

04/29/09 16

Sémantický web – RDF

Co definuje RDF jako standard?Sdílenou sémantiku trojic “subject verb object”Různé formy reprezentace (viz!) těchto trojicNěkolik sloves a podstatných jmen

04/29/09 17

Sémantický web – RDF

RDF tedy umožňuje tvořit trojice “subject verb object”. K čemu to je?

sdílený slovník podstatných jmen a slovesRDF nevynucuje reprezentaci trojic – může být tedy reprezentováno například XML jazykem (RDF/XML) vloženým do webových stránek

příklad s hotelem a webem národních parků – sdílená podstatná jména (pojmenování objektů světa) a slovesa (vazby mezi nimi) umožní propojit znalosti jedné aplikace se znalostmi aplikace druhé.

04/29/09 18

Sémantický web – RDF

RDF tedy tvoří jakési grafy.různé aplikace (rozptýlené po webu) vystavují reprezentace trojic. Můžeme trojici chápat jako graf, kde subject je uzel, verb je orientovaná hrana, object je uzel.Grafy pak lze spojovat – jsou-li nalezeny společné uzly.

RDF dosahuje globálně unikátních pojmenování známým mechanismem URI. Subject, verb i object reprezentujeme globálním identifikátorem.

04/29/09 19

Sémantický web – RDF

Co je tedy sémantický web v RDF?Globální orientovaný graf tvrzení “subject verb object”.Tomuto grafu pak lze klást dotazy, podobné databázovým dotazům (SPARQL).

Co jsme získali?Znalosti jsou strojově zpracovávatelné.Znalosti jsou jednotně reprezentované, tudíž snáze dostupné. (Někdo někdy zkoušel destilovat znalosti z webu, i tak přehledného jako Wikipedia? Dotaz: “seznam všech německých spisovatelů narozených mezi lety 1840-1860”).

04/29/09 20

Sémantický web – RDF

Příklady.Struktura univerzity.

uni:UK rdf:type uni:UNI.uni:FF uni:facultyOf uni:UK.ff:UISK rdf:type uni:Department.ff:UISK uni:departmentOf uni:FF.

Co říkáme je snad očividné. Představme si, že úplně jiný web říká toto:

ff:UISK uni:head ff:PapikKde Papíka patrně najdeme?

04/29/09 21

Sémantický web – RDF

Viděli jsme:trojice RDF výrazů serializované v N3 serializacijména ve formátu namespace:identifikátordvě aplikace (dvě stránky?) hovořící o společném subjektu: ff:UISK

Kde je URI?formát namespace:identifikátor je zkratka pro snadnou čitelnostff může být například zkratka od URL http://www.ff.cuni.cz - globálně unikátní jméno fakulty

04/29/09 22

Sémantický web – RDF

RDF také samo definuje některé zdroje.rdf:type – sloveso, říká “je typu” či “má třídu” apod.další viz standard

Co dál jsme viděli?Kdokoliv mohl něco říct – kdokoliv může vystavit trojici na webu – (anyone anything any topic – AAA principle)Open World Assumption – onen kdokoliv to může říct kdykoliv – nové znalosti se mohou kdykoliv vyjevit z různých zdrojů

04/29/09 23

Sémantický web – RDF

Představme si, že podle výše zmíněných principů někdo někdy řekne toto:msmt:UK_FF_UISK msmt:director empl:Papik

jako lidé vidíme, že toto říká totéž jako výše zmíněná trojice ff:UISK uni:head ff:Papikpřesto to říká to samé – z toho plyne poučení, poslední princip jako důsledek předchozích:Nonunique naming assumption – stejné věci mohou mít různá jména. Jak vyjádříme stejnost?

04/29/09 24

Sémantický web – jdeme za RDF

Výše jsme narazili na problém stejnosti objektu který je reprezentován dvěma různými jmény.Kudy z toho ven?

04/29/09 25

Sémantický web – jdeme za RDF

Z jiných obecných frameworků známe pojem schematu, jazyk omezující možnosti toho, co se dá říci

XML – obecný značkovací jazykXHTML – schematem omezený jazyk, převyprávění HTML v XML

Podobně pro RDF existují schemata RDFS a OWL.

04/29/09 26

Sémantický web – RDFS a OWL

Co je schema?schema je formálně popsané omezení širšího jazyka

omezení: v schematem vymezeném jazyce nemůžeme již říct vše, co jsme mohli v širším jazyceomezení: schema definuje sémantiku toho, co říkáme – tato je pak sdílená (viz výše nonunique naming assumption a AAA principle)omezení: kombinace výroků pak dovoluje usuzovat nové znalosti, které nebyly explicitně formulovány

04/29/09 27

Sémantický web – RDFS a OWL

RDFS – schema přímo v názvuOWL – Web Ontology LanguageOba jazyky na různé úrovni definují sdílený slovník a jeho sémantiku.

slovník: seznam podstatných jmen a sloves k užitísémantika: důsledky užití slov z tohoto slovníku

04/29/09 28

Sémantický web – RDFS a OWL

Slovník RDFS a OWL – základní pojmy:rdfs:Class – třída věcí. Z užití nic neplyne: používá se pro snadnost orientace.rdfs:Property – verb. Řekneme o něčem, že je to sloveso.

04/29/09 29

Sémantický web – RDFS a OWL

rdfs:subClassOf – řekneme, že něco je subtřída, pak platí toto, předpoklady:

a:A rdf:type rdfs:Class.b:B rdfs:subClassOf a:Ax:X rdf:type b:B

důsledek:x:X rdf:type a:A.

Sémantika rdfs:subClassOf leží v onom vyvození.ekvivalentně pro slovesa rdfs:subPropertyOf

04/29/09 30

Sémantický web – RDFS a OWL

Jak sloučíme ona tvrzení uvedená výše?ff:UISK uni:head ff:Papikmsmt:UK_FF_UISK msmt:director empl:Papik

Úkol: sloučit informace ze zdrojů obsahující tyto trojice.Návrh (AAA!):

ff:Papik rdf:type foaf:Personempl:Papik rdf:type empl:Employeeempl:Employee rdfs:subClassOf foaf:Person

závěr: empl:Papik rdf:type foaf:Person! - kudy dál?

04/29/09 31

Sémantický web – RDFS a OWL

RDFS umožňuje mluvit o třídách věcí a jejich hierarchii a o vlastnostech věcí a jejich hierarchiiOWL jde mnohem dál: definuje řadu slov, jejichž užití tvoří ontologiiOntologie: formální reprezentace množiny konceptů – jednoduše systém, který definuje co “je” a co se o tom dá “říct”.

04/29/09 32

Sémantický web – OWL a ontologie

Prostředky tvorby ontologií.owl:Restriction – třída věcí, které mají nějaké vlastnosti

příslušnost věci do třídy již není výsledkem prostého konstatování, ale důsledkem toho, že věc má nějakou vlasnost

uni:Faculty owl:equivalentClass [ a owl:Restriction; owl:onProperty uni:head; owl:allValuesFrom uni:Dean ].říkáme: fakulta je taková věc, jíž šéfuje děkan

04/29/09 33

Sémantický web – OWL a ontologie

Prostředky tvorby ontologií.vyjádření stejnosti: owl:equivalentClass, owl:equivalentProperty, owl:sameAs

v našem příkladě můžeme říci: msmt:UK_FF_UISK owl:sameAs ff:UISK. Lepší je ovšem toto usoudit z vlastností tříd a členů těchto tříd než to explicitně prohlásit.

vlastnosti vlastností: owl:TransitiveProperty (a<b, b<c, pak a<c), owl:FunctionalProperty, owl:SymmetricProperty apod.

04/29/09 34

Sémantický web – OWL a ontologie

Kontradikce. Uzavření světa.OWL umožňuje částečně uzavřít svět, například tímto tvrzením:

uni:Department rdfs:subClassOf [ a owl:Restriction; owl:onProperty uni:head; owl:maxCardinality 1 ]

katedra je podtřída věcí, které mají právě jednoho šéfapotom můžeme z těchto tvrzení:

ff:UISK uni:head ff:Papikff:UISK uni:head ff:Richard_Papik

vydedukovat, žeff:Papik owl:sameAs ff:Richard_Papik

04/29/09 35

Sémantický web – OWL a ontologie

V předchozím příkladu jsme uzavřeli svět: již nikdo nemůže přijít s novým šéfem UISKu. V případě že se tak stane, musíme usoudit, že je to jen jiné jméno pro toho samého.FOAF definuje Person jako stejnou, jestliže má stejný hash emailové adresy (identifikátor). Jestliže ovšem z FOAF plyne, že

ff:Papik owl:differentFrom ff:Richard_Papikpak jsme narazili na kontradikci. Model v ontologii není

splnitelný. Někdo musí některé tvrzení odstranit.

04/29/09 36

Sémantický web – OWL a ontologie

Tvorba ontologií je komplexním procesem identifikace, modelování světa a programováníOntologie má být jednoduchá – příliš složitá ontologie omezuje užití a vede ke kontradikcímOntologie má řešit svůj obor zájmů a nepouštět se do přílišných obecností (my:MovableThing rdfs:subClassOf my:ThingRepresentedByShapedMass)

04/29/09 37

Sémantický web – aplikace, užití

Existuje několik obecně známých ontologií:FOAF – řeší lidi, identifikaci, kontakty, sociální sítěSKOS – ontologie pro stavbu znalostních systémů a sjednocování thesaurů (core:narrower, core:related, core:Concept, skos:prefLabel apod.)Dublin Core – sada ontologií pro popis publikací, muzejních exponátů apod.

04/29/09 38

Sémantický web – aplikace, užití

RDF trojice lze serializovat do obyčejného HTML: RDFa (RDF in Attributes) – publikace, kontaktní informace na webu lze udržovat ve FOAF a Dublin Core: tyto informace budou strojově zpracovávatelnépomocí dalších ontologií (hCalendar) lze na webu distribuovat události atd. atp.

04/29/09 39

Sémantický web – aplikace, užití

Pokročilé aplikaceDBPedia – ontologie + data z Wikipedie převedená do RDF trojic

němečtí spisovatelé narození mezi lety 1840 a 1860? SPARQL dotaz. Porovnejte s klasickou Wikipedií.

NEPOMUK – social semantic desktop – sada ontologií a API pro sémantické technologie na desktopu. Někdy jsme přemýšleli o tom, proč si váš počítač nepamatuje s jakým emailem vám jako příloha přišel nějaký dokument?

04/29/09 40

Sémantický web – alternativy kritika

K RDF existuje historická alternativa, tzv. mikroformáty.serializace do class atributů definovaných v HTMLomezené ontologie, nelze rozšiřovatde facto ad hoc hack (sic) nad něčím, co bylo určeno k jiným účelům (class atribut – CSS)

V komunitě sémantického webu zastánci RDF i mikroformátů – svaté války

04/29/09 41

Sémantický web – alternativy kritika

Projekt sémantického webu bývá osočován z akademismu a odtrženosti od praxe

OWL má kořeny v Description Logictechnologie vycházejí z akademického prostředí a ne korporátníhomnohé korporace mají vlastní zájmy – například google investoval kvanta peněz do analýzy dat, sémantický web by mu mohl narušovat byznys (skupina WhatWG tvořící pod dohledem zaměstnance Google HTML5 do něj odmítá začlenit prostředky pro možné užití RDFa)

04/29/09 42

Sémantický web – alternativy kritika

Budoucnost Sémantického webuvíce a více webů zařazuje do svých stránek sémantické informace (serializované trojice – whitehouse.gov užívá, bbc uvažuje, atd.)záleží na postoji specifikátorů HTMLvznikají aplikace typu twine.com pro social bookmarking postaveném na RDF a ontologiích – doporučování na základě podobností a podobné social web standardnostiNicméně budoucnost je nejistá, nástup je pomalý

Ondřej ČernošOndřej ČernošUISKUISK

cernoso@gmail.comcernoso@gmail.com602372810602372810

Děkuji za pozornost. Otázky?Děkuji za pozornost. Otázky?

top related