Transcript
UNIVERSITA’ DEGLI STUDI DI TRENTO
FACOLTA’ DI ECONOMIA
Corso di LS in “Net Economy: Tecnologia e Management dell’informazione e della
conoscenza”
Anno Accademico 2008-2009
Corso di “Modelli di rappresentazione della conoscenza”
DBpedia nel contesto Linked Data
Docente: Dott. Paolo Bouquet
Studente: Andrea Casagrande 133393
Sommario
1 Introduzione .................................................................................................................................. 3
2 Linked Data .................................................................................................................................. 4
2.1 Principi del Linked Data........................................................................................................ 6
2.2 Il progetto “Linking Open Data” ........................................................................................... 7
3 DBpedia ........................................................................................................................................ 9
3.1 Base di conoscenza di DBpedia .......................................................................................... 10
3.2 Estrazione di informazioni strutturate da Wikipedia ........................................................... 16
3.3 Accesso al set di dati di DBpedia sul Web .......................................................................... 17
3.4 Interfacce utente .................................................................................................................. 18
3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data” ........................ 22
4 Lavori collegati ........................................................................................................................... 23
5 Conclusioni ................................................................................................................................. 24
FONTI ................................................................................................................................................ 26
1 Introduzione
E’ ormai quasi universalmente riconosciuto il fatto che tenere insieme l’informazione
strutturata e la conoscenza del mondo per rispondere semanticamente alle interrogazioni è una delle
principali sfide della scienza informatica e una delle cose che in futuro potrebbe avere enormi
ripercussioni sul mondo intero. Ciò ha portato a quasi 30 anni di ricerca sull’integrazione delle
informazioni e recentemente sul Semantic Web e le tecnologie correlate. Tali sforzi hanno in genere
ricevuto attenzione solo in domini relativamente piccoli e specializzati, dove potrebbero essere
utilizzati un’ontologia chiusa, un vocabolario o uno schema. Tuttavia, la più ampia visione del
Semantic Web non è ancora stata realizzata, e una delle maggiori sfide affrontando questi sforzi è
stata quella di capire come rendere abbastanza interessante e largamente utilizzabile l’informazione
nel sistema, rendendola utile e accessibile ad un pubblico generale.
Un problema da risolvere è quello che il tradizionale modello “top-down” di progettazione di uno
schema o un’ontologia crolla rispetto alla scala del Web, ancora prima di iniziare sviluppare i dati:
sia i dati che i metadati dovrebbero infatti evolvere costantemente e servire a molte comunità
diverse. Per risolvere questo problema c’è stato un movimento recente per costruire uno stile di base
per il Semantic Web, usando approcci collaborativi ispirati al Web 2.0. Si sta studiando un nuovo
modello di rappresentazione e gestione strutturata delle informazioni: si deve innanzitutto gestire in
modo uniforme inconsistenza, ambiguità, incertezza, provenienza dei dati e conoscenza implicita.
Forse il modo più efficace per spingere la ricerca sinergica lungo queste direzioni è quello di fornire
un ricco corpus di dati diversi. Ciò consentirebbe ai ricercatori di sviluppare, confrontare e valutare
differenti estrazioni, ragionamenti e tecniche di gestione dell’incertezza, e distribuire sistemi
operazionali sul Web.
All’interno dello sforzo della comunità “W3C Linking Open Data1” (LOD), un numero crescente di
provider di dati ha iniziato a pubblicare e connettere dati sul Web secondo i principi “Linked Data2”
di Tim Berners-Lee. Il risultante Web dei dati3 consiste attualmente di diversi miliardi di triple RDF
e include domini come informazioni geografiche, persone, società, comunità on-line, film, musica,
libri e pubblicazioni scientifiche. In aggiunta alla pubblicazione e alla connessione di set di dati, c’è
1 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
2 http://www.w3.org/DesignIssues/LinkedData.html
3 Traduzione di “Web of Data”
anche un continuo lavoro su browser Linked Data, crawler4 Linked Data, motori di ricerca per il
Web dei dati e altre applicazioni che utilizzano i Linked Data dal Web.
Un esempio di applicazione che opera in questo Web dei dati e secondo i principi Linked Data è
DBpedia. La base di conoscenza di DBpedia è utile come Linked Data sul Web. Come DBpedia
definisce URI Linked Data per milioni di concetti, vari provider di dati hanno iniziato a collocare
collegamenti RDF dai loro set di dati a DBpedia, rendendo DBpedia uno dei centri di connessione5
centrali dell’emergente Web dei dati.
Di seguito verrà presentato il Web dei dati e i principi Linked Data su cui si basa e successivamente
una delle principali applicazioni che maggiormente fa uso di questi nuovi dati: DBpedia. Infine
verranno presentati i progetti correlati e le conclusioni con i possibili sviluppi futuri che potranno
avvenire in questo ambito.
2 Linked Data
In questo momento il Web si sta trasformando da un medium per pubblicare e condividere
documenti testuali a un medium per pubblicare e condividere dati. Questa transizione è facilitata
dalle idee provenienti dalla comunità del Semantic Web e da iniziative come il progetto “W3C
Linking Open Data”.
Linked Data è un metodo per pubblicare dati RDF sul Web e per connettere dati tra fonti di dati
differenti. Si può accedere ai Linked Data sul Web usando un browser del Semantic Web, proprio
come ai documenti del Web tradizionale si può accedere usando un browser HTML. Comunque,
invece di seguire collegamenti tra pagine HTML, i browser del Semantic Web permettono agli
utenti di navigare tra diverse fonti di dati seguendo link RDF. Ciò permette all’utente di accedere ad
una data risorsa, e poi di muoversi attraverso un Web di fonti di dati connessi attraverso link RDF
potenzialmente infiniti. Ciò permette inoltre ai robot dei motori di ricerca del Semantic Web di
seguire questi link per eseguire la scansione del Semantic Web.
Il World Wide Web ha radicalmente alterato il modo di condividere la conoscenza, abbassando le
barriere per pubblicare e accedere a documenti come parte di uno spazio informatico globale. I link
ipertestuali consentono all’utente di attraversare questo spazio informativo usando i browser Web,
mentre i motori di ricerca indicizzano i documenti e analizzano la struttura dei collegamenti tra essi
4 Software che analizzano i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per
conto di un motore di ricerca 5 Interlinking-hub
per dedurre una potenziale rilevanza con la ricerca effettuata dall’utente. Questa funzionalità è stata
permessa dalla natura generica, aperta ed estensibile del Web, la quale è anche vista come una
caratteristica chiave nella libera crescita del Web.
Nonostante i vantaggi indiscutibili che offre il Web, fino a poco tempo fa gli stessi principi che
consentivano al Web dei documenti di prosperare non erano applicate ai dati. Tradizionalmente i
dati pubblicati sul Web erano resi disponibili come dati grezzi, in formati come file CSV o XML, o
contrassegnati come tabelle HTML, sacrificando gran parte della loro struttura e della loro
semantica. Nel convenzionale ipertesto Web, la natura delle relazioni tra due documenti collegati è
implicita, come il formato dei dati, per esempio HTML, e non è sufficientemente espressiva per
permettere a singole entità descritte in un particolare documento di essere connesse alle relative
entità attraverso link. Mentre le unità primarie dell’ipertesto Web sono i documenti HTML connessi
da iperlink non tipizzati, Linked Data si basa su documenti contenenti dati in formato RDF
(Resource Description Framework). Ma, piuttosto che connettendo semplicemente questi
documenti, Linked Data usa RDF per fare dichiarazioni scritte che collegano arbitrariamente le cose
nel mondo. Il risultato, il cosiddetto Web of Data, può essere descritto più accuratamente come un
web di cose nel mondo, descritte dai dati sul Web.
Tuttavia, negli ultimi anni il Web si è evoluto da uno spazio di informazione globale di documenti
collegati ad uno spazio in cui sia i documenti sia i dati sono collegati tra loro. Alla base di questa
evoluzione vi è un insieme di best practice6 per la pubblicazione e la connessione di strutture dati
sul Web. L’adozione delle best practice Linked Data ha condotto all’estensione del Web ad uno
spazio di dati globale dove sia possibile la connessione tra dati provenienti da differenti domini
come persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e
radiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità on-line, dati statistici e
scientifici, recensioni, ecc. Questo Web of Data permette nuovi tipi di applicazioni. Ci sono generici
browser Linked Data che consentono agli utenti di iniziare a navigare in una fonte di dati e poi
passare per mezzo di link in fonti di dati collegate. Ci sono motori di ricerca Linked Data che
scansionano il Web of Data seguendo link tra fonti di dati e forniscono capacità di interrogazioni
espressive su dati aggregati, in modo simile a come al giorno d’oggi vengono interrogati i database
locali. Il Web dei dati si apre anche a nuove possibilità per applicazioni di specifici domini. A
differenza dei mashup7 Web 2.0 che lavorano su un gruppo fisso di fonti di dati, le applicazioni
6 tecnica, metodo, processo o attività, più efficacie nel raggiungere un particolare risultato, di qualunque altra tecnica,
metodo, processo, ecc 7 sito o applicazione web di tipo ibrido, cioè tale da includere dinamicamente informazioni o contenuti provenienti da
più fonti
Linked Data operano sulla cima di uno spazio di dati illimitato e globale. Ciò permette loro di
fornire risposte più complete man mano che nuove fonti di dati appaiono sul Web.
In sintesi, Linked Data riguarda semplicemente l’utilizzo del Web per creare collegamenti tra dati
provenienti da diverse fonti. Questi possono essere diversi quanto i database mantenuti da due
organizzazioni situate in diverse locazioni geografiche, o semplicemente sistemi eterogenei in una
sola organizzazione che, storicamente, non sono semplicemente interoperabili a livello di dati.
Tecnicamente, Linked Data si riferisce a dati pubblicati sul Web che siano leggibili dalle macchine
(machine-readable), il cui significato sia definito esplicitamente, che siano collegati ad altri set di
dati esterni e che possano essere a loro volta collegati a fonti esterne di set di dati.
2.1 Principi del Linked Data
Tim Barners-Lee (nel 2006) ha delineato una serie di regole per la pubblicazione di dati sul Web in
modo che tutti i dati pubblicati diventino parte di un unico spazio globale dei dati:
1. Usare URI come nomi per le cose.
2. Usare URI HTTP in modo che le persone possano cercare questi nomi.
3. Quando qualcuno cerca un URI fornire informazioni utili, usando gli standard (RDF,
SPQRQL).
4. Includere link ad altre URI, in modo che si possano scoprire più cose.
Questi sono conosciuti come i principi del Linked Data, e forniscono una ricetta di base per
pubblicare e connettere dati usando l’infrastruttura del Web, pur rispettando la sua architettura e i
suoi standard.
Impiegando URI HTTP per identificare le risorse, il protocollo HTTP come meccanismo di
recupero e il modello dati RDF per rappresentare descrizioni di risorse, Linked Data si basa
direttamente sull’architettura generale del Web. Il Web of Data può quindi essere visto come un
ulteriore livello che è strettamente intrecciato con il classico documento Web e ha molte delle stesse
proprietà:
Il “Web of Data” è generico e può contenere ogni tipo di dati.
Chiunque può pubblicare dati sul Web of Data.
Chi pubblica i dati non è vincolato nella scelta dei vocabolari con i quali rappresentare i dati.
Le entità sono connesse da link RDF, creando un grafo globale dei dati che abbraccia e
consente la scoperta di nuove fonti di dati.
Dalla prospettiva dello sviluppo di un’applicazione il Web of Data ha le seguenti caratteristiche:
I dati sono rigorosamente separati da aspetti di formattazione e presentazione.
I dati sono auto-descrittivi. Se un’applicazione che utilizza Linked Data incontra dati
descritti con un vocabolario sconosciuto, l’applicazione può dereferenziare le URI che
identificano i termini del vocabolario per trovare la loro definizione.
L’uso di HTTP come un meccanismo standardizzato di accesso ai dati e RDF come un
modello standardizzato di dati semplifica l’accesso ai dati in confronto alle Web API, le
quali si basano sui modelli di dati eterogenei e sulle interfacce di accesso.
Il Web of Data è aperto, nel senso che le applicazioni non devono essere implementate
rispetto ad un fissato insieme di fonti di dati, ma può scoprire nuove fonti di dati nel tempo
di esecuzione seguendo link RDF.
2.2 Il progetto “Linking Open Data”
L’esempio più visibile di adozione e applicazione dei principi Linked Data è il progetto “Linking
Open Data”, uno sforzo di base della comunità fondata nel gennaio 2007 e supportata dal W3C
Semantic Web Education and Outreach Group8. L’obiettivo originale e ancora in corso del progetto
è di popolare il Web dei dati, individuando insiemi di dati esistenti che sono disponibili sotto
licenze open, convertendo questi in RDF in accordo coi principi Linked Data, e pubblicandoli sul
Web.
Il progetto è cresciuto considerevolmente: all’inizio i partecipanti erano solo sviluppatori,
ricercatori universitari, piccole aziende, ora sono coinvolti grandi aziende come la BBC, la
Thomson Reuters e la Library of Congress. Questa crescita è stata possibile dalla natura open del
progetto, dove ognuno può partecipare semplicemente pubblicando un insieme di dati in accordo
con i principi del Linked Data e connettendoli con i set di dati esistenti. Un’indicazione del range e
della grandezza del Web of Data originato dal progetto “Linking Open Data” è fornito in Figura 1.
Ogni nodo in questo diagramma a nuvola rappresenta un insieme di dati distinto pubblicato come
Linked Data, alla data di Marzo 2009.
8 http://www.w3.org/2001/sw/sweo/
Figura 1. Diagramma a nuvola Linking Open Data (LOD) che da una visione d’insieme dei set di
dati pubblicati e delle loro relazioni di connessione.
Gli archi in Figura 1 indicano che esistono collegamenti tra oggetti tra due set di dati connessi. Gli
archi più spessi corrispondono approssimativamente ad un numero di link tra due set di dati più
grande. Il contenuto della nuvola è di diversa natura: comprende dati su locazioni geografiche,
persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici,
geni, proteine, farmaci e sperimentazioni cliniche, comunità online, dati statistici, risultati di
censimenti e recensioni.
Calcolare l’esatta dimensione del Web of Data rappresenta una sfida dovuta al fatto che gran parte
dei dati vengono generati da involucri intorno ai database relazionali esistenti o alle API e pertanto
necessitano innanzitutto di essere sottoposti a scansione prima di essere inclusi o analizzati. In
alternativa, la dimensione del Web of Data può venire stimata sulla base delle statistiche sui set di
dati che vengono raccolti dalla comunità LOD nel wiki ESW9. In base a tali statistiche il Web of
9 http://esw.w3.org/topic/
Data consiste attualmente di 4.7 miliardi di triple RDF, le quali sono connesse da circa 142 milioni
di link RDF (Maggio 2009).
La Figura 1 mostra come alcuni set di dati servano come collegamento tra hub nel Web of Data.
Per esempio il set di dati di DBpedia consiste di triple RDF estratte dagli “infobox” comunemente
presenti sul lato destro degli articoli presenti su Wikipedia, mentre Geonames fornisce descrizioni
RDF di milioni di locazioni geografiche in tutto il mondo. Dal momento che questi due insiemi di
dati forniscono URI e descrizioni RDF per molte entità e concetti comuni, essi sono spesso citati in
altri set di dati maggiormente specializzati e hanno quindi sviluppato al loro interno hub ai quali
sono collegati un numero crescente di altri insiemi di dati.
3 DBpedia
Il progetto DBpedia ha ricavato un corpus di dati dall’enciclopedia Wikipedia. Wikipedia è molto
visitata e in costante revisione (ad esempio, secondo alexa.com, Wikipedia è stato il 6° sito più
visitato nel corso del 200910
). Le edizioni di Wikipedia sono disponibili in oltre 250 lingue, con
quella inglese che contiene più di 3 milioni di articoli. Come molte altre applicazioni web,
Wikipedia ha il problema che le sue capacità di ricerca sono limitate alla ricerca full-text, che
permette solo un accesso limitato a questa preziosa base di conoscenza. Come è stato ampiamente
pubblicizzato, Wikipedia presenta anche molte delle impegnative e allo stesso tempo ambiziose
proprietà di poter editare i dati in modo collaborativo: dispone di conseguenza di dati contradditori,
di convenzioni tassonomiche incoerenti, di errori e anche di spam.
Il progetto DBpedia si concentra sul compito di convertire i contenuti di Wikipedia in conoscenza
strutturata, in modo che le tecniche di Semantic Web possano essere impiegate rispetto a tali
informazioni. In sintesi DBpedia è uno sforzo della comunità di estrarre informazioni strutturate da
Wikipedia e di rendere queste informazioni disponibili sul Web. DBpedia permette di effettuare
sofisticate interrogazioni da Wikipedia e di collegare altri set di dati presenti sul Web ai dati stessi
di Wikipedia. Il fine ultimo è rendere più facile l’utilizzo dell’incredibile quantità di informazioni di
Wikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccanismi per la
navigazione, collegando e migliorando l'enciclopedia stessa.
Gli autori di DBpedia hanno fornito i seguenti contributi:
10
http://www.alexa.com/topsites/global
Hanno sviluppato un quadro di estrazione delle informazioni, che converte il contenuto di
Wikipedia in file RDF. Gli elementi di base formano un fondamento su cui la ricerca in
materia di estrazione di informazioni, il clustering, la gestione dell’incertezza e i processi di
interrogazione possono essere effettuati.
Hanno fornito al contenuto di Wikipedia un grande set di dati RDF multidominio, che può
essere utilizzato in una varietà di applicazioni del Semantic Web. Il set di dati di DBpedia
consiste in 103 milioni di triple RDF.
Hanno sviluppato una serie di interfacce e moduli di accesso, in modo tale che il set di dati
possa essere accessibile tramite Web Services e collegato ad altri siti.
Il set di dati di DBpedia può anche essere importato in applicazioni di terze parti oppure è possibile
accedervi online usando varie interfacce utente di DBpedia.
La Figura 2 fornisce una panoramica sul processo di estrazione delle informazioni di DBpedia e
mostra come i dati estratti sono pubblicati sul Web. Queste principali interfacce di DBpedia
attualmente usano Virtuoso e MySQL come depositi back-end.
Figura 2 : visione d’insieme dei componenti di DBpedia
3.1 Base di conoscenza di DBpedia
Le basi di conoscenza stanno giocando sempre più un importante ruolo nell’accrescere
l’intelligenza del Web e nel supportare l’integrazione delle informazioni. Al giorno d’oggi molte
basi di conoscenza includono solo specifici domini, sono create da gruppi relativamente piccoli di
specialisti della conoscenza ed è molto costoso tenerle aggiornate ai cambi di dominio. Allo stesso
tempo, Wikipedia è diventata una delle sorgenti di conoscenza centrale per il genere umano,
mantenuta da migliaia di partecipanti. Il progetto DBpedia usa abilmente questa gigantesca risorsa
di conoscenza estraendo informazioni strutturate da Wikipedia e rendendo queste informazioni
accessibili sul Web alle condizioni della “Creative Commons Attribution-Share Alike 3.0 License”
e della “GNU Free Documentation License”.
La base di conoscenza di DBpedia descrive correntemente più di 2,9 milioni di “cose”, inclusi
almeno 282.000 persone, 339.000 luoghi (inclusi 241.000 luoghi popolati), 88.000 album musicali,
44.000 film, 15.000 videogames, 119.000 organizzazioni (incluse 20.000 società e 29.000
istituzioni educative), 130.000 specie e 4.400 malattie. La base di conoscenza di DBpedia distingue
etichette e abstract per questi argomenti in 91 linguaggi differenti (le 13 lingue principali
corrispondenti ad altrettante versioni di Wikipedia sono inglese, tedesco, francese, spagnolo,
italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese);
807.000 collegamenti ad immagini e 3.840.000 collegamenti a pagine web esterne; 4.878.100
collegamenti esterni in altri set di dati esterni, 415.000 categorie di Wikipedia, e 75.000 categorie di
YAGO. La base di conoscenza è composta di 479 milioni di pezzi di informazioni (triple RDF), di
cui 190 milioni sono stati ricavati dall’edizione inglese di Wikipedia e 289 milioni sono stati estratti
dalle edizioni in altri linguaggi. Il set di dati è organizzato per il download come un insieme di files
RDF più piccoli. La Tabella 1 fornisce una panoramica su questi files.
Set di dati Descrizione Triple
Articoli Descrizione di tutti i 3.2 milioni di concetti all’interno della versione
inglese di Wikipedia, compresi titoli, brevi abstract, miniature e
collegamenti agli articoli corrispondenti.
7.6 M
Abstract estesi Abstract estesi supplementari. 2.1 M
Linguaggi Titoli aggiuntivi, brevi abstract e collegamenti ad articoli di Wikipedia
in tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese,
olandese, giapponese, cinese, russo, finlandese e norvegese.
5.7 M
Linguaggi abstract Abstract estesi in 13 lingue. 1.9 M
Infobox Attributi dei dati per i concetti che sono stati estratti dagli infobox di
Wikipedia.
15.5 M
Link esterni Collegamenti a pagine web esterne riguardanti un concetto. 1.6 M
Categorie di articoli Collegamenti da concetti a categorie usando SKOS. 5.2 M
Categorie Informazione il cui concetto è una categoria e le cui categorie sono
collegate.
1 M
Tipi YAGO Set di dati contenente la dichiarazione rdf:type per tutte le istanze di
DBpedia usando la classificazione di YAGO.
1.9 M
Persone Informazioni riguardanti 80.000 persone (date e luogo di nascita, etc.)
rappresentate usando il vocabolario FOAF.
0.5 M
Link a pagine Collegamenti interni tra le istanze di DBpedia derivate dai link alle
pagine interne tra gli articoli di Wikipedia.
62 M
Collegamenti RDF Collegamenti tra DBpedia e GeoNames, US Census, Musicbrainz,
Progetto Gutenberg, la bibliografia DBLP e l’RDF Book Mash-up.
180 K
Tabella 1: Il set di dati di DBpedia
Alcune serie di dati (come ad esempio le Persone o il set di dati Infobox) sono semanticamente
ricche, nel senso che contengono informazioni molto specifiche. Altre (come il seti di dati dei Link
a pagine) contengono meta-dati (come ad esempio collegamenti tra articoli) senza una semantica
specifica. Tuttavia, queste ultime possono risultare utili ad esempio per le misure di vicinanza tra
concetti o di rilevanza nei risultati di ricerca.
Ciascuna delle 2.9 milioni di risorse descritte nel set di dati di DBpedia è identificata da un’URI di
riferimento della forma http://dbpedia.org/resource/Name, dove Name è preso dall’URL
dell’articolo di sorgente di Wikipedia, che ha la forma http://en.wikipedia.org/wiki/Name. Così ogni
risorsa è legata direttamente ad un articolo in lingua inglese di Wikipedia. Questo produce
certamente proprietà benefiche agli identificatori di DBpedia:
Essi coprono una vasta gamma di argomenti dell’enciclopedia.
Essi sono definiti dal consenso della comunità.
Ci sono chiare politiche in atto per la loro gestione.
Un’ampia definizione testuale dei concetti è disponibile in una zona ben conosciuta del web
(la pagina di Wikipedia).
Quindi la base di conoscenza di DBpedia ha numerosi vantaggi rispetto alle basi di conoscenza
esistenti: essa include molti domini; essa rappresenta accordi reali tra comunità; essa evolve
automaticamente con i cambiamenti di Wikipedia, ed è perfettamente multilingue.
La base di conoscenza di DBpedia permette inoltre di effettuare abbastanza sorprendenti
interrogazioni da Wikipedia, per esempio “Dimmi tutte le città nel New Jersey con più di 10.000
abitanti” o “Dimmi tutti i musicisti italiani del XIIX secolo”. Complessivamente, i casi d’uso della
base di conoscenza di DBpedia sono diffusi e variano dalla gestione della conoscenza d’impresa,
fino alla ricerca Web, rivoluzionando la ricerca su Wikipedia.
Il set di dati di DBpedia funziona come Linked Data, nel senso che tutte le URI di DBpedia sono
dereferenziabili. Ciò permette di navigare il set di dati di DBpedia con browser del Semantic Web
come DISCO, Marbles, Objectviewer, OpenLink Data Explorer, Tabulator o Zitgist Data Viewer.
Al fine di consentire agli utenti di DBpedia di scoprire ulteriori informazioni, il set di dati di
DBpedia è interconnesso con varie altre fonti di dati sul Web tramite collegamenti RDF. I link RDF
consentono ai navigatori del web di navigare da dati all’interno di una fonte a dati collegati
all’interno di altre fonti utilizzando un browser web semantico. I link RDF possono anche essere
seguiti dai crawler dei motori di ricerca del Semantic Web, i quali possono offrire ricerche
sofisticate e funzionalità di interrogazione sui dati scansionati.
Lo sforzo di interconnessione di DBpedia è parte del progetto della comunità Linking Open Data11
del gruppo di interesse W3C Semantic Web Education and Outreach (SWEO). Con questo progetto
la comunità si è impegnata a fare enormi dataset e ontologie, come il censimento degli Stati Unitn
(US Census), GeoNames, MusicBraiz, la bibliografia DBLP, WordNet, Cyc e molti altri,
interoperabili sul Semantic Web. DBpedia, con la sua ampia copertura di argomenti, si interseca
praticamente con tutti questi set di dati e, pertanto, rappresenta un eccellente “linking hub” per tali
sforzi. In Figura 3 è fornita una panoramica sui set di dati attualmente interconnessi con DBpedia.
Complessivamente questo Web of Data ammonta a quasi 5 miliardi di triple RDF. Utilizzando
questi link RDF, i navigatori possono per esempio navigare in DBpedia passando da un esperto di
informatica alle sue pubblicazioni nel database DBLP, da un libro alla recensione e alle offerte di
vendita per questo libro fornite dal RDF Book Mashup, o da una band musicale a una lista delle
loro canzoni fornite da Musicbrainz o DBtune.
11
http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Figura 3: Principali fonti di dati interconnesse con DBpedia
Nella seguente tabella vengono descritte maggiormente nel dettaglio le principali fonti di dati
interconnesse con DBpedia:
Set di dati Descrizione Numero di
link
Esempi di Link
(owl:sameAs)
Geonames Fornisce informazioni riguardanti caratteristiche
geografiche. 85.000 Cambridge
MusicBrainz Fornisce informazioni riguardanti artisti e
musica. 23.000 Portishead
WordNet Rappresentazione W3C RDF/OWL
dell’ontologia Word Net. 330.000 Air France
World
Factbook
Fornisce informazioni riguardanti le nazioni. 200 France
EuroStat
Fornisce informazioni riguardanti gli Stati e le
regioni europee. 200 France
Book Mashup Fornisce informazioni riguardanti i libri. 7.000
DBLP
Bibliography
Fornisce informazioni riguardanti pubblicazioni
scientifiche. 200 Tim Berners-Lee
Project
Gutenberg
Fornisce informazioni riguardanti autori e
accessi aperti ai loro lavori. 2.500 John Bunyan
flickr wrappr
Un involucro attorno a flickr che cerca di
generare una raccolta di foto per ogni concetto
di DBpedia.
1.950.000 Brandenburg Gate
Freebase Un database a licenza open riguardante milioni
ci cose di vari domini. 2.400.000 Tetris
OpenCyc Una versione a licenza open dell’ontologia Cyc. 60.000 Woody Allen
UMBEL Una struttura di riferimento per concetti derivati
da Cyc. 20.000 Place
US Census
Fornisce dati “US Census” sul censimento delle
città americane. 12.000 Los Angeles
Dailymed Fornisce informazioni riguardanti le medicine. 50 Eli Lilly
and Company
Diseasome
Fornisce informazioni riguardanti le malattie e i
geni. 2000 Asthma
Drugbank
Fornisce informazioni riguardanti le droghe e i
geni. 700 ZNF3
Sider
Fornisce informazioni riguardanti gli effetti
collaterali delle droghe. 750 Claudication
Tabella 2: Descrizione delle principali fonti di dati a cui è connesso DBpedia
3.2 Estrazione di informazioni strutturate da Wikipedia
Gli articoli di Wikipedia sono composti prevalentemente da testo libero, ma contengono anche
differenti tipi di informazioni strutturate, come template infobox, informazioni categorizzate,
immagini, coordinate geografiche, collegamenti a pagine Web esterne e link tra le edizioni in lingue
diverse di Wikipedia.
MediaWiki è il software utilizzato per l’esecuzione di Wikipedia. A causa della natura di questo
sistema Wiki, sostanzialmente tutte le modifiche, i collegamenti, le annotazioni con metadati sono
effettuate all’interno del testo dell’articolo con l’aggiunta di speciali costrutti sintattici.
Poiché MediaWiki sfrutta alcune di queste stesse informazioni per rendere l’interfaccia utente,
alcune informazioni vengono memorizzate nella cache in tabelle di database relazionali. Il
riversamento delle cruciali tabelle dei database relazionali (compresi quelli che contengono i testi
degli articoli) per differenti versioni linguistiche di Wikipedia è pubblicato sul Web in una base
regolare. Sulla base di questi riversamenti di database, attualmente si usano due differenti metodi di
estrazione delle relazioni semantiche: (1) vengono mappate le relazioni che sono già memorizzate
in tabelle di database relazionali su RDF e (2) vengono estratte informazioni addizionali
direttamente dai testi dell’articolo e dai template dell’infobox all’interno dell’articolo.
Di seguito viene illustrata l’estrazione della semantica dal testo di un articolo con un esempio di
template infobox di Wikipedia. La Figura 4 mostra il template dell’infobox (codificato all’interno
di un articolo di Wikipedia) e l’uscita resa della città sud coreana Busan. L’algoritmo di estrazione
dell’infobox rileva i template e riconosce la loro struttura utilizzando le tecniche di matching dei
pattern. Vengono selezionati i template significativi, i quali vengono poi analizzati e trasformati in
triple RDF. L’algoritmo utilizza tecniche di post-processing per incrementare la qualità
dell’estrazione. I collegamenti MediaWiki vengono riconosciuti e trasformati in URI appropriate,
unità comuni vengono rilevate e trasformate per i tipi di dati. Inoltre, l’algoritmo è in grado di
rilevare elenchi di oggetti che vengono trasformati in liste RDF. Tutti gli algoritmi di estrazione
sono implementati usando PHP e sono disponibili sotto licenza open source.
Figura 4: Esempio di template Wikipedia e resa dell’uscita (estratto)
3.3 Accesso al set di dati di DBpedia sul Web
Vengono messi a disposizione tre meccanismi di accesso al dataset di DBpedia: Linked Data, il
protocollo SPARQL e il riversamento RDF scaricabile. L’accesso a queste interfacce secondo diritti
d’autore liberi è concesso nel rispetto dei termini della GNU Free Documentation License.
1. Linked Data. Linked Data è un metodo di pubblicazione di dati RDF sul Web che si basa su
URI http:// come identificatori di risorsa e il protocollo HTTP per recuperare le descrizioni
delle risorse. Le URI sono configurate per restituire le informazioni significative sulla risorsa,
tipicamente una descrizione RDF contenente tutto ciò che è noto su di essa. Una tale
descrizione cita generalmente risorse collegate da URI, alle quali una alla volta si può avere
accesso ai campi delle loro descrizioni. Ciò costituisce una fitta rete di descrizioni di risorse
accessibili dal web in grado di attraversare i server ed i confini dell’organizzazione. Gli
identificatori di risorse di DBpedia, come http://dbpedia.org/resource/Busan, sono configurati
per restituire descrizioni RDF quando vi si accede da agenti web semantici, e una semplice
visualizzazione HTML delle stesse informazioni quando vi si accede da tradizionali browser
Web. La negoziazione del contenuto HTTP viene utilizzata per fornire un formato
appropriato.
Agenti Web che possono accedere a Linked Data includono: 1) browser web semantici, come
Disco12
, Tabulator o il browser web OpenLink Data13
; 2) crawler web semantici, come
SWSE14
e Swoogle15
; 3) agenti di interrogazione web semantici come la Semantic Web Client
Library16
e il client Semantic Web per SWI prolog17
.
2. Endpoint SPARQL. Viene fornito un endpoint SPARQL per interrogare il dataset di dBpedia.
Le applicazioni client possono inviare interrogazioni tramite il protocollo SPARQL a questo
endpoint al sito http://dbpedia.org/sparql. L’endpoint è fornito usando OpenLink Virtuoso
come motore database back-end. Questa interfaccia è appropriata quando lo sviluppatore
dell’applicazione client conosce in anticipo esattamente di quali informazioni ha bisogno. In
aggiunta allo standard SPARQL, l’endpoint supporta diverse estensioni del linguaggio di
interrogazione che si sono rivelate utili per lo sviluppo delle interfacce utente: ricerca di testo
completo sui predicati RDF selezionati e funzioni di aggregazione, in particolare COUNT.
Per proteggere il servizio dal sovraccarico, sono messi in atto limiti ai costi di interrogazione
e alla grandezza dei risultati. Ad esempio, una query che interroga l’intero contenuto del
negozio è respinta perché troppo costosa. I risultati di SELECT sono troncati alle millesima
riga.
Va notato che non tutti i set di dati di DBpedia sono caricati nell’endpoint SPARQL. In
particolare, solo il set di dati dell’infobox inglese è caricato mentre il set di dati dell’infobox
negli altri linguaggi non è caricato per evitare confusione.
3. Riversamento RDF. Le serializzazioni di N-Triple dei dataset sono disponibili per il
download sul sito di DBpedia e possono essere usate da siti che sono interessati a parti più
grandi del set di dati.
3.4 Interfacce utente
Le interface utente per DBpedia possono variare da una semplice tabella all’interno di una classica
pagina web fino a interfacce di navigazione per differenti tipi di interrogazione. Questa sezione
fornisce una panoramica sulle diverse interfacce utente che sono state finora realizzate.
12
http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/ 13
http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html 14
http://swse.org/ 15
http://swoogle.umbc.edu/ 16
http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/ 17
http://moustaki.org/swic/
Semplice integrazione dei dati di DBpedia all’interno di pagine Web
DBpedia è una preziosa fonte di dati per fini generali che può essere utilizzata all’interno di
pagine web. Pertanto, se si desidera una tabella contenente ad esempio capitali della Germania,
musicisti africani, giochi per computer Amiga o qualsiasi altra cosa sul vostro sito, è possibile
generare questa tabella utilizzando una query SPARQL verso l’endpoint DBpedia. Wikipedia è
tenuta aggiornata da una comunità di grandi dimensioni e una bella caratteristica di tali tabelle
è che anche esse rimarranno aggiornate con le modifiche di Wikipedia, e quindi anche di
DBpedia. Tali tabelle possono essere implementate utilizzando Javascript sul client o con un
linguaggio di scripting come PHP sul server.
Search DBpedia.org
“Search DBpedia.org” è una semplice applicazione che permette agli utenti di esplorare il
dataset di DBpedia insieme con le informazioni provenienti da set di dati interconnessi, come
ad esempio GeoNames, l’RDF Book Mashup o la bibliografia DBLP. In contrasto con ricerche
basate su parola chiave full-text (solamente testuali) che si trovano comunemente sul Web, la
ricerca su dati strutturati offre l’opportunità di fare un uso produttivo delle relazioni tra i dati,
consentendo un graduale restringimento dei risultati della ricerca in diverse dimensioni. Questo
aggiunge un componente di navigazione per l’attività di ricerca e può ridurre il comune
problema del decidere o no se cliccare su un risultato trovato (“keyword-hit-or-not-hit”).
Una sessione di”Search DBpedia” inizia con una ricerca per parola chiave. Una prima serie di
risultati è calcolato dalla corrispondenza diretta della parola chiave. Le corrispondenze
collegate vengono aggiunte utilizzando le relazioni tra le entità fino ad una profondità di due
nodi. Così, ad esempio una ricerca per la parola chiave “Scorsese” includerà il regista Martin
Scorsese così come tutti i suoi film e gli attori di questi film.
Il passo successivo è classificare il risultato. Gli esperimenti effettuati hanno dimostrato che
articoli importanti ricevono maggiori link di pagine in entrata da altri articoli. Viene utilizzata
una combinazione di conteggio dei link in entrata, rilevante ai fini della fonte del link, e della
profondità della relazione per calcolare una graduatoria di pertinenza.
Dopo aver inserito un termine di ricerca, all’utente sono presentati una lista di risultati
classificati, e un insieme di tag costruiti dalle classi trovate nei risultati, utilizzando una
combinazione delle classificazioni di DBpedia e di YAGO18
. Il peso di ogni classe è calcolato
dalla somma dei pesi dei risultati associati e dalla frequenza dell’occorrenza. L’insieme di tag
18
http://www.mpi-inf.mpg.de/yago-naga/yago/
permette all’utente di restringere i risultati ad un tipo specifico di entità, come ad esempio
“Attore”, anche se una semplice ricerca per parole chiave può non avere portato a nessun
attore.
Quando una risorsa viene selezionata da una serie di risultati, all’utente è presentata una visione
dettagliata di tutte le informazioni che sono conosciuti su quella risorsa (Figura 5). Etichetta,
immagine e descrizione sono riportati in alto. Le proprietà dei singoli e dei multi valori sono
mostrate separatamente. I dati provenienti da set di dati interconnessi sono automaticamente
recuperati seguendo i link RDF all’interno dei dataset e i dati recuperati da set di dati
interconnessi sono mostrati assieme con i dati di DBpedia.
Figura 5: Risultati della ricerca e visione dettagliata per Busan
Interrogazione dei dati di Wikipedia
Rispetto alla maggior parte delle altre basi di conoscenza del Semantic Web attualmente
disponibili, per l’estrazione dell’RDF da Wikipedia si ha a che fare con un diverso tipo di
conoscenza strutturata, si ha uno schema di informazione molto grande e una notevole quantità
di dati che si attengono a questo schema.
Se si ha un voluminoso set di dati o un schema di dati di grandi dimensioni, il deposito degli
RDF elaborati con motori di interrogazione integrati da solo non è molto utile. A causa delle
grandi dimensioni dello schema di dati, gli utenti possono difficilmente conoscere quali
proprietà e identificatori sono usati nella base di conoscenza e quindi possono utilizzare per
l’esecuzione di interrogazioni. Di conseguenza, gli utenti devono essere guidati quando
costruiscono le interrogazioni e gli si dovrebbero suggerire ragionevoli alternative.
E’ stato appositamente sviluppato un generatore di pattern grafici per interrogare i contenuti
estratti da Wikipedia. Gli utenti interrogano la base di conoscenza per mezzo di un pattern
grafico che consiste di molteplici modelli di triple. Per ogni modello di triple tre campi
catturano variabili, identificatori o filtri per il soggetto, predicato e oggetto di una tripla. Mentre
gli utenti digitano i nomi degli identificatori in un campo del form, una ricerca “look-ahead”
(che guarda avanti) propone opzioni adatte. Queste sono ottenute non solo con la ricerca di
identificatori corrispondenti ma eseguendo la query che si sta costruendo e iniziando subito il
matching con la stringa di ricerca fornita dall’utente. Questo metodo assicura che
l’identificatore proposto sia davvero usato in congiunzione con il modello grafico in
costruzione e che la query restituisca effettivamente dei risultati. Inoltre, i risultati della ricerca
di identificatori sono classificati in ordine di numero di utilizzo, mostrando prima gli
identificatori comunemente usati. Tutto questo viene eseguito in background, usando la
tecnologia Web 2.0 AJAX e quindi è tutto completamente invisibile per l’utente. La Figura 6
mostra uno screenshot del costruttore di pattern grafici.
Figura 6: form basato sul costruttore di query
Interfacce utente di terze parti
Il progetto DBpedia mira a fornire un focolaio per le applicazioni e i mashup basati su informazioni
di Wikipedia. Anche se DBpedia non è stata lanciata da moltissimo, c’è già un certo numero di
applicazioni di terze parti che utilizzano i dataset.
Alcuni esempi inludono:
Un installazione SemanticMediaWiki eseguita dall’università di Karlsruhe, la quale ha
importato il dataset di DBpedia insieme con l’edizione inglese di Wikipedia.
WikiStory, che consente agli utenti di sfogliare gli articoli di Wikipedia riguardanti persone
lungo una linea temporale di grandi dimensioni.
L’ambiente di dati visivi Objectsheet JavaScript, che consente calcoli su fogli elettronici
basati su dati di DBpedia.
3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data”
DBpedia fa parte del progetto comunitario “W3C Linking Open Data”, uno sforzo per pubblicare e
connettere varie fonti di dati open. Nel novembre 2009 questo sforzo è sfociato nella costruzione di
un Web di fonti di dati interconnesse che ammontano a più di 6 miliardi di triple RDF.
Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creando
una rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando in
formato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendo
le relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questa
legata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler dei
motori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi domini di
riferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può essere
sfruttato dalle applicazioni semantiche.
In questo modo DBpedia può essere anche vista come un’ontologia multi dominio (caratteristica
che la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominio
singolo) che definisce univocamente – tramite le URI – diverse entità che possono essere riusate, ad
esempio, in un profilo FOAF19
personale per descrivere un certo interesse che altrimenti non
sarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki20
. Le risorse
catalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle
19
http://www.foaf-project.org/ 20
http://www.faviki.com/pages/welcome/
lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni della
relativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o a
documenti RDF con owl:sameAs, coordinate geografiche. Al di là dell’enorme quantità di dati che
rende disponibile sul web, il progetto DBpedia è di grande importanza poiché permette il
collegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli
85.000 link con il database geografico Geonames. La pubblicazione dei dati in formato RDF ne
rende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugli
articoli di Wikipedia, che invece supporta solo la ricerca basata sulle parole chiave, utilizzando
tools come ad esempio SNORQL Query Explorer.
4 Lavori collegati
Un secondo progetto che funziona anch’esso sull’estrazione delle informazioni strutturate è il
progetto YAGO. YAGO estrae solo 14 tipi di relazioni, come subClassOf, type, familyNameOf,
locatedIn da differenti fonti di informazione su Wikipedia. Una fonte è il sistema di categorie di
Wikipedia (per subClassOf, locatedIn, diedInYear, bornInYear) e un’altra sono i reindirizzamenti di
Wikipedia. YAGO non esegue un’estrazione dell’infobox come nell’approccio di DBpedia. Per la
determinazione delle relazioni di sottoclasse, YAGO non usa pienamente la gerarchia di categoria
di Wikipedia, ma le categorie di collegamenti a foglia della gerarchia di WordNet.
Il progetto Semantic MediaWiki mira anch’esso a permettere il riutilizzo delle informazioni
all’interno dei Wiki, nonché a migliorare la ricerca e a facilitare la navigazione. Semantic
MediaWiki è un’estensione del software MediaWiki che consente di aggiungere dati strutturati
all’interno di Wiki usando una sintassi specifica. In definitiva, DBpedia e Semantic Wiki hanno
obiettivi simili: entrambi vogliono offrire i vantaggi delle informazioni strutturate di Wikipedia per
gli utenti, ma usano differenti approcci per raggiungere questo scopo. Semantic MediaWiki richiede
agli autori di affrontare una nuova sintassi, ma includere tutte le informazioni strutturate all’interno
di Wikipedia richiede di conseguenza di convertire tutte le informazioni in questa sintassi. DBpedia,
invece, sfrutta la struttura che già esiste all’interno di Wikipedia e quindi non necessita di profonde
modifiche di carattere tecnico o metodologico. Tuttavia, DBpedia non è strettamente integrata in
Wikipedia come è previsto per Semantic MediaWiki e quindi è limitata nelle restrizioni degli autori
di Wikipedia per quanto riguarda la coerenza sintattica e strutturale e l’omogeneità.
Un altro approccio interessante è seguito da Freebase21
. Il progetto mira a costruire un enorme
database online che gli utenti possano modificare in maniera simile a come essi fanno attualmente
per gli articoli di Wikipedia. La comunità di DBpedia collabora con Metaweb e presto collegherà i
dati proveniente da entrambe le fonti, Freebase e Metaweb.
5 Conclusioni
DBpedia è una delle più grandi ontologie multi dominio che esistono al giorno d’oggi. In confronto
ad altre ontologie che solitamente includono solo domini specifici, sono create per gruppi
relativamente piccoli di ingegneri della conoscenza, e sono molto costose da tenere aggiornate ai
cambiamenti di dominio, DBpedia ha il vantaggio che:
1. include molti domini e contiene molte istanze;
2. rappresenta autentici accordi tra comunità;
3. evolve automaticamente seguendo i cambiamenti di Wikipedia.
Gli svantaggi di DBpedia confrontati con ontologie artigianali come SUMO, Open Cyc o WordNet
sono che:
1. DBpedia è meno strutturata formalmente;
2. la qualità dei dati è inferiore e ci sono incongruenze all’interno di DBpedia.
Un approccio per combinare i vantaggi di entrambi i mondi è connettere DBpedia con le ontologie
artigianali, in modo da consentire alle applicazioni di usare la conoscenza formale da queste
ontologie assieme con le istanze dati da DBpedia. Connettendo DBpedia con queste ontologie si
potrebbe estendere ulteriormente le potenzialità delle interrogazioni. Ma estraendo dati strutturai da
tutte le 251 versioni di DBpedia e collegando questi dati con il contesto di conoscenza derivante da
ontologie come Open Cyc, SUMO, o WordNet, sono necessari differenti tipi di controlli di
coerenza. Perciò, una direzione promettente verso cui muoversi in futuro è usare la conoscenza di
DBpedia per controlli di coerenza e per sviluppare strumenti che supportino gli autori di Wikipedia
nell’offrire suggerimenti correttivi.
Come obiettivi futuri ci si dovrà concentrerà in primo luogo sul miglioramento della qualità del
dataset di DBpedia. Dovrà essere automatizzato ulteriormente il processo di estrazione dei dati al
fine di aumentare la ricorrenza del set di dati di DBpedia e sincronizzarla con le modifiche di
Wikipedia. In parallelo, bisognerà continuerà ad esplorare differenti tipi di interfacce utente e casi
21
http://www.freebase.com/
d’uso per l’insieme di dati di DBpedia. All’interno della comunità del progetto W3C Linkin Open
Data sono interconnessi il set di dati di DBpedia con ulteriori set di dati che man mano che vengono
pubblicati come Linked Data sul Web. Si è intenzionati anche a sfruttare le sinergie tra le versioni
di Wikipedia nelle varie lingue al fine di incrementare ulteriormente la copertura di DBpedia e
fornire strumenti di garanzia della qualità per la comunità di Wikipedia. Un tale strumento potrebbe,
ad esempio, informare un autore di Wikipedia riguardo a contraddizioni tra il contenuto degli
infobox contenuti nelle varie versioni linguistiche di un articolo. L’interconnessione di DBpedia
con altre basi di dati come ad esempio Cyc (e il loro utilizzo come conoscenza di background)
potrebbe portare ad ulteriori metodi per il semi-automatico controllo della coerenza per il contenuto
di Wikipedia.
DBpedia è una delle principali fonti di dati open e royalty-free sul Web. Ci si augura che
l’interconnessione di DBpedia con ulteriori fonti di dati potrebbe costituire un nucleo per
l’emergere definitivo del Web of Data.
FONTI
[1] C. Bizer, T.Heath, Tim Barners-Lee; “Linked Data - The Story So Far”; International
Journal on Semantic Web and Information Systems (IJSWIS) (2009)
<http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf>
[2] C.Bizer, T.Heath, D.Ayers, Y.Raimond; “Interlinking Open Data on the Web”
<http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf>
[3] C.Bizer, T.Heath, K.Idehen, Tim Berners-Lee; “Linked Data on the Web (LDOW2008)”.
Workshop Summary; April 21-25, 2008, Beijing, China.
<http://www2008.org/papers/pdf/p1265-bizer.pdf>
[4] Linked Data Web architecture note by Tim Berners-Lee
< http://www.w3.org/DesignIssues/LinkedData.html>
[5] Sito web del progetto DBpedia
<http://dbpedia.org/About>
[6] S.Auer, C.Bizer, G.Kobilarov, J.Lehmann, R.Cyganiak, Z.Ives; “DBpedia: A Nucleus for a
Web of Open Data”. In Proceedings of the 6th
International Semantic Web Conference and
2nd Asian Semantic Web Conference (ISWC/ASWC2007)
<http://www.cis.upenn.edu/~zives/research/dbpedia.pdf>
[7] C.Bizer, S.Auer, G.Kobilarov, J.Lehmann, C.Becker, S.Hellmann; “Querying Wikipedia
like a database and an interlinking-hub in the Web of Data”
<http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf>
top related