Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico Monica Scannapieco Joint work with: Raffaella M. Aracri, Andrea Pagano, Laura Tosco, Luca Valentino Istat - RST/B U.O. Sviluppo sistemi informatici per la statistica
20
Embed
M. Scannapieco - Da SDMX a RDF Data Cube Vocabulary: Integrare i Dati Statistici con il Web Semantico
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Da SDMX a RDF Data Cube Vocabulary:
Integrare i Dati Statistici con il Web Semantico
Monica Scannapieco
Joint work with:
Raffaella M. Aracri, Andrea Pagano,
Laura Tosco, Luca Valentino
Istat - RST/B U.O. Sviluppo sistemi informatici per la statistica
2
Introduzione: Open Data & Linked Open Data
• Open: formato che consenta «utilizzo, ri-utilizzo e ri-
distribuzione»
• Linked Open: modelli e formati standard (e.g. RDF) che
consentano integrazione
• Superamento del pattern «prima open - poi linked»: Dati
direttamente in formato Linked Open Data (LOD)
• Esempio 1: USA data.gov è un esempio significativo di portale open data
in ambito PA. In corso la trasformazione in LOD
• Esempio 2: DBpedia & Wikidata
• Dbpedia: estrazione dati dalle infoboxes di Wikipedia
• Wikidata: recente (aprile 2012), database strutturato, si propone di
alimentare le infoboxes di Wikipedia
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
3
Introduzione: Linked Open Data e Interoperabilità
Semantica
• Linked Open Data
• Dataset in formato RDF
• Interconnessi=>Interoperabilità semantica
• Stack del Web Semantico
Formato e sintassi
Semantica
Conoscenza
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
4
LOD CLOUD
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
31 miliardi di triple
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
5
Problema...
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
ISTAT Dati sul WEB
Reference Metadata
Enhanced SDMX
BB1 BB2 BBn
SDMX
Web Service Provider
SEP
Tablets/
smartphones
Structural Metadata
WEB GUI
Structural Metadata
…
Istat
Information System
Building Blocks
Excel
Plug-in
Metadata Management System
Come “integrare” i dati diffusi dall’Istat con i dati
presenti sul Web e già interconnessi tra loro?
6
…Soluzione (una possibile)
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
Trasformazione
RDF
RDF Data Cube
Vocabulary
SDMX
7
Progetto in Collaborazione con Spazio Dati
• Nell’ambito del gruppo di lavoro su Open Data, si è avviata una
collaborazione con la società SpazioDati (http://spaziodati.eu/home)
• Obiettivo: integrazione di data set dell’Istat con dati in formato RDF Data
Cube (RDF-QB)
• Le Fasi del Progetto:
• Progetto e sviluppo del traduttore da SDMX a RDF-QB (Istat): Done
• Validazione dei risultati (Istat e SpazioDati): Done
• Utilizzo del traduttore e integrazione (SpazioDati): To Do
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
8
RDF Data Cube Vocabulary
• RDF Data Cube (RDF QB) è un W3C Working Draft del 5 aprile 2012
• RDF QB si basa su SDMX
• Centrato unicamente sulla pubblicazione sul web di dati multi-
dimensionali
• Costruito sull’ information model di SDMX
• Costruito sui seguenti vocabolari (già esistenti):
• SKOS for concept schemes
• SCOVO for core statistical structures (deprecated)
• VoiD for data access
• FOAF for organisations
• Dublin Core Terms for metadata
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
9
RDF Data Cube Vocabulary
• I nomi delle entità RDF sono delle URI
• Notazione Compact: i nomi sono scritti nel formato prefix:localname
• Prefix identifica un namespace URI
• La concatenazione del prefix e del localname fornisce l’URI completo
• Prefix diffusi:
• rdf, rdfs: namespace del core di RDF
• dc: Dublin Core
• skos: Simple Knowledge Organization System
• foaf: Friend Of A Friend
• void: Vocabulary of Interlinked Datasets
• qb: Data Cube namespace http://purl.org/linked-data/cube#
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
10
Trasformazione da SDMX a RDF-QB
DSD (key family)
SDMXRDF QB
Data file
SDMX
Data set RDF
trasformazione
trasformazione
Code list
Concept
dimension, attribute,measure
?
?
?
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
11
Analisi Ambienti Tecnologici
• Ambiente R:
• Package RSDMX (sviluppato alla FAO): non completato e non
manutenuto attivamente
• Ambiente Java:
• Apache JENA: framework per la lettura, processamento e
scrittura dati in RDF, possibilità di effettuare query SPARQL e
molto altro
• Input SDMX non contemplato
• Progetto MIMAS (http://mimasld.wordpress.com/2011/11/25/final-product-
post-esds-the-sdmx-to-rdf-process/ )
• Trasformazione dei dati utilizzando XSLT
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013
12
Scelta Tecnologica
• Ispirata da MIMAS: Utilizzo di trasformazioni XSLT
• Motore di esecuzione delle trasformazioni: Saxson (Home
Edition)
• Supporta XSLT 2.0, XQuery 1.0, XPath 2.0
• Disponibile sia in Java che in .NET
Monica Scannapieco – Seminario SDMX - 29 Gennaio 2013