Catalogazione, inferenza di conoscenza, semantica ed uso di ontologie IASUMMIT 2007 Trento, 16-17/11/2007 Carlo Batini, Matteo Palmonari, Gialuigi Viscusi / Riccardo Grosso Universita’ di Milano Bicocca / CSI Piemonte
Catalogazione, inferenza di conoscenza, semantica ed
uso di ontologie
IASUMMIT 2007
Trento, 16-17/11/2007
Carlo Batini, Matteo Palmonari, Gialuigi Viscusi / Riccardo Grosso
Universita’ di Milano Bicocca / CSI Piemonte
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
2
Indice
Storia dell’esperienza CSI nella catalogazione metadati (infodir, sitad)
Il passaggio al “nuovo infodir” modello “facet-based” Origine delle tassonomie, metadati e ontologie Navigazione di infodir mediante uso di ontologie Sperimentazione con metodi e tool per la mappatura
di schemi concettuali PA con schemi logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano Bicocca )
Estensioni di Infodir
Storia dell’esperienza CSI nella catalogazione metadati (infodir, sitad)
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
4
Il CSI-Piemonte:consorzio pubblico regionale
con organizzazione privatistica
Fondato nel 1977 da:
Politecnico di Torino
Universita’ di Torino
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
5
Il CSI-Piemonte, come corpo ICT della Pubblica Amministrazione Locale piemontese, gestisce una grande quantita’ di dati, sia alfanumerici che geografici, che insieme
rappresentano una biblioteca di descrizioni dettagliate del patrimonio regionale dei dati
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
6
Information Directory
Infodir e’ il catalogo dei metadati delle istituzioni PA locali
Infodir contiene informazioni correlate a dati, applicazioni, componenti e prodotti dei seguenti enti principali ed altri:
Regione PiemonteProvincia di TorinoComune di Torino
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
7
Il catalogo puo’ essere navigato per:
Istituzione (Organizzazione) Statistica (classificazione ISTAT) Tematismo trasversale Novita’ (dal meno recente al piu’ recente) Ricerca libera Ricerca per parole (vocabolario di lemmi) Ricerca avanzata (con l’uso di criteri SQL di uguaglianza e/o
somiglianza)
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
8
L’oggetto cardine del catalogo metadati è la collezione, intesa come tralcio del grappolo di metadati ad essa associato, costituito da: Data base
• Tavole (componenti informative, archivi)– Attributi
Applicativi• Componenti
Il passaggio al “nuovo infodir” modello “facet-based”
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
10
Ad inizio 2007 è stata rilasciata una nuova versione di Information Directory che supera alcuni limiti architetturali del vecchio infodir nato nel 1999.
Esso è stato infatti generalizzato e potenziato, nonchè condiviso tra le 3 principali pubbliche amministrazioni piemontesi (Regione, Città e Provincia di Torino), e riconosciuto come “il nuovo infodir”.
Il nuovo infodir annovera tra le sue principali caratteristiche le seguenti:
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
11
Caratteristiche principali: backend decentrato (data stewardship) presso i centri di
competenza per materia presenti in CSI e presso gli enti viste separate e viste condivise dei metadati, sia di business
che tecnici oggetti generalizzati modello dimensionale o facet-based (a faccette e focus) classificazioni dinamiche, ovvero tassonomie, generalizzate,
ed associabili a criteri di text mining che permettono di classificare automaticamente gli oggetti via via censiti
search, browse e ricerche avanzate tra loro intersecabili
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
12
Metamodello del catalogo descritto
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
13
Classificazione automatica in infodir Nella migrazione di una delle tassonomie previste, si
e’ fatto un esperimento di text mining Clusterizzando gli oggetti in automatico classificandoli
nella vecchia tassonomia Confrontando i risultati automatici con quelli manuali
dati dagli oggetti classificati manualmente nella vecchia tassonomia
Usando i risultati del confronto per affinare gli algoritmi automatici
Usando infine gli algoritimi automatici affinati applicandoli alla nuova tassonomia e migrando in automatico gli oggetti
Chiedendo ai power-user di verificare la migrazione risparmiando loro manualita’
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
14
Searching & Browsing in infodir Le ricerche sono possibili partendo indifferentemente
da searching e da browsing di: Tassonomie Tipi di oggetto
Partendo ad esempio da un search, posso affinare la ricerca per Tassonomia Tipo di oggetto Singolo metadato (ad esempio fase)
Di seguito si mostra una sequenza di screenshot di esempio
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
15
Esempio I
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
16
Esempio II
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
17
Esempio III
Origine delle tassonomie, metadati e ontologie
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
19
Per valorizzare il patrimonio di metadati censiti, a supporto di Infodir è stata sperimentata una metodologia, implementata in un tool, che fa uso di ontologie “leggere”.
In particolare, la metodologia sfrutta tassonomie derivate dalle gerarchie di generalizzazione di un’ontologia della conoscenza gestita dalle pubbliche amministrazioni centrali (PAC).
La metodologia e il tool hanno come principali obiettivi: fornire nuovi metadati che arricchiscano le tassonomie esistenti
attraverso un processo matching supportato da criteri di somiglianza (implementati nel tool come criteri ‘like’ di SQL) tra
• i nomi degli elementi presenti nelle tassonomie PAC • i nomi degli elementi estratti dalla nuove sorgenti informative.
Sfruttare le tassonomie PAC e i constraints presenti nelle strutture delle basi dati logiche censite per strutturare il patrimonio di metadati estratto dalla nuove sorgenti informative (abilitando un’attività di Data Reverse Engineering).
Metadati e ontologie: finalità
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
20
Ontologie “leggere” e ontologia PAC
L’ontologia PAC è stata costruita a partire da un insieme di schemi concettuali relativi alla PAC, integrati/astratti a diversi livelli, e dalle gerarchie di generalizzazione definite dal livello di integrazione/astrazione degli schemi.
Ciascuno schema contiene: • Entità e attributi • Gerarchie di generalizzazione Is-A• Relazioni tra entità
Relazioni interschema definiscono le relazioni di generalizzazione tra concetti e i rapporti tra i diversi schemi
Le ontologie “leggere” di infodir sono costituite da : Entità e attributi Relazioni tra entità Gerarchie di generalizzazione
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
21
Ontologie in infodir usate in duplice senso:
1. Creazione di tassonomie di concetti di rilievo per le PA a supporto della navigazione e del recupero delle informazioni presenti nelle basi di dati locali
2. Estrazione di conoscenza da schemi logici di basi di dati locali, con inferenza di ontologie specifiche relative a tali basi di dati
Duplice uso delle ontologie in infodir
Navigazione di infodir e recupero delle informazioni mediante uso di
ontologie
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
23
Inferenza di Supertipi di Entità PAL
Riutilizzando la tassonomia derivata dall’ontologia PAC sono stati derivati supertipi di entita’ degli schemi logici delle basi di dati locali Mapping dinamici tra concetti della tassonomia PAC e entita’ degli schemi
logici delle basi PAL Utilizzo di tali mapping per per recuperare concetti e informazioni delle
basi di dati PAL Sono stati ottenuti 261 supertipi specializzati per tematica di business (ad
es. Imprese) riguardanti principalmente:• La tematica di business “Imprese”• La gerarchia “soggetto”• La gerarchia “bene”• La gerarchia “documento” • La gerarchia “geografia” (luogo, urbanistica, territorio)
Ciascun livello delle singole tassonomie ha associato un criterio di somiglianza che “pesca” dai metadati descrittivi tecnici delle componenti delle basi dati (tavole, campi).
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
24
In questo modo è possibile ricondurre concetti molto specifici di dominio a concetti più astratti quali Soggetto, Documento, Proprietà, Luogo e utilizzare criteri di ricerca più intuitivi per l’utente.
Questa tecnica di inferenza tassonomico-ontologica attuata su infodir, consente, per ogni singolo concetto della PA, di verificare in quali basi dati questo concetto e’ fisicamente istanziato, come e’ correlato o correlabile sia top-down che bottom-up.
Risultati
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
25
Un esempio: Geografia Urbanistica
Sperimentazione con metodi e tool per la mappatura di schemi concettuali PA con schemi
logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano
Bicocca )
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
27
Per incrementare e valorizzare il patrimonio esistente di metadati, abbiamo quindi sperimentato tali vie metodologiche e progettuali, per permettere poi lo sviluppo di un tool per la creazione di uno schema repository
E’ stato preso come riferimento il repository della PA centrale (realizzato alcuni anni or sono), con l’obiettivo di costruirne uno specifico per la PA locale piemontese, fondato sulle similitudini concettuali dei due diversi livelli di PA
In CSI abbiamo ideato e realizzato metodo e tool grazie ad una collaborazione molto importante con il professor Carlo Batini dell’Universita’ di Milano Bicocca, che ringrazio pubblicamente di cuore, depositario degli schemi concettuali PA centrale rilevati in passato. Con Manuel Garasi abbiamo realizzato il tool che implementa il metodo.
Utilizzo dell’ontologia PAC per la costruzione di ontologie specifiche PAL
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
28
Tipi di conoscenza estratta a partire dagli schemi logici locali
La metodologia sfrutta due approcci principali: Approccio top-down (a partire da ontologie PAC):
• Entità affini a concetti delle ontologie PAC e loro attributi• Gerarchie IS-A tra entità (inferenza super-tipi) • Relazioni tra entità
Approccio bottom-up (a partire da tabelle PAL):• Relazioni tra entità
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
29
Si sfruttano le relazioni tra le tassonomie/gerarchie, ad esempio:
cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico, tributo elemento della gerarchia bene)
per inferire dall’alto al basso relazioni tra gli oggetti censiti Con questi metodi abbiamo creato numerose ontologie.
Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di loro dei constraints, forniscono inferenza dal basso all’alto, quindi relazioni, tra gli elementi delle tassonomie/gerarchie.
Gerarchie di generalizzazione, Constraints e ontologie
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
30
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
CONCETTUALE
FISICO
Subject
Citizen
Juridical person/
legal entity
Physical subject/ person
“Good”
Tax/Tributepay
like “cittadin” like “tribut”
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
31
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
FISICO
CONCETTUALE
Agricolture
Bovine
Sheep farming
Breeding
Health
Vaccination
Text mining retrieval
Estensioni di infodir
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
33
Estensioni future: verso uno strumento semantico integrato
Verso infodir come strumento semantico integrato:
Estendere l’approccio proposto alla navigazione delle basi integrate di conoscenza nell’ambito del Web Fornire strumenti di navigazione di arbitrari oggetti disponibili via
web (dati semi-strutturati, non strutturati e multimediali), sfruttando l’ontologia creata
Fornire strumenti di navigazione non basati solo su tassonomie ma su mappe concettuali più estese sfruttando la natura ontologica dei modelli creati
Arricchimento della semantica delle ontologie utilizzate per supportare tecniche di ragionamento più sofisticato
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
34
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Subject
Citizen
Juridical person/
legal entity
Physical subject/ person
“Good”
Tax/Tributepay
Text mining retrieval
Oggetti del portale
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
35
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Agricolture
Bovine
Sheep farming
Breeding
Health
Vaccination
Text mining retrieval
Oggetti del portale
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
36
Analizzando i risultati delle nostre sperimentazioni, ed altre soluzioni presenti sul web e descritte in letteratura, e’ possibile classificare le soluzioni ontologico-semantiche in livelli, precisando che il numero di livello crescente NON vuole essere indice di miglior soluzione: 1 livello ne’ ontologico ne’ semantico 2 livello solo ontologico 3 livello solo semantico 4 livello ontologico e semantico
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
37
1 livello ne’ ontologico ne’ semantico
sviluppare la navigazione tassonomica sotto forma di mappe concettuali, come in questo esempio (http://oasisvilweb01.csi.it/RelationBrowser/RelationBrowser.html ).
Tale livello per cosi’ dire "alla moda" e' solo un altro modo di vedere rappresentata una tassonomia con i suoi oggetti collegati, non aggiunge nulla in termini di intelligenza
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
38
2 livello solo ontologico: http://www.diviana.net http://arianna.diviana.net/Arianna/default.asp
3 livello solo semantico http://www.expertsystem.net/
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
39
4 livello ontologico e semantico
ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in base a criteri di somiglianza cerco nel portale gli oggetti che somigliano alle entita' dello schema. Con un esempio, se dico cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e quelli che somigliano a tributo, sfrutto la relazione che gia' conosco (paga) e metto in relazione le 2 famiglie di oggetti. Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle basi dati insieme al professor Batini (vedi ad esempio http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf ).
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
40
4 livello ontologico e semantico
In tali sperimentazioni descritte e' l'ontologia che prevale sulla semantica, cioe' ho delle ontologie ricche e della semantica povera (criteri sql like, gerarchie di generalizzazione)
La semantica povera non e’ sufficientemente bilanciata rispetto alle ontologie, cioe’ non riesce ad arricchire ulteriormente quest’ultime.
E’ necessario creare meccanismi di autoapprendimento dove i criteri semantici piu’ sofisticati “creano” o perfezionano le ontologie esistenti.
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
41
4 livello ontologico e semantico
In altre parole un portale ontologico-semantico generalizzato, ovvero un qualcosa che ha nella parte alta le ontologie, e nella parte bassa gli oggetti dei portali. Le ontologie a disposizione guidano la parte bassa, ma anche la parte bassa con opportune inferenze induttive (vedi Cogito) e' in grado di "apprendere" nuove ontologie da regalare alla parte alta.
16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso
IASUMMIT 2007
Catalogazione,inferenza di conoscenza,semantica e uso di ontologie
42
Grazie... Domande?
"'Carlo Batini'" [email protected]"Matteo Palmonari" [email protected]
"'Gianluigi Viscusi'" [email protected]@csi.it