Center for Advanced Studies of Rome © 2007 IBM Corporation Tecnologie semantiche per la gestione di basi documentali Guido Vetere IBM Center for Advanced Studies of Rome Università di Napoli Federico II 20\04\07
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Tecnologie semantiche per la gestione di basidocumentali
Guido VetereIBM Center for Advanced Studies of RomeUniversità di Napoli Federico II 20\04\07
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Outline
� Ruolo della semantica nella progettazione e nell’integrazionedei sistemi informativi
� Architetture dei sistemi basati su risorse semantiche
� Tipologia delle risorse semantiche
� Problemi di analisi del linguaggio naturale
� Task operativi nel trattamento del linguaggio naturale
� La piattaforma UIMA
� Le tecnologie IBM
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Ruolo della semantica
� I nostri sistemi informativi somigliano sempre più a comunità di persone e macchine che comunicano tra loro
� Il valore di questa comunicazione non è nelle forme, ma neicontenuti
� Nei contenuti si entra attraverso complessi sistemi di segni
� La modellazione e la gestione di questi sistemi richiedonometodologie, tecnologie e risorse specifiche
segno
contribuente persona
“RSS MRA 50A01 H501O”significante
significato
referente
Mario Rossi
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Accesso, Integrazione e Federazione di Contenuti e ProcessiConnect
Analisi, scoperta e gestionedi dati,
informazionie conoscenza
Estrazione di Informazioni e Conoscenzada dati strutturati e non strutturati
Ricerca multi-modale e Indicizzazione Semantica
Organizzazione e distribuzione mirata della conoscenza
ServizioInformativo
Sistemi di integrazione per l’analisi, la scoperta e l’organizzazione di dati, informazioni e conoscenza
InsightProcessi Cittadini / Aziende / Utenti Interni
Tools & Applicazioni
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Gestione integrata della conoscenza
Sviluppo Ontologie
DBMS
ontologie
Estrazione da sorgentidocumentali
Estrazione da sorgentistrutturate
Piattaforme (collaborative) per annotazione \ arricchimento\ elicitazione
Web Services, Portali(Query Interface)
Base di Conoscenza
Ragionatore
Basi di Documenti
Basi di Dati
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Risorse semantiche
� Elenchi di nomi
� Dizionari elettronici
– Vocabolari human-readable digitalizzati
� Lessici computazionali
– Vocabolari machine-readable con strutture lessicografiche (WordNet)
� Ontologie
– Teorie sulla realtà, a vari livelli di formalizzazione (topic maps, UML, logiche descrittive, frames, …)
– Fondazionali (es. DOLCE)
– Linguistiche (es. OntoWordNet, FrameNet)
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Analisi del testo
� Ambiguità morfosintattiche
– Lessicali (es. vecchio: nome, aggettivo)
– Testuali (es: porta: nome, portare: indicativo presente 3 persona singolare)
– Es: una vecchia porta la sbarra
� Ambiguità semantiche
– Omonimia (es. dossier: documento; film-dossier)
– Polisemia (es. tavolo (nome), oggetto, luogo di trattativa)
– Es: Il dossier è sul tavolo del ministro
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Task operativi nel trattamento del linguaggio naturale
Coreference
Part-of-Speech Tagging Chunking/Parsing
Temporal Expressions Recognition and
Normalization
Named Entities
Recognition
Semantic inferences
Semantic Role
Labeling
Mentions Relations
Word Sense Disambiguation
Il Primo Ministro ha rassegnato le dimissioni
⇒ E’ in atto una crisi di GovernoOntology
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Collection Processing Engine (CPE)
Componenti dell’architettura UIMA
Text, Chat, Email, Audio,
Video
Collection
Reader
Aggregate Analysis Engine
Analysis Engine
Annotator
Analysis Engine
Annotator
CAS
CAS Consumer
CAS Consumer
CAS Consumer
Ontologies
Search
Engine
Index
DBs
Knowledge
Bases
CAS
CAS Initializer
CAS
� Annotators: moduli di analisi “modesta” del linguaggio naturale
� Common Analysis Structure (CAS): Interfaccia standard per integrare\comporre\usare gli annotatori
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Aggregate Analysis Engine: Relation Detector
Aggregate Analysis Engine: Named-Entity Detector
Esempio di composizione degli annotatori
TokenizerPart of
Speech …
Named-Entity
Annotator
RelationAnnotator
-Tokens
-Parts of Speech
-Names
-Organizations
-Places
-Persons
CAS
-Tokens
-Parts of Speech
-Names
-Organizations
-Places
-Persons
- Located at
- Citizen of
CAS
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Esempio
Fred is theCenter CEO of
OrganizationPerson
CeoOf
Arg2:OrgArg1:Person
PPVPNPParser
Named Entity
Relationship
Center Micros
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Analisi di una pagina Web BAGHDAD (Reuters) - Bombs ripped through three Iraqi cities on Monday and
two senior officials faced assassination attempts, hours after George W. Bush told Americans not to despair over the U.S. mission in Iraq and USA.
A German hostage released on Sunday was safe and well in Baghdad, but an Iraqi militant group posted a video on the Internet claiming to show the killing of a U.S. hostage kidnapped earlier this month.
As Iraqis awaited the outcome of last week's election, party officials from across the political spectrum said they believed the Islamist Shi'ite coalition which forms the backbone of the current government had fared well.
Early results in half Iraq's regions confirmed a strong showing for the Shi'iteUnited Iraqi Alliance, which won 58 percent of the vote in Baghdad.
It said it would try to bring Sunni Arabs, Kurds and secular parties into government even if it won a majority of seats in the 275-member Council of
Representatives. Full results are not due for around two weeks.
"It seems we have between 120 and 140 seats in total," senior Alliance official
Abbas al-Bayati told Reuters. "We don't think that the official results will be very different."
The number of killings and bombings in Iraq has ticked up again in recent days following the mainly peaceful and successful election on December 15, at which the Sunni Arab minority largely took part for the first time, helped by an informal ceasefire among rebel groups keen to have a voice in parliament.
In the latest attacks, a suicide bomber in a car blew himself up in the Iskandistrict of Baghdad as a convoy passed carrying a colonel in the Iraqi police
force.
Two civilians were killed by the blast, which left the burnt-out smoking
wreckage of eight cars strewn across a street. The colonel, two bodyguards and five civilians were wounded.
In another district, gunmen opened fire on the convoy of Baghdad's deputy governor Ziyad al-Zawbai. Three of his bodyguards were killed and he was wounded.
Militants also set off bombs in Iraq's second city Basra, wounding three bodyguards of an adviser to the defense minister, and in Miqdadiya, 90 km (56
miles) northeast of Baghdad, injuring four civilians.
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Analisi di una pagina Web (risultato)
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Beneficio: interrogazione semantica
� Vettoriale
– Rintraccia tutti i documenti che contengono il nome della PERSONA: “George W. Bush”
– Rintraccia tutti i documenti che contengono contemporaneamente la PERSONA: “George W. Bush” E IL LUOGO: “Baghdad”
� Relazionale
– Rintraccia tutti i documenti in cui la PERSONA: “George W. Bush” HA DICHIARATO QUALCOSA RELATIVO A:“Baghdad”
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Cosa si può sviluppare attualmente con UIMA
Coreference
Part-of-Speech Tagging Chunking/Parsing
Temporal Expression Recognition and
Normalization
Named Entities
Recognition
Semantic inferences
Semantic Role
Labeling
Mentions Relations
Word Sense Disambiguation
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Ma serve conoscenza linguistica
�Senso Comune è il progetto per la costruzione di una base di conoscenza linguistica
dell'italiano.
�La base di conoscenza verrà acquisita con la cooperazione dei parlanti attraverso il
Web.
�Sarà una risorsa a disposizione di tutti, sia per la consultazione online che per l'uso nei
sistemi informatici.
www.senso-comune.it
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Piattaforme tecnologiche e metodologie IBM
� Sviluppo di Ontologie
– IBM Ontology Development Toolkit (Eclipse Platform, standard: ODM (OMG), OWL)
– Ambienti UML (es. su Eclipse, standard: ODM, UML Class Diagrams)
– Open Source (Protegée, SWOOP)
– OntoClean (CNR, IBM WRC)
� Gestione Base di Conoscenza \ Ragionamento
– IBM Minerva (Structural Ontology Reasoning)
– IBM Semantic Layered Research Platform (Open Source, standard: RDF,OWL)
– Other Open Source (Sesame, Pellet , standard: RDF,OWL)
– QuOnto (Università di Roma “La Sapienza” (DIS) – IBM SUR Grant)
� Analisi di informazione testuale
– IBM UIMA (Open Source)
– IBM LanguageWare Resource Workbench (free)
� Piattaforme collaborative e di annotazione
– IBM Lotus 8
– IBM QEDWiki
– (Semantic) MediaWiki (Open Source)
Center for Advanced Studies of Rome
© 2007 IBM Corporation
Grazie per l’attenzione
Guido Vetere, IBM Center for Advanced Studies