Arricchimento semantico di edizioni digitali in TEI Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli” CNR - Pisa ILC Spring Seminar - 25 giugno 2015
28
Embed
Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Arricchimento semantico di edizioni digitali in TEI
Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria
Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli”
C’est alors que Vigny, bien plus encore que Lamartine, laisse tomber de sa poésie toute cette continuité, ..... Alfred de Vigny mettait son amour-propre de poète à rester à l’avant-garde
NEL
http://live.dbpedia.org/page/Alfred_de_Vigny
Importanza del linking per creare edizioni arricchite
Body <persName ref= “REF” key=“Vigny, Alfred de (1797-1863)”>
State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/
Prima del NEL.... c'est ainsi que les curieuses expériences de <persName>H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
Dopo il NEL.... c'est ainsi que les curieuses expériences de <persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person http://dbpedia.org/resource/Hugo_de_Vries http://www.idref.fr/035763655">H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName ref=”http://fr.dbpedia.org/page/Royaume-Uni”>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”
REDEN: graph-based NEL
Romanticismo
Poeta
Victor Hugo
Alfred de Vigny
Joseph Pierre de Vigny
Alix de Lamartine
Alphonse de Lamartine
Benno Vigny
Persona
REDEN: fasi• costruzione dell’indice da basi di conoscenza
strutturata online (LOD)
• individuazione dei candidati per ogni menzione
• recupero dei dati rilevanti e costruzione del grafo
• Accedo a tutti gli URI disponibili e Recupero tutte l’informazione strutturata:
• è un poeta, è influenzato da, è vissuto da .. a ….,
• Costruisco del grafo con le informazioni per tutti i candidati di tutte le menzioni del contesto
• fusione, eliminazione di nodi inutili
REDEN : centralità
Per ogni set di candidati (colore) : • calcolare la centralità rispetto al grafo • scegliere il candidato più centrale
(Degree Centrality, Freeman 1977)
REDEN: valutazioneAnnotazione manuale di menzioni di autori da:
“Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…)
Indice da LOD BnF + French DBpedia
Authors’ mentions Found Correct None Precision Coverage
Thibaudet 1027 1004 878 23 0.87 0.85
REDEN: altri lavori• grafi pesati: scoprire se vi sono relazioni più
importanti (ex: influencedBy)
• è difficile prevedere quali siano le relazioni più importanti (argomento e dominio sono importanti)
• gestione della distanza spaziale e temporale nel grafo
• l’influenza di un autore su un altro si estende spesso a di là dello spazio e del tempo (William vs Nicholas Shakespeare)
REDEN parametri• classe (person, location, …)
• basi di conoscenza (generiche, dominio specifiche)
• contesto di disambiguazione (paragrafo, frase, testo intero)
• pesi per determinate relazioni
• filtri spaziali, temporali
Conclusioni REDEN• REDEN innova rispetto allo stato dell’arte (DBpedia
Spotlight, Daimler et al 2013) :
• supporta TEI
• permette di usare RDF nativamente e online (= sempre aggiornato);
• usa diverse fonti
• usa un algoritmo a grafo (non necessita di informazione testuale)
Bibliografia REDEN• Identificazione del miglior algoritmo di centralità
Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/
• Descrizione dell’algoritmo di fusione
Brando, C., Frontini, F., Ganascia, J.G.: Disambiguation of named entities in cultural heritage texts using linked data sets (accepted). In: Proceedings of the First International Workshop on Semantic Web for Cultural Heritage in Conjunction with 19th East-European Conference on Advances in Databases and Information Systems (2015)
• Confronto con DBSL
Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In: Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau, Germany, June 17-19, 2015