Un Lessico Elettronico Multilivello dell’Italiano per applicazioni di Tecnologie del Linguaggio Umano Nilda Ruimy Istituto di Linguistica Computazionale del CNR Pisa, Italy [email protected]http://www.ilc.cnr.it/ clips /CLIPS_ENGLISH.htm Istituto di Linguistica Computazionale “Antonio Zampolli” C.N.R.
37
Embed
Un Lessico Elettronico Multilivello dell’Italiano per applicazioni di
Istituto di Linguistica Computazionale “Antonio Zampolli” C.N.R. Un Lessico Elettronico Multilivello dell’Italiano per applicazioni di Tecnologie del Linguaggio Umano. Nilda Ruimy Istituto di Linguistica Computazionale del CNR Pisa, Italy [email protected] - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Un Lessico Elettronico Multilivello dell’Italiano
per applicazioni di Tecnologie del Linguaggio Umano
Nilda RuimyIstituto di Linguistica Computazionale del CNR
PAROLE-SIMPLE-CLIPS: il più ampio lessico computazionale multi-livello della lingua italiana
Dati annotati in un linguaggio descrittivo esplicito
Un lessico elettronico : PAROLE-SIMPLE-CLIPS
Ogni livello descrittivo è indipendente dagli altri ma le informazioni sono interconnesse tramite i legami che uniscono le entrate di una stessa unità lessicale attraverso i livelli
Modello lessicale: standard de facto e ispiratore dello standard ISO LMF per lessici per il TAL
Lessico costruito in una prospettiva multilingue e per un utilizzo nel TAL
Informazione coerentemente strutturata e molto granulare
Quattro livelli di descrizione linguistica: entrate: fonologia : 387.000; morfologia : 53.000; sintassi : 64.500; semantica : 57.500 (di cui 28.900 complete)
Un lessico computazionale fornisce informazione lessicale comprensibile alla macchina
Lessici Computazionali : infrastruttura indispensabile per lo sviluppo delle applicazioni nell’ambito delle Tecnologie del Linguaggio Umano
Nilda Ruimy
Architettura del lessico I primi tre livelli di rappresentazione : Contenuto informativo
Unitàfonologica
Posizione accentoApertura vocaliPronuncia consonanti
che serve per la conservazione e il trasportodoghe arcuate tenute unite da cerchi di ferro
di liquidi, specialmente vino
botte
Definizionedi dizionariotradizionale
Telico:used_for
conservareCostitutivo:contains vino
Costitutivo:has_as_part
doghe
Costitutivo:made_of legno
Formale:is_a
recipiente
Agentivo:created_by fabbricare
Relazioni Qualia e dimensioni di significato
Nilda Ruimy
Ontologia ‘I use the term ontology to mean a specification of a conceptualization. That is, an ontology is a description (..) of the concepts and relationships that can exist for an agent or a community of agents. ’…. ‘The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. (T. R. Gruber, 1993) ‘An ontology defines the terms used to describe and represent an area of knowledge.’ World Wide Web Consortium (W3C) Recommendation ‘…sembra consolidata l'idea che in informatica, il termine ontologia debba riferirsi specificamente ad un tentativo di formulare una concettualizzazione esaustiva e rigorosa nell'ambito di un dato dominio. Si tratta generalmente di una struttura dati gerarchica che contiene tutte le entità rilevanti, le relazioni esistenti fra di esse, le regole, gli assiomi ed i vincoli specifici del dominio.’ Wikipedia In parole povere: un’ontologia specifica le entità esistenti in una determinata porzione dello spazio semantico e le relazioni che intercorrono fra di loro Nel Web Semantico, è l’elemento chiave che permette il ragionamento automatico sul contenuto dei testi
‘ …a set of knowledge terms, including the vocabulary, the semantic interconnections and some simple rules of inference and logic, for some particular topic.’ (J. Hendler, 2001)
Le unità semantiche sono entità multidimensionali Sistema di tipi multidimensionali che consiste di: tipi semplici o monodimensionali (caratterizzati in termini di relazioni di iperonimia)
L’ Ontologia Lessicale SIMPLESIMPLE Core Ontology
Composta da 157 tipi semantici indipendenti da lingue, domini specifici e applicazioni, creati per la classificazione e descrizione del contenuto semantico delle unità lessicali
Adottata per la costruzione di lessici per 12 lingue europee
tipi unificati o multidimensionali (definibili solo attraverso la relazione di iperonimia + il riferimento a dimensioni ortogonali di significato)
Disegnata in modo consensuale combinando le strategie top-down e bottom-up
qualia role semantic featuresemantic type Nilda Ruimy
PAROLE-SIMPLE-CLIPS
Basato su un modello lessicale ricco che coniuga complessità e rigore con aspetti innovativi
Membro di una rete di 12 lessici monolingui => utilizzabilità in applicazioni multilingue nelle Technologie del Linguaggio Umano
Soddisfa i requisiti per la portabilità, condivisione & riutilizzabilità: vasta copertura, genericità, strutturazione coerente dell’informazione, descrizione ricca ed esplicita, variabilità di granularità di descrizione, facile estensione e adattamento
Utilizzabile nell’analisi di testi, nell’estrazione di informazione, nella disambiguazione del significato, nel Question Answering
Ha i requisiti per contribuire all’implementazione del Web Semantico poiché è una risorsa basata su un’ontologia ed è in grado di fornire informazione comprensibile alla macchina per consentire la gestione del contenuto dei documenti sul Web
Nilda Ruimy
Un Lessico Elettronico Multilivello dell’Italiano
per applicazioni di Tecnologie del Linguaggio Umano
Nilda RuimyIstituto di Linguistica Computazionale del CNR