Linguiscacomputazionale* e treebankbosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Linguis'ca computazionale e treebank

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2016-‐2017

Il proge=o Turin University Treebank

• ObieFvo:

sviluppare una risorsa linguis%ca, una banca di alberi sintaFci per l’italiano

Fasi di sviluppo del proge=o

• Selezione dei tes% da annotare

• Definizione dello schema di annotazione

• Applicazione dello schema al corpus di tes% (validità e consistenza)

Selezione di tes' in TUT

•  Giornali quo%diani (1.100 frasi = 18,044 tokens) •  Codice civile (1.100 frasi = 28,048 tokens) •  Acquis (201 frasi = 7,455 tokens) • Wikipedia (459 frasi = 14,746 tokens)

•  Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)

•  Totale 3.452 frasi = 102.000 token

TEXTS from PRAGUE newspapers, scientific and economic

journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Selezione in altri treebank

Definizione dello schema di annotazione

• Scelta del formalismo

• Scelta delle informazioni e stru=ure da rappresentare

Stru=ura sintaFca: scelta tra 2 aspeF

• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)

• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal structure)

Rela%onal structure

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in termini di relazioni gramma%cali

Cons%tuent structure

Le parole della frase sono organizzate in unità (cos%tuen%) che a loro volta sono ogge=o di una organizzazione (cons%tuent structure) in unità più grandi

Cons%tuent structure

Le relazioni tra le parole non sono tu=e uguali:

“Maria leggeva un libro in biblioteca”

ES: Penn annota'on

( NP -‐ SBJ (PRP I) )

( ADVP -‐ TMP ( RB never) )

( VP (VBD had)

( NP (JJ many) (NNS clients) )

( NP -‐ ADV (DT a) ( NN day) ))

NNS DT

NN DT ADV

ES: NEGRA annota'on

HD SB NG

MO HD OA

ADV VVPP VAFIN NE NE ADV

Cos%tuen% e relazioni • La stru=ura relazionale include le informazioni rela%ve all’

organizzazione della frase in unità

• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole

• La stru=ura relazionale è più compa=a

• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle diverse lingue

• La stru=ura relazionale include la stru=ura argomentale

Cos%tuen% e relazioni

La stru=ura argomentale

• relazioni gramma%cali

• ruoli seman%ci

• uguali o dis%n%?

Le relazioni gramma%cali

• Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni

give someone something dare a qualcuno qualcosa

MORPHO SYNT SEM PRAGUE semi-

automatic semi-automatic

semi-automatic

NEGRA automatic interactive (probabilistic)

PENN automatic automatic (skeletal)

Processo di annotazione

Processo di annotazione in TUT

• Part Of Speech tagging automa%co

• Correzione manuale del tagging

• Parsing interaFvo

• Verifica e revisione

Costruire un treebank

Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.

InfaF è dimostrato che i sistemi di NLP che o=engono i migliori risulta% sono quelli che prendono le informazioni da treebank)

Costruire un treebank

Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.

È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di tempo e di corre=ezza.

Costruire un treebank In pra%ca l’annotazione dei treebank è prodo=a da

sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)

+ annotatori umani che correggono le analisi prodo=e in modo automa%co

Ogni relazione di TUT può essere composta di 3 elemen%:

•  Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …

•  Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object

•  Seman%co: relazioni seman%che come Loca%on, Time, Cause

Le dipendenze nel TUT

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce

VERB-‐SUBJ

NOUN-‐OBJ NOUN-‐SUBJ

VERB-‐OBJ VERB

ADV-‐role ADV-‐role

TUT Componente morfo-‐sinta\ca

•  Da% 944 differen% Verbi per un totale di 4.169 occorrenze nel corpus di TUT

•  Il 30% di ques% Verbi (e le stru=ure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale

TUT Componente morfo-‐sinta\ca

Egli non è stato visto da nessuno

Egli non è stato visto da ieri

TUT Componente funzionale-‐sinta\ca

Da qui è par%to l’assalto

Succedeva dall’altra parte del mondo

I miliardi stanzia% dal 1991

Era impazzito dal dolore

Trarrà beneficio dalla bonifica

LOC+FROM

LOC+IN

REASONCAUSE

SOURCE

TUT Componente seman'ca

•  Da% 600 sintagmi preposizionali introdoF dalla preposizione DA e che svolgono il ruolo di modificatori

•  È stato rilevato che essi possono assumere i seguen% 7 differen% valori seman%ci: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

TUT Componente seman'ca

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]

Applicare lo schema di annotazione a TUT significa che ogni sua frase:

• viene parsificata in modo automa%co dal parser TULE, sviluppato in parallelo con TUT • corre=a da almeno 2 annotatori umani • verificata da tool automa%ci apposi% • so=oposta a conversioni e applicazione di altri sistemi

Ricadute del proge]o TUT

U%lizzo in 3 diverse direzioni:

• Come raccolta di da% linguis%ci

• Come banco di prova per sistemi di NLP

• Come modello per lo sviluppo di altre risorse

• Come raccolta di da% linguis%ci TUT ha consen%to

• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)

• Studio dell’ordine delle parole nella lingua italiana

(in 3500 sentences)

• Come banco di prova per sistemi di NLP TUT ha consen%to di raggiungere i risulta% allo stato dell’arte per il parsing dell’italiano, errore intorno al 10%

• TUT è stato il treebank di riferimento nelle compe%zioni per parser di italiano (Evalita 07, 09, 11)

•  Come modello per lo sviluppo di altre risorse, TUT è u%lizzato in:

•  in prospeFva cross-‐linguis%ca, ha consen%to lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)

•  INOLTRE: TUT è stato trado=o in forma% di altri treebank grazie a tool di conversione automa%ca

•  Questo ha reso possibile l’applicazione di strumen% sviluppa% per tali forma% ed il confronto tra paradigmi e modelli linguis%ci differen% nell’ambito del dibaFto su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Il Turin University Treebank (TUT) e ParTUT sono tuF progeF

del Content Centered Compu%ng Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. PaF, M. SanguineF)

del Dipar%mento di Informa%ca dell’Università di Torino

Per ulteriori informazioni:

h=p://www.di.unito.it/~tutreeb

Un treebank parallelo italiano francese e inglese nel formato del TUT.

Il proge]o ParallelTUT

Un importante problema per la LC è la valutazione:

sia come confronto tra risulta% degli umani e quelli del sistema di LC

sia come confronto tra i risulta% di sistemi diversi

Treebank e valutazione

L’esistenza di molte risorse diverse rende però difficile confrontare i risulta% o=enu% da diversi sistemi e la valutazione deve sempre essere fa=a in relazione alle stesse risorse.

Se il sistema X e il sistema Y u%lizzano lo stesso corpus per apprendere, o=engono lo stesso output?

La comunità della LC opera pertanto nella direzione di rendere confrontabili i risulta% dei sistemi che svolgono lo stesso task.

Questo significa ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).

La nozione di standard è par%colarmente rilevante per i treebank e ha portato alla definizione di un formato universale de=o Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue.

Treebank e standard

Per la lingua italiana ad esempio sono sta% crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca Computazionale CNR di Pisa).

Ques% sono sta% fusi grazie ad un processo di conversione in un formato intermedio e poi tradoF in Universal Dependency.

Treebank e standard

Questo formato soddisfa l’interesse per confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a supporto della LC per lingue per cui non esistono risorse.

h=p://universaldependencies.org/

Universal Dependency

Linguiscacomputazionale* e treebankbosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Documents

Prague Dependency Treebank 1.0

Treebank annotation

3 Sistema mediale e fruizione mediale degli italiani

Mediale Lebenswelten von Jugendlichen

Penn Treebank Tagset

A treebank for everyone - cuni.cz

politischen Macht Mediale Ereignisproduktion ...€¦ ·...

Ausbildung Mediale Seelenschule - neuezeit...

The TIGER Treebank

Danish Dependency Treebank - Annotation guide: Verbs

Mediale Praktiken der sozialen Interaktion

Mediale seo&social media_björn_instinsky

Marketing Cross Mediale CocaCola

La comunicazione mediale

C reating a treebank

Programming the Arabic Treebank

Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Linguiscacomputazionale* e treebankbosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017