Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Post on 07-Oct-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

Transcript

Linguis'ca  computazionale  e  treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla  comunicazione  mul%mediale  

2016-­‐2017  

Il  proge=o  Turin  University  Treebank  

• ObieFvo:    

sviluppare  una  risorsa  linguis%ca,  una  banca  di  alberi  sintaFci  per  l’italiano  

Fasi  di  sviluppo  del  proge=o  

• Selezione  dei  tes%  da  annotare  

• Definizione  dello  schema  di  annotazione  

• Applicazione  dello  schema  al  corpus  di  tes%  (validità  e  consistenza)  

Selezione  di  tes'  in  TUT  

•  Giornali  quo%diani  (1.100  frasi  =  18,044  tokens)  •  Codice  civile  (1.100  frasi  =  28,048  tokens)  •  Acquis  (201  frasi  =  7,455  tokens)  • Wikipedia  (459  frasi  =  14,746  tokens)  

•  Cos%tuzione  Italiana,  intera    (682  frasi  =  13,178  tokens)  

•  Totale  3.452  frasi  =  102.000  token  

TEXTS from PRAGUE newspapers, scientific and economic

journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Selezione  in  altri  treebank  

Definizione  dello  schema  di  annotazione  

• Scelta  del  formalismo  

• Scelta  delle  informazioni  e  stru=ure  da  rappresentare  

Stru=ura  sintaFca:  scelta  tra  2  aspeF  

• L’organizzazione  delle  unitá  della  frase  (sintagmi  e  cons%tuent  structure)  

• La  funzione  degli  elemen%  della  frase  (relazioni  gramma%cali  e  rela%onal  structure)  

Rela%onal  structure  

• Le  parole  della  frase  svolgono  funzioni  diverse    

• Le  funzioni  sono  espresse  in  termini  di  relazioni  gramma%cali  

Cons%tuent  structure  

Le  parole  della  frase  sono  organizzate  in  unità  (cos%tuen%)  che  a  loro  volta  sono  ogge=o  di  una  organizzazione  (cons%tuent  structure)  in  unità  più  grandi  

Cons%tuent  structure  

Le  relazioni  tra  le  parole  non  sono  tu=e  uguali:  

     “Maria  leggeva  un  libro  in  biblioteca”  

ES:  Penn  annota'on  

(  S    

         (  NP  -­‐  SBJ        (PRP      I)  )  

         (  ADVP    -­‐    TMP      (  RB      never)  )  

         (  VP    (VBD      had)    

                 (  NP    (JJ        many)  (NNS      clients)  )  

                 (  NP  -­‐  ADV    (DT      a)  (  NN      day)  ))          

))  

NP  

VP  

NP  

ADVP  

NP  

S  

SBJ  

TMP  

PRP  

RB  

VBD  

NNS  DT  

NN  DT  ADV  

ES:  NEGRA  annota'on  

S  

VP  

HD   SB   NG  

MO   HD   OA  

OC  

ADV                VVPP              VAFIN                NE                    NE              ADV  

Cos%tuen%  e  relazioni  • La  stru=ura  relazionale  include  le  informazioni  rela%ve  all’  

   organizzazione  della  frase  in  unità    

• La  stru=ura  a  cos%tuen%  non  include  le  informazioni  rela%ve  alla  funzione  delle  parole  

• La  stru=ura  relazionale  è  più  compa=a  

• Sia  le  relazioni  che  i  cos%tuen%  sono  realizza%  in  modo  diverso  nelle  diverse  lingue  

• La  stru=ura  relazionale  include  la  stru=ura  argomentale  

Cos%tuen%  e  relazioni  

La  stru=ura  argomentale  

• relazioni  gramma%cali  

• ruoli  seman%ci  

• uguali  o  dis%n%?    

Le  relazioni  gramma%cali  

• Le  relazioni  sono  realizzate  diversamente  nelle  varie  lingue,  a  seconda  dell’uso  di  casi,  inflessioni  

 give  someone  something                                                              dare  a  qualcuno  qualcosa  

MORPHO SYNT SEM PRAGUE semi-

automatic semi-automatic

semi-automatic

NEGRA automatic interactive (probabilistic)

PENN automatic automatic (skeletal)

Processo  di  annotazione  

Processo  di  annotazione    in  TUT  

• Part  Of  Speech  tagging  automa%co  

• Correzione  manuale  del  tagging  

• Parsing  interaFvo  

• Verifica  e  revisione    

Costruire  un  treebank  

Per  costruire  validi  sistemi  di  analisi  del  linguaggio  occorrono  i  treebank.  

InfaF  è  dimostrato  che  i  sistemi  di  NLP  che  o=engono  i  migliori  risulta%  sono  quelli  che  prendono  le  informazioni  da  treebank)  

Costruire  un  treebank  

Per  costruire  dei  treebank  occorrono  validi  sistemi  di  analisi  del  linguaggio.  

È  impossibile  costruire  treebank  in  modo  esclusivamente  manuale  per  mo%vi  di  tempo  e  di  corre=ezza.  

Costruire  un  treebank  In  pra%ca  l’annotazione  dei  treebank  è  prodo=a  da  

sistemi  automa%ci  di  analisi  morfologica  (-­‐4%  errore)  e  sintaFca  (-­‐10%  errore)  

+  annotatori  umani  che  correggono  le  analisi  prodo=e  in  modo  automa%co  

Ogni  relazione  di  TUT  può  essere  composta  di  3  elemen%:  

•  Morfo-­‐sintaFco:  features  che  esprimono  la  categoria  gramma%cale  Verb,  Noun,  …  

•  Funzionale-­‐sintaFco:  relazioni  sintaFche  come  Subject,  Object    

•  Seman%co:  relazioni  seman%che  come  Loca%on,  Time,  Cause    

Le  dipendenze  nel  TUT  

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET+DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF  TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING  FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

     La  nazione                sogna                  ricchezza  

 I  sogni              di  ricchezza                    della  nazione    

 Velocemente          /      in  modo  veloce  

VERB-­‐SUBJ  

       NOUN-­‐OBJ        NOUN-­‐SUBJ  

VERB-­‐OBJ    VERB  

 NOUN  

     ADV-­‐role            ADV-­‐role  

TUT  Componente    morfo-­‐sinta\ca  

TUT  Componente    morfo-­‐sinta\ca  

•  Da%  944  differen%  Verbi  per  un  totale  di  4.169  occorrenze  nel  corpus  di  TUT  

•  Il  30%  di  ques%  Verbi  (e  le  stru=ure  predica%ve  argomentali  ad  essi  associate)  risulta  presente  anche  in  forma  nominale  

TUT  Componente    morfo-­‐sinta\ca  

         Egli  non  è  stato  visto      da      nessuno  

 Egli  non  è  stato  visto      da  ieri  

           ARG  

   MOD  

TUT  Componente    funzionale-­‐sinta\ca  

TUT  Componente    funzionale-­‐sinta\ca  

   Da  qui                          è  par%to  l’assalto  

   Succedeva    dall’altra  parte  del  mondo  

   I  miliardi  stanzia%      dal  1991  

   Era  impazzito      dal  dolore  

   Trarrà  beneficio      dalla  bonifica  

LOC+FROM  

LOC+IN  

TIME  

REASONCAUSE  

SOURCE  

TUT  Componente    seman'ca  

TUT  Componente    seman'ca  

•  Da%  600  sintagmi  preposizionali  introdoF  dalla  preposizione  DA  e  che  svolgono  il  ruolo  di  modificatori  

•  È  stato  rilevato  che  essi  possono  assumere  i  seguen%  7  differen%  valori  seman%ci:      LOC+FROM,  LOC+IN,  LOC+METAPH,  TIME,  THEME,  REASONCAUSE,  SOURCE  

TUT  Componente    seman'ca  

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET+DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF  TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING    FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

Applicare  lo  schema  di  annotazione  a  TUT  significa  che  ogni  sua  frase:  

• viene  parsificata  in  modo  automa%co  dal  parser  TULE,  sviluppato  in  parallelo  con  TUT  • corre=a  da  almeno  2  annotatori  umani  • verificata  da  tool  automa%ci  apposi%  • so=oposta  a  conversioni  e  applicazione  di  altri  sistemi    

Ricadute  del  proge]o  TUT  

U%lizzo  in  3  diverse  direzioni:  

• Come  raccolta  di  da%  linguis%ci  

• Come  banco  di  prova  per  sistemi  di  NLP  

• Come  modello  per  lo  sviluppo  di  altre  risorse  

• Come  raccolta  di  da%  linguis%ci  TUT  ha  consen%to  

• Studi  sul  comportamento  dei  verbi  della  lingua  italiana  (estrazione  di  conoscenza)  

• Studio  dell’ordine  delle  parole  nella  lingua  italiana  

Ricadute  del  proge]o  TUT  

(in  3500  sentences)  

Ricadute  del  proge]o  TUT  

• Come  banco  di  prova  per  sistemi  di  NLP  TUT  ha  consen%to  di  raggiungere  i  risulta%  allo  stato  dell’arte  per  il  parsing  dell’italiano,  errore  intorno  al  10%    

• TUT  è  stato  il  treebank  di  riferimento  nelle  compe%zioni  per  parser  di  italiano  (Evalita  07,  09,  11)  

Ricadute  del  proge]o  TUT  

•  Come  modello  per  lo  sviluppo  di  altre  risorse,  TUT  è  u%lizzato  in:  

•  in  prospeFva  cross-­‐linguis%ca,  ha  consen%to  lo  sviluppo  di  un  treebank  parallelo  per  le  lingue  italiano,  francese  e  inglese  (ParallelTUT)  

Ricadute  del  proge]o  TUT  

•  INOLTRE:  TUT  è  stato  trado=o  in  forma%  di  altri  treebank  grazie  a  tool  di  conversione  automa%ca    

•  Questo  ha  reso  possibile  l’applicazione  di  strumen%  sviluppa%  per  tali  forma%  ed  il  confronto  tra  paradigmi  e  modelli  linguis%ci  differen%  nell’ambito  del  dibaFto  su  quale  formato  si  rivela  più  adeguato  per  il  NLP  in  generale  e  per  le  diverse  lingue  naturali  

Ricadute  del  proge]o  TUT  

Il  Turin  University  Treebank  (TUT)  e  ParTUT  sono  tuF  progeF    

del  Content  Centered  Compu%ng  Group  (C.  Bosco,  A.  Mazzei,  V.  Lombardo,  R.  Damiano  ,  V.  PaF,  M.  SanguineF)                                  

 del  Dipar%mento  di  Informa%ca                        dell’Università  di  Torino  

Per  ulteriori  informazioni:  

h=p://www.di.unito.it/~tutreeb  

Un  treebank  parallelo  italiano  francese  e  inglese  nel  formato  del  TUT.  

Il  proge]o  ParallelTUT  

Un  importante  problema  per  la  LC  è  la  valutazione:  

sia  come  confronto  tra  risulta%  degli  umani  e  quelli  del  sistema  di  LC  

sia  come  confronto  tra  i  risulta%  di  sistemi  diversi  

Treebank  e  valutazione  

L’esistenza  di  molte  risorse  diverse  rende  però  difficile  confrontare  i  risulta%  o=enu%  da  diversi  sistemi  e  la  valutazione  deve  sempre  essere  fa=a  in  relazione  alle  stesse  risorse.  

Se  il  sistema  X  e  il  sistema  Y  u%lizzano  lo  stesso  corpus  per  apprendere,  o=engono  lo  stesso  output?  

Treebank  e  valutazione  

La  comunità  della  LC  opera  pertanto  nella  direzione  di  rendere  confrontabili  i  risulta%  dei  sistemi  che  svolgono  lo  stesso  task.  

Questo  significa  ad  esempio  che  si  cerca  di  costruire  risorse  in  cui  si  u%lizza  lo  stesso  formato  di  rappresentazione  (standard).  

Treebank  e  valutazione  

La  nozione  di  standard  è  par%colarmente  rilevante  per  i  treebank  e  ha  portato  alla  definizione  di  un  formato  universale  de=o  Universal  Dependency.  

Questo  processo  è  durato  vari  anni  e  ha  comportato  vari  passi  all’interno  delle  varie  comunità  che  operano  sulle  singole  lingue.  

Treebank  e  standard  

Per  la  lingua  italiana  ad  esempio  sono  sta%  crea%,  intorno  all’anno  2000,  2  treebank,  entrambi  con  un  formato  a  dipendenze,  TUT  e  Italian  Syntac%c  Seman%c  Treebank  (presso  l’Is%tuto  di  Linguis%ca  Computazionale  CNR  di  Pisa).  

Ques%  sono  sta%  fusi  grazie  ad  un  processo  di  conversione  in  un  formato  intermedio  e  poi  tradoF  in  Universal  Dependency.  

Treebank  e  standard  

Questo  formato  soddisfa  l’interesse  per  confron%  mul%lingui  e  rende  possibile  sia  campagne  di  valutazione  mul%lingui  sia  l’apprendimento  cross-­‐linguistco  a  supporto  della  LC  per  lingue  per  cui  non  esistono  risorse.  

h=p://universaldependencies.org/  

Universal  Dependency  

top related