PLN sintaxis 1 Sintaxis • Introducción • Gramáticas formales • Gramáticas para PLN
PLN sintaxis 1
Sintaxis
• Introducción• Gramáticas formales• Gramáticas para PLN
PLN sintaxis 2
La descripción sintáctica 1
• La Sintaxis describe la regularidad y productividad de la lengua explicitando la estructura de las oraciones.
• Objetivo del análisis sintáctico:• Detectar la corrección de una frase
• Proporcionar una estructura de la frase que refleje sus relaciones sintácticas y pueda ser utilizada como base para los tratamientos posteriores
PLN sintaxis 3
Formas de definir la corrección
• Gramática • G L(G)
• w1n L(G) ?
• Modelo del lenguaje• P(w1
n)
• si P(w1n) > 0 w1
n L
• Corpus (oraciones, patrones) que definen las oraciones correctas• diccionario sintáctico
• reglas de composición
• Reglas de buena formación• filtros, gramáticas negativas, ...
PLN sintaxis 4
La descripción sintáctica 3
• Formas de expresar la estructura sintáctica:• Estructura de constituyentes
• Estructura de dependencias
• Modelo de actantes
• Forma lógica
PLN sintaxis 5
ORACION
GN FV
DET N RGN VT GN
N RGN
el gato come pescado
La descripción sintáctica 4
Arbol de derivación (árbol de análisis)
PLN sintaxis 6
COME
GATO PESCADO
EL
sujeto objeto
determinante
La descripción sintáctica 5
Estructura de dependencias
PLN sintaxis 7
COMER
GATO PESCADO
accion
agentetema
La descripción sintáctica 6
Modelo de actantes (1)
PLN sintaxis 8
es_un: ACCION pred: COMER tiempo: PRESENTE modo: INDICATIVO ...
es_un: OBJETO tipo: GATO numero: SINGULAR genero: MASCULINO deter: DEFINIDO ...
es_un: OBJETO tipo: PESCADO numero: SINGULAR genero: MASCULINO deter: INDEFINIDO ...
agentetema
La descripción sintáctica 7
Modelo de actantes (2)
PLN sintaxis 9
X y(gato (X (Y y(pescado (Y)
comer(X,Y)))))
La descripción sintáctica 8
Forma logica
PLN sintaxis 10
Gramática 1
• Gramáticas de constituyentes• Arboles de derivación
• Gramáticas de dependencias• Esquemas de dependencia
• Gramáticas de casos• Modelos de actantes => Redes semánticas
• Gramáticas Transformacionales• Gramáticas sistémicas
PLN sintaxis 11
Lenguajes formales
• Alfabeto (vocabulario) • Operación de concatenación * cadenas sobre (monoide libre)• lenguaje L * • lenguajes y gramáticas• jerarquía de Chomsky
PLN sintaxis 12
Gramáticas de Estructura Sintagmática
<V, , P, S>
Vocabulario No Terminal (conjunto de variables)
Vocabulario Terminal (alfabeto)
Conjunto de producciones
Variable inicial
V = Ø
V = Vocabulario
S V
PLN sintaxis 13
Jerarquía de Chomsky 1
• Gramáticas Generales (Tipo 0)• Reconocidas por máquinas de Turing
• Gramáticas Sensitivas (Tipo 1)• Linear Bounded Automata
• Pspace-complete
• Gramáticas Incontextuales (Tipo 2)• Autómatas a pila
• O(n3)
• Gramáticas Regulares (Tipo 3)• Autómatas de estados finitos
• O(n)
PLN sintaxis 14
Jerarquía de Chomsky 2
Tipo 0 Gramáticas sin restricciones
Tipo 1 Gramáticas sensitivas (Context-sensitive Grammars)
u w, w,u (V )*
u w, w,u (V )* i |u| |v|
PLN sintaxis 15
Tipo 3 Gramáticas regulars (Regular Grammars, RG)
Tipo 2 Gramáticas incontextuals (Context-free Grammars, CFG)
A w, A V, w (V )*
A aA aB, A,B V, a
Jerarquía de Chomsky 3
PLN sintaxis 16
Condición de gramaticalidad
Una frase w (una palabra de *) pertenece al lenguaje generado por la gramática:
Podemos decir que la gramática G puede derivar la palabra w utilitzando las producciones a partir de S.
ws L(G)w G
*
PLN sintaxis 17
Propiedades formales del analizador
• Solidez (sound)• Todo resultado (p.ej. árbol de derivación) es correcto
(gramatical)
• Terminación• Todo proceso de análisis acaba
• Completitud• Un analizador es completo si dada una gramática y una
oración es sólido, produce todos los análisis correctos y acaba
PLN sintaxis 18
Gramática Reconocedor Lenguaje
Tipo 0 Máquinas de lenguajes enumerables Turing recursivamente
Tipo 1 linear-bounded lenguajes contextuales
automata (LBA)
Tipo 2 autómatas a pila lenguajes incontextuales
no deterministas(NPDA)
Tipo 3 autómatas finitos lenguajes regulares
(FSA)
Jerarquía de Chomsky 4
PLN sintaxis 19
Expresividad de la gramática
• Mínimo: Gramáticas incontextuales (CFG)• excepto aplicaciones concretas, aproximaciones
regulares
• ¿Es el LN incontextual?• ¿Suficiente? NO (normalmente)• Solución
CFG + {adición procedimental del contexto}
Gramáticas Lógicas
PLN sintaxis 20
Ejemplo gramática incontextual 1
G1= <N1,T1,P1,FRASE> N1 = {ORACION,GN,FV,RGN,GP} T1 = {det,n,np,adj,vi,vt,prep} P1 = {
1 FRASE --> GN FV. 2 GN --> det n RGN. 3 GN --> n RGN. 4 GN --> np RGN. 5 RGN --> . 6 RGN --> GP RGN. 7 RGN --> adj RGN. 8 FV --> vi. 9 FV --> vt GN. 10 GP --> prep GN. }
PLN sintaxis 21
Ejemplo gramática incontextual 2
grup-nom==> n, grup-adj.grup-adj ==> a, grup-adj.grup-adj ==> a.grup-adj ==> adv, a.n ==> ncms000. %chicon ==> ncmp000. %chicosn ==> ncfs000. %chican ==> ncfp000. %chicasn ==> nccs000. %mar, oyenten ==> nccp000. %mares, oyentesn ==> ncmn000. %pantalonesn ==> ncfn000. %tijerasn ==> ncms00a. %chiquitoa ==> aq0cp00. %alegresa ==> aq0cs00. %alegrea ==> aq0fp00. %bonitasa ==> aq0fs00. %bonitaa ==> aq0mp00. %bonitosa ==> aq0ms00. %bonito
PLN sintaxis 22
Ejemplo gramática incontextual 3
grup-nom ==> ncms, grup-adj-ms.grup-nom ==> ncfs, grup-adj-fs.grup-nom ==> ncmp, grup-adj-mp.grup-nom ==> ncfp, grup-adj-fp.grup-adj-ms ==> aq0ms00, grup-adj-ms.grup-adj-mp ==> aq0mp00, grup-adj-mp.grup-adj-ms ==> aq0ms00, grup-adj-cs.ncms ==> ncms000. %chiconcmp ==> ncmp000.%chicosncfs ==> ncfs000. %chicancfp ==> ncfp000. %chicas
PLN sintaxis 23
Ejemplo gramática incontextual ampliada 4
grup-nom ==> n(Rasgos1), grup-adj(Rasgos2),
{concordancia Rasgos1 Rasgos2} n(ms) ==> ncms000. %chicon(mp) ==> ncmp000. %chicosn(fs) ==> ncfs000. %chican(fp) ==> ncfp000. %chicasa(cp) ==> aq0cp00. %alegresa(cs) ==> aq0cs00. %alegrea(fp) ==> aq0fp00. %bonitasa(fs) ==> aq0fs00. %bonita
PLN sintaxis 24
intervencion pregunta | orden | ...
orden v, sn {imperativo(1), orden(1)}
sn snbase, [snmods] | np {concordancia(1,2)}
snbase [det], n, [adjs] {concordancia(1,2,3)}
adjs adj, [adjs]
snmods snmod, [snmods]
snmod sp | ...
sp prep, sn
np "barcelona" | "valencia" | ...
n "billete" | "euromed" ...
v "deme" | ...
det "un" | "el" | ...
CFG + {adición procedimental del contexto}
PLN sintaxis 25
Ejemplo LSP (Sager)
*BNF <SENTENCE> %%= <ENUNCIACION> '.'. <ENUNCIACION> %%= <SUJETO><VERBO><OD>. <SUJETO> %%= <LNR> /<*NULL>. <LNR> %%= <LN><*N><RN> / <*NULL>. <LN> %%= <*ART> / <*NULL>. <RN> %%= <*NULL>. <VERBO> %%= <*TV>. <OD> %%= <LNR>.
*RESTR WCONC1= IN LNR % BOTH $SING AND $PLUR.$SING = IF CORE OF LNR HAS ATTRIBUTE SG THEN CORE OF LN DOES NOT HAVE ATTRIBUTE PL.$PLUR = IF CORE OF LNR HAS ATTRIBUTE PL THEN CORE OF LN DOES NOT HAVE ATTRIBUTE SG.
PLN sintaxis 26
Gramáticas incontextuales con rasgos 1
• Head Features• Rasgos que los constituyentes no terminales adquieren a
partir de sus núcleos (heads)• Algunos se filtran directamente
• Otros requieren cierto proceso
• AGR (agreement)• gen, num, persona, caso, ...
• VFORM (subcategorización verbal)• problemática con los auxiliares, modales, locuciones verbales, ...
PLN sintaxis 27
Gramáticas incontextuales con rasgos 2
• np {np agr AGR}, det, {det agr AGR}, n, {n agr AGR}.
• vp v, {v subcat _np}, np.• vp v, {v subcat _np _pp:loc}, np, pp,
{pp pform loc}.• vp {vp agr A, vp vform V},v, {v
subcat _vp:inf, v agr A, v vform V}, vp, {vp vform inf}.
PLN sintaxis 28
Obtención de la gramática
• Definición del vocabulario terminal (tagset, )• Definición del vocabulario no terminal (V)• Reglas de la gramática (P)
• construcción manual• construcción automática
• inferencia (inducción) gramatical
• construcción semiautomática
PLN sintaxis 29
La selección de las categorías
• Vocabulario terminal• Categorías atómicas vs complejas• El tagset• La utilización de rasgos• Vocabulario no terminal
• Motivación lingüística
• Teoría
• Categorías barradas (slashed categories)• dependencias a larga distancia
X
PLN sintaxis 30
Categorías Parole 1
<fsDecl type=ITEM> <fDecl name= cat> <fdescr> categorias posibles: adj= adjetivo, adv= adverbio, art= artículo, con= conjunción det= determinante, nom=nombre, np= nombre propio, prep = preposición, pron= pronombre, verb=verbo, intj=interjección, res=residuales, spun = signo puntuación, abr = abreviatura cifra = z, fecha = w </fdescr>
<vRange> <vAlt> <sym value=adj> <sym value=adv> <sym value=art> <sym value=con> <sym value=det> <sym value=nom> <sym value=np> <sym value=prep> <sym value=pron> <sym value=verb> <sym value=intj> <sym value=res> <sym value=spun> <sym value=abr> <sym value=w> <sym value=z> </vAlt></vRange> </fDecl>
PLN sintaxis 31
Categorías Parole 2
<fDecl name= gen> <fdescr> géneros posibles: ambi=ambiguo, fem= femenino, masc= masculino, n=neutro , i=indiscriminado </fdescr> <vRange> <vAlt> <sym value=ambi> <sym value=fem> <sym value=masc> <sym value=n> <sym value=i> </vAlt> </vRange> </fDecl>
PLN sintaxis 32
Categorías Parole 3
Verbo
1 categoría2 tipo3 modo4 tiempo5 persona6 número7 género
<fs id= 'VMIP1S0'> <!-- *como, amo* --> <f name=cat> <sym value=verb> </f> <f name=modo> <sym value=ind> </f> <f name=temp> <sym value=pres> </f> <f name=tverb> <sym value=m> </f> <f name=agreement> <fs> <f name=pers> <nbr value=1> </f> <f name= num> <sym value=sg> </f> </fs> </f></fs>
PLN sintaxis 33
Penn treebank Tagset 1
CC Coordinating conjunctionCD Cardinal numberDT DeterminerEX Existential thereFW Foreign wordIN PrepositionJJ Adjective JJR Adjective, comparative JJS Adjective, superlative LS List item markerMD ModalNN Noun, singularNNP Proper noun, singular NNS Noun, pluralNNPS Proper noun, plural PDT PredeterminerPOS Posessive endingPRP Personal pronounPP Possessive pronoun
RB Adverb RBR Adverb, comparative RBS Adverb, superlative RP Particle SYM Symbol TO toUH Interjection VB Verb, base form VBD Verb, past tense VBG Verb, gerund VBN Verb, past participleVBP Verb, non-3rd ps. sing. present VBZ Verb, 3rd ps. sing. present WDT wh-determinerWP wh-pronounWP Possessive wh-pronounWRB wh-adverb
PLN sintaxis 34
Penn treebank Tagset 2
# Pound sign$ Dollar sign. Sentence-final punctuation, Comma: Colon, semi-colon( Left bracket character) Right bracket character" Straight double quote` Left open single quote`` Left open double quote' Right close single quote'' Right close double quote
PLN sintaxis 35
Modificaciones de las gramáticas
• Transformaciones de las gramáticas para obtener gramáticas equivalentes:• Eliminación de símbolos y producciones no
alcanzables
• Eliminación de producciones unarias
• Eliminación de producciones • Formas normales
• Chomsky
• Greibach
• Aproximaciones de CFG por RG
PLN sintaxis 36
Forma Normal de Chomsky
• Una gramática incontextual está en CNF si sólo tiene producciones:• unarias de tipo A a
• binarias de tipo A BC
• con a y A,B,C V
• El paso de cualquier CFG a CNF es trivial
PLN sintaxis 37
Forma Normal de Greibach
• Una gramática incontextual está en GNF si sólo tiene producciones:• A a
• con a y V*
• El paso de cualquier CFG a GNF es trivial