Top Banner
Aprendizaje no supervisado de morfología Escuela Nacional de Antropología e Historia (ENAH) Agosto – diciembre de 2015
54

Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Mar 01, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Aprendizaje no supervisado de morfología

Escuela Nacional de Antropología e Historia (ENAH)Agosto – diciembre de 2015

Page 2: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Morfología concatenativa

• niño

Antecedentes

2

• babis

babi (Indonesio)

Page 3: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

3

Morfotáctica

• anti-re-elec-cion-ista-s

Orden

• Prefijos + base + sufijos

• Circunfijos (en-roj-ecer)

• Afijos

Secuencialidad

• perfec-cion-ista-s

• *ista-perfec-cion-s

Page 4: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

4

O Morfología concatenativa

(prefijo* base sufijo*)+

Page 5: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

5

O Morfotáctica

ANTI~RE~ELEC~CIÓN~ISTA~S

prefijo – prefijo- base – sufijo – sufijo – sufijo

RE~ELEC~CIÓN~ES

Derivación - base – Derivación – Flexión

CANT~Á~BA~MOS

raíz – VT – TAM – NP

Page 6: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

6

Lingüística

• Modelos morfológicos generativistas presuponen morfemas y su morfotáctica

• Están basados en la introspección de un solo hablante (sin corpus)

Page 7: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

7

Lingüística computacional

• Métodos basados en reglas elaboradas por el investigador

• Morfología flexiva simple (inglés)

• La representación de la morfotáctica se hace manualmente (morfología de estados finitos)

• Fonología de dos niveles (Koskenniemi, 1983; 1984)

Page 8: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

8

Lingüística computacional (actualmente)

• Búsqueda de un modelo morfológico optimizado e ideal que no toma en cuenta la variación

• Morfología = comprimir información

• Morfología = optimización de funciones

Page 9: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

9

• Zellig Harris (1955)

• Sucesor frecuente: contar los símbolos distintos después de una segmentación posible

• Las frecuencias más altas (menos predecibles) serán fronteras morfológicas

Page 10: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

10

gover~n,

gover~ned,

gover~ning,

gover~nment,

gover~nor,

gover~ns

govern,

govern~ed,

govern~ing,

govern~ment,

govern~or,

govern~s

Sucesor frecuente

(gover) = 1 (n).

Sucesor frecuente

(govern) = 6 (e, i, m, o,

s, espacio/signo).

Page 11: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

11

Minimum Description Lenght (MDL)

• M = Morfología

• La M que minimice la Longitud de Descripción será la mejor morfología

• El primer término es qué tan compacta es la morfología

• El segundo término explica qué tan bien la morfología describe al corpus

Page 12: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Aproximación

12

SALIDAPROCESOENTRADA

CorpusMétodo

computacional no supervisado

Descripción morfológica automática

Aprendizaje morfológico no supervisado

Page 13: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Objetivos de investigación

13

•Descubrir los sufijos y sufitáctica (morfotáctica de sufijos) del español mediante corpus y un método no supervisado de segmentación morfológica automática

Page 14: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

14

Cálculo de índice de afijalidad (Medina, 2000; 2003)

• Cuantificar características lingüísticas de unidades morfológicas

• Cuantificar la fuerza de adhesión entre unidades lingüísticas (glutinosidad)

• No busca un modelo ideal o morfología única

• Buscar regularidades en un corpus

Page 15: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

15

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Los afijos:

• (i) no ocurren aislados, sino como parte de las palabras

• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia

• (iii) tienen contenido más gramatical

Page 16: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

16

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Los afijos:

• (i) no ocurren aislados, sino como parte de las palabras (medida de cuadros)

• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (medida de economía)

• (iii) tienen contenido más gramatical (medida de entropía)

Metodología

Page 17: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

17

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de cuadros (Greenberg, 1967)

• Dos segmentos iniciales (cas~, sill~) y dos finales (~a, ~ita)

• Forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita)

Page 18: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

18

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de economía

• Dada ai::bi

• Si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes,

• y bi pertenece a un conjunto pequeño de segmentos muy frecuentes

• Entonces ai sería una base y bi un afijo

Page 19: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

19

I

Page 20: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

20

I N

Page 21: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

21

I AN

Page 22: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

22

I A UN

Page 23: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

23

I A UN G

Page 24: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

24

I A UN UG

Page 25: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

25

I A UN UG R

Page 26: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

26

I A UN UG R O

Page 27: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de entropía (Shannon y Weaver, 1964)

• INAUGUR~ARON

• INAUGUR~ARSE

• INAUGUR~ASIÓN

• INAUGUR~E

• INAUGUR~Ó

Metodología

27

Page 28: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Page 29: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

29

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Page 30: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

30

NASION~AL~IDAD

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Page 31: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

F U N D A M E N T A C I Ó N

Entropía 0 0 0 1.04 1.489 0.8778 0.5034 2.088 2.453 1.05 0.6541 1.336 1.468

Cuadros 0 0 0 0 84 2 0 0 65289 1057 0 388 0

Economía 0 0 0 0 0 0.5 0 0 0.7607 0 0 0.9974 0

Afijalidad 0 0 0 0.1413 0.2024 0.2864 0.0684 0.2837 0.9209 0.1427 0.08888 0.5168 0.1995

A C E P T A C I Ó N

Entropía 0 0.6931 0.5983 2.088 2.453 1.05 0.6541 1.336 1.468

Cuadros 0 0 0 17 65292 1069 0 388 0

Economía 0 0 0 0.4706 0.7568 0 0 0.9974 0

Afijalidad 0 0.09418 0.08129 0.4411 0.9196 0.1427 0.08888 0.5168 0.1995

Page 32: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

C A N T A R E M O S

Entropía 1.895 0.9992 2.179 2.713 1.414 1.52 0.8699 1.216 1.301

Cuadros 3 0 303 274560 9016 12750 25991 0 0

Economía 0 0 0.1551 0.9296 0.8136 0.9385 0.9994 0 0

Afijalidad 0.2328 0.1228 0.3199 0.9767 0.456 0.5153 0.4718 0.1493 0.1598

MetodologíaN I Ñ O S

Entropía 1.643 1.32 1.216 1.301

Cuadros 0 0 230703 253968

Economía 0 0 0.9992 1

Afijalidad 0.3333 0.2678 0.8824 0.9305

Page 33: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Generación de autómata morfológico

Page 34: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Generación de autómata morfológico

Page 35: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Page 36: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~GO/

• /ARTAS~GO/

• /AYAS~GO/

• /KASIKAS~GO/

• /Base~ASGO/*(–azgo)

Page 37: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~GA/

• /DELE~GA/

• /NABE~GA/

• /PUR~GA/

• /DISTRAI~GA/

• /INTERPON~GA/

• /SOBREBEN~GA/

• Aparición de /g/ en raíz verbal venir vs venga

Page 38: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~SO/

• /ASENDER/ vs / ASEN~SO/ (–so)

• /PERMITIR/ vs /PERMI~SO/ (–so)

• /MASO~SO/, /SELENIO~SO/, /NITRO~SO/ (–oso)

• /JENERALA~SO/, /SALIBA~SO/ (–azo)

Page 39: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~Ó/

• /Base~I~Ó/

• /Base~T~Ó/

Page 40: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~Ó/ (pretérito de indicativo)

• /Base~I~Ó/ (pretérito de indicativo 2da. y 3ra. conjugación)

• /PROMET~I~Ó/, /DIFUND~I~Ó/

• /Base~T~Ó/ (cambio consonántico en derivados /T/ por /S/ en la base)

• /ADOPTAR/ vs /ADOPSIÓN/, /AFECTAR/ vs /AFECSIÓN/ o /INBENTAR/ vs /INBENSIÓN

Page 41: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~ASIÓN/

• /Base~IS~ASIÓN/

Page 42: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~ASIÓN/ (-ación, forma sustantivos a partir de verbos)

• /DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/

• /Base~IS~ASIÓN/ (–izar, forma verbos de la primera conjugación a partir de sustantivos y adjetivos)

• /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/

Page 43: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

Page 44: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~AMENTE/ • /TONT~AMENTE/

• /Base~AD~AMENTE/ • /ORGANIS~AD~AMENTE/

• /Base~OS~AMENTE/• /AFECTU~OS~AMENTE/

• /Base~IK~AMENTE/• /DEMOKRAT~IK~AMENTE/

Page 45: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

Page 46: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~AR/ • /ABANDON~AR/

• /Base~T~AR/ • /ADOPTAR/ vs /ADOPSIÓN/

• /Base~E~AR/• /BURBUJ~E~AR/

• /Base~IS~AR/• /EKONOM~IS~AR/

Page 47: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~ITA/• /Base~ITO/• /Base~IT~A/• /Base~IT~O/• /Base~ITAS/• /Base~ITOS/• /Base~ITO~S/• /Base~ITA~S/• /Base~IT~OS/• /Base~IT~AS/• /Base~IT~O~S/• /Base~CITO/

/EXIT~O~S/ se asocia a otro patrón

Page 48: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• Patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal

• /Base~AL~IDAD/,

• /Base~AL~MENTE/,

• /Base~E~AR/,

• /Base~IK~AMENTE/,

• /Base~IS~AR/.

Page 49: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• Sufijos muy económicos son segmentados en palabras donde no son sufijos

• /MAR~SO/, /KAM~IÓN/.

• El autómata no representa la morfotáctica del encadenamiento de enclíticos. Separar sólo el clítico final.

Page 50: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

•Aparición de consonante /g/ en verbos irregulares• /INTERPONER/-/INTERPON~GA/

•Pérdida de vocal final de la base de derivación• /SILBATO/-/SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/

•Presencia de vocales temáticas de las tres conjugaciones• /Base~A~R/, /Base~E~R/ y /Base~I~R/

Page 51: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

•Aparición de vocal /i/ en pretérito de indicativo• /Base~I~Ó/ y /Base ~IÓ/.

•Cambios consonánticos en derivados• /ADOPTAR/-/ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o

/ESOFA~GO/-/ESOFA~JIKA/.

•Cambio de acento en presencia de marca de plural• /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/

Page 52: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~AD~A/• /Base~AD~A~S/• /Base~AD~O/• /Base~AD~O~S/• /Base~AD~AS/• /Base~AD~OS/• /Base~ADA/• /Base~ADO/• /Base~ADA~S/• /Base~ADO~S/• /Base~ADAS/• /Base~ADOS/

Page 53: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Método

Page 54: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Conclusión

• Método no supervisado para descubrir la

morfotáctica de lenguas afijales

• Permitir comparaciones entre corpus de lenguas

o dialectos

• Este trabajo se inserta en el conjunto de estudios

que tratan de explicar la lengua a partir de datos

empíricos y no de la introspección de un analista