Building machine translation systems for indigenous languages Ariadna Font Llitjós (Carnegie Mellon University) [email protected]Roberto Aranovich (University of Pittsburgh) [email protected]Lori Levin (Carnegie Mellon University) [email protected]
47
Embed
Building machine translation systems for indigenous languages
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Building machine translation systems for indigenous
• El artículo describe la cooperación entre un equipo de lingüistas computacionales pertenecientes al Projecto Avenue (Language Technologies Institute, Carnegie Mellon University) y dos comunidades aborígenes de América Latina, la comunidad mapuche de Chile y la comunidad quechua de Perú.
3
The Avenue Project
• El principal objetivo del Projecto Avenue es el desarrollo, en forma rápida y accesible económicamente, de tecnologías lingüísticas para lenguas con escasos recursos.
• Entendemos como lenguas con escasos recursos desde el punto de vista de las tecnologías lingüísticas a aquellas que carecen de bases de datos significativas en formato electrónico y de hablantes nativos entrenados en lingüística computacional.
4
Tecnologías lingüísticas
• Entre las tecnologías en desarrollo se encuentran:
• Bases de datos en formatos electrónicos estandarizados.
• Las instituciones que han cooperado en la producción de tecnologías lingüísticas para el mapudungún son:
• El Projecto Avenue.
• El Ministerio de Educación de Chile.
• El Instituto de Estudios Indígenas, Universidad de la Frontera (UFRO).
6
El mapudungún
• Lengua aglutinante y polisintética hablada en el sur de Chile y Argentina.
• Hay 900.000 mapuches, de los cuales al menos 300.000 son hablantes activos de la lengua.
7
Características del mapudungún (1)
• Dos características distintivas de esta lengua son la aglutinación (es decir, la posibilidad de formar palabras complejas adosando múltiples afijos a una misma raíz) y, aunque en menor grado, la polisíntesis, proceso que implica la incorporación de núcleos léxicos libres o ligados a un verbo.
8
Características del mapudungún (2)
Ejemplo:
kofke-tu-la-ya-y
pan-VERB-NEG-FUT-IND/3S
‘El no comerá pan’
9
Base de datos electrónica (1)
• Base de datos paralela en formato electrónico (200.000 palabras de texto y 120 horas de transcripción de conversación).
• Es una base de datos paralelos (en mapudungún y español).
• La base de datos textual está constituida por textos históricos y periodísticos actuales (periódico Nuestros Pueblos, CONADI, Chile).
• La base de datos oral está constituida por la transcripción de 120 dialogos, de una hora cada uno.
10
Base de datos electrónica (2)
• Las conversaciones están limitadas al campo semántico de la salud primaria y preventiva.
• Las conversaciones reflejan distintos dialectos del mapudungún (lafkenche, nguluche, pewenche).
• Todos los participantes son hablantes nativos, de entre 21 y 75 años de edad.
• Los diálogos fueron grabados con una grabadora Sony DAT (48kHz) y micrófonos estereofónicos digitales Sony.
11
Base de datos electrónica (3)
• Las grabaciones fueron convertidas en archivos wave utilizando el programa CoolEdit 2000 v.1.1. (http://www.syntrillium.com/cooledit)
• La herramienta de transcripción utilizada fue TransEdit v.1.1. beta 10, que sincroniza el texto transcripto con el archivo wave.
• Se utilizó para la transcripción una convención ortográfica de 28 letras desarrollada por el IEI-UFRO. Este alfabeto es compatible con los símbolos disponibles en los teclados de computadora en español.
• El corrector funciona sobre la base de dos archivos:
a. Una lista de raíces (5.234) y palabras (53.094).
b. Una lista de grupos de sufijos (1.303).
e
18
Diccionarios (1)
• Diccionario (léxico para el sistema de traducción automática).
• Proyecto de diccionario on-line sobre la base de las palabras extraídas de la base de datos oral.
• Palabras segmentadas en raíz-grupo de sufijos y con ejemplos de uso.
19
Diccionarios (2)
• Kelluaeteu: kellu-a-eteu.ayudar-futuro-a.mi / /. el que me va a ayudar Katripache tañi kimün tati, peñi, feynga puulu iñche, iñche tañi lipang, “iñche tañi kelluaeteu ta tüfa” pipingeynga (Es conocimiento de la gente de afuera pues, hermano, entonces cuando llegué yo, mi brazo, éste es el que me va a ayudar, decía y decía) nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/ Rh20-12-02.
20
Analizador morfológico (1)
• El programa segmenta la raíz y el complejo de sufijos y obtiene la información gramatical relevante de cada morfema.
• El léxico morfológico contiene aproximadamente 1670 raíces y 105 sufijos.
Estructura de las reglas: formalismo desarrollado para transferir rasgos gramaticales, tanto de los ítemes léxicos a los constituyentes sintácticos y de la lengua fuente a la lengua meta.
Ejemplo:
;; pl N with pluralizer PU (pu ruka::las casas::the houses)
28
Estructura de las reglas
{NBar,1} ;;identificadorNBar::NBar : [PART N] -> [N] ;;especificación de