Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) [email protected]Roberto Aranovich (University of Pittsburgh) [email protected]Lori Levin (Carnegie Mellon University) [email protected]
47
Embed
Building Machine Translation Systems for Indigenous Languages
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Building Machine Translation Systems for Indigenous
• Verbos denominales, causativos, aplicativos, etc.
33
Un ejemplo: voz pasiva
VBar VBar
TenseBar V V
fue visto/a
V VSuffG
ayuda ngey
S AGR
S AGRtense
S AGRtense
S AGRtense
tense
34
Desarrollo de la gramática
• Aproximadamente 100 reglas.
• 60 sufijos en el léxico de transferencia.
• Traducción de palabras complejas, frases y oraciones declarativas simples.
35
Próximos pasos
• Desarrollar reglas para oraciones interrogativas.
• Testear la gramática con diálogos simples.
36
¿Preguntas?
37
Base de datos electrónica (1)
• Base de datos paralela en formato electrónico (200.000 palabras de texto y 120 horas de transcripción de conversación).
• Es una base de datos paralelos (en mapudungún y español).
• La base de datos textual está constituida por textos históricos y periodísticos actuales (periódico Nuestros Pueblos, CONADI, Chile).
38
Base de datos electrónica (2)
• Las conversaciones están limitadas al campo semántico de la salud primaria y preventiva.
• Las conversaciones reflejan distintos dialectos del mapudungún (lafkenche, nguluche, pewenche).
• Todos los participantes son hablantes nativos, de entre 21 y 75 años de edad.
39
Base de datos electrónica (3)
• Las grabaciones fueron convertidas en archivos wave.
• Convención ortográfica de 28 letras desarrollada por el IEI-UFRO (alfabeto es compatible con los símbolos disponibles en los teclados de computadora en español).
40
Base de datos electrónica (4)
Fragmento de una conversación:
I. Mantención de la salud y enfermedades
1. Chumkeymi tami külfünküleal. (Cómo hace para mantenerse as de bien.)
2. Rüfkünungey am tami amulngen kiñe machimew.
(Es verdad que el médico lo mandó donde una machi.)
41
Corrector ortográfico (1)
• Prototipo de corrector ortográfico para textos en mapudungún.
• Funciona en el entorno OpenOffice, un editor de texto de distribución gratuita disponible en internet (www.openoffice.org)
• Subraya los posibles errores y propone un menú de posibles alternativas. También permite incorporar nuevas palabras al diccionario.
• El corrector funciona sobre la base de dos archivos:
a. Una lista de raíces (5.234) y palabras (53.094).
b. Una lista de grupos de sufijos (1.303)
(ejemplo: rke-fi-ñ /REPORT-3pO-1pSg/IND).
e
44
Diccionarios (1)
• Proyecto de diccionario on-line sobre la base de las palabras extraídas de la base de datos oral (IEI-UFRO).
• Palabras segmentadas en raíz-grupo de sufijos y con ejemplos de uso.
45
Diccionarios (2)
• Kelluaeteu: kellu-a-eteu.ayudar-futuro-a.mi / /. el que me va a ayudar Katripache tañi kimün tati, peñi, feynga puulu iñche, iñche tañi lipang, “iñche tañi kelluaeteu ta tüfa” pipingeynga (Es conocimiento de la gente de afuera pues, hermano, entonces cuando llegué yo, mi brazo, éste es el que me va a ayudar, decía y decía) nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/ Rh20-12-02.
46
Analizador morfológico (1)
• Desarrollado por Carlos Fasola
• El programa segmenta la raíz y el complejo de sufijos y obtiene la información gramatical relevante de cada morfema.
• El léxico morfológico contiene aproximadamente 1670 raíces y 105 sufijos.