Page 1
1
El corpus del náhuat
Un documento para el Seminario Lingüístico Náhuat
© 2012, Alan R. King y SLN* ESQUEMA El objetivo de este documento es contar a los miembros de SLN la historia de mi trabajo hasta la fecha y mi visión de futuro en cuanto a nuestro corpus de textos en lengua náhuat. Después de dar una breve explicación de lo que se entiende, en este contexto, por la palabra corpus (§1) y de la razón de su importancia para nosotros (§2), viene un breve resumen (contado un poco subjetivamente quizás) que da cuenta del papel que han jugado los corpus en las diferentes fases de evolución de la ciencia de la lingüística (§3). No es estrictamente necesaria la lectura de esta última sección para entender lo que se dirá a continuación sobre el corpus del náhuat pero la he ofrecido por creer que a algunos de mis lectores les puede interesar saber un poco del contexto teórico-histórico, y porque entender algo sobre la evolución de ideas y métodos es un valioso fundamento para cualquiera que quiera entrar de pleno en el tema.
Tras esta introducción general al tema de los corpus, se describe lo que es, y qué hace, un conocido tipo de software llamado un concordanciador usado habitualmente para extraer información de un corpus para fines de investigación (§4), ya que esto nos ayuda a entender para qué sirve el corpus y cómo se utiliza. A continuación, hablaré un poquito sobre cómo se hace un corpus (§5).
Gran parte del corpus del náhuat proviene de textos que se encuentran en algunos de los trabajos sobre el náhuat que se publicaron en diferentes momentos y lugares a lo largo del siglo XX, y la siguiente sección (§6) repasa la historia de esos estudios y de las obras más importantes desde esta óptica.
Después de esto ya estaremos listos para empezar a considerar el corpus del náhuat en sí, pero en un interludio (§7) daré cuenta del trabajo de un señor en El Salvador llamado Gaio Tiberio quien ha hecho algo un poco parecido a lo que nosotros hemos hecho, para explicar las diferencias, qué pasó y por qué tristemente no nos ha servido y hemos tenido que hacer un trabajo nuevo partiendo de cero en vez de aprovechar su esfuerzo.
Después de tantos preámbulos, por fin describiré, en §8, la primera fase del corpus de náhuat, que fue terminado a mediados de la década pasada, el “Corpus 1.0” como lo voy a llamar. La próxima sección, §9, explica el reemplazo del concordanciador originalmente usado con Corpus 1.0 por otro programa de diseño propio llamado TAC. Esta fase duró poco tiempo porque un poco después, por razones que explicaré, opté por un paso más radical al redefinir el marco informático y pasar a un entorno integrado que incorpora tanto el corpus como todos los léxicos de náhuat de los que dispongamos, por medio de un software de otro tipo llamado Field Linguist’s Toolbox; a este nuevo sistema integrado para los datos del náhuat, tanto de corpus como de léxico, le puse el nombre NAWACOLEX (§10). Dado que NAWACOLEX es el sistema actual y el que prevemos usar de aquí en adelante para la sistematización del corpus (y de los léxicos), daré una explicación más extendida de cómo funciona, cuáles son sus implicaciones, sus ventajas sobre otras maneras de configurar el corpus y también (§11) cuáles son algunas desventajas a tomar en cuenta. Finalmente, en la última sección (§12), resumiré el estado del corpus hasta ahora (para los que no han estado prestando atención) y lo que se prevé para el futuro, el trabajo que queda por hacer, y el lugar que va a ocupar el corpus en el proceso de recuperación del náhuat.
* Este artículo puede distribuirse libremente para fines personales y no comerciales sin permiso expreso, siempre y cuando se
mantenga íntegro sin modificación alguna y se conserven los datos de su autoría y procedencia. Queda prohibido cualquier otro
uso sin el permiso explícito por escrito del autor o del tenedor del copyright. El artículo original se puede descargar de
http://alanrking.info.
Page 2
2
§1. ¿QUÉ ES UN CORPUS? Corpus es la palabra para 'cuerpo' en latín (y de ahí viene la palabra cuerpo). Cuando los lingüistas
hablan de un corpus se refieren a un conjunto (un "cuerpo") de textos en una lengua determinada. A
partir de ahí, el sentido exacto que se le dé dependerá del contexto. Si decimos que tal o cual lengua tiene
un corpus limitado o pequeño queremos decir, probablemente, que hay pocas cosas escritas en ella: en
este caso el corpus quiere decir el conjunto de todos los textos de la lengua en cuestión. Pero si un
lingüista dice que "tiene un corpus", probablemente está diciendo que dispone de una colección de textos
para utilizar en sus investigaciones sobre la lengua: ahí, el corpus quiere decir una selección de textos, no
necesariamente todos los que existen. En la práctica, en este segundo caso, lo que se entiende
normalmente por un corpus es una base de datos (estructurada o no, como veremos) cuyo contenido son
textos. La mayoría de las veces, tendré en mente el segundo sub-sentido en este documento, pero el
contexto lo aclarará.
§2. LA IMPORTANCIA DEL CORPUS Aunque la idea de corpus lingüístico no es tan nueva, se ha vuelto mucho más importante en los últimos
años gracias a las posibilidades que ofrece la informática para crear, almacenar, manipular y utilizar
corpus de textos en cualquier idioma y de cualquier tamaño. Antes se tardaba años para estudiar o crear
índices del contenido de miles de páginas de texto, donde ahora se tardan meros segundos para extraer la
información equivalente por medios electrónicos.
Todos sabemos qué fácil es almacenar textos en documentos de Word o páginas de HTML y lo sencillo
que resulta utilizar el comando "Buscar" para descubrir instantáneamente si ocurre tal o cual palabra en
un documento, dónde, cuántas veces... Igual que existen programas de software para hacer todo tipo de
cosas, los hay para gestionar y explotar corpus de formas aún más poderosas y así poner en manos de los
investigadores herramientas que abren nuevos horizontes para el estudio sistemático de las lenguas a
través de sus textos. Ya que una computadora puede "tragar" rápidamente grandes cantidades de datos
(o palabras, en este caso), puede proporcionarnos un mayor número de respuestas fiables, de calidad, y
de esta manera el lingüista puede a su vez dar respuestas con más seguridad aunque no pase horas
rellenando fichas de cartulina y guardándolas en cajitas de cartón, o llenando cuadernos de apuntes.
Gracias en parte a esta tecnología, hoy, en ciertos casos al menos, ya no hace falta especular, se pueden
dar respuestas definitivas y categóricas a algunas preguntas (no a todas, insisto, pero sí a algunas).
Obviamente esto quiere decir que para la investigación lingüística, la importancia del corpus ahora es
muchísimo mayor que hace tan solo unas décadas. No es exagerar si digo que una buena proporción de
los conocimientos especializados que he adquirido sobre el léxico y la gramática náhuat, que me permiten
a veces decir con confianza que esto es así y aquello no lo es, se han basado en la consulta y el
aprovechamiento de un corpus de náhuat que yo mismo he tenido que ir construyendo y estructurando.
§3. LOS CORPUS EN LA INVESTIGACIÓN LINGÜÍSTICA La lingüística es un campo muy moderno, podemos decir que ha existido tal vez durante cien años, tal vez
un poco más, dependiendo de cómo lo definamos.
Antes, existía un campo académico llamado filología. Los filólogos estudiaban textos, generalmente
antiguos; eran como arqueólogos de viejos escritos que tomaban nota de qué palabra, qué forma, qué
construcción gramatical o qué grafía caracterizaba tal o cual escritor o época o dialecto o género,
particularmente en lenguas clásicas, muertas, de épocas pasadas.*
* Si ustedes se apuntan a la lista de discusión Nahuat-l (http://www.famsi.org/mailman/listinfo/nahuatl), verán un ejemplo del
tipo de cuestiones que les gusta estudiar a los filólogos, en este caso con relación al náhuatl clásico que se escribió por un tiempo
en México en la época colonial.
Page 3
3
El interés en las lenguas modernas (quiero decir: no “clásicas”) como tema “serio” de investigación
académica es algo bastante nuevo. Por los prejuicios de épocas anteriores, las lenguas habladas se
consideraban inferiores y menos dignas del interés y los esfuerzos de los ilustradísimos profesores y sus
discípulos, al lado de las gloriosas lenguas muertas del pasado. Se tardó en despertarse una preocupación
en lo “moderno” como tema interesante en sí mismo prácticamente hasta el principio del siglo veinte. Más
tarde llegó la revolución tecnológica que hizo posible, entre otras cosas, conservar permanentemente el
sonido de la voz humana, no únicamente su representación escrita que hubo que analizar,
exclusivamente, hasta entonces.
En la lingüística moderna el concepto de un corpus (e incluso el de texto) ya no se contrapone a
materiales orales. Obviamente pueden haber corpus escritos (como por ejemplo los textos de la
antigüedad, antes de la aparición del micrófono), pero también corpus orales (por ejemplo una colección
de grabaciones en audio o video), y finalmente corpus de transcripciones (donde se representa por escrito
"textos" originalmente orales). Un poco como las primeras películas donde los actores siguen hablando y
actuando como si estuvieran en un teatro sobre un escenario, al principio los estudiosos trataron de
aplicar los mismos métodos que ya conocían, los métodos consagrados de la filología. En algunos países,
hasta hoy o ayer mismo, sólo se podía estudiar Filología como carrera universitaria, pero no se enseñaba
Lingüística moderna.
Durante el siglo veinte se sucedieron las polémicas entre diferentes escuelas lingüísticas sobre cuestiones
de teoría y metodología. Una de las cuestiones que se debatieron era si la mejor manera de descubrir lo
esencial de cada idioma es a través del análisis de un corpus (oral o escrito, pero típicamente basado en la
producción textual de hablantes nativos o al menos buenos hablantes), o bien acudiendo directamente a
los hablantes en persona e interrogándoles, un proceso que en inglés se llama elicitation (del verbo elicit
'obtener información de alguien'). En la segunda mitad del siglo cayó en descrédito el corpus como base
del análisis lingüístico, al imponerse una nueva corriente, el generativismo, que tomaba como base los
métodos de introspección por el lingüista e interrogación a hablantes.
¿Por qué se rechazó el uso de los corpus? Un argumento era que los datos que contienen son finitos,
limitados, y puede faltar información. En cambio, si tuviéramos a mano un hablante nativo le podríamos
preguntar y presumiblemente sabría decirnos si tal frase es posible aunque no aparezca en ningún corpus,
basándose en su propio conocimiento del idioma. ¡Puede evaluar un número infinito de oraciones!
Estrictamente hablando, el filólogo tradicional no tenía este problema porque podía definir su objetivo
como la descripción exhaustiva del corpus, la única fuente empírica de datos que había en el caso de una
lengua muerta. Pero el objetivo de la lingüística moderna no se define como describir un corpus, sino
conocer la lengua en sí. Un corpus es una muestra finita de algunas de las palabras y frases posibles de
esa lengua, no es la lengua en sí.
¿Pero qué entendemos por la lengua en sí? Digamos que es como si dijéramos que cada hablante lleva
dentro de él o ella un "mapa" de su idioma, un conocimiento interiorizado (no necesariamente consciente)
que es lo que le permite hablar y entender la lengua. Un mapa de un país no es el país mismo, es un
papel donde está representado el país, pero a través del mapa sabremos cuál es el camino desde A hasta
B. Un hablante de una lengua sabe si son correctas o incorrectas incluso frases que nunca escuchó, sólo
porque su "mapa" se lo dice. Según este punto de vista, cuando estudiamos el corpus estamos mirando
parte del país pero no el “mapa” de todo el país; en cambio, cuando recurrimos a un informante nativo
estamos hablando con alguien que “tiene el mapa”.
El objetivo de la lingüística, se diría en esta alegoría, es recuperar una copia del “mapa”, esa esencia
interiorizada de la lengua que lleva en su cabeza cada hablante nativo. En la lingüística, esta esencia
interiorizada se llama competencia. El lingüista generativista trata de representar simbólicamente (en
formalismos, “fórmulas” si se quiere) la competencia de los hablantes a través de un modelo teórico,
formal, “matemático”, comprobando si sirve para generar las frases que los hablantes aseguran que
pueden existir en la lengua. El corpus, en cambio, sólo es un conjunto de oraciones que han sido
generadas por la competencia de algún hablante en alguna circunstancia.
Page 4
4
Pero en el último capítulo de esta historia (hasta ahora), el corpus se está resucitando de sus cenizas. Tras
su destierro, vuelve, tal vez para ser coronado como rey. Porque aunque un corpus siempre es en teoría
incompleto, finito y limitado, con la tecnología de la información de hoy día su posible tamaño es en la
práctica casi ilimitada y la cantidad de información acerca de la lengua que se puede desprender de un
gran corpus analizado adecuadamente es tremendamente grande, y el resultado puede ser más empírica y
objetiva que la obtenida por los procedimientos ortodoxos de la lingüística generativista. Tal vez cabría
decir que la cantidad de datos (mérito del corpus) le gana a la calidad (el supuesto punto fuerte de la
metodología de la interrogación) cuando la cantidad es bastante grande y cuando la tecnología ayuda a
analizarla con la sofisticación necesaria.
Cuando todo el mundo en la lingüística hablaba de las limitaciones de los corpus, creo que nadie preveía el
poder de los recursos electrónicos hoy día disponibles ni el efecto de ese poder. Ahora la lingüística está
pasando por su propia revolución de la información, de la cual ha nacido hasta una nueva subdisciplina
llamada corpus linguistics (http://en.wikipedia.org/wiki/Corpus_linguistics).
§4. LOS CONCORDANCIADORES La herramienta más básica para realizar investigaciones lingüísticas utilizando un corpus es un tipo de
software que se llama en inglés concordancer, que creo que en español sería "concordanciador". Presenta
información sobre las palabras que se encuentran en un corpus: información que podríamos encontrar
leyendo el corpus si tuviéramos tiempo para leerlo todo, pero el concordanciador hace lo mismo con
menos errores y casi al instante. No sólo ahorra tiempo (que sería un avance cuantitativo): le da al
investigador tanta capacidad para procesar, analizar e interpretar muchos tipos de información sobre el
corpus que en la práctica hace posible que haga cosas que no se harían si no (un avance cualitativo).
Los concordanciadores no "saben náhuat". Simplemente identifican “palabras” del texto, o más bien lo que
para un concordanciador es entendido como “palabra”, que es algo distinto. Cuando el concordanciador ve
"tet" y luego cuando ve "tejtet", no puede saber que son el singular y plural de lo que los hablantes
llamarían la misma palabra: los ve como palabras diferentes. El concordanciador no trabaja con las
palabras "reales" que en lexicología se llaman lemas (http://en.wikipedia.org/wiki/Lemma_(morphology)*,
sino con formas de palabras (word forms) como “tet”, “tejtet”.
Los concordanciadores pueden realizar una variedad de funciones, pero las esenciales siempre son dos:
generar a partir del corpus una lista de "palabras" (formas), y dar una "concordancia" para cualquiera de
estas. La lista de palabras, o wordlist en inglés, se ve más o menos así:
a 11
achichin 1
achin 3
achka 1
achtu 19
ajachichin 2
ajaka 1
ajat 13
…
Esto es el principio de la lista de “palabras” para una versión en ortografía estandarizada del texto náhuat
del libro de Schultze Jena. Los números son sus frecuencias en el texto, llamadas “número de
ocurrencias”.
* No puedo recomendar el artículo del artículo correspondiente en la Wikipedia en español, que consigue hacer que el concepto
suene más complicado de lo que es sin lograr aclararlo su significado.
Page 5
5
La segunda función consiste en tomar cualquiera de estas formas y mostrar todos los sitios y contextos en
los que ocurre. A esto le llamaremos una concordancia aunque oficialmente es un índice de tipo Key-
Word-In-Context, o KWIC. Veamos la concordancia de la palabra achin, que según indica la wordlist
arriba ocurre tres veces en este texto:
NPT01_13.042 wan kitzuntisit, kichat chiupi achin wan kimakat ma kiuni.
NPT01_17.072 kitapuk nemituya ejkatuk ten ne achin kan nemituya ne siwapil...
NPT01_17.004 ne iesyu, wan asik kan nemi se achin. Ne nemi se siwapil apaka…
Cada línea de este listado tiene dos partes, un código que representa una referencia a un lugar exacto del
corpus (por ejemplo, NPT01_13.042), y un contexto que reproduce unas palabras antes y después de la
palabra buscada (o key word) en cada sitio. En algunos concordanciadores, también podemos pedir que
se muestre un contexto más extenso de varias líneas antes y después.
No sólo se pueden hacer listas y concordancias de palabras enteras sino de partes de palabras, incluyendo
prefijos, sufijos y raíces de palabras: por ejemplo podemos encontrar todas las palabras en el corpus que
terminan en ...chin, o empiezan con ish..., o contienen ...siwa... (que en este texto resulta que son:
anmusiwaw, anmusiwawan, isiwapil, isiwapiltzin, isiwaw, musiwapiltzin, musiwaw,
nusiwakunew, nusiwapil, nusiwapiltzin, nusiwaw, sijsiwatket, sisiwatket, siwamasat, siwapil,
siwapilchin, siwapiltzin, siwapipil, siwat, siwatket, siwawan).
Otro "truco" es ordenar la lista de palabras según diferentes criterios, lo cual ayuda a aislar ciertos tipos
de formación; por ejemplo ordenando esta lista por orden alfabético inverso podemos agrupar todas las
formas singulares poseídos que terminan en w, que serían anmusiwaw, isiwaw, musiwaw, nusiwaw.
Otra prestación de algunos concordanciadores es buscar combinaciones de varias palabras, lo que facilita
la investigación de algunas cuestiones de sintaxis, colocaciones (combinaciones típicas de palabras), etc.
En este ejemplo real, el "corpus" está compuesto de un solo texto compuesto de narraciones con orígenes
y características bastante homogéneos. Pero hemos definido un corpus como un conjunto de textos
(¡aunque un conjunto puede tener un miembro!), así que un concordanciador puede trabajar sobre un
corpus compuesto de múltiples textos a la vez.
Aprender a usar un concordanciador no supone un reto muy grande. Lo difícil es conseguir un buen
corpus, para lo cual hacen falta textos. El formato que deban tener estos textos dependerá del
concordanciador que usemos; para algunos, basta que estén en simple formato de texto (.txt).
Algunos concordanciadores pueden ser aún más útiles a condición de que a los archivos se les hayan
incorporado elementos adicionales llamados etiquetas. Ya vimos que "el concordanciador no entiende
náhuat"; esto limita la clase de "preguntas" que le podemos hacer. Hay tres palabras que se escriben
ne en náhuat: el artículo definido (ne siwat 'la mujer'), el conector de oraciones relativas (ne walaj 'que
vino') y el adverbio de lugar (ne o né nemi 'ahí está'). Un concordanciador muy básico no puede buscar
solamente ejemplos del conector de relativa ne porque todos los ne's se ven iguales. Pero si previamente
intercalamos etiquetas indicando la categoría gramatical (part of speech, POS) de cada palabra, esto
proporcionaría una manera de distinguir entre los diferentes tipos de ne. Esto implica que ya hemos
repasado el corpus entero metiendo etiquetas POS.
§5. LA CONFIGURACIÓN DE UN CORPUS Los corpus juegan un papel cada vez más importante en la tecnología de la información. Sin que lo
sepamos, muchas de las cosas que hacemos todos los días son posibles gracias a corpus electrónicos.
Creo que todos hemos utilizado el servicio de traducción automática Google Translate; este traductor se
basa en enormes corpus que proporcionan la mayoría de los resultados que se obtienen con este sistema.
Algunos de los diccionarios más avanzados ya no reflejan meramente las opiniones de lexicógrafos sobre
lo que es normal o correcto sino que reflejan usos reales, estadísticamente importantes, de escritores,
identificados en corpus masivos y representantes compuestos de muchos millones de palabras de texto.
Page 6
6
De ahí que un corpus de una lengua determinada puede ser, a largo plazo, una buena inversión porque
ese corpus (u otros derivados de él) puede tener una gama muy amplia de usos ulteriores. Sin embargo,
nosotros por ahora vemos en un corpus una herramienta para estudiar y conocer mejor el idioma.
Para configurar un corpus, por muy modesto y sencillo que sea, hay que partir de algunas decisiones
iniciales sobre qué queremos que contenga, para qué queremos que sirva, y de qué manera queremos
poder usarlo. De estos criterios y otros parecidos dependerán cosas tan elementales como cuáles textos se
deben incluir, cómo se deben representar, codificar y formatear los textos en el corpus, y cuáles serán los
pasos necesarios para obtener ese corpus.
Un primer paso es obviamente definir el conjunto de textos que vamos a incluir. En el caso del náhuat
esto no es muy difícil, porque partimos de una situación donde existen muy pocos textos entre los que
escoger; lo ideal sería incluir todos los que hay. Pero con el paso del tiempo puede ir aumentando su
contenido, como ocurre con una biblioteca que gradualmente va creciendo cada vez que añadimos nuevos
libros. Aunque esos materiales nuevos no existan ahora, pueden surgir en el futuro, por ejemplo por el
descubrimiento de manuscritos antes no conocidos o disponibles, o bien por la producción de nuevos
escritos o la recopilación de nuevos datos.
No todos los concordanciadores funcionan con los mismos parámetros de formateo y etiquetado. Es
importante tomar en cuenta no sólo cuál sistema queremos usar sino cuánto trabajo hará falta para
preparar los textos para su uso en ese sistema.
§6. EL CORPUS "HISTÓRICO" DEL NÁHUAT Los textos en náhuat de importancia que nos han quedado del siglo XX son principalmente tres, de peso
desigual, que fueron conservados para la posteridad por tres hombres muy diferentes cuyos nombres
forman parte de la historia de los estudios del náhuat: Próspero Aráuz, Schultze Jena y Lyle Campbell.
Ninguna otra estrella brilla en el firmamento del corpus del náhuat con tanta intensidad como la obra del
antropólogo alemán Leonhard Schultze Jena. Tendremos otras ocasiones para hablar en detalle de su
trabajo. Aunque el libro en cuestión (traducido al español en más de una ocasión) está compuesto de
varios componentes, aquí sólo nos interesa el contenido textual en náhuat: pasajes narrados al autor por
algunos hablantes mayores oriundos de Izalco en la década de los veinte, hace ya casi noventa años.
Representan el estado del idioma y la memoria colectiva en esa localidad de la generación nacida hacia
mediados del siglo XIX.
Un poco antes, se había compilado un texto escolar titulado El pipil de la región de Los Itzalcos, cuyo
autor era el maestro de escuela Próspero Aráuz, ubicado en Nahuizalco durante muchos años. Este libro,
hecho para el uso de niños nahuahablantes, contiene en buen número de lecturas cortas en náhuat. Fue
publicado hasta varias décadas más tarde (demasiado tarde para servir para la finalidad con la que fue
escrito), no sé si porque el proyecto fue activamente saboteado o por pura falta de interés de parte de las
autoridades (¡el resultado fue el mismo de todas formas!). Sólo fue publicado muchísimo más tarde, en
1960, en una revisión hecha por Pedro Geoffroy Rivas, quien añadió algunas anotaciones de escaso valor
que en mi opinión no siempre constituyen mejoras al texto original. Además de los textos en náhuat, el
libro incluye un glosario español-náhuat interesante para el especialista aunque plagado de abundantes
errores y confusiones e peor que inservible para un lector casual. En conjunto, y mientras no se haga un
análisis más riguroso del material, me da la impresión de que ni Aráuz ni tampoco su editor póstumo eran
muy expertos en el náhuat (o sea, creo que ninguno de los dos lo hablaban); de lo que se deduce la
interesante conclusión que los textos evidentemente fueron dictados por alguien que sí sabía náhuat,
probablemente muy bien, y acaso imperfectamente anotados por el autor del libro, lo que explicaría la
yuxtaposición de frases y expresiones muy auténticas con frecuentes lapsus y lagunas inexplicables de
otra manera. En fin, nos quedamos pendientes de un futuro estudio y revaloración de este insólito
material por alguien mejor capacitado para emprender tal labor; no queda la menor duda de que valdría la
pena. Mientras tanto, constituye una interesante adición al escaso corpus del náhuat, que proporciona
información importante pero debe leerse con cautela.
Page 7
7
Luego en los años 30 sucedieron los crímenes atroces y genocidas realizados por un régimen brutal sin
justificación en su ataque rabioso contra un pueblo indefenso, dejando daños irreparables y abriendo una
llaga en la mera alma del pueblo pipil que sigue sin cicatrizar. Y después, la paz de los cementerios, una
larga paréntesis durante la cual el náhuat, después de perseguido y malherido, se abandonó con
indiferencia a su suerte, moribundo.
La próxima estrella que sube a este cielo, rompiendo el silencio de la noche más larga, será la llegada en
escena allá por los años setenta del internacionalmente reconocido y muy reputado lingüista
estadounidense Lyle Campbell. Su gran aportación para el náhuat fue un magnífico trabajo The Pipil
language of El Salvador, publicado en el año 1985 en el extranjero, en lengua inglesa, debido según tengo
entendido a que nadie lo quiso publicar en español, ni siquiera en el propio El Salvador. Principalmente es
un léxico muy extenso y de un valor incalculable para la recuperación del náhuat; también contiene un
buen resumen gramatical, cubriendo este terreno con erudición y profesionalismo por primera vez, ya que
de la desastrosa incursión en este campo de Schultze (un antropólogo, no un lingüista) cuanto menos se
diga mejor. El libro de Campbell trae como anexo un corpus no demasiado largo de relatos transcritos de
grabaciones que el autor realizó en Cuisnahuat y Santo Domingo de Guzmán. De este modo ya nos
hallamos no solamente en una época distinta sino ante un tipo dialectal diferente. Lastimosamente, el
náhuat había caído fulminado por las balas del ejército y la persecución terrorífica en la región de Los
Izalcos, históricamente el corazón de la tierra madre de la cultura pipil, y ahora el testigo pasa a los
pueblos remotos de las tierras bajas de la franja costera, donde todavía, hoy día, hay ancianos que saben
hablar ken tejemet, “como nosotros”, aunque son los menos y sus hijos, en su mayoría, son una
“generación perdida” que no quiere saber nada del asunto. Y ahora, la última palabra será de los nietos…
§7. LA BASE DE DATOS DEL NÁHUAT DE GAIO TIBERIO Cuando recién empezaba mi trabajo sobre el náhuat, me hablaron de alguien llamado Gaio Tiberio, un
hombre de nacionalidad estadounidense que llevaba muchísimo tiempo viviendo en El Salvador y que
trabajaba en la UES. Se rumoreaba que tenía mucha información sobe el náhuat, y según algunos yo
debería ir a verlo, así que fui. Este señor era un hombre mayor que yo; supe que había sido profesor de
mi jefe de entonces en la Universidad Don Bosco, el doctor Jorge Lemus, pero Lemus no me habló de él y
tuve que enterarme por otro camino. Pasamos un buen rato intercambiando información e ideas. Para
resumir, él opinaba que apoyar la recuperación del náhuat (como era mi pretensión) era ya un esfuerzo
inútil porque era demasiado tarde (y, leí entre líneas, porque se habían despreciado sus propias
propuestas en este sentido unos años antes).
Sacó de su biblioteca y puso delante de mis ojos un sinfín de manuscritos, documentos, libros antiguos y
fotocopias sin encuadernar. Luego me condujo a un despacho interior donde me mostró su mayor tesoro:
una base de datos que dijo que llevaba muchos años desarrollando, donde me aseguró que se encontraba
todo lo que existía sobre el náhuat, incluyendo todos los textos en náhuat publicados o inéditos.
Yo sólo llevaba meses, tal vez un año como mucho, trabajando sobre el náhuat. Le pregunté qué
podíamos hacer para que este magnífico material se hiciera disponible de alguna manera para los que
ahora queríamos dedicar apoyar la recuperación. Nada concreto me ofreció, y evadió cualquier sugerencia
que le insinuara sobre compartir sus materiales conmigo de alguna forma. Me dijo que lamentablemente
no podía divulgar nada por problemas de copyright, pero como consuelo me aseguró que faltaba muy
poco para que él pusiera los últimos toques a éste magnum opus suyo, después de lo cual lo iba a colocar
todo entero en línea, al alcance del público general, y entonces yo como todo el mundo podría hacer lo
que quisiera con ello. Me dijo que en un año como máximo ya estaría. Eso fue en 2003. Imagino que si
este señor aún vive, y esperemos que sí, todavía le anda poniendo los últimos toques…
Esto me puso en un dilema, porque ya era muy consciente de que iba a hacer falta un corpus, fuera el del
señor Tiberio o de quien fuera. Por cortesía, esperé unos meses antes de actuar, y escribí a Gaio Tiberio
en más de una ocasión para mantenerme en contacto con él pero nunca recibí ninguna respuesta y
efectivamente desapareció de mi vista; era como si solo hubiera soñado con aquella entrevista fantasmal.
Luego juzgué, sin saber si hacía bien o mal (pero después transcurrió que había juzgado bien) que la
Page 8
8
única opción era olvidarme de las promesas que había escuchado y empezar por mi cuenta a reunir un
corpus de náhuat. Si no lo hubiera hecho, hoy no tendríamos corpus, y necesitamos uno.
Para que sirva de consuelo, la base de datos que Tiberio me enseñó no habría sido lo que nos hacía falta
a nosotros (aunque para otro tipo de estudios, históricos por ejemplo, creo que sí). Cada texto de su
corpus estaba incorporado en la ortografía original de cada documento -era una copia transcrita exacta de
los documentos fuente- lo cual es indudablemente interesante para algunos propósitos de documentación
e investigación pero no muy idóneo para los propósitos de análisis lingüístico de la lengua en su conjunto.
Por ejemplo, una sola búsqueda sencilla no localizaría todas las ocurrencias en el corpus de una palabra
como takat ya que en diferentes documentos aparecía bien como "takat", bien como "tacat", o bien como
"tagat", y así para todas las palabras.
§8. CORPUS 1.0 Hace años, los corpus electrónicos se almacenaban y procesaban en “inmensas” computadoras
"mainframe" que típicamente pertenecían a instituciones grandes como las universidades. Los primeros
PCs tenían demasiado poca memoria; algunas ni siquiera tenían discos duros. Luego esto cambió. Sigue
habiendo en el día de hoy una diferencia cuantitativa entre el tipo de corpus que cabe en un PC normal y
en un sistema especializado producto de una gran inversión, pero ha cambiado la escala: el tamaño de los
corpus grandes mantenidos por instituciones ahora se mide en millones de palabras, y cantidades
verdaderamente masivas de textos. Esto no afecta mucho el caso nuestro, hoy por hoy.
En el extremo opuesto, a principios de los noventas, un pequeño concordanciador fue desarrollado para la
casa editorial británica Longman (especializada en libros para la enseñanza del inglés). Tenía la novedad
de ser un “concordanciador de bolsillo” tan “ligero” y ocupaba muy poca memoria y era tan sencillo que
corría en cualquier máquina bajo el sistema operativo MS-DOS (la norma para PCs antes de Windows). Se
llama el Longman Mini Concordancer (LMC). Para trabajar con él, los archivos de texto del corpus no
tienen otro requerimiento de formato que ser precisamente archivos de “texto plano” (plain text), es decir,
“sin formato”. Esta pequeña aplicación ya era anticuado en 2002, pero funcionaba muy bien y bastaba
para empezar a poner en marcha, rápidamente y sin complicaciones, la compilación de un pequeño corpus
que fuera servible de inmediato. Sólo había que coleccionar unos textos en náhuat en formato electrónico.
Puse manos a la obra.
Ya me he referido (al final de la sección precedente) el problema con las grafías. Ya expliqué antes que el
concordanciador “no sabe náhuat”: no “sabe”, por ejemplo, que siwat, nusiwaw y siwatket son formas
del mismo lema, SIWAT. Tampoco "sabe" que siwat, sihuat, cihuat… son la misma forma escrita de
maneras distintas. De todas formas había que digitar estos textos para hacer el corpus electrónico, así que
convendría transcribir todos los textos, de paso, en un sola ortografía.
Los textos que se metieron incluían, lógicamente, los de las obras de Schultze Jena, Próspero Aráuz y Lyle
Campbell, además de una variedad de textos menores, incluyendo algunos producidos recientemente por
personas de Witzapan y también ciertas “cartillas” de náhuat publicadas en diferentes sitios y momentos a
pesar de su cuestionable calidad.
Un problema con este tipo de “mini-concordanciadores” es el hecho de que sólo pueden procesar en un
momento cualquiera un corpus que no exceda cierto tamaño tamaño. La solución más fácil era dividir un
corpus más grande en dos o más partes para ser procesadas una parte a la vez. Aunque el corpus del
náhuat sea modesto, se topó con esta barrera. Entonces dividí el corpus en dos partes: el sub-corpus de
Izalco y Nahuizalco ("tierras altas" o "náhuat alto" o "Corpus A") y el de Witzapan y Cuisnahuat ("tierras
bajas" o "náhuat bajo" o "Corpus B"). Me referiré a esta primera versión de nuestro corpus como "Corpus
1.0".
Otra materia de gran interés que quiero reservar para otra ocasión, ya que abordarla aquí sería
sobrecargar el presente tema, es la de repasar en detalle todas las aplicaciones de las concordancias
dentro del marco de nuestro trabajo hacia la recuperación. El Corpus 1.0 sirvió como una herramienta
Page 9
9
primaria que ha aportado mucho a tantos proyectos que he realizado durante varios años, pero me resisto
a recontarlos en esta ocasión. Me limito a notar que el Corpus 1.0 fue el punto de partida para la
elaboración de una lista de las palabras más frecuentes que se convirtió en el Léxico Básico de
Náhuat (LBN), que sirvió de fuente para un vocabulario de las palabras más útiles del náhuat que IRIN
distribuía llamado ¡Conozcamos el náhuat! y asimismo fue la base para el pequeño diccionario
interactivo Léxico de náhuat básico (LNB), en Lexique Pro, que se acaba de poner al alcance del público
(se puede descargar de http://http://alanrking.info/lexico.php).
Vamos a ver ahora el perfil de Corpus 1.0, y de sus dos sub-corpus. Este perfil usa datos proporcionados
por otro programa, TAC, del que hablaré después. En el perfil mediré los siguientes parámetros:
número de documentos (o archivos)
tamaño total del corpus, en caracteres
ídem en palabras
número de palabras-tipo (= formas de palabras diferentes)
máxima frecuencia de ocurrencia de palabras (= formas) específicas
promedio de frecuencia de ocurrencias.
Perfil de Corpus 1.0
Corpus A
(Área de Izalco)
Corpus B
(Santo Domingo-Cuisnahuat)
Corpus total
(= A+B)
Documentos: 3 10 13
Caracteres: 109.571 62.342 171.913
Palabras: 23.060 12.478 35.538
Palabras-tipo: 3.686 2.865 (dato no disponible)
Máxima frecuencia: 640 = 2,8% [ne] 384 = 3,1% [wan] (dato no disponible)
Frecuencia media: 6,2 = 0,027% 4,3 = 0,034% (dato no disponible)
Como la tabla muestra, Corpus 1.0 ya es un corpus de más de 35.000 palabras. Se tuvo que subdividir
como ya se explicó, lo cual explica la manera en la que se presenta aquí. Más de la mitad de este corpus
proviene de un solo texto, el material de Schultze Jena (que forma parte de Corpus A), que por sí solo
contiene casi 20.000 palabras. A causa del volumen de ese texto, Corpus A tiene casi dos veces más
palabras que Corpus B. Ya que Corpus A es más grande, lógicamente presenta un número algo mayor de
palabras-tipo, es decir, más variedad de formas. En consecuencia, la frecuencia media de ocurrencia de
estas es proporcionalmente algo más baja en A (0,027%) que en B (0,034%). Es curioso que la palabra
más frecuente es diferente en cada corpus (ne en A, wan en B); no he investigado por qué, pero no me
sorprendería que resultara ser porque en los dialectos del área A la variante iwan fuese más común que
en los del área B.
§9. TAC Pese a las buenas características de LMC, se hizo cada vez más evidente que convendría tener un
concordanciador más moderno. Como único usuario (provisionalmente) del corpus, me había vuelto
bastante experto en sacarle todo el jugo que se podía usando la herramienta que tenía, pero también se
me ocurrían cosas adicionales se podrían lograr con el corpus teniendo un programa más sofisticado.
Cuando tuve tiempo, exploré los nuevos concordanciadores de peso ligero y distribución gratuita que
habían salido en los últimos años para evaluar la conveniencia de cambiar de aplicación, pero
sinceramente me decepcionaron los que vi hasta tal punto que decidí sacar a lucir mis elementales
conocimientos de programación y tratar de escribir mi propio concordanciador para hacer los "trucos" que
tenía en mente y exprimir más información, e información más sofisticada, de mi corpus finito.
Al cabo de un tiempo ya tenía un programa más o menos "user-friendly" que cumplía mis órdenes
obedientemente, leyendo el mismo corpus que LMC, y así además permitiendo por fin la entrada del
Corpus 1.0 en la era Windows. Lo llamé TAC, por "Text Analyzer and Concordancer", porque por decirlo
así, llegaba a algunos sitios donde los demasiados concordanciadores no van. No entraré en los detalles
Page 10
10
aquí; si alguien tuviera curiosidad, lo contaré en otra ocasión. Además, TAC funciona pero no es una
aplicación perfeccionada sino una herramienta casera; lo consideraría un prototipo, no un producto
acabado. Sobre todo debo aclarar que no soy ningún programador profesional y TAC es un producto de
nivel “amateur”. Es más, no continué con su desarrollo porque acabé optando por otro camino distinto del
que ya es el momento para empezar a hablar.
§10. NAWACOLEX Ya habían llegado a mis oídos noticias de un interesante paquete informático desarrollado por el Summer
Institute of Linguists* (SIL) orientado a las necesidades de quienes trabajan sobre lenguas poco
documentadas, llamado The Linguist’s Shoebox (“la caja de zapatos del lingüista”)†. Unos años más tarde
SIL sacó una versión completamente nueva de esto, ahora llamada The Field Linguist’s Toolbox (la caja de
herramientas del lingüista de campo), mejorada y adaptada por primera vez a un entorno Windows… y
descargable del Internet gratis. Aunque el manejo de un corpus no es el objetivo exclusivo o principal de
Toolbox, entra dentro de las cosas que hacen las herramientas que están dentro de esta “caja”.
El entorno Toolbox es flexible y puede ser configurado para apoyar una amplia gama de tareas diferentes.
Una característica fundamental de los proyectos hechos en Toolbox es que toda la información que se le
incorpore debe formar parte de estructuras llamadas bases de datos. Hay muchos tipos de bases de datos
y muchos programas las usan; Toolbox no es un programa clásico de base de datos, sino que tiene
características propias particularmente apropiadas para este tipo de trabajo. Uno de sus puntos fuertes es
la relativa facilidad con la que permite crear, modificar y desarrollar estas estructuras. Pero primero, para
que sea inteligible lo que quiero exponer a continuación, es esencial comprender qué es lo que se
entiende por base de datos (en general, y en Toolbox en particular).
Una base de datos es una manera de organizar la información. Primero se decide como se quiere
estructurar la información y luego se colocan los datos según esta estructura. Empecemos con una simple
analogía un poco ingenua y campechana. Imaginemos que me marcho de viaje, y para llevar todas las
cosas que voy a necesitar las envuelvo, todas revueltas, en un tanate grande. Pero cuando llego a mi
destino tengo una habitación de hotel donde hay un armario con ganchos para colgar ropa, gavetas y
estantes. Saco mis “chunches” y los coloco ordenadamente, clasificando las camisas por un lado, los
calcetines aquí, los libros que he traído allá… Mis posesiones son las mismas que antes pero les he dado
“estructura”, las he organizado. Crear una base de datos es hacer algo parecido con datos, con pequeñas
unidades de información: decido sobre un orden, una manera en la que quiero clasificar y organizar la
información, y luego coloco todo en su sitio. Y me tomo ese trabajo porque a largo plazo pienso que me
será útil.
Una base de datos siempre se articula en dos niveles de estructura que se llaman fichas (“records” en
inglés) y campos (“fields”). Para ilustrar cómo se usan, supongamos un pequeño diccionario que vamos a
estructurar y convertir en una base de datos. Antes de empezar lo que tenemos es un libro o un
documento en Word que empieza de esta manera:
* El SIL International (http://www.sil.org/) es una organización que estudia y documenta lenguas “pequeñas” en diferentes partes
del mundo. SIL ha desarrollado un buen número de programas de software de gran utilidad para los que como yo trabajamos en el
campo de lenguas con pocos recursos (por ejemplo Lexique Pro es otro de sus productos). Quiero aclarar que no trabajo con el SIL
ni estoy afiliado con él en ningún sentido en absoluto. SIL es una organización estadounidense que se dedica a la traducción de la
Biblia cristiana a muchos idiomas, pero en este aspecto tampoco tengo ninguna conexión con SIL excepto que me gustan sus
programas informáticos. Dicho sea de paso que Ne Bibliaj Tik Nawat tampoco es un proyecto de SIL ni tiene el apoyo de SIL.
† Una metáfora que se refería al hecho de que antes de tener la posibilidad de tener un PC o portátil para trabajar en cualquier
lugar del mundo, lo típico era que el lingüista de campo apuntara sus notas a mano sobre tarjetitas que guardaba, muchas veces,
en una caja de zapatos vacía.
Page 11
11
achtu adverbio primero
ajkawa verbo dejar
ajsi verbo llegar
ajwiak adjetivo sabroso
aka pronombre alguien
akat sustantivo caña
amat sustantivo papel
amiki verbo tener sed
(etc.)
En la base de datos que haremos, se creará una ficha para cada palabra náhuat. En esta ficha habrá
campos que de modo que en cada tipo de campo va cierto tipo de dato: así habrá un campo para la
palabra náhuat (p.ej. achtu), otro donde se indica la categoría gramatical (p.ej. adverbio), y otro para la
glosa castellana (p.ej. ‘primero’). Los campos llevan etiquetas para identificar su tipo, mientras que en otra
parte del proyecto se colocará una tabla que fija la función que queramos que tenga cada tipo de campo
en una base de datos de este tipo.
En Toolbox, una base de datos es simplemente un archivo de texto en líneas donde cada línea nombra un
tipo de campo seguido de algún dato. Se pone un “\” delante del nombre de campo para identificarlo.
Vamos a hacer que los tres campos en este caso se llamen \lx, \ps y \gn. Una ficha vacía (sin datos) se
vería así:
\lx ………
\ps ………
\gn ………
Cuando hayamos “rellenado” una ficha que corresponda a la primera palabra del diccionario, se verá así:
\lx achtu
\ps adverbio
\gn primero
La siguiente ficha se verá así:
\lx ajkawa
\ps verbo
\gn dejar
Y así sucesivamente. La base de datos es simplemente el conjunto de todas las fichas (en este caso, una
para cada entrada en nuestro léxico), todo en un archivo de texto que tendrá este aspecto:
\lx achtu
\ps adverbio
\gn primero
\lx ajkawa
\ps verbo
\gn dejar
…
Esto es muy sencillo pero funcional. Tiene la misma información que teníamos antes (en el diccionario)
pero ahora podemos decir que está estructurada.
Lo que se llama un proyecto de Toolbox es un conjunto de bases de datos como esta. Volvamos a pensar
por un momento en mi habitación de hotel. Esto es como decir que se pueden poner varios armarios en la
Page 12
12
habitación. Estos armarios podrían ser todos iguales (del mismo tipo) o todos diferentes (de distintos
tipos). No necesariamente contienen el mismo tipo de cosas ni tampoco tienen que estar “estructurados”
de la misma forma. Las bases de datos en un proyecto Toolbox son así, pero también tienen otra
característica sumamente importante: se pueden establecer muchos tipos de relaciones entre las
diferentes bases de datos que lo constituyen.
He aquí un ejemplo de lo que esto significa: podemos tener diez (¡o cien!) léxicos diferentes metidos en
un proyecto (cada uno en su propio archivo, su propia base de datos), y luego pedir que Toolbox busque
tal o cual palabra en todos estos léxicos al mismo tiempo. El efecto de esto es comparable a cómo sería si
tuviéramos diez diccionarios sobre una gran mesa donde estaban sentados diez asistentes, uno delante de
cada diccionario, y con una sola orden, todos abrieran sus respectivos diccionarios y buscaran la misma
palabra. Ya que los diccionarios son diferentes, podemos tener hasta diez respuesta distintas, aunque es
posible que no todos los diccionarios tuvieran la palabra que queremos buscar. Los asistentes pasarán por
la mesa diciendo cada uno qué ha encontrado en su diccionario; si alguien no encontró la palabra, no dice
nada y es el turno del siguiente.
Vamos a pedirle a Toolbox que busque ajwiak, por ejemplo, en todos sus diccionarios. En seguida
veremos algo como esto:
Palabra encontrada Glosa española Léxico
ajwiak delicioso NawatLex
ajwiak sabroso Campbell
ajwiak sabroso LBN
NawatLex, Campbell y LBN son nombres de tres de los diez léxicos que supuestamente están presentes en
nuestro proyecto.*
Pero suponiendo que sólo queremos consultar uno de ellas, el diccionario de Campbell por ejemplo,
daremos la orden así y esta vez la respuesta será:
Palabra encontrada Glosa española Léxico
ajwiak sabroso Campbell
También podemos buscar no una palabra concreta sino palabras que cumplan cierta condición. En el
próximo ejemplo, imaginamos que queremos ver cuáles palabras en el diccionario de Campbell terminan
en -miki: aquí vemos, a la izquierda, una representación de una “hoja de pedido”; a la derecha está el
resultado que Toolbox nos dará:
Petición de búsqueda Resultado
Búsqueda de concordancia
Corpus: Campbell Dic
Buscar: miki
Emparejar:
medio
principio
fin
palabra entera
Palabras encontradas:
amiki
elnamiki
ijyumiki
ishtemiki
mijmiki
miki
namiki
sekmiki
tatennamiki
* NAWATLEX es el nombre que di a un proyecto inicial, a partir de mi primer año en El Salvador, para desarrollar una base de datos
(de un tipo más clásico, creado con la aplicación Access de Microsoft Office) que abarcara la suma de información que se
encuentra en los diferentes léxicos de náhuat. Lo que se logró hacer de este proyecto era poco más que un prototipo, aunque la
información que se metió, todavía incompleta, era válida. Para no echar a perder el trabajo hecho, al adoptar el plan que aquí se
esboza, convertí el contenido entero de NAWATLEX a una base de datos tipo Toolbox donde consta como uno de los múltiples
léxicos disponibles.
Page 13
13
temiki
tennamiki
tunalmiki
walnamiki
yulmiki
Pero una base de datos en Toolbox no necesita ser un léxico. Ya dije que se pueden definir diferentes
tipos de bases. Un texto de nuestro corpus también puede configurarse como un tipo de base de datos.
Obviamente este tipo no tendrá la misma estructura interna, sus campos serán otros, no los de un léxico.
(El armario no tiene el mismo tipo de gavetas.)
En una base de datos tipo texto, lo que hacemos es meter cada oración en un campo de un tipo que
llamaremos \tx. Al realizar una búsqueda de una palabra cualquiera en textos, el resultado se parecerá a
lo que conseguimos con un concordanciador. Tomando como ejemplo las primeras líneas del texto de
Schultze Jena, comparemos cómo las mismas líneas de texto se deben formatear en ambos sistemas, el
que usábamos en Corpus 1.0 y el nuevo en Toolbox:
(a) Formato Corpus 1.0:
TEXTO 1. EN LA MILPA Y EN EL FRIJOLAR
Ashkan ajwituk ne tal iwan tutunik. Inte waktuk. Ika tiu-tiktait pal tiktukat ne tunalmil.
"Shikashiti nawpual taria. Shiktamuta ne tasul ipal tikcha arar ipal tiktuka ne tawial ne tunalmil."
Ashkan tiu-tiktait pal tiktukat et.
"Shikashiti nawpual taria. Musta tiktuka isel et."
Ashkan shini ne at.
Musta inte kima' ne at, inte wetzi ne at. Kichiwa yek tunal.
Keman panutuk yey metzti waktuka ne tunalmil. (etc.)
(b) Nuevo sistema (como base de datos):
\ref NPT01_01.001
\tx Ashkan ajwituk ne tal iwan tutunik.
\ref NPT01_01.002
\tx Inte waktuk.
\ref NPT01_01.003
\tx Ika, tiu-tiktait pal tiktukat ne tunalmil.
\ref NPT01_01.004
\tx - Shikashiti nawpual taria.
\ref NPT01_01.005
\tx Shiktamuta ne tasul ipal tikcha arar ipal tiktuka ne tawial ne tunalmil.
\ref NPT01_01.006
\tx Ashkan tiu-tiktait pal tiktukat et.
\ref NPT01_01.007
\tx - Shikashiti nawpual taria.
\ref NPT01_01.008
\tx Musta tiktuka isel et.
\ref NPT01_01.009
\tx Ashkan shini ne at.
\ref NPT01_01.010
\tx Musta inte kimaka ne at.
\ref NPT01_01.011
\tx Inte wetzi ne at.
\ref NPT01_01.012
\tx Kichiwa yek tunal.
\ref NPT01_01.013
\tx Keman panutuk yey metzti waktuka ne tunalmil. (etc.)
Page 14
14
En este tipo de archivo en la versión Toolbox, vemos dos tipos de campo, los campos \ref y los campos
\tx.* Cada campo \tx contiene una oración. Cada campo \ref contiene una referencia para facilitar la
identificación de la siguiente oración.
La estructura que estoy describiendo permite combinar en un solo sistema dos conjuntos de datos que
antes se mantenían separados: textos por un lado y léxicos por otro. De este “matrimonio” entre los
textos y los léxicos del náhuat nació nuestro sistema combinado actual, al que había que poner un nuevo
nombre. Así nació NAWACOLEX (Nawat Corpus + Léxicos).
Corpus Léxicos NAWACOLEX
Conjunto de textos
en náhuat + Conjunto de vocabularios
del náhuat = Sistema integrado compuesto de todos los textos
del corpus con todos los léxicos
El resultante sistema, NAWACOLEX, combina bases de datos de dos tipos principales (el tipo “texto” y el tipo
“léxico”) en un solo envoltorio homologado. En cada uno de estos tipos, la categoría de base (de datos), la
de ficha y la de campo tienen su aplicación particular:
Sistema: Tipos de base de datos:
Unidad de la
“base”/archivo:
Contenido de cada
“ficha”:
Aplicación más destacada
de “campo”:
NAWACOLEX TEXTOS: Documento sección de texto oración (\tx)
LÉXICOS: Vocabulario entrada palabra (\lx)
Ahora llegamos a la parte divertida donde vemos qué se puede hacer con todo esto. Volvamos a donde
estábamos cuando pedíamos información simultánea de todos los léxicos para la palabra ajwiak.
Teníamos una lista de diccionarios donde se encontraron ese dato. Esta lista funciona como un menú.
Seleccionando un elemento, se abrirá la ficha correspondiente de un diccionario (un léxico) para que
veamos su información completa. Por ejemplo, vamos a seleccionar la entrada del léxico de Campbell:
Palabra encontrada Glosa española Léxico
ajwiak delicioso NawatLex
ajwiak sabroso Campbell
ajwiak sabroso LBN
Esto nos abrirá la ficha de ajwiak en un léxico llamado Campbell, y esto es lo que veremos allí (lo puesto
entre [corchetes] no aparece en la ficha real, lo pongo aquí para aclarar el significado de algunas cosas):
[Campo] [Información]
Lexema ajwiak
Dialecto Q [= Cuisnahuat]
Fuente LCD [= Diccionario de Lyle Campbell]
Forma en el léxico fuente ahwiyak [grafía de la obra original]
Glosa en español sabroso
Glosa en inglés delicious
Forma del plural ahahwiyak
Comentario etimológico CN a?wiyak (Car.) cosa suave, olorosa, y gustosa
Dialecto W [= Santo Domingo de Guzmán]
Fuente LCD
Forma en el léxico fuente ahwiyak
Y si en vez del léxico de Campbell hubiéramos seleccionado el LBN:
* A diferencia de una base de datos clásico, en Toolbox no hay restricciones sobre el número de campos o su orden dentro de una
ficha cualquiera, y puede haber varias instancias de campos del mismo tipo, como aquí.
Page 15
15
Palabra encontrada Glosa española Léxico
ajwiak delicioso NawatLex
ajwiak sabroso Campbell
ajwiak sabroso LBN
veríamos esta otra ficha:
[Campo] [Información]
Lexema ajwiak
Categoría gramatical adjetivo
Glosa en español sabroso
Glosa en español rico
Glosa en español bueno
Glosa en inglés tasty
Glosa en inglés delicious
Ejemplo Ne chil ajwiak
Traducción de ejemplo El chile es sabroso
Ejemplo ajwiak takwal
Traducción de ejemplo comida deliciosa
Ejemplo Mumati ajwiak
Traducción de ejemplo Sabe bien
Ejemplo Ajwiak nemi ne elut
Traducción de ejemplo Está rico el elote
Ejemplo ajajwiak yayu
Traducción de ejemplo ricas salsas
Etiqueta paradigmática plural
Forma paradigmática ajajwiak
Categoría gramatical verbo transitivo defectuoso
Glosa en español gustar
Glosa en inglés like
Ejemplo Ne atul nechajwiak
Traducción de ejemplo Me gusta el atol
Fecha [de la última modificación a la ficha] 01/Jan/2008
Esos son léxicos; ahora miremos textos. Comparemos el procedimiento para buscar ajwiak en los léxicos
(a la izquierda) y en el corpus de textos (a la derecha):
Buscar ajwiak en los léxicos de NAWACOLEX: Buscar ajwiak en los textos de NAWACOLEX:
Búsqueda de concordancia
Corpus: Diccionarios
Buscar: ajwiak
Emparejar:
medio
principio
fin
palabra entera
Búsqueda de concordancia
Corpus: Textos en náhuat
Buscar: ajwiak
Emparejar:
medio
principio
fin
palabra entera
¡No hay mucha diferencia! La única diferencia aparente está en dónde se pida a Toolbox que busque:
entre los diccionarios o entre los textos.* Estos “corpus” que aparecen en los diálogos, “Diccionarios” y
“Textos en náhuat”, han sido definidos por el usuario previamente, especificando una serie de parámetros
para cada “corpus” que incluyen una lista de los archivos que deben entrar en las búsquedas sobre dichos
* Toolbox llama “corpus” a ambos. Esto es estrictamente correcto, ya que un vocabulario también puede considerarse un corpus
en el sentido genérico de “cuerpo de datos”, pero nosotros estamos empleando la palabra en un sentido más estrecho de “cuerpo
de textos”.
Page 16
16
“corpus”. La siguiente captura de pantalla muestra el resultado obtenido de esta búsqueda concreta en el
corpus de textos en náhuat:
La regla de Toolbox de que toda la información se organiza en bases de datos es aplicable incluso a una
tabla como esta generada por el programa como resultado de una concordancia pedida. Tiene cuatro
campos llamados “Reference”, “Before”, “Target” y “After” (referencia, antes, palabra clave, después).
Cada línea representa una ficha completa, con sus cuatro campos, uno en cada columna. El campo
“Referencia” da el identificador de la oración en el corpus, indicando dónde se encontró una ocurrencia de
la palabra buscada. Un clic del botón secundario del ratón sobre uno de estos indicadores abrirá la ficha
donde se encuentra la sección de texto donde ocurre el ejemplo, es decir, el contexto completo de la
ocurrencia. El tercer campo, llamado “Target”, muestra la palabra que fue encontrada (aquí ajwiak,
naturalmente), mientras que los dos campos restantes dan el resto de la oración. En la barra de estado en
la parte de abajo de la pantalla, el código después de “\concref” repite el identificador de la oración
seleccionada de la lista. “5/22” es para decirnos que hay 22 ocurrencias de ajwiak en este corpus y que
el ejemplos seleccionado es el quinto en la lista.
Haciendo clic con el botón secundario en cualquier palabra que aparezca en cualquiera de sus bases de
datos, incluso las concordancias como esta, se abre una lista de entradas en los léxicos para la palabra en
cuestión. Por ejemplo, un clic sobre michin (que aparece después de ajwiak en la quinta línea), hará
que se visualice esto:
Palabra encontrada Glosa española Léxico
michin pescado Campbell
michin pez LBN
michin pez NawatLex
michin wordlist.db
En la terminología de Toolbox, lo que hemos hecho se llama saltar (de una base de datos a otra). Es un
“truco” con unos usos muy interesantes que agilizan la investigación. Un salto se realiza cuando, siguiendo
un conjunto de instrucciones (llamados caminos de salto, “jump paths”) configuradas por el usuario, al
“pinchar” un elemento cualquiera en un contexto determinado, esto provoca la visualización de cierto dato
que se halle en alguna de las bases de datos que forman parte de nuestro proyecto. Aquí Toolbox sigue
un “camino de salto” que dice que cuando pinchamos una palabra en una línea de una concordancia
(KWIC), si la palabra pinchada se halla en uno de nuestros léxicos se nos muestre su ficha. Sin embargo,
Toolbox encontró más de una posible “respuesta” porque michin está en varios léxicos, y reacciona
Page 17
17
preguntando cuál de ellas nos gustaría ver: de ahí la lista. Es un mecanismo muy poderoso que tiene
muchísimas aplicaciones, cuyo efecto es vincular o “encadenar” unos datos con otros formando finalmente
una red integrada de información.
No me he propuesto dar cuenta de todas las posibilidades que ofrece este modo de dar estructura a
nuestro corpus. Sólo he descrito algunos aspectos, para empezar a dar una idea del tipo de ventajas que
trae, y así justificar la decisión de crear NAWACOLEX en preferencia a seguir con un corpus sencillo,
convencional.
¿Por qué importa la elección de uno u otro “contenedor” para el corpus del náhuat? ¿Tanta importancia
tiene en qué formato tengamos estos datos y en qué sistema y entorno los almacenemos y los
manipulemos? ¿Merece la pena emplear nuestro tiempo en buscar el formato más adecuado y útil para el
corpus?
¿Cuál es el objetivo? Si sólo quisiéramos “documentar” la lengua, de manera que quede constancia de ella
en una biblioteca u archivo, una enciclopedia o, como suele decir Genaro Ramírez, “tras el vidrio en un
museo”, quizás no importaría tanto. Ahora bien: nosotros queremos documentar la lengua, sí, pero no
sólo para eso, sino como un paso en el proceso de su recuperación. Queremos documentar el náhuat para
conocerlo; conocerlo para hablarlo, y para usarlo, darle vida y recuperarlo, y finalmente, para crear
nuevos textos en él. Estas sí que son cosas importantes. Para lograrlas, el corpus y los léxicos son
nuestras fuentes principales y nuestros recursos primarios más importantes en lo que a documentación se
refiere. El corpus es un recurso finito, limitado; quisiéramos tener más información, pero esta es todo lo
que tenemos. En el corpus conservamos las voces y las palabras de los nahuahablantes de ayer y hoy; ahí
se resume el legado que llegó hasta nosotros, es el testimonio de su lengua y de sus formas de expresión,
testimonio que sobrevivió los estragos del tiempo y de la persecución. Mientras no se vuelva a activar la
cadena rota de transmisión oral espontánea de la lengua, de madre y padre a hija e hijo como ikman
panutuk, en los viejos tiempos, el corpus será lo que queda del recuerdo de lo que dijeron los
antepasados en sus propias palabras, en su idioma, con sus voces.
Si eso es todo lo que hay, si no podemos aumentar el material, volver atrás en el tiempo y pedir y abuelas
y abuelos que vuelvan a abrir la boca para contarnos más cosas, pues tendremos que aprovechar bien el
material que tenemos, el corpus que se ha salvado del olvido, sin desperdiciar ninguna opción para
aprender lo que se pueda de ese material, estudiarlo, conocerlo y apreciarlo. Si la tecnología sirve para
aumentar la capacidad para saber con claridad lo que está en ese “almacén de datos”, si nos ayuda a
tener una información más exacta sobre su contenido, quiere decir que esa tecnología es útil para la
reconstrucción del náhuat y para la recuperación del náhuat.
§11. INCONVENIENTES DE NAWACOLEX Como cualquier solución, la adopción del “plan” de NAWACOLEX admite argumentos en pro y en contra. En
la última sección se presentaron los pros; ahora diré algo sobre los posibles inconvenientes de esta
propuesta, aunque sólo sea para que consten. Aquí tocaré tres temas: (1) el esfuerzo que supone la
preparación de textos del corpus para poder integrarlos en NAWACOLEX; (2) dificultades para usarlo y
compartirlo (problemas del interfaz con el usuario y de su “portabilidad”); y (3) el futuro incierto de
software en el que se apoya este sistema.
Si lo que se busca es sencillez y la posibilidad de una implementación prácticamente inmediata, la opción
más sencilla de Corpus 1.0 lleva la ventaja. Para integrar textos en NAWACOLEX, tienen que ser preparados
o adaptados a sus requerimientos: los textos sencillos deben ser convertidos en bases de datos según las
normas sintácticas de Toolbox y configurarse en fichas y campos de acuerdo con las especificaciones
estructurales de NAWACOLEX. No es tan complicado realizar los cambios necesarios porque el propio
paquete de Toolbox contiene funciones cuyo propósito es precisamente facilitar esta operación. Gran parte
del proceso se realiza automáticamente; no hay necesidad de andar línea por línea metiendo los campos,
identificadores, divisiones de oraciones etc. etc.; sólo necesitamos gestionar este proceso, normalmente
dando las órdenes necesarias a Toolbox.
Page 18
18
Cuando se puso en manos del público el Léxico de Náhuat Básico el mes pasado, incorporado en un
programa de software llamado Lexique Pro*, no se facilitaron instrucciones para su uso, porque no era
necesario. Una persona mínimamente acostumbrada a usar aplicaciones en Windows puede adivinar por sí
solo cómo usarlo: es un sistema muy user-friendly (de fácil manejo). En cambio, Toolbox, es una
herramienta especializada: su manejo, aunque no es excesivamente difícil, no se puede llamar “obvio”
para un usuario nuevo sin estudiar un manual o recibir una tutoría que llevará un poco de tiempo. La caja
de herramientas de un carpintero profesional puesta en manos de una persona novata, sin un proceso de
aprendizaje y un período de práctica, no garantizará un buen trabajo. Hasta un sencillo concordanciador
requiere un poco de aprendizaje y práctica para sacarle todo el provecho, sobre todo de alguien que
nunca haya usado uno, pero esto es más complicado que un simple concordanciador. Toolbox no está
diseñado para solucionar el problema de compartir con un amplio público un corpus creado para investigar
la lengua, sino para facilitar la labor de profesionales. Esto no quiere decir que el corpus no se pueda
compartir, pero si se quisiera compartir ampliamente el material podría ser mejor encontrar un medio más
idóneo para ese fin.
Por último, todas las aplicaciones de nuestros tiempos tienen cierta tendencia hacia la caducidad, debido a
la evolución de la tecnología y la constante actualización y renovación de los requerimientos de sus
sistemas operativos y normas de operación. En algún momento los productos tienden a quedarse atrás o
se retira el soporte necesario y sus días ya son contados, porque empiezan a surgir problemitas en su uso
o simplemente dejan de funcionar. Ya está anunciado que SIL no va a seguir siempre dando su apoyo a
Toolbox aunque, por ahora, el foro de soporte técnico sigue respondiendo bien a las consultas y el
software continua siendo plenamente funcional, pero parece que ya no está siendo activamente
promocionado y que en el futuro SIL va a favorecer otro rumbo. Llegará el día cuando estaremos
obligados a cambiar de plataforma, pero propongo que crucemos ese puente cuando lleguemos a él.
§12. PRESENTE Y FUTURO DEL CORPUS DE NÁHUAT En resumen, los documentos incluidos en la primera versión consolidada de nuestro corpus (Corpus 1.0)
son: los textos en náhuat de las publicaciones de Schultze Jena, Próspero Aráuz y Lyle Campbell, y una
miscelánea de textos menores (incluyendo cartillas). Todos aportan datos pero algunos más que otros, y
algunos datos son, en última instancia, de más utilidad y fiabilidad que otros, pero se llega a esa
conclusión a posteriori, después de mirar los materiales, no a priori. La preparación de estos textos que se
necesita para su explotación con los concordanciadores “sencillos” que se utilizaron con el Corpus 1.0
supone su digitación, traslado a un medio electrónico y transcripción a una ortografía común.
La segunda fase en la evolución del corpus comenzó con la “migración” a un entorno estructurado
acomodado dentro de un proyecto desarrollado usando la aplicación Field Linguist’s Toolbox (de SIL), fase
que se caracteriza por la integración del corpus textual y los léxicos del náhuat en un solo sistema
integrado, donde todos los datos estén representados en bases de datos. Se llama NAWACOLEX. Esta
manera de disponer y manejar todos estos materiales ofrece ventajas interesantes que se describieron, de
forma resumida al menos, en la sección §10.
Dadas nuestras circunstanciales y el hecho de que todavía funciona Corpus 1.0 con la aplicación de
cosecha propia TAC, no ha sido práctico hasta la fecha interrumpir o aplazar otros quehaceres para
priorizar una rápida y plena implementación del nuevo modelo para la totalidad del corpus. Por ahora el
corpus de NAWACOLEX abarca tan sólo algunos de nuestros textos, incluyendo los más importantes de
todos, que son principalmente el consabido corpus de Schultze Jena por un lado, y por otro lado los textos
de las entrevistas entre nahuahablantes nativos grabadas en la década pasada por IRIN que hayan sido
transcritas.
* Lexique Pro, como Toolbox, es un producto de SIL, y está integrado con él, de modo que Lexique Pro es capaz de generar un
diccionario de un léxico en Toolbox de forma más o menos automática. Ciertamente esto le da al uso de Toolbox, como ocurre en
NAWACOLEX, para desarrollar o almacenar léxicos un valor añadido. Lexique Pro se distribuye gratuitamente, igual que Toolbox.
Page 19
19
El corpus de transcripciones de IRIN es uno de los frutos de un proyecto de documentación del náhuat
que ofrece la posibilidad de ensanchar los conocimientos del idioma observando cómo lo usan los
hablantes nativos de hoy. Cada entrevista grabada dura entre media hora y una hora, y como se ha dicho,
hasta la fecha se han transcrito ocho de ellas, lo que significa varias horas de conversación espontánea.
Este material no tuvo que re-codificarse a partir de Corpus 1.0, porque se ha producido después de la
configuración de éste, cuando ya estábamos dentro de la era de NAWACOLEX, por lo que las transcripciones
originales se formatearon desde el principio de acuerdo con sus características.
La transcripción de las grabaciones de IRIN es un trabajo arduo y lento que sólo puede ser hecho
correctamente por personas que posean los necesarios conocimientos y preparación. Ahorita no hay
transcripciones en marcha, pero de aquí a unos años convendría seguir con esta tarea, lo cual aumentará
el tamaño de este componente del corpus con materiales completamente inéditos y nuevos. Lo hecho
hasta ahora, con ocho entrevistas transcritas, es un comienzo y una muestra de lo que se podrá
conseguir, la cual confirma la gran importancia del proyecto realizado por IRIN y la enorme aportación que
representa para la recuperación del náhuat.*
No parece muy probable que salgan a la luz muchos más textos “antiguos” en náhuat inéditos y de
importancia. Tenemos noticias de algunas personas que se han esforzado, y lo siguen haciendo, para
recopilar cualquier cosita que quede por allí, y algunos documentos, la mayoría menores, han aparecido.
Estos esfuerzos son de agradecer, por supuesto. Una de esas personas es Jan Morrow, quien ha hecho
algunos hallazgos de valor.
Si el movimiento de recuperación del náhuat continúa como esperamos, esto no será el fin de la historia
del corpus del náhuat. El corpus del náhuat no quedará estanco, no se convertirá en un “libro cerrado”,
sino que continuará expandiéndose mientras el náhuat siga vivo y creciendo. Mientras la lengua viva, no
habrá razones para excluir los textos nuevos producidos por las nuevas generaciones, que también
pasarán a formar parte, juntos con los textos que ya poseemos, del futuro corpus.
Cada vez que usamos el náhuat, crece un poco su corpus, al menos en el primer sub-sentido al que aludía
en el principio de este documento. Cualquier frase en náhuat que se coloque en Facebook, o se envíe por
Twitter, o se escriba en un chat, pasa a formar una parte real del corpus del idioma. Incluso puede acabar
en un corpus del segundo tipo, ya que en todo el mundo hay lingüistas hoy día que se dedican a recoger y
estudiar secuencias de discurso en medios efímeros, que si antaño incluían las cartas personales y la
prensa, hoy día cada vez más quiere decir los medios electrónicos y sobre todo los sociales, que cada vez
más son tomados en consideración por la comunidad científica.
El caso es que donde hay una lengua viva, hay un corpus en constante renovación. ¡Esperemos pues que
el corpus del náhuat siga creciendo mucho!
* Aprovecho la oportunidad para agradecerle a Lyle Campbell el apoyo que ha dado a este programa de documentación, sin el cual
tampoco habría sido posible.