Trabajo terminológico basado en corpus: caso práctico de terminología del ajedrez Tapani Sammalvuo Trabajo de fin de máster Departamento de Español Traducción del Español Instituto de Lenguas y Traducción Facultad de Humanidades UNIVERSIDAD DE TURKU Noviembre de 2016
81
Embed
caso práctico de terminología del ajedrez - UTUPub
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Trabajo terminológico basado en corpus: caso práctico
de terminología del ajedrez
Tapani Sammalvuo
Trabajo de fin de máster
Departamento de Español
Traducción del Español
Instituto de Lenguas y Traducción
Facultad de Humanidades
UNIVERSIDAD DE TURKU
Noviembre de 2016
Turun yliopiston laatujärjestelmän mukaisesti tämän julkaisun alkuperäisyys on
Apéndice 1: Lista de palabras vacías ....................................................................................... 75
Apéndice 2: Lista de las 100 palabras más frecuentes del CREA ........................................... 75
Apéndice 3: Lista de las palabras más comunes originadas de la notación ajedrecística ........ 76
Apéndice 4: Suomenkielinen lyhennelmä ................................................................................ 76
5
INTRODUCCIÓN
El desarrollo constante de la tecnología de la información en todas sus manifestaciones
ha tenido una profunda influencia en nuestro mundo. Asimismo, ha abierto nuevas
posibilidades a los lingüistas y en el presente trabajo presentaré una propuesta parcialmente
novedosa para encontrar términos candidatos en trabajo terminológico basado en corpus, que
aprovecha algunas de estas nuevas oportunidades y puede resultar útil para terminólogos
individuales o grupos de terminólogos con recursos limitados. Dicha propuesta se fundamenta
en construir un corpus electrónico de fuentes en papel de manera rápida, compensando los
problemas de la calidad del proceso reconocimiento óptico de caracteres con la cantidad de
los textos en el corpus, es decir, evitando el laborioso trabajo manual de corregir los errores
en el reconocimiento.
Divido el estudio en dos partes principales, la parte teórica y la parte empírica. En la
parte teórica presentaré el estado de las teorías de la Lingüística de corpus y de la
Terminología, en cuanto correspondan a las fases de la parte empírica. En la parte empírica
procuraré demostrar la validez del método a través de un caso práctico de terminología del
ajedrez. Para este fin construiré un corpus electrónico de textos de ajedrez en español y
después de manipular el corpus con las herramientas adecuadas, evaluaré los 200 primeros
términos candidatos según la frecuencia obtenidos como resultado de este proceso, y elegiré
100 primeros términos del ajedrez de ellos. Finalmente, los analizaré con los métodos
terminológicos clásicos.
Elegí la Terminología del ajedrez para el área especializada del caso práctico por dos
motivos: es un campo muy poco estudiado y, puedo servir como un experto en analizar los
términos candidatos. A pesar de numerosas búsquedas en las bibliotecas y en la internet,
además de consultas personales con expertos del ajedrez, he llegado a conocer solo un trabajo
académico anterior1, el cual trata la terminología y lenguaje del ajedrez en alemán. Según mi
saber y búsquedas en las universidades de España, Helsinki y Turku, entre otros, no existen
trabajos académicos sobre la Terminología del ajedrez en español. Yo mismo sirvo como
1 Äijälä, Jouko. 1980. Zur Terminologie und Sprache des Schachspiels im Deutschen. Universidad de Helsinki,
Trabajo de fin de máster [inédita].
6
experto justificándolo con el hecho de que soy Maestro Internacional de ajedrez2 y tengo
mucha experiencia en leer y escribir sobre el ajedrez.
Para que este trabajo resulte lo más útil posible para los lectores que quieren efectuar
sus propios trabajos terminográficos, he indicado todos los programas que he usado (aunque
cabe notar que no son los únicos que existen en absoluto) y he descrito todas las fases
prácticas en cierto detalle.
El presente trabajo es continuación a mi trabajo de fin de grado3 sobre el mismo tema,
pero con la diferencia que el énfasis se ha movido hacia el análisis de los términos.
1. LINGÜÍSTICA DE CORPUS Y TERMINOLOGÍA
Bajo este epígrafe presento brevemente las disciplinas que forman el marco teórico
para mi investigación, la Lingüística de corpus y la Terminología.
1.1. LINGÜÍSTICA DE CORPUS
La Lingüística de corpus (o CL; la sigla viene del nombre en inglés, Corpus
Linguistics) tiene una historia sorprendentemente larga: los primeros trabajos de corpus se
realizaron ya en el siglo XIII. De ellos, el mejor documentado es el trabajo de Hugo de Saint-
Cher, quien en 1230, auxiliado por un equipo de 500 monjes dominicanos, recogió ‘un índice
de palabras’ de la Biblia. (McCarthy y O’Keeffe, 2010: 3) Sin embargo, el trabajo de corpus
seguía siendo muy lento y laborioso hasta los años 1980 y 1990, cuando el desarrollo del
hardware y el software posibilitó el manejo rápido y efectivo de material de corpus en formato
digital. Además, el crecimiento de la internet, con sus trillones de palabras, ha ofrecido a los
investigadores una fuente virtualmente ilimitada de fenómenos lingüísticos, alcanzable con un
2 Maestro Internacional (MI) es el título segundo más alto otorgado por la Federación Internacional de Ajedrez.
FIDE. 2015. «FIDE Title Regulations effective from 1 July 2014», en FIDE Handbook. Lausanne: FIDE,
http://www.fide.com/component/handbook/?id=174&view=article, consultado el 31.10.2016. 3 Sammalvuo, Tapani. 2013. El proceso OCR en el trabajo terminológico basado en corpus: caso práctico de
terminología del ajedrez. Turku: Universidad de Turku, puede descargarse en
solo clic de ratón. (op. cit., 5) Hoy en día, el uso la internet para propósitos de la CL es
probablemente el área más actual para toda la disciplina4.
A pesar de lo anteriormente dicho, en los casos de campos muy especializados, o con
materiales con derechos de autor reservados, la internet no sirve de fuente exclusiva para
construir un corpus representativo, y los investigadores han de convertir fuentes en papel a
textos electrónicos. Hay dos maneras de hacerlo: por tecleo (la transcripción manual de
textos), o por escaneo y reconocimiento óptico de caracteres (OCR5). Como el tecleo consume
mucho tiempo, los investigadores en su mayoría recurren a la segunda opción.
1.1.1. Escaneo y OCR
El escaneo es un proceso técnico bien conocido, incluso por las personas legas, y por
este motivo no trataré este tema detalladamente en este trabajo. Será suficiente entender que
las imágenes escaneadas en efecto son meros conjuntos de píxeles6 para la computadora.
Los programas OCR a su vez utilizan un conjunto de algoritmos complicados para
reconocer texto de las imágenes de pixeles. Los pasos generales en el proceso OCR son7:
1. Detección de las características más importantes de la imagen, como la resolución y la
posible inversión.
2. Enderezamiento de la imagen y eliminación del ruido, cuando sea necesario.
3. Binarización, es decir, conversión monocromática de la imagen, cuando sea necesario.
4. Detección y eliminación de las líneas y análisis del diseño de la imagen
5. Detección de las líneas de texto y palabras. Es a veces una tarea complicada debido a
diversos tamaños de fuente y pequeños espacios entre las palabras.
6. Análisis de caracteres descompuestos y combinados. Es una situación muy común que
algunos caracteres se han descompuesto en varias partes, o que algunos caracteres se
tocan uno al otro. Es necesario detectar estos casos y encontrar la posición correcta
para cada carácter. Un ejemplo de caracteres descompuestos vemos en la imagen 1, en
4 Para más información sobre este tema, véase Hundt, M., N. Nesselhauf y C. Biewer (eds.). 2007. Corpus
Linguistics and the Web. Amsterdam/New York: Radopi. 5 La sigla viene del nombre en inglés, Optical Character Recognition. 6 DRAE define píxel como “superficie homogénea más pequeña de las que componen una imagen, que se define
por su brillo y color”. (DRAE, s. v. píxel) 7 Nicomsoft Ltd. 2013. Optical Character Recognition (OCR) – How it works.
https://www.nicomsoft.com/optical-character-recognition-ocr-how-it-works/, consultado el 15.11.2016.
son con frecuencia términos candidatos. Sin embargo, en el presente caso las estadísticas no
11 [Palabra vacía es una palabra] que tiene un significado que relaciona unas palabras con otras en una oración,
como las preposiciones, las conjunciones, los artículos y los pronombres. Sensagent. 2016. Diccionario
sensagent, s. v. palabra, http://diccionario.sensagent.com/palabra/es-es/, consultado el 31.10.2016. 12 Lema es la forma que por convención se acepta como representante de todas las formas flexionadas de una
misma palabra. Benotti, Luciana. Lematización. Dale Aceptar,
http://www.daleaceptar.gob.ar/media/cms_page_media/1148/resumen_lematizacion.pdf, consultado el
son completamente confiables debido a los errores en el OCR, y como consecuencia no puedo
utilizar este método como tal. En su lugar, añadiré 9913 de las primeras 100 palabras de la lista
de frecuencias del CREA a la lista de exclusión, después de haber verificado que no contenga
palabras que estimo probables elementos de términos compuestos. Llegué al número de 100
palabras porque fue todavía un número manejable de verificar si contenían palabras que
pudieran servir como términos candidatos. Según mi saber, este es un método novedoso.
1.2. TERMINOLOGÍA
Antes de abarcar este epígrafe es preciso definir algunos términos más fundamentales
para la disciplina de la Terminología para entender mejor lo que sigue.
concepto
idea del referente formada por el pensamiento14 (Tekniikan Sanastokeskus, 1988: 25)
definición
descripción lingüística del concepto (ibíd.)
referente
ser u objeto de la realidad extralingüística a los que remite el signo (DRAE, s. v. referente)
término
representación lingüística del concepto, a la cual se ha llegado de común acuerdo (Tekniikan
Sanastokeskus, 1988: 25)
Además, como afirma Haarala (1981: 15), la propiedad más importante de un término
es que pertenezca en un lenguaje especializado. Oster hace la lógica e importante distinción
entre término y palabra, exponiendo:
Es en una situación de comunicación especializada cuando las denominaciones que hacen referencia a
dichos conceptos se convierten en términos, puesto que se activan sus rasgos especializados (Cabré,
13 La excepción es la palabra ’tiempo’, la cual es también un término del ajedrez. 14 Todas las traducciones de las definiciones de este libro son mías.
12
1999). Si esto es así, para reconocer que una unidad léxica está utilizada como término, será necesario
tener conocimientos especializados suficientes.15
En consecuencia, al juzgar si un término candidato es un término en realidad,
procuraré estimar si es comprensible para una persona lega o no.
Cabe hacer notar que la arriba mencionada definición de ‘término’ actualmente no es
aceptada por todos los estudiosos, y que, por ejemplo, Cabré16 afirma que:
Sin embargo, esta posición basada en una concepción exclusivamente etiquetadora de la terminología
no explica la razón por la que todos los términos, incluidos los más abstrusos, pueden ser descritos
formalmente como unidades del léxico tanto fonológicamente como morfológica y sintácticamente, ni
tampoco que determinadas unidades formales pueden explicarse como términos y como palabras.
Este punto de vista de Cabré está ligado a su crítica general sobre las teorías clásicas de la
Terminología (véase el subepígrafe 1.2.1).
1.2.1. Teoría General de la Terminología y sus críticas
La Terminología surgió como una disciplina propiamente dicha en los años 1930,
gracias al trabajo de Eugen Wüster, a quien se le considera el padre de la Terminología. En su
tesis presentó argumentos para sistematizar los métodos del trabajo en la Terminología,
estableció un número de principios para el trabajo terminológico y esbozó los puntos
principales de la metodología en el procesamiento de los datos terminológicos.17 Esa teoría
clásica se la conoce con el nombre de la Teoría General de la Terminología (TGT).
La meta de la Terminología tradicional era asignar un término nuevo para cada
concepto nuevo que apareciera en el lenguaje. Los terminólogos empezaron el proceso de la
15 Oster, Ulrike. 2005. «El traductor técnico y los términos. Una vieja relación vista desde nuevas perspectivas»,
en R. García y M. Luisa (eds.), II AIETI. Actas del II Congreso Internacional de la Asociación Ibérica de
Estudios de Traducción e Interpretación. Madrid, 9-11 de febrero de 2005. Madrid: AIETI, 803,
http://www.aieti.eu/wp-content/uploads/AIETI_2_UO_Traductor.pdf, consultado el 18.11.2016. 16 Cabré, M. Teresa. 2007. «Términos y palabras en los diccionarios». Barcelona: Institut Universitari de
consultado el 26.3.2013 (página no disponible el 15.11.2016). 17 Sageder, Dagmar. 2010. «Terminology today: a science, an art or a practice? Some aspects on Terminology
and its development», en Brno Studies in English, Vol. 36, No. 1, 2010. Brno: Universitas Masarykiana
nomenclatura con el concepto, el cual colocaron en un sistema de conceptos. Sobre esta base
el concepto había sido definido antes de llamarlo “término” (la propuesta onomasiológica). Su
principal enfoque estaba investigar las maneras en las cuales la terminología pudiera hacerse
lo más eficiente e inequívoca posible. Eran defensores de la precisión de los conceptos y de la
univocidad de los términos (ausencia de la sinonimia). Su objetivo era conseguir una
estandarización de la terminología: una herramienta para alcanzar una comunicación
inequívoca y clara, que sería independiente de las diferencias culturales. (op. cit., 3)
Aún hoy en día los métodos wüsterianos siguen estando en amplio uso, p. ej., en los
bancos terminológicos como TEPA de Sanastokeskus TSK18. Sin embargo,
[…] cada vez es mayor el número de especialistas en terminología que manifiestan abiertamente la
insatisfacción que produce seguir sin matices los principios de la teoría general clásica, y han puesto en
relive [sic] que entre la teoría establecida y las aplicaciones que se están llevando a cabo existen
desajustes importantes, y ello por diferentes motivos.19
Por lo arriba dicho, Cabré misma ha desarrollado su propia propuesta de la “Teoría
Comunicativa de la Terminología (TCT)”. Esa propuesta parte del supuesto principal que
“Concebimos la terminología como un campo de conocimiento necesariamente
interdisciplinar que debe integrar aspectos cognitivos, lingüísticos, semióticos y
comunicativos de las unidades terminológicas.”. Originalmente se la denominaba “la Teoría
de las Puertas”, porque:
La finalidad aplicada de recopilación y análisis de las unidades de valor terminológico en un ámbito es
múltiple y abre las puertas a un gran número de aplicaciones. En todas las aplicaciones, se activa la
doble función de los términos: la de representación del conocimiento especializado y la de transferencia
de ese conocimiento y esta doble función se manifiesta y se observa en diferentes grados y en
situaciones también diversas.20
Aunque me parece bien argumentada la postura de Cabré, opino que para mis
propósitos todo esto es innecesariamente complicado y para un sencillo trabajo terminológico
como el presente, es más apropiado seguir las convenciones trazadas por Wüster.
18 La versión en línea de TEPA se encuentra en www.tsk.fi/tepa. 19 Cabré, M. Teresa et. al. 1998. «La terminología hoy: replanteamiento o diversificación». Barcelona: Institut
Universitari de Lingüística Aplicada, Universitat Pompeu Fabra,
https://repositori.upf.edu/bitstream/handle/10230/16737/freixa_terminologia.pdf?sequence=1, consultado el
15.11.2016. 20 Cabré, M. Teresa. 2002. «Terminología y Lingüística: la Teoría de las Puertas». Barcelona: Universidad
Pompeu Fabra, http://elies.rediris.es/elies16/Cabre.html, consultado el 15.11.2016.
como consecuencia no las uso como fuentes en el corpus. Afortunadamente tengo a mi
alcance una gran cantidad de libros y revistas del ajedrez en español escaneados, la mayoría
de los cuales están en el formato PDF23, y estos formarán mi corpus electrónico.
Para confirmar la idoneidad de las fuentes, analizaré el listado de ellas24 según los
criterios de la representatividad y del balance (véase el subepígrafe 2.1.2). Sin embargo, como
las fuentes son de amplitud muy diferentes, usaré para fines estadísticos el número de las
palabras en vez del número de las fuentes, y por este motivo es necesario convertir todas las
fuentes potenciales a textos sin formato ya en esta fase. Igualmente, el número de las palabras
en el corpus servirá para evaluar la suficiencia del tamaño del mismo.
2.1.1. OCR y conversión de las fuentes al texto sin formato
El proceso OCR lo realicé con el programa Adobe Acrobat Pro DC25. El tiempo que
lleva el proceso OCR depende de la calidad y otras propiedades del archivo PDF en cuestión,
además de la eficacia de la computadora. En mi computadora, la velocidad fue típicamente de
40 páginas por minuto. Así, en la práctica es probablemente recomendable dejar que la
computadora haga el OCR de una colección de archivos durante la noche. Tras el OCR,
convertí los archivos PDF procesados a texto sin formato. La conversión la realicé igualmente
con el Adobe Acrobat, y comparado con el OCR, esta fue un proceso bastante rápido.
Resultó que los textos de ajedrez presentaron algunos problemas en el OCR. La
extensión de dichos problemas es revelada a través de la comparación de las imágenes 2 y 3.
Como puede apreciarse en la imagen 2, la calidad del escaneo de la muestra es relativamente
alta y el texto no incluye casos obvios de caracteres descompuestos o combinados (véase el
subepígrafe 2.1.1). Sin embargo, contiene elementos no estándares, como los diagramas, la
notación de figuritas de ajedrez y los nombres no ingleses.
23 “El formato de documento portátil (PDF) se utiliza para presentar e intercambiar documentos de forma fiable,
independiente del software, el hardware o el sistema operativo. Inventado por Adobe, PDF es ahora un estándar
abierto y oficial reconocido por la Organización Internacional para la Estandarización (ISO).” Adobe Systems.
2016. «¿Qué es el formato PDF?», https://acrobat.adobe.com/la/es/why-adobe/about-adobe-pdf.html, consultado
el 16.11.2016. 24 La lista de las fuentes usadas en el corpus del trabajo se encuentra en la página web
https://sites.google.com/site/corpusdelajedrez/ . 25 La versión de prueba gratuita de Acrobat Pro puede descargarse en https://acrobat.adobe.com/la/es/free-trial-
after 35 ... :xc2+ 36 lbxc2 'ii'xc2+ 37 fl 'ii'c4+ 38 Wg2 'ii'e2+ 39 'itgl 'ii'el+ 40 h2 'ii'e2+ 41 'ii'g2 White managed to avoid the checks, but Black had entirely
sufficient compensation for the exchange after 4l ... 'ii'xe3 42 .l:txd5 ..txe7 43 l:tfl + 'itg6 in Pommerel-Olano Aizpurua, corr. 2002.
lbc3 when I together with some players of the Finnish team couldn't find any advantage for White; for example, 24 exf7+ 'itxf7 25 l:tel lbe4 26
'ii'f4+ g8 27 ..td3 l:.h6 {threatening ... l:tf6!} 28 ..te3 l:lb6! 29 ..td2 .:te8 and the position remains unclear) 2I...'ii'd7 (2l...lbxa4 transposes to Line B3223) 22 b5
was assessed as clearly better for White by Zontakh, and even if I would like to be more cautious with the evaluation, it is true that in Lastin-Najer, Bor 2000
White had the better chances after 22 ... lbc4 23 ..txc4 l:txc4 24 f5 ! l:txa4 25 fxe6 fxe6 26 'ii'g5 and now 26 ... ..ta3+ (or 26 ... l:th6 27 b6 planning ..te3 and
'ii'g4) 27 'itbl (27 l:lxa3!? l:txa3 28 'ii'g6+ 'ii'f7 29 lbxe6) 27 ... 0-0 28 ..tgl . White has good chances on the kingside.
83221)
19•..lbxa4?! (D)
19 l:.h3 (D)
B
This is a more positional possibility than the ultra-sharp (but theoretically drawish!) 19 f5. White doesn't yet want to bum all the bridges but wants to
defend his king position a little bit before turning his attention to the black king. At the moment this also seems to be the theoretically more dangerous move.
Black's options
are:
B3221: 19••.lbxa4?! 266
B3222: 19••.lbc4 268
B3223: 19••.h5 269
Or 19 ... l:.c8 20 ..tf2 h5 (20 ... lbxa4 transposes to Line B3221 below) 21 gxh5 (21 f5 hxg4 22 .:tb3, as in Jakobetz-Cardelli, corr. 2002-3, can be
met with 22 ... lbxa4 23 fxe6
w
Rather surprisingly, this, Black's most natural move, seems to be a serious mistake.
20 ..tf2!
This is the point behind 19 .:th3; now the rook works well on both flanks.
20 ... l:tc8 (D)
20 ... ..te7 21 f5 (21 c4? doesn't work here after 2l...dxc4 22 'ii'c2 lbb6 23 lbxe6 fxe6 24 'ii'g6+ 25 'ii'xe6 and now Black returns the piece with 25 ...
..tc8! and gets a good ending Sammalvuo and Nyback) 2I....:tc8 22 fxe6! (22 .tel transposes to the note to White's 21st move, but again there is no need for this
Luego combiné las listas de AntConc y kfNgram en Excel y las ordené según la
frecuencia con los resultados vistos en la imagen 9.
27
término ocurrencias
término ocurrencias
término ocurrencias
término ocurrencias
1 blancas 463540
51 casillas 40745
101 las ne gras 17184
151 blancos 11095
2 negras 458243
52 match 38204
102 posicional 17151
152 piezas negras 11067
3 las negras 377932
53 avance 37869
103 contrajuego 16842
153 francesa 10998
4 las blancas 375481
54 momento 37408
104 igualdad 16716
154 mayoría 10970
5 partida 240452
55 continuación 36920
105 amenazas 16670
155 española 10704
6 peón 229462
56 el blanco 36557
106 central 16479
156 piezas blancas 10651
7 rey 212956
57 desarrollo 36520
107 tomar 16066
157 abrir 10569
8 posición 193645
58 el negro 35824
108 cambiar 16021
158 capturar 10517
9 jugada 176033
59 línea 33981
109 control 15895
159 najdorf 10440
10 ajedrez 163310
60 sacrificio 32526
110 el rey negro 15585
160 open 10256
11 dama 159751
61 alfiles 32200
111 espacio 15219
161 malo 10236
12 juego 150136
62 material 32043
112 fila 14901
162 posi ción 10081
13 ventaja 136808
63 problemas 30580
113 el flanco de dama 14781
163 tarrasch 9793
14 alfil 120109
64 posiciones 30578
114 debilidad 14778
164 ventaja decisiva 9767
15 defensa 119943
65 error 29880
115 bueno 14772
165 abierto 9745
16 peones 118321
66 rey negro 28114
116 líneas 14673
166 correcto 9645
17 negro 117651
67 finales 27971
117 veamos 14665
167 peligroso 9626
18 blanco 112238
68 gambito 26969
118 defensa siciliana 14500
168 medio juego 9608
19 caballo 110976
69 segundo 26055
119 combinación 14202
169 defensa india 9564
20 mate 110343
70 torres 26051
120 el flanco de rey 14167
170 único 9235
21 ataque 104147
71 sistema 25673
121 jugando 14071
171 reloj 9020
22 piezas 100868
72 jugó 25407
122 caballos 14047
172 olimpiada 9018
23 tablas 90626
73 aperturas 25332
123 ven 13987
173 gambito de dama 8967
24 torre 89681
74 maestros 25084
124 estudio 13934
174 im 8920
25 torneo 89571
75 maniobra 24660
125 captura 13788
175 inglesa 8750
26 final 88286
76 análisis 24335
126 damas 13676
176 india de rey 8750
27 partidas 82869
77 enroque 24277
127 compensación 13443
177 columnas 8595
28 jugar 82387
78 iniciativa 24171
128 teoría 13163
178 pareja de alfiles 8579
29 flanco 66098
79 ala 23938
129 estructura 13020
179 activo 8565
30 variante 65671
80 siciliana 23479
130 clara ventaja 12940
180 debilidades 8550
31 jugadas 64377
81 torneos 23185
131 débil 12934
181 avanzar 8492
32 diagrama 60588
82 juega 22878
132 empate 12594
182 pasar 8486
33 casilla 57990
83 calidad 22850
133 base 12515
183 técnica 8433
34 amenaza 57656
84 movimiento 22771
134 la única 12390
184 dama negra 8381
35 idea 57616
85 jugado 22472
135 peón pasado 12375
185 ligera ventaja 8351
36 jaque 57588
86 gran maestro 22102
136 ventaja blanca 12340
186 novedad 8019
37 apertura 56126
87 flanco de rey 21211
137 estrategia 12160
187 ganadora 7995
38 cambio 55084
88 flanco de dama 21197
138 ruptura 11882
188 tomo 7910
39 centro 51965
89 decisiva 20562
139 realizar 11792
189 centrales 7904
40 pieza 51788
90 blan cas 20071
140 defender 11721
190 mover 7889
41 blanca 51377
91 diagonal 19899
141 amenazando 11684
191 par tida 7740
42 juegan 48578
92 presión 19885
142 táctica 11653
192 táctico 7629
43 gm 48303
93 fuerza 19844
143 actividad 11650
193 planes 7450
44 puntos 47669
94 rey blanco 19722
144 el rey blanco 11440
194 desarrollar 7353
45 tablero 43635
95 tema 19451
145 tiempos 11416
195 mf 7347
46 plan 42770
96 ne gras 19352
146 abierta 11374
196 dama blanca 7323
47 punto 42739
97 variantes 19208
147 atacar 11289
197 dejar 7213
48 maestro 42517
98 elo 19137
148 grandes maestros 11274
198 movida 7125
49 negra 41675
99 las blan cas 17919
149 negros 11259
199 reti 7079
50 columna 41133
100 problema 17795
150 movimientos 11147
200 abiertas 6404
Imagen 9: 200 primeros términos candidatos
28
Para la extracción de los términos compuestos es necesario definir lo que constituye
un tal término. Según Haarala (1981: 16):
Jos sanaliitto tai sitäkin löyhempi sanajakso selittyy osiensa määritelmien perusteella eikä tunnu
vaativan omaa määritelmää, kyseessä ei ole itsenäinen termi. Sen sijaan esim. ammatillinen koulutus on
katsottava termiksi, koska sen tarkka merkitys ei selviä ilmauksen osista.
En consecuencia, al juzgar si un término compuesto candidato es un término en
realidad, procuraré estimar si es completamente comprensible y transparente para una persona
lega conociendo las definiciones de sus partes, sean del lenguaje general o de la terminología
del ajedrez.
Del listado en la imagen 9 ya mencionado33 finalmente elegí las 100 primeras palabras
que en mi juicio son términos del ajedrez e hice de ellos una lista final que forma la base del
análisis terminológico en el epígrafe 3 (véase la imagen 10).
33 En realidad, solo los 94 primeros términos cabían en esta lista y tuve que recurrir a la lista completa para los
últimos 6 términos.
29
término
término
término
término
1* las negras
26 jaque
51* flanco de dama
76* Defensa Francesa
2* las blancas
27* apertura
52 diagonal
77* mayoría
3 partida
28 centro
53* presión
78* Apertura Española
4 peón
29* Gran Maestro
54* tema
79* Variante Najdorf
5 rey
30* punto
55 Elo
80* Variante Tarrasch
6* posición
31 tablero
56 posicional
81* correcto
7* jugada
32* Maestro
57 contrajuego
82 medio juego
8 dama
33 columna
58 igualdad
83* defensa india
9* juego
34 match
59 espacio
84* reloj
10 ventaja
35* avance del peón
60 fila
85* olimpiada
11 alfil
36* momento
61 debilidad
86 Gambito de Dama
12* defensa
37* continuación
62* ver
87* Maestro Internacional
13 caballo
38 desarrollo
63 combinación
88* Apertura Inglesa
14 mate
39* línea
64* estudio
89 Defensa India de Rey
15* ataque
40 sacrificio
65 captura
90 pareja de alfiles
16 pieza
41 material
66 compensación
91* técnica
17 tablas
42* problema
67* estructura de peones
92 novedad
18 torre
43 gambito
68 peón pasado
93* Maestro FIDE
19 torneo
44* sistema
69 estrategia
94* Apertura Réti
20* final
45 maniobra
70 ruptura
95 retirada
21* flanco
46 enroque
71* realizar
96* preparación
22* variante
47 iniciativa
72* táctica
97* jugada textual
23 diagrama
48* Defensa Siciliana
73 actividad
98 bloqueo
24 casilla
49* calidad
74* tiempo
99 pasivo
25 amenaza
50* flanco de rey
75* abierto
100* Gambito Marshall
Imagen 10: Los 100 términos del ajedrez más comunes en el corpus
Estos son el producto final de la manipulación de mi corpus y son los términos que
analizaré en el epígrafe 3. En los casos con una distorsión estadística significante de algún
tipo, sea por homonimia, sinonimia u otro factor, se la indica con un asterisco (*) después del
número. En cuanto a la orden de los términos, la he determinado según la forma más común
del término, sea la lema o no.
30
3. ANÁLISIS TERMINOLÓGICO
En este epígrafe analizaré los 100 términos del ajedrez más importantes según la
frecuencia en mi corpus electrónico, enlistados en la imagen 10. Analizaré asimismo los 9
casos de homonimia, así que el número de las fichas terminológicas llegará a ser 109.
Aparte de los términos en español, proporcionaré los equivalentes en finés e inglés,
definiciones, comentarios y ejemplos del uso real. La inclusión de los equivalentes en inglés
la justifico por su posición como lengua franca del ajedrez y la de los en finés por mi interés
personal en el tema como traductor y experto de ajedrez.
El formato y las convenciones terminográficos siguen, con ciertas menores
modificaciones, las recomendaciones de Tekniikan Sanastokeskus (1999: 80-89). El siguiente
ejemplo es una entrada real.
11
alfil m
fi lähetti
en bishop
pieza que puede ser movida a cualquier casilla a lo largo de la diagonal sobre la que
está colocada
[La definición es la adaptación mía de FIDE, 2009: 2-3.]
En la notación ajedrecística, es usualmente indicado por el símbolo o por la
abreviación A.
Alfil es asimismo el núcleo de algunos términos compuestos, p. ej., pareja de
alfiles, alfil dama, alfil rey, alfiles de distinto color, etc.
Ejemplo de uso: “El cambio de alfiles blancos favorece la idea de Geller.” (Romero
Holmes. Alfonso. 2000. Técnica creativa en el medio juego. Madrid: La Casa del
Ajedrez, 138.)
En la primera línea de la entrada se halla el número de orden en la tabla 1 (aquí 11).
En los casos con una distorsión estadística significante de algún tipo, sea por homonimia,
sinonimia u otro factor, se la indica con un asterisco (*) después del número. Cuando se trata
de homonimia, el número de orden es seguida por una letra para que puedan identificarse los
términos homónimos.
31
En la segunda línea se halla el término en español en negrita (alfil), seguido por el
género gramatical del término en cursiva (m), salvo en los casos en los cuales el término
mismo incluye el artículo. Solo los términos que van siempre con el artículo definido lo llevan
en la entrada.
En la tercera línea se halla el término recomendado en finés (lähetti) precedido por la
abreviatura “fi” por “finés”.
En la cuarta línea se halla el término recomendado en inglés (bishop) precedido por la
abreviatura “en” por “inglés”.
En la quinta línea se halla la propia definición escrita con minúscula inicial, puesto
que debe poder sustituirse con la definición en texto. Todas las definiciones son mías, a
menos que indico lo contrario en la línea siguiente.
En la línea después de la definición (y la de su posible fuente) se halla el comentario,
con una sangría adicional de 0,25 cm. Aparte de un comentario general, en los casos en los
cuales una búsqueda en el corpus regresó 500 resultados o más para algún término compuesto,
el término de la entrada en cuestión siendo el núcleo, he enumerado estos términos
compuestos en el comentario en el orden decreciente de frecuencia. El número de 500 lo he
elegido después de probar búsquedas con diferentes valores con un mínimo menor de
resultados: tales búsquedas regresaron una cantidad demasiado grande para un trabajo de esta
extensión.
Finalmente, en la línea después del comentario doy un ejemplo del uso real en una
fuente en mi corpus.
Todos los términos se destacan de otras palabras por ser escritas en cursiva en la
definición y en el comentario, pero no en el ejemplo de uso.
1*
las negras f pl; preferible a: el negro m
fi musta
en Black
bando que juega con las piezas negras
32
Hay dos maneras alternativas para referirse al bando que juega con las piezas
negras: las negras y el negro (van siempre con el artículo definido). Existe una
diferencia semántica entre ellas: las negras se refiere a las piezas negras y el negro
al jugador que juega con las piezas negras. En la mayoría de los casos pueden
usarse las dos versiones de manera intercambiable, y en tales casos el término más
común, y según mi juicio, el más recomendable, es las negras. Las búsquedas en el
corpus apoyan esta opinión: las negras regresó 377.932 resultados y el negro
35.824 resultados. Se encontraron ambas formas tanto en fuentes en español
peninsular como en fuentes en español americano.
Ejemplo de uso: “Las negras pueden nivelar la lucha con relativa facilidad: 2. ...,
C3AR!; 3. P4D, PXP; 4. C3AR, C3A; 5. 0—0. CXP.” (Aguilera, Ricardo. 51988[1964]. El error en la apertura. Madrid: Fundamentos / Aguilera, 109.)
2*
las blancas f pl; preferible a: el blanco m
fi valkea
en White34
bando que juega con las piezas blancas
Hay dos maneras alternativas para referirse al bando que juega con las piezas
blancas: las blancas y el blanco (van siempre con el artículo definido). Existe una
diferencia semántica entre ellas: las blancas se refiere a las piezas blancas y el
blanco al jugador que juega con las piezas blancas. En la mayoría de los casos
pueden usarse las dos versiones de manera intercambiable, y en tales casos el
término más común, y según mi juicio, el más recomendable, es las blancas. Las
búsquedas en el corpus apoyan esta opinión: las blancas regresó 375.481 resultados
y el blanco 36.557 resultados. Se encontraron ambas formas tanto en fuentes en
español peninsular como en fuentes en español americano. (cf. las negras)
Ejemplo de uso: “Ahora las blancas planean jugar e5.” (De la Villa, Jesús. 2009.
Desmontando la Siciliana 2. Principat d’Andorra: Esfera, 173.)
3
partida f; no: partido m
fi peli (1)
en game
periodo completo de juego que termina en un resultado definitivo
[La definición es traducida con modificaciones por mí de Oxford English dictionary,
s. v. game, http://www.oed.com/, consultado el 30.3.2013.]
34‘White’ y ‘Black’ son las personificaciones de los jugadores, y por lo tanto deben escribirse con la mayúscula
inicial en inglés. Esta regla gramatical está explicada en Biber, Douglas, Susan Conrad y Geoffrey Leech. 102011[2002]. Longman student grammar of spoken and written English. Harlow: Pearson Education, 59.
completamente comparables puesto que jugada y ‘movida’ son también participios
de ‘jugar’ y ‘mover’ respectivamente, pero, de todas maneras, en actualidad solo
jugada es el término usado casi exclusivamente por los expertos. El estudio de los
resultados de ‘movimiento’ y ‘lance’ reveló que la mayoría de estos casos fueron o
muy viejos o escritos o traducidos por no expertos.
Ejemplo de uso: “Lo divertido es que cuando miré los comentarios de Kramnik y
Leko de su partida ¡la jugada 12. g5 fue sugerida!” (Rodríguez, Amador. 2010.
Joyas de ajedrez moderno 1. Barcelona: EDAMI, 96.)
8
dama f; no: reina f
fi kuningatar; daami
en queen
pieza que puede ser movida a cualquier casilla a lo largo de la columna, la fila o la
diagonal sobre la que esté colocada
[La definición es la adaptación mía de FIDE. 2009: 2-3.]
En la notación ajedrecística, es usualmente indicada por el símbolo o por la
abreviación D.
El caso de dama es interesante porque la mayoría de los diccionarios y
enciclopedias generales —p. ej., DRAE (s. v. reina), Visual bilingual dictionary
Spanish-English35, Aristos junior36, MOT GlobalDix, (s. v. queen) y Collins
Spanish dictionary37— prefiere la palabra ‘reina’, la cual se usa muy poco en la
comunicación de los expertos del ajedrez, y entonces generalmente con tono irónico
o humorístico. La afirmación del Maestro Internacional (véase la entrada 87 para la
definición de este título) Román Torán38 coincide con mi experiencia personal: “en
ajedrez no se usa la palabra reina, apenas”. Este punto de vista es apoyado por las
búsquedas en el corpus (dama: 159.751 resultados; ‘reina’ 2.745 resultados).
Además, un análisis más detallado reveló que casi todos los resultados de ‘reina’
con el significado de dama se encontraron en libros escritos o traducidos por no
expertos. Por lo tanto, puede constatarse que existe correspondencia inversa entre el
nivel de la pericia en el ajedrez y el uso inadecuado de ‘reina’.
Ejemplo de uso: “Se distrae a la dama de sus obligaciones para defender la primera
fila.” (López Michelone, Manuel. 52010[2005]. Perfeccione su ajedrez. México,
D.F.: Selector, 87.)
35 Gavira, Á. (ed.). 2005. Visual bilingual dictionary Spanish-English, s. v. reina. London: Dorling Kindersley. 36 Sopena. 1999. Aristos junior, diccionario ilustrado de la lengua española, s. v. reina. Buenos Aires: Sopena. 37 HarperCollins. 82005. Collins Spanish dictionary, s. v. queen.
http://www.wordreference.com/es/translation.asp?tranword=queen, consultado el 31.10.2016. 38 Torán, Román. 1992. Primer curso de ajedrez. Madrid: Eseuve, 13.
Skannauksen tuloksena syntyvät kuvatiedostot pitää kuitenkin vielä konvertoida
tekstimuotoon ja tähän tarvitaan tekstintunnistusohjelmia. Tekstintunnistuksessa tapahtuu
kuitenkin prosessin monimutkaisuudesta johtuen aina virheitä.
Korpuksen koko on ollut viimeaikaisen teknologian kehityksen ansiosta keskeinen
tekijä. Vallitsevan mielipiteen mukaan ”mitä isompi, sitä parempi46” (Nelson, 2010: 54).
Bergenholtzin ja Tarpin mukaan (1995: 95) ”yleiskielen sanakirjan pohjaksi suunnilleen 50
miljoonaa sanaa pidetään vähimmäismääränä, mutta vastaavia lukuja ei voida antaa
erikoiskielten korpuksille, joissa koko riippuu kyseisestä erikoiskielestä.47” Kun
yksimielisyyttä vaadittavasta sanamäärästä ei ole, tavoitteenani on kerätä niin suuri korpus
kuin mahdollista ja joka tapauksessa pyrin siihen, että se sisältää vähintään 5 miljoonaa sanaa.
Käsin tapahtuva termikandidaattien etsintä on erittäin työlästä ja hidasta. Onneksi on
olemassa monia tietokoneohjelmia, jotka soveltuvat korpuksen käsittelyyn. On kuitenkin
syytä muistaa, että kaikki termien erittelemiseen tarkoitetut järjestelmät tarjoavat ainoastaan
ehdotuksia terminologille, joka tekee sitten päätöksen etenemistavasta, usein yhdessä alan
asiantuntijan kanssa (Ahmad ja Brooks, 1997: 740). Tässä tutkielmassa minä toimin sekä
terminologina että alan asiantuntijana.
Kaikki korpuksenkäsittelyohjelmat tarjoavat mahdollisuuden sanojen listaamiseen
yleisyysjärjestyksessä ja tämä onkin työkalu, jota käytän eniten tutkimuksessani. Lisäksi
suodatan hakutuloksista pois kieliopilliset sanat (palabras vacías) ja espanjan kielen
yleisimmät sanat, jotta tuloksena olisi pääasiassa sanoja, jotka esiintyvät korpuksessani
yliedustettuina verrattuna espanjan yleiskieleen. Tätä menettelytapaa ei tietääkseni ole
käytetty aikaisemmin.
Tutkimuksen termien analysoinnissa sovellan pääosin Eugen Wüsterin terminologian
yleistä teoriaa (Teoría General de la Terminología). Wüsterin teoriaa on viime aikoina jonkin
verran kritisoitu ja mm. Cabré on esittänyt omana ehdotuksenaan terminologian
kommunikatiivisen teorian (Teoría Comunicativa de la Terminología)48 ratkaisemaan joitakin
ongelmia, joita hänen näkemyksensä mukaan Wüsterin teoriassa on. Tämän tutkimuksen
tarkoitusperiin Cabrén uusi teoria vaikuttaa kuitenkin turhan monimutkaiselta.
Shakkiterminologia on terminologian alalaji, jota ei ole tutkittu lähes lainkaan ennen
tätä tutkimustani. Ainoa tuntemani shakkiterminologiaan liittyvä akateeminen tutkimus
46 Käännös on minun. 47 Käännös on minun. 48 Cabré, M. Teresa et. al. 1998. «La terminología hoy: replanteamiento o diversificación». Barcelona: Institut
Universitari de Lingüística Aplicada, Universitat Pompeu Fabra,
https://repositori.upf.edu/bitstream/handle/10230/16737/freixa_terminologia.pdf?sequence=1, käyty 15.11.2016.