Traduction assist´ ee par ordinateur et corpus comparables Conf´ erence invit´ ee : Prix de th` ese ATALA 2014 Estelle Delpech Responsable scientifique, Nomao www.nomao.com/labs Travaux de th` ese effectu´ es au LINA sous la direction de B. Daille et E. Morin TALN’14 – 2 juillet 2014 – Marseille, France
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Traduction assistee par ordinateur et corpuscomparables
Conference invitee : Prix de these ATALA 2014
Estelle DelpechResponsable scientifique, Nomao
www.nomao.com/labs
Travaux de these effectues au LINA sous la direction de B. Daille et E. Morin
HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent la proliferationcancereuse par l’intermediaire desrecepteurs. Les traitements agirontsoit en diminuant le tauxd’œstrogenes dans le sang, soit enbloquant les recepteurs hormonaux
6 / 41
Traduction assistee par ordinateur et corpus comparables
HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent laproliferation cancereuse parl’intermediaire des recepteurs. Lestraitements agiront soit endiminuant le taux d’œstrogenes dansle sang, soit en bloquant lesrecepteurs hormonaux
6 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Objectifs de la these
1. Evaluer l’interet des corpus comparables pour la TAO
2. Ameliorer/Proposer des modalites d’exploitation pour la TAO
8 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
9 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
10 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Methode d’extraction classique
11 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
ML P R F1[Claveau and Kijak, 2011] neoclassique .63 .45 .53
+ autres ressources .89 .64 .74
34 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
Precision
Couverture % termes sources avec au moins 1 traduction(qq soit sa qualite)
Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)
Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
36 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Peut-on utiliser les corpus comparables pour extraire deslexiques bilingues utiles pour les traducteurs ?
I Approche par similarite contextuelle :I forte couverture mais lexiques trop ambigus
I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements
avec traduction compositionnelleI 20% a 28% avec une traduction correcte
37 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Tres ambitieux en l’etat actuel
I Lexique obtenu tres reduit ou trop ambiguI Difficile d’augmenter le corpus
I thematique fine, forte comparabiliteI peu de textes specialises
I Difficulte inherente aux corpus comparables :I seulement une partie du vocabulaire en commun
38 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Perspectives I
I Peu utile pour la phase de traduction proprement dite
I Utile pour :I phase d’exploration / familiarisation avec le domaine
[Durieux, 2010]I assistance a la consistution de ressources lexicales
specialisees/terminologiques
39 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Perspectives II
I Conclusion : aider a l’exploration de corpus comparablesI extraction, alignement de contextes pertinentsI outils de recherche avances, concordanciersI travailler avec les traducteurs/terminologues : automatiser les
techniques
I Projet ANR CRISTAL : extraction de contextes richesen connaissance dans les corpus comparables (LINA,Lingua et Machina, CLLE-ERSS, FTI)
40 / 41
Merci pour votre attention
Slides complementaires
Traduction assistee par ordinateur et corpus comparables
Taille donnees
Donnees evaluation
S termes sources
R reference a priori
P reference aposterioriR ∩ P 6= ∅
T donneesapprentissagerankkingT = P \ R
E donneesevaluation dumod rankingE = P ∩ R
43 / 41
Traduction assistee par ordinateur et corpus comparables
Taille donnees
Lexiques evaluation
EN-FR EN-DE
1839 1824
Table: Termes sources a traduire
EN-FR EN-DE
126 Õ 163 90 Õ 104
Table: Lexique evaluation a priori
EN-FR EN-DE
730 Õ 2129 654 Õ 2016
Table: Lexique evaluation a posteriori
44 / 41
Traduction assistee par ordinateur et corpus comparables
Apport modele generique
Genericite du modele : methodes testees
I Prefixation : pretreatment Õ pre-traitement
I Composition savante : hypercalcaemia Õ hypercalcemie
I Composition populaire : acute-phase Õ Akutphase, akutenPhase
I Cognat : t-test Õ t-Test
45 / 41
Traduction assistee par ordinateur et corpus comparables
Apport modele generique
Genericite du modele : resultats
I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)
I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)
I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)
I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10
Traduction assistee par ordinateur et corpus comparables
References
Principales publications
I TheseFR Delpech (2013) : “Traduction assistee par ordinateur et corpus comparables”,
These de doctorat en Informatique, Universite de Nantes, France, 265 pages.EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE
Wiley, London, 287 pages.
I Evaluation applicativeFR, long Delpech (2011) : “Un protocole d’evaluation applicative des terminologies bilingues
destinees a la traduction specialisee”, Revue des Nouvelles Technologies del’Information (RNTI), vol. RNTI-E-22, pp. 23–48.
EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:an Application Perspective”, Proc. of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA), pp. 66–73, Riga, Lettonie.
I Generation de lexiques bilinguesEN, Fertilite Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable
Corpora”, 10th biennial Conference of the Association for Machine Translation inthe Americas (AMTA’12), 10 pages, San Diego, CA.
EN,Generation+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon fromcomparable corpora: compositional translation and ranking”, Proc. of the 24thInternational Conference on Computational Linguistics, Long papers (COLING’12),pp. 745–762, Mumbia, India.
61 / 41
References I
Baker, M. (1996).
Corpus-based translation studies: The challenges that lie ahead.In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour ofJuan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, Etats-Unis d’Amerique.
Baldwin, T. and Tanaka, T. (2004).
Translation by machine of complex nominals.In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,Barcelona, Spain.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.
Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,
J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation: Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.
Cartoni, B. (2009).
Lexical morphology in machine translation: A feasibility study.In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Athenes, Grece.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,pages 347–354, Hissar, Bulgaria.
References II
Delpech, E. (2011a).
Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2011b).
Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.La maison du dictionnaire, Paris, France.
References III
Friedbichler, I. and Friedbichler, M. (1997).
The potential of domain-specific target-language corpora for the translator’s workbench.In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Harastani, R. (2014).
Alignement lexical en corpus comparables : le cas des composes savants et des adjectifs relationnels.These de doctorat en informatique, Universite de Nantes, Nantes, France.
Leon, S. (2008).
Acquisition automatique de traductions d’unites lexicales complexes a partir du Web.These en sciences du langage - traitement automatique des langues, Universite de Provence - Aix-MarseilleI, Marseille, France.
Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).
Degre de comparabilite, extraction lexicale et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, pages 283–293,Montpellier, France.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
References IV
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3):226–33.
Ozdowska, S. (2006).
ALIBI, un systeme d’ALIgnement BIlingue a base de regles de propapagation syntaxique.These de doctorat en sciences du langage, Universite Toulouse II Le Mirail, Toulouse, France.
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.
Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).
Compiling French-Japanese terminologies from the web.In Proceedings of the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 225–232, Trento, Italy.
S. Vintar (2010).
Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.Terminology, 16(2):141–158.
Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).
Simple methods for dealing with term variation and term alignment.In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,Paris, France.
Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.