1 81 EC @ + C@ C @ +- 3@ · 2015-05-14 · 0 4 4 2+5# %4 5* + 5 ! +* %,(+) 4%.5 "- (% 4 ( (% 1 4 5 1 1 , 1 & +51 1% 1 2 ( 4 512- +5,51 2 ,1 22 - & 0+ 1%2+**% 12 ( )+ %(%4 , 1

PAGE 2 :L’Etat souhaite une bonne année au « Monde diplomatique ». – Aliceet la liberté du regard, par SOLANGE BRAND. – Courrier deslecteurs. – Coupures de presse.

PAGE 3 :Prisonniers de la mobilité, par SIMON BORJA, GUILLAUME COURTYETTHIERRY RAMADIER.

PAGES 4 ET 5 :A Cuba, vers la fin du plus long embargo de l’histoire, par SALIMLAMRANI. – Pour les Afro-Américains, amer bilan d’une présidencenoire, par DESMOND KING.

PAGES 6 ET 7 :Le splendide isolement de la Turquie, par WENDY KRISTIANASEN. –Réveil de la communauté rom, par MARIE CHAMBRIAL ET ERWANMANAC’H. – Un ancrage ancien (M. C. ET E. M.).

PAGE 8 :Immigration choisie à la japonaise, par MARC HUMBERT.

PAGE 9 :Suzuki défié par la jeunesse ouvrière indienne, par NAÏKÉDESQUESNES.

PAGE 10 :L’Australie séduite par la Chine, par OLIVIER ZAJEC.

PAGE 11 :Gestion du flux, une nouvelle de MUSTAPHA BELHOCINE.

PAGES 12 ET 13 :Le Cameroun sous la menace de Boko Haram, par RODRIGUE NANANGASSAM. – Arbitraires sanctions internationales, du Soudan à laRussie, par JÉRÔMETUBIANA ET CLAUDIO GRAMIZZI.

PAGES 14 ET 15 :Les dessous de l’industrie pharmaceutique, suite de l’article deQUENTIN RAVELLI. – L’autre cauchemar de Darwin (Q. R.).

PAGE 16 :Fous à délier, par MATHILDE GOANEC. – Les dernières prisonsasilaires (M. G.).

PAGES 17 À 22 :DOSSIER : PRENDRE PARTI ? – Comment un appareil s’éloigne desa base, par JULIAN MISCHI. – La résistible dérive oligarchique, parANTOINE SCHWARTZ. – A l’école des militants, par ALLANPOPELARD. – Des « communicants » à la rescousse (A. P.). – Leretour des Camelots (A. P.). – Podemos, le parti qui bousculel’Espagne, suite de l’article de RENAUD LAMBERT.

PAGE 23 :Privés de vie privée, par JÉRÔMETHOREL.

PAGES 24 À 26 :LES LIVRES DU MOIS : « Mr Gwyn », d’Alessandro Baricco, par DAVIDCOMMEILLAS. – « Dernier Requiem pour les Innocents », d’AndrewMiller, par NICOLAS MELAN. – Sortir de la « guerre contre la drogue »,par MAURICE LEMOINE. – Radiographie du fascisme italien, parCHRISTOPHE VENTURA. – L’amitié comme poème, par MARINA DASILVA. – Des machines à influencer, par THIBAULT HENNETON. –Révolutions rap, par THOMAS BLONDEAU. – Dans les revues.

PAGE 27 :« Le nègre docile est un mythe », par MATTHIEU RENAULT.

JANVIER 2015 – LE MONDE diplomatique

GOOGLE ET L’IMPÉRIALISME LINGUISTIQUE

Il pleut des chatset des chiens

PAR FRÉDÉRIC KAPLAN ET DANA K IANFAR *

AU début du mois de décembre dernier,quiconque demandait à GoogleTraduction l’équivalentitalien de l’expression «Cette fille est jolie» obtenaitune proposition étrange :Questa ragazza è abbastanza,littéralement «Cette fille est assez». La beauté s’étaitlost in translation – perdue en cours de traduction.Comment un des traducteurs automatiques les plusperformants du monde, fort d’un capital linguistiqueunique constitué de milliards de phrases, peut-ilcommettre une erreur aussi grossière? La réponse estsimple : il passe par l’anglais. «Jolie» peut se traduirepar pretty, qui signifie à la fois «joli» et « assez ». Lesecond sens correspond à l’italien abbastanza.

Ce principe connu, il devient aisé de produire desphrases insolites et souvent amusantes. «Je pense quevous avez un président magnifique» devient Pensoche tu abbia una bella sedia, c’est-à-dire : «Je penseque tu as une jolie chaise», car «président» peut setraduire par chair en anglais. L’usage de l’anglaiscomme pivot conduit parfois à des contresens. Haifatto un compito terrificante, c’est-à-dire «Tu as faitun devoir terriblement mauvais », se traduit dansGoogle par «Vous avez fait un travail formidable» parl’entremise de l’anglais terrific ; l’expression idioma-tique «Il pleut des cordes» se transforme en un trèspoétique Piove gatti e cani – il pleut des chats et deschiens. Cette traduction de It’s raining cats and dogss’avère incompréhensible pour un Italien.

Pour élaborer un traducteur automatique, il fautdisposer de grands corpus de textes identiques traduitsd’une langue à l’autre. Entreprise américaine, Googlea logiquement construit son outil sur des pairestextuelles utilisant presque toujours l’anglais commelangue pivot. Pour aller du français vers l’italien, il fautainsi, «par construction», passer par une traductionanglaise intermédiaire. Ce processus engendre un biaislinguistique important. Le français et l’italien sont deslangues relativement proches. En comparaison, l’an-glais est une langue particulière, compacte, riche enformules idiomatiques. Unemauvaise compréhensiondu contexte ouvre la voie à de nombreuses erreurs.Projeter une expression vers l’espace anglophone puisla renvoyer vers une langue cible induit des innovationslinguistiques involontaires.

Les bizarreries produites par les traducteurs auto-matiques peuvent sembler anecdotiques. La traductionen général et la traduction automatique en particulier

* Respectivement directeur et doctorant du laboratoire DigitalHumanities de l’Ecole polytechnique fédérale de Lausanne.

posent des problèmes notoirement difficiles. Dansces conditions, comment s’étonner que les machinesse trompent ? Leurs erreurs présentent d’ailleurs unintérêt ; elles nous font réfléchir aux spécificités dechaque langue. Et puis, à terme, le développementde corpus bilingues évitant l’entremise de l’anglaistout comme les corrections effectuées par les inter-nautes eux-mêmes devraient améliorer les traductions.Peut-être les fautes mentionnées dans cet article sont-elles déjà corrigées au moment où, selon la formuleconsacrée, nous mettons sous presse – une locutionque Google traduit en espagnol par vamos apresionar : «nous allons appuyer». Faut-il alors vrai-ment s’inquiéter du phénomène?

Pour comprendre les effets réels de l’anglaiscomme langue pivot, il faut replacer la traductionautomatique dans le contexte plus large des textesfaisant appel aux algorithmes sur Internet. Cesprogrammes informatiques engendrent non seule-ment des innovations linguistiques dans le contextede traductions robotisées, mais sont égalementutilisés pour rédiger automatiquement des articlesde presse, corriger syntaxiquement et sémantique-ment le contenu des pages Wikipédia, produire desmessages publicitaires ciblés ou optimiser le contenud’une page Web pour faciliter son indexation parles moteurs de recherche.

Dès lors, comment distinguer les ressourceslinguistiques primaires, produites par des humainssans médiation algorithmique (conversations écrites,contenus de livres numérisés, etc.), des ressourceslinguistiques secondaires, qui découlent de transfor-mations algorithmiques de ressources primaires?

Avec la généralisation de l’autocomplétion dansbeaucoup d’interfaces de saisie – l’utilisateur tapeun début d’expression, et un programme complèteautomatiquement la phrase –, les algorithmes sontdevenus des intermédiaires presque systématiquesquand nous écrivons en ligne. Dans bien des cas,nous cessons de saisir nos textes lettre par lettre oumot à mot : nous nous contentons de choisir parmiplusieurs prolongations possibles proposées par desalgorithmes. Cette forme d’écriture allie rapiditéet eff icacité, en particulier lorsqu’on utilise leclavier réduit d’un téléphone portable. Dans cenouveau cadre, rédiger consiste juste à choisir agile-ment un chemin dans l’arborescence des expres-sions prédictibles. D’ici quelques années, il serasans doute difficile de trouver une interface quin’utilise pas cette technologie.

Comme les autres ressources secondaires, lestextes produits algorithmiquement par des traduc-teurs automatiques ne sont pas nécessairement iden-tifiés ou labellisés comme tels. Ils se présentent aucontraire souvent comme des ressources primaires,naturelles, que des lecteurs peuvent éventuellementprendre pour modèle. Un internaute dont l’italienn’est pas la langue maternelle n’a aucune raison dejuger fautive l’expression Piove gatti e cani. Laremarque vaut a fortiori pour les algorithmes quipassent au crible la structure de la langue dans lebut de produire artificiellement de nouveaux textes.Un algorithme cherchant une source primaire pouroptimiser ses capacités de traduction peut utiliserpar mégarde un texte produit par un autre algo-rithme, comportant faux sens et faux amis.

LA généralisation sur Internet de ressources« polluées » par les automates menace l’ensembled’un édifice technologique qui privilégie la quantitémassive de données sur le contrôle systématiquede leur qualité. On trouve déjà de nombreux exem-ples d’expressions étranges sur le Web. Sur laboutique en ligne où Apple vend ses logiciels(Apple Store), on lit par exemple ces commentairesà propos d’une application qui permet de taper desmessages tout en marchant... « Intuitif à utiliser,des beaux résultats et à nouveau de bonne humeur.Merci qui a fait la ! c’est vraiment cool et recom-mande ». Plus loin, un autre commentaire partagevisiblement certaines bizarreries de langage avecle premier : « Il m’aide introduire le texte horizon-tale et verticale, envoyer des messages SMS,envoyer d’e-mail, envoyer des messages sur Twitteret Facebook... assez amusant, je vous remercie ! »

Ces phrases qui incorporent les tournures bizarresdes algorithmes peuvent dans un second temps servirde modèles à des services de médiation textuelle quiproposent par exemple d’autocompléter l’expressionque vous êtes en train de taper. Il n’est pas impensableque, dans quelque temps, un Italien commençant unephrase par Piove... se voie proposer la continuationPiove gatti e cani, une expression qui n’a probable-

ment jamais été prononcée ni écrite dans toute l’his-toire de la langue italienne.

Le pivot linguistique anglais participe ainsi poten-tiellement à un phénomène de créolisation : la forma-tion d’une langue nouvelle fondée sur la transforma-tion par l’usage d’autres langues plus anciennes,phénomène bien connu des linguistes.Actuellement,les modifications introduites par la médiation algo-rithmique constituent une sorte de sabir, langue decontact, potentiellement éphémère, entre deuxsystèmes linguistiques. Mais, alors qu’une nouvellegénération est exposée à ces expressions transfor-mées, les innovations risquent de se régulariser sousla forme d’une langue cohérente et autonome, uncréole. Une évolution que pourrait accélérer la média-tion des nouvelles interfaces de saisie, prothèseslinguistiques intimes susceptibles d’influencer forte-ment les formes expressives futures.

L’impérialisme linguistique de l’anglais produitdonc des effets beaucoup plus subtils que ne le lais-sent penser les approches centrées sur la «guerre deslangues ». Le fait de pivoter par un seul idiomeconduit à introduire dans tous les autres des logiqueslangagières propres et donc, insensiblement, desmodes de pensée spécifiques. Ce phénomène pourraitaussi participer à une transformation linguistiqueglobale dans laquelle les algorithmes jouent un rôle-clé. Si l’anglais fonctionne comme charnière pourles langues européennes, d’autres langues occupentsans doute la même position dans d’autres bassinslinguistiques (le hindi par exemple). Un réseau dechaînes de traduction fonctionnant par référence àplusieurs idiomes intermédiaires se met ainsi en placeà l’échelle mondiale.

Qui, dans cinq ans, produira encore des ressourcesprimaires pures, écrites sans entremise algorith-mique ? Combien de temps attendrons-nous avantque les premières innovations algorithmiques soientperçues comme des formes naturelles? Ces écritureshybrides appellent une étude attentive. Et peut-êtrele développement d’une nouvelle linguistique quiutilisera massivement les algorithmes pour mieuxcomprendre et surveiller les effets des algorithmes...

JANGRONEBERG. –« Just One Word »

(Juste un mot), 2006

SOMMAIRE Janvier 2015

Le Monde diplomatique du mois de décembre 2014 a été tiré à 190182 exemplaires.A ce numéro sont joints deux encarts, destinés aux abonnés :

«Etudes» et «Linvosges».

28

www.monde-diplomatique.fr

BRID

GEM

AN

IMAGES

1 81 EC @ + C@ C @ +- 3@ · 2015-05-14 · 0 4 4 2+5# %4 5* +** ** 5 ! +* %,(+) 4%.5 "- (% 4 ( (% 1 4 5 1 1 , 1 & +51 1% 1 2 ( 4 512- +5,51 2 ,1 22 - & 0+ 1%2+**% 12 ( )+ %(%4 , 1

Documents

1 81 EC @ + C@ C @ +- 3@ · 2015-05-14 · 0 4 4 2+5# %4 5* + 5 ! +* %,(+) 4%.5 "- (% 4 ( (% 1 4 5 1 1 , 1 & +51 1% 1 2 ( 4 512- +5,51 2 ,1 22 - & 0+ 1%2+**% 12 ( )+ %(%4 , 1