Top Banner
« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat 95 Corpus et phraséologie : un catalogue de « prêt-à-parler » ? Marine Espinat CoVariUs (UMS 3323), Université Paris-Sorbonne [email protected] RÉSUMÉ___________________________________________________________________________________________________________________ La phraséologie, sous-discipline étudiant les séquences polylexicales figées, a connu un essor important ces dernières décennies et très tôt, les chercheurs ont voulu confronter leurs intuitions et théories à des corpus écrits. Le recours à ces corpus a permis de délimiter et/ou d’élargir certaines frontières de la phraséologie. Cependant, la prise en considération exclusive des corpus écrits a mené à des présuppositions hâtives sur l’usage réel de ce « prêt-à- parler ». Si la constitution et l’exploitation de corpus oraux est complexe, y chercher et étudier des séquences polylexicales figées représente encore un tout autre défi. Une telle étude se limite-t-elle à la recherche d’occurrences phraséologiques ? Puisque beaucoup d’encre a déjà coulé sur le comportement syntaxique ou le détournement des phrasèmes, quels peuvent être les apports spécifiques d’un corpus oral à la phraséologie ? Se limite-t-il au statut de « catalogue » dans lequel chercher le « prêt-à-parler » de la langue ? ABSTRACT________________________________________________________________________________________________________________ Corpus and Phraseology: a catalog of “ready-to-talk”? Phraseology studies multi-word lexical units and has expanded significantly in recent decades. Very early, researchers confronted their intuitions and theories to written corpora. Using such corpora allowed to mark out and/or to widen some of the phraseology borders. Nevertheless, considering exclusively written corpora has led to hasty assumptions on the actual use of that “ready-to-talk”, that phraseology represents in language. Building oral corpora up and exploiting them may be considered as complex, but searching for and parsing multi-word lexical units on them represents a completely different challenge. Does such a study only serve to look for phraseological occurrences? Since the syntactical behavior or deviation of phrasemes caused a lot of ink to flow, what may be the specific contributions of an oral corpus to phraseology? Is such a corpus limited to the status of “catalog” in which the “ready- to-talk” of language gets collected? MOTS-CLES : phraséologie, corpus oral, analyse conversationnelle, cognition KEYWORDS : phraseology, oral corpus, conversational analysis, cognition 1 Introduction « Ce qui intéresse l’observateur, ce sont les données langagières authentiques : plus il en a, mieux il se porte. Les théories qu’il échafaude reposent sur l’observation de ces données. Ces données, qu’il n’a de cesse de renouveler, le conduisent soit à maintenir, soit à abandonner ses thèses et hypothèses. L’observateur s’adresse surtout à ses collègues pour leur parler des observations intéressantes qu’il a faites. Sinon, il passe le plus clair de son temps devant son ordinateur. La représentation à laquelle il souhaite aboutir grâce à ces observations se doit d’être aussi complète que possible. Et pour cette raison, il s’attache à ces phénomènes que l’on trouve dans notre usage quotidien du langage » (Lemnitzer et Zinsmeister, 2006). 1 Voici deux chercheurs qui dressent un autoportrait caustique du linguiste « apte au travail sur 1 Par souci d’accessibilité, toutes les citations en allemand ont fait l’objet d’une traduction par l’auteure.
18

Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Jan 27, 2023

Download

Documents

Joaquín Manzi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

95

Corpus et phraséologie : un catalogue de « prêt-à-parler » ? Marine Espinat

CoVariUs (UMS 3323), Université Paris-Sorbonne [email protected]

RÉSUMÉ___________________________________________________________________________________________________________________ La phraséologie, sous-discipline étudiant les séquences polylexicales figées, a connu un essor important ces dernières décennies et très tôt, les chercheurs ont voulu confronter leurs intuitions et théories à des corpus écrits. Le recours à ces corpus a permis de délimiter et/ou d’élargir certaines frontières de la phraséologie. Cependant, la prise en considération exclusive des corpus écrits a mené à des présuppositions hâtives sur l’usage réel de ce « prêt-à-parler ». Si la constitution et l’exploitation de corpus oraux est complexe, y chercher et étudier des séquences polylexicales figées représente encore un tout autre défi. Une telle étude se limite-t-elle à la recherche d’occurrences phraséologiques ? Puisque beaucoup d’encre a déjà coulé sur le comportement syntaxique ou le détournement des phrasèmes, quels peuvent être les apports spécifiques d’un corpus oral à la phraséologie ? Se limite-t-il au statut de « catalogue » dans lequel chercher le « prêt-à-parler » de la langue ? ABSTRACT________________________________________________________________________________________________________________ Corpus and Phraseology: a catalog of “ready-to-talk”? Phraseology studies multi-word lexical units and has expanded significantly in recent decades. Very early, researchers confronted their intuitions and theories to written corpora. Using such corpora allowed to mark out and/or to widen some of the phraseology borders. Nevertheless, considering exclusively written corpora has led to hasty assumptions on the actual use of that “ready-to-talk”, that phraseology represents in language. Building oral corpora up and exploiting them may be considered as complex, but searching for and parsing multi-word lexical units on them represents a completely different challenge. Does such a study only serve to look for phraseological occurrences? Since the syntactical behavior or deviation of phrasemes caused a lot of ink to flow, what may be the specific contributions of an oral corpus to phraseology? Is such a corpus limited to the status of “catalog” in which the “ready-to-talk” of language gets collected? MOTS-CLES : phraséologie, corpus oral, analyse conversationnelle, cognition KEYWORDS : phraseology, oral corpus, conversational analysis, cognition

1 Introduction « Ce qui intéresse l’observateur, ce sont les données langagières authentiques : plus il en a, mieux il se porte. Les théories qu’il échafaude reposent sur l’observation de ces données. Ces données, qu’il n’a de cesse de renouveler, le conduisent soit à maintenir, soit à abandonner ses thèses et hypothèses. L’observateur s’adresse surtout à ses collègues pour leur parler des observations intéressantes qu’il a faites. Sinon, il passe le plus clair de son temps devant son ordinateur. La représentation à laquelle il souhaite aboutir grâce à ces observations se doit d’être aussi complète que possible. Et pour cette raison, il s’attache à ces phénomènes que l’on trouve dans notre usage quotidien du langage » (Lemnitzer et Zinsmeister, 2006).1 Voici deux chercheurs qui dressent un autoportrait caustique du linguiste « apte au travail sur

1 Par souci d’accessibilité, toutes les citations en allemand ont fait l’objet d’une traduction par l’auteure.

Page 2: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

96

corpus » dans les pages liminaires de Korpuslinguistik : eine Einführung, en l’opposant au personnage du penseur, qui fonde la théorie directement et exclusivement issue de son cerveau sur des exemples aberrants. Sous ses aspects caricaturaux, il y a pourtant beaucoup de vérité dans cette description de la position d’observateur du langage, de la quête obsédante de (nouvelles) données, de l’opiniâtreté à une tâche souvent ingrate et de l’assujettissement à ces données. Mais ce qui ressort en toile de fond, c’est la volonté de dresser une image la plus fidèle possible de ce qu’est le langage dans sa réalité parfois imparfaite, mais bien réelle. Sommes-nous sur la voie du « progrès de la connaissance », pour reprendre le titre d’un des multiples ouvrages récents dédiés aux corpus 2 ? Aboutit-on en tant que linguiste à la connaissance par la confrontation au(x) corpus ? Si la collecte de données exploitables représente bien un défi perpétuellement renouvelé, on est en droit de se demander si le risque n’est pas celui du catalogue, dangereux par la masse et l’hétéroclisme des données qu’il met à disposition. Nous nous interrogerons ici sur cette dualité entre données et connaissances déjà acquises et à acquérir dans le cadre d’une sous-discipline relativement récente de la linguistique : la phraséologie, dont l’objet d’étude pourrait être qualifié de « prêt-à-parler » de la langue. Dans un premier temps, nous retracerons les acquis de la phraséologie avant l’avènement du corpus en linguistique : quel a été le parcours de cette discipline alors qu’elle cherchait précisément à se constituer en tant que telle ? Nous verrons en quoi son association avec la recherche sur corpus a été décisive dans la suite de son évolution, puisqu’il s’agissait pour la phraséologie de prouver sa raison d’être – confrontation qui a conduit à rendre certaines de ses frontières très floues. Dans ce même souci d’étudier les apports réciproques possibles et souhaitables entre phraséologie et corpus, nous nous pencherons sur la question des corpus oraux et sur leur complexité, en termes de collecte et de traitement. Enfin, nous expliquerons en quoi la recherche de phénomènes phraséologiques au sein d’un corpus oral permettra d’ouvrir encore de nouveaux horizons à cette discipline du « prêt-à-parler ». Pour ce faire, nous confronterons – puisque c’est là un des objectifs premiers de la recherche sur corpus – des présupposés concernant le fonctionnement cognitif des phrasèmes à l’empirie de conversations « authentiques »3.

2 Avant le corpus, il y avait... la théorie. Étant donné son statut de sous-discipline relativement récente dans l’histoire de la linguistique, les premiers ouvrages sur le sujet partaient d’une réflexion définitoire et théorique sur ces séquences figées. L’un des phraséologues germanistes les plus réputés, W. Fleischer (1997), retrace dans Phraseologie der deutschen Gegenwartssprache toute l’histoire de la phraséologie se constituant petit à petit en discipline et constate que jusque dans les années 70, toutes les recherches quelque peu complètes portant sur la phraséologie étaient consacrées à la détermination de l’objet d’étude et à la classification des phrasèmes (Fleischer, 1997 : 20). Les premières recherches en phraséologie pouvant se prévaloir de l’appui sur un corpus visaient principalement à observer le rôle des phrasèmes au sein d’un texte. Ainsi, W. Koller

2 « Sprachkorpora – Datenmengen und Erkenntnisfortschritt » (Kallmeyer et Zifonun, 2006) = Corpus langagiers, masses de données et progrès de la connaissance. 3 Le travail de recherche présenté ici s’inscrit dans les sciences du langage, et plus précisément dans la linguistique germaniste. L’auteure tient donc à prévenir ses lecteurs que les références seront principalement empruntées à des chercheurs germanistes. Loin de rejeter la recherche française sur ce sujet, cet article se comprend aussi comme l’occasion de présenter les conceptions ayant cours Outre-Rhin.

Page 3: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

97

(1977) s’interrogeait sur la fonction et l’effet des expressions figées quand elles servaient à la description de faits politiques au sein d’articles de journaux. Toutefois, c’est dans la relation qu’entretiennent phraséologie et discours de spécialité que s’est illustré le recours aux corpus, même si ces derniers n’ont trouvé leur droit de cité quasi systématique au sein des titres que depuis la fin des années 90/début des années 2000. Le recours à des corpus dans une perspective quantitative, principalement dans la phraséologie anglo-saxonne, a aussi considérablement ouvert les limites de la discipline en réactualisant la notion de « collocation » à laquelle nous reviendrons ultérieurement.

2.1 Définition de la phraséologie Il convient en effet de préciser ici plus explicitement ce qu’englobe la phraséologie et quels sont les faits définitoires à peu près fixés sur lesquels nous pourrons nous appuyer. La phraséologie a connu ses débuts sous l’impulsion de Charles Bally et de son Traité de stylistique française (Bally, 1909). Cependant, seule la recherche soviétique sembla, dans les décennies suivantes, en mesure d’en estimer l’intérêt et ce n’est que dans les années 70 que la phraséologie refit surface dans la sphère européenne occidentale et anglo-saxonne. Le fait qu’elle ne fut pas constituée en Europe dès le début en discipline autonome, mais rattachée systématiquement à la lexicologie, a contribué au chaos terminologique qui est le sien (Pilz, 1978) et que nous nous attacherons ici à clarifier brièvement.

2.1.1 Polylexicalité et figement Les critères définitoires de la phraséologie sont au nombre de trois, dont deux seulement sont absolument nécessaires. Il s’agit de la polylexicalité et du figement. Ne peuvent prétendre au titre de phrasèmes que des séquences comprenant deux lexèmes au minimum et présentant un certain degré de fixité, pouvant aller du figement véritable (« Rira bien qui rira le dernier ») à une simple stabilité (« perdre la tête/la boule/la raison »). La coexistence de ces deux critères permet la délimitation de la catégorie des phrasèmes.

2.1.2 Idiomaticité Le troisième critère de l’idiomaticité, facultatif, n’en est pas moins important, puisqu’il permet de définir une sous-catégorie particulièrement connue des phrasèmes : les idiomes. Là aussi, de nombreuses définitions se sont fait ou se font encore concurrence. Nous retiendrons la dernière en date issue de la recherche germaniste : Piirainen et Dobrovol’skij (2005) parlent d’« image requirement » et d’« additional naming », à savoir « nécessité du recours à l’image » et « dénomination supplémentaire ». Selon cette conception, on ne considère comme idiomatiques que les phrasèmes où l’on recourt à une image4 et qui peuvent faire l’objet d’une reformulation non-idiomatique. Nous citerons ici comme exemple l’expression « ne pas casser trois pattes à un canard » où l’on utilise l’image assez improbable d’un canard à trois pattes, pour parler de quelque chose qui ne convainc pas ou qui n’a pas de quoi impressionner quiconque. Cet exemple a de plus le mérite d’illustrer que l’opacité, à savoir la difficulté ou non à reconstituer le lien motivant entre l’image « choisie » et la signification réelle, n’est pas considérée comme déterminante dans la définition de l’idiome.

4 Leur structure sémantique est donc plus complexe, car la composante imagée vient s’inclure entre la structure lexicale et la signification lexicalisée, figurée (Dobrovol'skij et Piirainen, 2009).

Page 4: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

98

2.1.3 Enjeux Ces trois critères définitoires une fois postulés, les particularités des phrasèmes deviennent manifestes. Sur le plan syntaxique, tout d’abord, la combinaison de la polylexicalité et du figement laissent entrevoir des comportements syntaxiques qui sortent de l’ordinaire. Sur le plan sémantique, ensuite, le figement apporte aussi son lot d’incongruités. Mais c’est clairement l’idiomaticité qui attise le plus la curiosité des chercheurs, puisqu’on en vient à dire que, dans une expression idiomatique, au moins un élément, si ce n’est la séquence entière, ne désigne pas ce à quoi l’expression réfère littéralement. Ainsi, il n’est jamais réellement question d’un canard à trois pattes quand on utilise l’expression « ne pas casser trois pattes à un canard ». On s’aperçoit aisément à quel point ces trois critères se coupent et se recoupent sans cesse, faisant de chaque catégorie de phrasèmes mise en exergue par l’effet de tel critère ou de la combinaison de certains d’entre eux, un sujet de recherche aux facettes multiples.

2.2 Questionnements sans réponse à l’heure actuelle Malgré le développement fulgurant de la discipline et le nombre toujours croissant de chercheurs d’horizons très divers s’intéressant aux phénomènes phraséologiques5, il reste de multiples zones d’ombres au sujet de ces phénomènes langagiers. Tout d’abord, force est de constater que terminologies et typologies ne sont toujours pas concordantes à l’heure actuelle (Burger et al., 2007). Ceci est dû avant tout au fait que la phraséologie a connu un grand essor à une époque où le monde, y compris celui de la recherche, était divisé en deux blocs et où il était difficile, voire inconcevable, de partager connaissances et théories6. Aujourd’hui encore, on constate que les chercheurs anglophones, germanophones, francophones, russophones, etc., adoptent des perspectives très différentes sur la phraséologie7 et que les centres d’intérêt divergent. Mais si le fait historique peut expliquer en grande partie ces divergences, il ne paraît pas absurde de penser qu’elles sont aussi dues à la multiplicité de facettes de l’objet d’étude. Un effort d’uniformisation et d’unanimité paraît donc souhaitable et ne sera sans doute possible qu’une fois que toute son étendue et toutes ses frontières auront pu être explorées. Parmi les domaines qui restent à exploiter, nous pourrons aussi citer celui de la perspective culturelle sur la phraséologie. Confronter des phrasèmes issus de langues et de sphères culturelles extrêmement différentes permet d’accéder à la fois au particulier et à l’universel concernant ces phénomènes. Dobrovol’skij et Piirainen (2005) ont ainsi tenu à prendre en considération les langues suivantes pour l’étude « trans-culturelle et trans-linguistique» qu’ils se proposaient d’en faire : cinq variétés de langues germaniques (anglais, allemand, néerlandais, suédois et un dialecte issu d’une région bien précise de la Westphalie), quatre variétés de l’indo-européen (français, russe, lithuanien et grec moderne), et deux langues agglutinantes (finnois et japonais). Ce souci d’ouvrir la phraséologie à des considérations plus larges et plus fondées sur la/les notion(s) de symbole, de culture est indéniablement prometteur.

5 Nous évoquerons brièvement les grandes orientations récentes de la phraséologie : perspectives didactique (notamment, didactique des langues étrangères), cognitive, pragmatique, etc. 6 Nous renverrons ici à la présentation très complète de l’évolution de la discipline dans l’ouvrage de W. Fleischer (Fleischer, 1997), qui donne à la recherche de l’ex-bloc soviétique toute la place qui lui revient. 7 Ceci n’est pas tout à fait vrai en ce qui concerne la phraséologie germanophone, car elle a pu asseoir sa recherche sur la recherche soviétique antérieure, russophone, qui s’était intéressée à l’allemand, puisqu’une moitié de l’Allemagne appartenait alors au bloc soviétique.

Page 5: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

99

Le « tournant cognitif » qui a opéré de profondes transformations ces dernières décennies dans de nombreuses sciences, dont une partie de la linguistique, a aussi touché la phraséologie. Et pour cause, les questionnements d’ordre psycho-cognitif sur ces phénomènes sont multiples et représentent une grande part des énigmes qu’il reste à éclaircir. Du point de vue cognitif, l’idiomaticité, notamment, véhicule nombre de questions : la présence d’une image représente-t-elle ou non une surcharge cognitive dans la production ou la réception langagière ? L’image langagière peut-elle interférer avec le sens réel de l’expression ? Comment les phrasèmes, et encore plus spécifiquement les idiomes, sont-ils mémorisés et mobilisés 8 ? Le sont-ils au même titre qu’un lexème simple en dépit de leur nature polylexicale ? Enfin, un certain flou existe encore sur l’usage véritable des phrasèmes, et encore une fois plus particulièrement des idiomes. Certains les disent courants, facilement compris et facilement utilisés par les locuteurs. Or, et nous y reviendrons plus tard, ces présupposés s’appuient au mieux sur des constatations faites sur corpus écrits (principalement constitués de textes issus de la presse et de la littérature) - et des auteurs éclairés n’hésitent pas à faire part de leur scepticisme quant aux affirmations faites concernant l’usage des phrasèmes : « Un phrasème peut être considéré comme « usité » soit dans l’ensemble de la communauté linguistique ou bien seulement dans certains de ses secteurs, géographiques ou sociolinguistiques. L’usage donne fréquemment lieu au sein de la recherche en phraséologie à des suppositions hâtives et invérifiées qui, souvent, ne résistent pas à une vérification empirique » (Burger, 2007). Il semblerait donc qu’une étude empirique d’ampleur permettant de tirer des conclusions fiables sur le degré d’usage des phrasèmes par des locuteurs lambda fasse encore partie des desiderata.

3 Phraséologie et corpus Nombre de phraséologues reconnaissent à la linguistique de corpus un rôle décisif dans l’évolution de la discipline, parlant même d’une « histoire parallèle » (Pecman, 2005). Cette intrication entre linguistique de corpus et phraséologie, si elle a été très productive, a cependant été ardue : « Bien qu’elles constituent des éléments constants du discours, les combinaisons de mots lexicalisées n’en demeurent pas moins des éléments subliminaux du langage se refusant à tout repérage facile » (Pecman, 2005). Nous évoquerons ici les facteurs qui ont fait de cette combinaison une interaction aussi difficile qu’enrichissante pour la phraséologie, en nous restreignant ici à une notion toute particulière : celle des « collocations ».

3.1 Élargir et préciser le spectre de la phraséologie : le rôle des corpus écrits L’avènement de la linguistique de corpus a eu pour effet de permettre aux phraséologues et aux linguistes en général, d’aller chercher au sein des corpus la confirmation de leurs intuitions. Pour l’ensemble de la linguistique, le recours à des corpus a joué le rôle de « gage d’objectivité » (Pecman, 2005). Pour la phraséologie, plus particulièrement, ils ont été des « piliers de la recherche », puisque c’est grâce à eux que l’on pouvait faire émerger la nature phraséologique de certaines constructions, qui pouvaient auparavant être considérées comme des « constructions libres », où des éléments lexicaux étaient associés les uns aux autres sans

8 Nous évoquerons ici brièvement les travaux issus de la Construction grammar, théorie initiée par C. Fillmore et qui a avancé des éléments de réponse très convaincants au sujet de la mémorisation/mobilisation de certaines constructions figées.

Page 6: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

100

restriction aucune et où chacun ou presque était interchangeable. D. Mayaffre esquisse deux conceptions du corpus, deux logiques bien distinctes et pourtant complémentaires : celles du corpus comme « observatoire d’une théorie a priori » et du corpus comme « observé dynamique qui permet de décrire puis d’élaborer des modèles a posteriori » (Mayaffre, 2005)9. Notre but sera ici d’illustrer le glissement de l’une à l’autre conception, tel qu’il a eu lieu concernant les « collocations ». En allant chercher des séquences figées dans les corpus pour justifier le bien-fondé de la discipline ou du phénomène particulier, c’est au corpus-observatoire que l’on recourait – et ce fut là aussi, concernant les collocations, le point de départ de la recherche. Puis, assez rapidement, on aboutit à la seconde conception, celle du corpus-observé dynamique, ouvrant la notion jusqu’à un point probablement préjudiciable. C’est grâce aux corpus d’une part et à la confrontation avec des langues étrangères d’autre part que l’on a pu mettre le doigt sur les « collocations », dont la définition communément admise est celle de cooccurrence privilégiée de plusieurs éléments lexicaux10. Citons pour exemple la collocation française « mettre la table », qui a pour équivalent parfait en anglais « to lay/set the table », mais dont l’équivalent allemand diffère dans le choix du verbe « den Tisch decken » (traduction littérale : couvrir la table). La restriction appliquée au choix du verbe dans cette collocation a priori tout à fait anodine pour des locuteurs natifs de la langue n’est pas sans poser problème à des apprenants étrangers (Hausmann, 2003), ce qui a mené à une réflexion très active sur leur rôle et leur représentation dans les dictionnaires, unilingues et bilingues. Ce constat de l’existence et la prise en compte nécessaire de ces combinaisons a été mené de front avec une recherche assidue de séquences de ce genre dans les corpus textuels. Or, chercher des collocations définies comme « cooccurrences privilégiées » au moyen d’outils informatiques basés sur des modèles mathématiques et méthodes statistiques a aussi mené à un élargissement certainement exagéré de cette notion de « collocation » comme nous allons le voir ci-après. La question de la nature des ressources recensées dans les corpus textuels et le traitement qui doit être réservé aux séquences qui en émergent est évidemment épineuse. Doit-on considérer que l’association du verbe « courir » et de l’adverbe « vite » représente une collocation, sous prétexte que cette suite apparaît souvent dans un corpus ? Partant de la définition comme « cooccurrence privilégiée », la notion de collocation était vouée au flou le plus total et deux acceptions s’affrontent, l’une quantitative, « relev[ant] de la description statistique de corpus » et l’autre, « essentiellement qualitative, (...) définie par « cooccurrence lexicale restreinte » » 11 (Hausmann et Blumenthal, 2006). Si les corpus ont permis de révéler et/ou conforter des phénomènes phraséologiques, ils ont aussi contribué à en préciser et/ou faire foisonner la typologie12 et donc, à en faire des notions aux acceptions très diverses, plus

9 On retrouve cette même distinction chez Steyer (2004) et chez Sailer (2007), qui en étudient toutes les conséquences sur la recherche phraséologique elle-même. On utilise aussi souvent l’opposition entre approche « corpus-based » et « corpus-driven », pour reprendre la dénomination de Tognini-Bonelli (2001). 10 Cette définition, reprise par la recherche française sur les collocations, notamment par Tutin et Grossman (2002), a été initiée par Hausmann (1989). 11 « Comme l’explique très bien Steinlin (2003), l’intérêt qu’on trouve à ce type de cooccurrences tient davantage aux contraintes qu’elles font peser sur l’utilisation du lexique qu’à leur fréquence, car il s’agit d’un savoir lexical, d’une propriété du lexique. (…) C’est cette seconde acception qui se trouvera au centre de la majorité des contributions présentées ici ; nous verrons par ailleurs qu’elle ne s’oppose pas radicalement à la première » (Hausmann et Blumenthal, 2006). 12 Par souci d’exhaustivité, il faut ici évoquer aussi l’existence d’une autre catégorie : la colligation. Dans leurs recherches sur corpus, de nombreux chercheurs en lexicologie et analyse de corpus s’appuient sur la distinction entre collocation (cooccurrence lexicale) et colligation (« relation mutuelle entre des catégories grammaticales »,

Page 7: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

101

ou moins larges, d’un chercheur à l’autre. De là se pose aussi un questionnement méthodologique et éthique pour le chercheur face aux résultats issus des requêtes sur corpus : à lui de démêler et classifier ensuite les résultats obtenus, mais se basant sur quel critère ? Celui de l’intuition de la part d’un locuteur et linguiste averti semblerait le plus opérant. Mais n’est-il pas annihilé par la quête précédente, celle se fondant sur un corpus, et qui avait pour but d’y trouver des résultats indéniables parce qu’issus de productions véritables13 ? Et si l’appui sur un corpus devient toujours plus nécessaire, qu’adviendra-t-il de séquences qui pourraient y être assez rares, sur un plan strictement statistique ?

3.2 Phraséologie et oralité : la théorie à l’épreuve d’un corpus oral Comme nous l’avons vu, le recours à des corpus textuels a permis à la fois d’asseoir et d’élargir le spectre de la phraséologie, avec les avancées et les écueils que cela impliquait. Ce recours quasi systématique aux corpus est relativement récent dans la recherche en général, de même qu’en phraséologie, et en est à ses balbutiements quant aux corpus oraux14. Cet état de fait est sans aucun doute lié aux difficultés inhérentes à la constitution et au traitement de tels corpus, nous y reviendrons ultérieurement ; mais il tient aussi au fait que phraséologie et oralité représentent une association difficile, qui pourrait bien mettre à mal ou être mise à mal par les connaissances acquises jusqu’à présent sur le sujet.

3.2.1 La confrontation au corpus ou l’incertitude du résultat Nous avons déjà vu au détour des chapitres précédents à quel point certains critères peuvent être fluctuants, voire fuyants, dès lors qu’on les met en confrontation avec des productions réelles : c’est le cas du degré de figement quand il est question de collocation. Quand on a affaire à un corpus textuel, souvent constitué d’écrits extrêmement codifiés et corrects (en ceci qu’ils ont fait l’objet de relectures nombreuses et méticuleuses), issus de journaux, de romans, etc., il n’est pas toujours aisé d’y mettre en exergue des phénomènes phraséologiques. Et pourtant, en recourant à de telles sources, on sait d’ores et déjà que les collocations y seront légion et que même les idiomes y seront présents : ces derniers constituent des ressources presque infinies pour attirer l’attention du lecteur au détour d’un jeu de mots dans un titre d’article, par exemple. Mais on sait que de tels écrits, s’ils restent des productions bien réelles, ne présentent pas les caractéristiques de productions spontanées. Ainsi, en recourant à un corpus oral, il n’est nulle certitude sur le fait que l’on y trouve ou non suffisamment de « matière » phraséologique, notamment concernant les idiomes. Les utilise-t-on souvent ? Sont-ils récurrents dans le discours spontané d’un locuteur lambda ? Deuxième incertitude, et pas des moindres : va-t-on retomber sur la typologie établie des différentes classes de phrasèmes ? Partant d’un corpus oral, on sait que les balbutiements, hésitations, faux-départs, imprécisions, et même « fautes » vont être nombreux. Ces derniers ne vont-ils pas contrevenir aux classifications notamment morphosyntaxiques des phrasèmes ? Quelle attitude adopter face à des productions instables et parfois même erronées ? Moon fait

cooccurrence de mots ou catégories grammaticaux) en s’inspirant de la théorie de Firth (Gledhill et Frath, 2007). 13 À mon sens, la réponse à cette question est évidente : rien ne saurait remplacer l’intuition du linguiste. Mais d’autres semblent en douter (cf. en page 102, la citation de Moon et son commentaire). 14 Dans Phraseologie/Phraseology (Burger, Dobrovol'skij, Kühn et Norrick, 2007), recueil d’articles des plus exhaustifs et véritable ouvrage de référence pour quiconque s’intéresse à la phraséologie, toute une section est dédiée à l’association de la phraséologie et de la recherche sur corpus. Dans les trois articles entrant dans cette catégorie, un seul évoque en passant des recherches menées sur des corpus oraux (Moon, 2007).

Page 8: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

102

remarquer : « Many phraseologists have pointed to gradations in fixedness of phrases, with continua of idiomaticity (...) : typologies may be based on frozenness of form and opacity of meaning. Corpus linguists would extend the gradations further, seeing a continuum between individual words and phrases, varying in strength and stability of patterning » (Moon, 2007). Cette inadéquation entre typologie de la phraséologie et découvertes réelles au contact d’un corpus textuel ne peut que s’accroître au contact d’un corpus oral.

3.2.2 Phraséologie et outils La position d’observateur, qui est celle du linguiste désireux de fonder ou retravailler ses théories et intuitions à l’aide d’un corpus, n’est pas des plus confortables, car elle dépend directement de l’existence ou de l’inexistence de ces données au sein du corpus. Et cette (in)existence au sein d’un corpus donné n’est pas révélatrice de l’(in)existence du phénomène dans le langage, le corpus n’étant qu’un échantillon plus ou moins imparfait (selon sa taille et l’ampleur du travail dont il a fait l’objet, pour les annotations, par exemple). R. Moon met en avant les différents éléments nécessaires à une bonne recherche mêlant corpus et phraséologie : « There are three physical aspects of corpora which need to be taken into account : size, composition and tools » (Moon, 2007). Au-delà de ces éléments très concrets, elle complète un peu plus loin son énumération : « It was pointed out earlier that corpus tools have an important part to play in successful retrieval of all tokens for set phrases, but researchers’ technique and intuitions are also important ». Dans l’organisation de sa démonstration, la référence à la technique et l’intuition du linguiste arrive bien tard, ce qui porterait à croire que ces dernières sont secondaires. Nous n’irons pas jusque là, mais il est néanmoins vrai que la capacité de déceler et de traiter d’éventuels phénomènes revient en grande partie aux outils mis à disposition du linguiste. Notre linguiste-observateur passe une bonne partie de son temps devant son ordinateur, comme le précisaient Lemnitzer et Zinsmeister, et il est souhaitable qu’il ait à sa disposition les outils adaptés à ses requêtes et phénomènes décelés. L’un des principaux problèmes en lien direct avec la phraséologie est celui des outils mis à disposition par l’analyse conversationnelle en association avec les nécessités de l’analyse phraséologique : qu’en est-il de l’annotation d’une séquence par définition polylexicale et dont les lexèmes ne seront pas nécessairement accolés les uns aux autres ? Un tel outil d’annotation n’a pas, à ma connaissance, encore été mis sur pied qui permette ainsi d’étiqueter les différents éléments de la séquence comme appartenant à une seule et même unité. Un traitement des occurrences a posteriori à l’aide d’outils tels qu’un concordancier en devient inévitablement plus ardu. Deux choix s’offrent alors au chercheur : bricoler avec les outils de l’analyse conversationnelle, au risque qu’ils soient moins opérants ensuite dans l’extraction des données ou renoncer à ces logiciels pour adopter ceux qui servent au traitement des corpus écrits, traitant par là-même la conversation orale comme un texte écrit.

3.3 Corpus oral : difficultés et enjeux d’un tel choix Comme nous l’avons brièvement évoqué plus haut, les difficultés inhérentes à la constitution et au traitement d’un corpus oral expliquent en grande partie que le recours à de tels corpus soit encore très rare.

3.3.1 Accès et constitution d’un corpus oral « En dépit des évolutions positives de ces dernières décennies, la collecte, documentation, l’archivage et la transmission de la communication orale et de la langue parlée est encore loin d’avoir atteint le niveau et les standards qui sont désormais d’usage pour les textes écrits dans les archives et bibliothèques, par exemple » (Fiehler et Wagener, 2005). Fiehler et Wagener font remarquer à juste titre que très peu de corpus oraux sont accessibles aux chercheurs. Le caractère éphémère de la parole en comparaison à l’écrit, l’apparition

Page 9: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

103

somme toute très récente des techniques permettant l’enregistrement du son et encore plus récemment des techniques et conventions permettant le traitement informatique de documents audio en vue d’analyses, expliquent cette sous-représentation des corpus oraux en comparaison à des corpus textuels. En Allemagne, ce déficit a fait l’objet d’une prise de conscience de la part de diverses institutions de la recherche qui ont tenu à y remédier en l’inscrivant dans les objectifs de ces prochaines années et décennies. Ainsi, le conseil d’administration de la Leibniz-Gemeinschaft15, par la voix de sa commission d’évaluation de l’Institut für Deutsche Sprache (IDS), déplorait en 2003 dans son rapport : « La conception de corpus écrits et oraux pour l’allemand sont une mission importante, dont l’intérêt concerne la société entière et dont l’importance ne fera qu’augmenter à l’avenir en tant que base pour la recherche linguistique et les technologies linguistiques. Il appartient à l‘IDS de mettre cette mission plus encore au cœur de ses préoccupations et de redoubler d’efforts quant à l’acquisition de corpus en vue d’élargir le corpus. L’urgence de la disponibilité d’un corpus de référence national équilibré se fait sentir (…). De plus, il est important pour l’utilisation externe que l’IDS en facilite l’accès et les possibilités d’utilisation aux chercheurs/ses extérieurs » (Conseil d'administration de la Leibniz-Gemeinschaft, 2003). En France, malgré les travaux de l’équipe de recherche ICAR de Lyon 2 avec sa base de données CLAPI, une prise de conscience à la même échelle manque encore. La principale difficulté pour un chercheur souhaitant travailler sur un corpus oral est donc de trouver accès à ce corpus, ou bien de le constituer lui-même. La question se pose aussi pour un chercheur souhaitant travailler sur un corpus textuel, mais force est de constater que ces derniers sont bien plus répandus et accessibles (FranText pour le français, DeReKo16 pour l’allemand17, Corpus Collins et Bank of English pour l’anglais) et que, pour un chercheur souhaitant constituer son propre corpus, les données sont beaucoup plus accessibles sous forme digitale quand il s’agit de données textuelles. Ce n’est pas le cas pour quiconque s’intéresse à l’oralité et à la conversation. Un travail de recherche portant sur un corpus oral ou conversationnel passera aujourd’hui encore presque nécessairement par un travail de retranscription, tout de même considérablement facilité dans la mesure où les conventions régissant la transcription de productions orales sont à présent bien fixées (HIAT, GAT, GAT2, etc.). Restent les choix encore épineux d’un logiciel et du média à retranscrire. À cela s’ajoutent les considérations légales et juridiques à prendre en compte quand il s’agit de retranscrire les dires de quelqu’un. Mais la tâche la plus complexe reste encore à faire : le but premier de l’analyse conversationnelle étant de rester au plus près de la production orale réelle18, et ce quel que soit l’objet/l’angle d’analyse choisi (phonologie, dialectologie, étude de l’organisation séquentielle du discours, etc.), cela exige un travail de retranscription très précis. Cette transcription peut aussi être combinée à une analyse de la gestuelle et/ou des mimiques/expressions du visage (dans le cadre de médias audiovisuels).

3.3.2 Corpus écrit, corpus oral : distinctions pertinentes Une conversation orale présente indéniablement des caractéristiques que l’écrit n’a pas :

15 La Leibniz-Gemeinschaft est un organisme scientifique et financier regroupant de nombreux instituts de recherche en Allemagne. 16 = Deutsches Referenzkorpus, créé en 1964 et géré par l’Université de Mannheim (Institut für Deutsche Sprache). 17 Pour une vision d’ensemble des corpus allemands écrits existants, voir Sailer (2007). 18 Nous donnerons ici en exemple le degré de détail pris en compte par les transcriptions : longueur des voyelles, inspirations, expirations, pauses, etc. Tout est pris en compte et peut faire l’objet d’une retranscription selon les objectifs de l’analyse.

Page 10: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

104

« Contrairement au texte écrit, une conversation se caractérise sur le plan temporel par le contact immédiat entre les communicants » (Brinker et Sager, 2010). Ce « contact immédiat » constitutif de la conversation s’illustre de deux façons : « immédiat » dans son acception temporelle, mais aussi « immédiat » dans le sens de « sans intermédiaire ». En effet, dans une conversation, le paramètre de la réception de la part de l’interlocuteur et de sa prise en compte nécessaire est encore bien plus déterminant qu’il ne peut l’être au sujet d’un texte. Le respect de certaines normes et conventions dans les conversation est, au demeurant, un point commun avec le texte, même s’il diffère quelque peu (Brinker et Sager, 2010) :

- Le locuteur doit rendre sa contribution informative et compréhensible (pertinence thématique).

- Son intention doit être claire (intentionnalité). - La contribution doit être présentée de sorte que le locuteur sache à qui elle s’adresse

(directionnalité). - L’interlocuteur doit pouvoir déduire la validité de la contribution : cette dernière

peut-elle/doit-elle être interprétée telle qu’elle a été formulée ou s’agit-il d’ironie, de l’expression d’un doute, etc. ? (validité)

- L’interlocuteur doit pouvoir déduire le degré de significativité et d’importance de la contribution dans la situation et par rapport aux attentes individuelles des participants à cette conversation (pertinence).

En arrière-plan de la communication interviennent des normes connues et communes selon le type de conversation, et une coordination de l’intention de communication par laquelle chaque locuteur s’adapte et adapte sa contribution à la situation de communication. Tous ces facteurs présentent en sus la particularité de s’articuler d’un locuteur à l’autre dans une interactivité permanente, ce qui représente par ailleurs une différence considérable avec le texte où les rôles ne s’intervertissent pas. Dès lors que l’on a choisi une conversation, faisant donc intervenir plusieurs locuteurs, c’est l’interaction qui se trouve au centre de l’attention et des difficultés. De par cette caractéristique qui vient résumer tout un lot de particularités, il est manifeste que l’on ne poursuit pas les mêmes objectifs de recherche en s’attelant à un corpus oral qu’en analysant un corpus écrit.

3.3.3 Les dilemmes de l’interaction Le souci de l’empirie, de la prise en considération d’énoncés véritables semble avoir prévalu à l’avènement des corpus en linguistique. Si le but était bien l’authenticité des énoncés, cela aurait dû mener plus tôt à une prise en compte plus vaste des énoncés oraux. Or, tel n’a pas été le cas jusqu’à présent, et cela tient sans doute encore plus spécifiquement à la complexité de l’interaction. On peut définir la conversation comme étant un échange de points de vue ayant lieu entre au moins deux actants avec une orientation thématique commune (même si la façon d’envisager la conversation peut diverger entre les participants) et répondant à un déroulement très normé (Brinker et Sager, 2010). Cependant, cette définition ne donne pas toute la mesure de la complexité inhérente à la conversation. Pour en prendre la pleine mesure, il convient d’envisager la communication en partant de chaque acteur de cette conversation. N’oublions pas que production et réception du langage sont deux activités cognitives extrêmement complexes. Pour la première, il est nécessaire de générer l’information, de lui donner forme (lexicale et syntaxique) et de l’exécuter (en prononçant l’énoncé). Tous ces processus se font extrêmement rapidement, et certainement de manière simultanée ; ils se font en temps réel puisque l’instantanéité de la situation de communication l’exige. À tout cela s’ajoute la prise en compte de paramètres externes : quel est le destinataire de la contribution ? À quelles normes doit-elle répondre ? Quel est le contexte et son influence sur la contribution ? Sur le plan de la réception de la contribution, les processus cognitifs ne sont pas moins

Page 11: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

105

complexes : il s’agit de décrypter les sons et leur association, d’en déduire le sens des mots, des mots entre eux et de tout l’énoncé. La prise en compte des paramètres externes est aussi valable que pour la production, bien que différents : qui parle ? Que sait-on sur le locuteur ? Pense-t-il ce qu’il dit ? Qu’attend-il de son interlocuteur ? Les données collectées au moyen d’un corpus oral ne peuvent se passer d’un questionnement et d’une prise en compte de ce questionnement mêlant cognition et communication, où l’une influe sur l’autre et vice-versa, au point d’en devenir indissociables.

4 Au-delà du corpus-catalogue de prêt-à-parler… Alors, que faire d’un corpus oral pour y analyser les phénomènes phraséologiques ? Quelle peut être la portée d’un tel corpus et d’une telle analyse ? Quelle(s) approche(s) adopter ? Comme nous l’avons montré, il semblerait que le rapport corpus-phraséologie ait toujours commencé par une approche du corpus en tant qu’ « observatoire » et que cette conception ait toujours été déterminante pour la phraséologie. Ainsi convient-il peut-être de prendre cette logique comme point de départ.

4.1 Sur les traces de la cognition Nous évoquions plus haut les champs de recherche encore inexplorés ou seulement survolés en phraséologie. La perspective psycho-cognitive en fait indéniablement partie et c’est là-dessus que j’ai souhaité me concentrer dans mon propre travail de recherche.

4.1.1 Le langage de l’émotion et de l’authenticité : les émissions de radio libre-antenne ?

Pour ce faire, j’ai choisi comme corpus les émissions de radio libre-antenne qui présentaient plusieurs avantages. Sur le plan technique, ces émissions sont globalement très facilement accessibles grâce au système de podcasts mis en place par les radios. On les trouve donc facilement et dans un format numérique immédiatement exploitable et d’excellente qualité. Le fait qu’il s’agisse de conversations téléphoniques permet de se concentrer sur l’interaction verbale, en excluant gestuelle et mimiques, etc., qui ne sont pas perceptibles au téléphone19. Si un tel choix permettait d’éviter les affres de la collecte d’entretiens et de se limiter d’emblée à l’interaction strictement verbale, il implique aussi certaines restrictions sur l’objet d’étude. Concernant ces conversations menées dans une émission de radio libre-antenne, en effet, il ne faut pas perdre de vue qu’elles présentent des traits tout à fait particuliers. Tout d’abord, il s’agit de conversations ayant lieu entre deux inconnus : l’animateur/animatrice et l’auditeur/auditrice ne se connaissent pas personnellement. Et pourtant, ces conversations vont revêtir un caractère privé indéniable : il y est principalement question de récits d’expériences personnelles laissant une grande place au vécu et à l’expression des sentiments. Les thématiques les plus récurrentes sont celles des difficultés sentimentales, des relations familiales, de la maladie et du deuil. En dépit de cette empreinte très intime, ces conversations sont destinées à devenir publiques.

19 Il serait illusoire de prétendre qu’une conversation téléphonique n’est révélatrice que de l’interaction verbale. Il arrive que des indices non-verbaux soient perceptibles : un raclement de gorge marquant la gêne, la « smiling voice », etc. Cependant, il ne fait aucun doute que l’interaction non-verbale est extrêmement limitée et plus facilement repérable que lors d’une conversation en face-à-face, où elle est permanente et où il est difficile de mesurer l’impact de tel ou tel geste, d’une attitude, etc.

Page 12: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

106

Force est de constater que tout se mêle, et que de telles caractéristiques ont forcément une influence sur le déroulement de la conversation. La conséquence la plus évidente est la relativisation nécessaire de la notion de « spontanéité » : il ne s’agit pas de discussions entre des amis se connaissant de longue date. Il est évident que les auditeurs sont intimidés et/ou stressés par leur passage à l’antenne, qu’ils veilleront à leur langage. De même, l’animateur (souvent diplômé de psychologie) choisira scrupuleusement ses mots. Mais à défaut d’être spontanées, ces conversations ne sont pas préparées car à l’exception de quelques mots-clés, l’animateur ne dispose ni des informations ni du temps nécessaires pour préparer ne serait-ce qu’un semblant d’interview. Ainsi, même si elles ne peuvent être qualifiées de « naturelles » ni de « spontanées », ces conversations sont tout de même authentiques et révélatrices d’un comportement réel.

4.1.2 Phraséologie, cognition et communication : le serpent qui se mord la queue ? Nous avons précédemment décrit la complexité des processus cognitifs que représentent la production et la réception d’un message dans une situation de communication immédiate qu’est la conversation. Or, des phénomènes pouvant découler de cette complexité peuvent aussi être mis en relation avec la complexité de la situation de communication elle-même. Un faux-départ de la part d’un locuteur doit-il être mis sur le compte d’une supposée surcharge cognitive ou bien une hésitation sur le bien-fondé de sa contribution ? « One of the important consequences of taking language seriously is that cognitive psychologists are now rediscovering the complexity of communication », affirmait Miller (1991) au terme d’un questionnement sur la relation entre langage et communication. Il serait bien trop simple de présenter la dimension cognitive comme strictement individuelle et la dimension communicative comme découlant de l’interaction. Cognition et communication interagissent à mon sens perpétuellement : un malaise dû au non-respect d’une norme communicationnelle perturbera sans doute un locuteur dans les processus de production de sa contribution à venir. De même, une erreur dans la production de la contribution viendra perturber l’interaction. Après tout, pourquoi vouloir dissocier l’une de l’autre ? La conversation est le résultat de ces deux composantes.

4.1.3 Objectifs de recherche Pour analyser la dimension cognitive des phrasèmes et une fois le corpus constitué20, il convenait évidemment d’y identifier les phrasèmes et d’observer ce qui se passait dans leur environnement plus ou moins immédiat et qui puisse être relié à un phénomène cognitif. Parmi les énigmes encore non-élucidées se posaient évidemment les questions de la difficulté de production et de compréhension des phrasèmes. Mais d’autres questionnements se sont fait jour dès lors que j’ai commencé à retranscrire les émissions et à m’apercevoir de la complexité de l’interaction d’une part entre locuteurs et d’autre part entre cognition et communication. Les interrogations qui jalonnent mes recherches actuellement partent précisément de ce principe de la conversation qui veut que les rôles soient sans cesse interchangés, que communication et cognition semblent former un duo inséparable influençant perpétuellement et au même titre chaque acteur de la conversation. Chacun a certainement une perception du langage quelque peu différente : tout le monde ne manie pas les mots avec la même facilité et n’a pas la même aisance face à un interlocuteur. Mais chaque locuteur s’est déjà trouvé en position de destinataire, et vice-versa. À cela s’ajoute le fait que nous sommes éduqués au langage, que cette éducation requiert des années d’apprentissage pour maîtriser tous ou la plupart des codes d’une communication réussie. Nous savons précisément ce qu’on attend généralement de nous dans une conversation, le comportement qui serait le plus adapté et ce

20 Il comprend à ce stade 22h d’enregistrements : 11h en langue française et 11h en langue allemande. La confrontation de ces deux langues est particulièrement intéressante du fait de la différence des systèmes linguistiques.

Page 13: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

107

qui se dit ou ne se dit pas dans tel ou tel contexte. En admettant que toutes ces règles soient bien intégrées par chaque locuteur et que chaque locuteur s’est déjà trouvé dans la position inverse, alors, il semble logique que, pour la réussite de la communication (et si tant est que ce soit le but du locuteur en question), le locuteur 1 fournira au locuteur 2 ce qu’il suppose nécessaire, ce dont il aurait peut-être lui-même eu besoin pour bien comprendre le message qui lui est adressé s’il avait été dans la position du destinataire. Il en va de même pour le récepteur : il sera sans doute en mesure de se mettre à la place de l’émetteur du message, et donc d’adopter un comportement qui facilitera la tâche à ce dernier. L’ensemble de ce fonctionnement repose sur le principe de coopération, compris ici dans un sens très large. Ainsi, l’un des moyens de constater la surcharge cognitive possiblement induite par la compréhension d’un idiome, est d’observer des phénomènes initiés par le destinateur pour faciliter le traitement cognitif de l’idiome à son destinataire. Entreraient dans cette catégorie ce que nous appellerons ici des « phénomènes de signalement »21 ou « d’explicitation »22 des idiomes utilisés. Du côté du destinataire, trouve-t-on des exemples où un idiome a donné lieu à un malentendu ? Quant à la difficulté à produire un idiome, elle pourrait transparaître dans des productions erronées, où le locuteur utilise un élément lexical inattendu dans une expression pourtant identifiable, ou bien où il mélange deux expressions imagées. Évidemment, une telle analyse ne peut se passer aussi d’une étude des phénomènes d’hésitation présents autour des idiomes et qui pourraient être les premiers miroirs de la difficulté du destinateur à produire l’idiome, ou du destinataire à le traiter. Enfin, partant de cette conception du corpus comme d’un observatoire où vérifier ou rejeter des théories, il semblait naturel de chercher dans un corpus oral les traces effectives de métaphores conceptuelles telles que les ont identifiées Lakoff et Johnson (1980). Le fait que cette théorie ait eu autant de retentissement est en lien avec la pertinence de ses conclusions, dont la première a été de montrer que nos langues regorgent de ces tissus métaphoriques23. Il était tentant d’aller un peu plus loin et d’envisager une image langagière, si elle est si présente qu’on le prétend, comme laissant probablement des « traces ». Peut-on filer la métaphore inconsciemment en conversation ? Le fait d’activer une image ne peut-il pas induire la création de tout un faisceau métaphorique qui ressurgirait au fil de la discussion ? De tels exemples viendraient appuyer la théorie de Lakoff et Johnson, qui furent les premiers à affirmer et prouver que la métaphore ne se limitait absolument pas à un procédé stylistique ou poétique, mais imprégnait bel et bien toute notre perception du monde.

4.2 Premières pistes, premiers résultats Nous aborderons très brièvement dans cette dernière partie quelques-unes des premières constatations en lien avec les hypothèses précédemment évoquées. Les exemples suivants sont tirés d’une seule et unique conversation, bien qu’elle soit coupée en trois parties. Il s’agit d’une conversation enregistrée en 2010 sur une grande radio française. Trois locuteurs se partagent alors l’antenne : D., l’animatrice de l’émission, S., auditeur à l’origine de l’appel et L.24, qui a été pris à l’antenne pour participer à la fin de la discussion. L’ensemble de cette conversation a été interrompu par deux pauses musicales et publicitaires. Après avoir identifié tous les idiomes présents dans cette conversation, il s’est avéré que chaque idiome était accompagné de phénomènes de signalement et/ou d’explicitation. En voici deux exemples :

21 Phénomènes de signalement du type « comme on le dit si bien », « c’est bien connu », etc. 22 Phénomènes d’explicitation : éléments fournis en amont ou en aval de l’idiome par le locuteur et qui en expliquent, en paraphrasent le sens. 23 La métaphore conceptuelle la plus connue est sans aucun doute celle de DEBAT=GUERRE : défendre une opinion, aiguiser son argumentation, démolir un point de vue, etc. 24 Tous les noms ont été anonymés.

Page 14: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

108

-1 [00:00.0] 0 [00:01.5] 1 [00:02.1] 2 [00:03.4]

D [v] bonsoir bonsoir *********

S [v] bonsoir bonsoir bon alors je vous appelle parce que j’ai l’impression

. . 3 [00:07.8*] 4 [00:09.3*]

S [v] d’ être dans une impasse en fait au niveau un peu professionnel et sentimental j’ai l’impression

. .

S [v] de pas avancer heu je fais beaucoup de choses mais tout ce que ce que je fais j’ai

. .

S [v] l’impression que c’est contrecarré après et puis heu en fait voilà j’avance pas quoi c’est

5 [00:26.1] 6 [00:27.2] 7 [00:28.4]

D [v] oui alors une impasse déjà je vois sentimentale

S [v] ouais

EXTRAIT 1 - Conversation D-S n°1, phrases liminaires Ce premier extrait correspond aux tout premiers mots échangés entre les deux locuteurs de la première partie de conversation. L’idiome y est signalé en gras (« être dans une impasse ») et on s’aperçoit que l’on peut trouver de nombreux éléments d’explicitation dans son entourage immédiat (en italique). Ainsi, le locuteur reformule, paraphrase ce qui est déjà contenu dans l’idiome, à savoir cette notion de situation désagréable dont on ne trouve pas l’issue. 53 [05:58.6] 54 [05:59.1]

D [non non]

L [la vie] (.) comme dit hein c’est pas parce qu’ il manque un arbre que la forêt est

. . 55 [06:03.5] 56 [06:04.6]

D [oui] oui c’est une belle image

L dépeuplée hein [bon, c’est]

EXTRAIT 2 - Conversation D-S-L (partie n°3 de la conversation) Dans ce deuxième extrait, nous parlerons ici tout d’abord de ce phénomène d’annonce, de signalement en amont de l’idiome (qui n’en est pas vraiment un, comme nous le verrons ultérieurement). Le locuteur annonce « comme dit hein ». Dans le déroulement de la conversation, il est difficile de dire si le « hein » correspond à une hésitation du locuteur qui cherche l’auteur de la citation qu’il s’apprête à produire ou si ce « comme dit hein » est simplement le fait du stress, de la précipitation du locuteur, qui par conséquent, en oublie le pronom personnel « on ». Ce même extrait tendrait à prouver que les éléments figés de la mémoire discursive et du langage ne vont pas de soi pour un locuteur et qu’ils peuvent être l’objet d’erreurs. Il est en effet ici très probable que l’énoncé soit le résultat d’une collision entre la citation de Lamartine « un seul être vous manque et tout est dépeuplé » et l’idiome « c’est l’arbre qui cache la forêt ». Cette collision, si elle produit bien un effet comique (l’animatrice rit), n’est pas pour autant complètement absurde et dénuée de tout ancrage dans la situation. En effet, il est question dans cette conversation de S. qui a vécu une séparation très douloureuse (d’où, sans doute, le lien avec la citation de Lamartine) et qui n’arrive absolument pas à dépasser cette souffrance pour continuer à vivre. Quelque part, cette séparation est l’arbre qui cache la forêt, l’événement qui vient gâcher la vie de S. et lui faire oublier tout le reste, bien plus positif. Cette superposition d’idiomes peut être interprétée de

Page 15: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

109

manière très paradoxale : elle montre que la production d’idiomes peut connaître des failles25 (et que les idiomes représentent donc sans doute une surcharge cognitive), mais dans un sens, c’est aussi la preuve que notre cerveau tend à générer plusieurs idiomes, plusieurs images et qu’il est certainement en mesure la plupart du temps d’en gérer la profusion. Cet exemple est aussi l’occasion de constater que même dans le cas d’une collision d’idiomes, dont on pourrait donc penser qu’ils sont plus difficiles à comprendre, le message passe et est validé par l’interlocuteur (« oui oui, c’est une belle image »)26. Enfin, dans cette conversation, nous avons pu montrer qu’il n’est pas absurde de penser que la métaphore filée est une réalité en conversation et qu’elle non plus ne se limite pas à un procédé poétique, dans la démonstration par Lakoff et Johnson que la métaphore est en fait un véritable mode de réflexion ou du moins, de concrétisation langagière de notre réflexion sur le monde. Il nous est ici impossible de reproduire l’ensemble de la conversation étudiée, mais nous pouvons en résumer l’essentiel. Nous avons déjà vu avec l’Extrait 1 que cette conversation s’ouvrait sur l’idiome de l’impasse et il était donc plausible que cet idiome soit très marquant à plusieurs titres : de par sa place de choix, et parce qu’il condense sans aucun doute tout le malaise, toute la problématique de la discussion. Dans la poursuite de conversation, ce même idiome est reproduit, paraphrasé (par l’emploi de l’image de la spirale) et semble ouvrir tout un champ d’images langagières, parfois quelque peu erronées, mais toujours extrêmement révélatrices : « y aller tête baissée », « tomber de heu sur un mur », « foncer dans le mur », « rester dans mon coin ». Chacun de ces idiomes présente un point commun avec le premier, une surface de superposition sémantique, métaphorique. Ainsi, l’image de l’impasse et du mur sont très proches, même si les notions de blocage (être dans une impasse) et de manque de réflexion (foncer dans un mur) le sont a priori moins. Toutes ces expressions ont en commun la notion conceptuelle de parcours, et plus précisément de parcours empêché – ce qui se caractérise toujours par une connotation négative. Au fil de cette conversation, on aboutit à un certain moment à une véritable profusion et confusion des images. Nous pouvons y voir un phénomène très proche de la persistance rétinienne27 : il semblerait que le cerveau retienne une image activée dans la conversation et que tout un faisceau d’images soit ainsi activé. Or, les nouvelles images ainsi suscitées par la première peuvent l’être à cause de similitudes lexicales (foncer et aller), de similitudes sémantiques (plusieurs expressions ont la même signification du manque de réflexion) ou de similitudes conceptuelles/métaphoriques (avec notamment le concept du parcours). Naturellement, il sera nécessaire de mener des observations sur de très nombreuses autres conversations pour pouvoir confirmer l’existence de tels processus en marche de manière inconsciente dans nos conversations.

Conclusion Deux perspectives s’offrent à l’observateur qu’est le linguiste travaillant sur corpus : il peut considérer ce corpus comme le cobaye de thèses et hypothèses à corroborer, ou comme une base à la découverte de multiples nouveaux modèles, base à laquelle il ne manque que le linguiste comme révélateur. Nous avons ici brièvement retracé l’évolution de la phraséologie

25 Nous renverrons ici aux phénomènes de défigement (Authier-Revuz, 1995). 26 Au sein de cette conversation bien précise, aucune marque d’incompréhension de la part d’un interlocuteur suite à la production d’un idiome n’a pu être constatée. Ceci doit évidemment être approfondi sur un corpus plus ample. 27 La persistance rétinienne est une caractéristique de l’œil qui conserve « en mémoire », sur la rétine, une image vue précédemment et qui y superpose les nouvelles images que l’on est en train de voir. Ceci est dû à un délai de traitement du signal optique, créant ainsi des illusions d’optique où une image est perçue comme mouvante alors qu’elle n’est que la succession très rapide d’images fixes.

Page 16: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

110

comme discipline, avant et après l’avènement des corpus en linguistique et cette nouvelle donne a eu globalement les mêmes effets sur la phraséologie que sur les autres disciplines de la linguistique, à une différence près. Phraséologie et corpus ont révélé une affinité toute particulière, comme le succès de la notion de collocation peut le montrer. Au fil des recherches alliant corpus et phraséologie, on s’aperçoit que les deux regards évoqués plus haut ont été portés sur le corpus : corpus-cobaye et corpus-base, contribuant tous deux à des avancées non négligeables, précisément parce que les linguistes ont refusé une perspective très préjudiciable : celle du corpus-catalogue. En revanche, la phraséologie n’ayant pas encore atteint son degré de maturité maximal à l’époque des premières confrontations aux corpus, cela a pu contribuer à créer quelques confusions. Mais dans l’ensemble, les bénéfices ont clairement outrepassé les rares inconvénients. Des circonstances bien particulières ont permis la création et le succès des corpus en linguistique : tout d’abord, très concrètement, les progrès de l’informatique lors de ces dernières décennies et deuxièmement, une quête d’authenticité des énoncés de la part des linguistes. Cette nouvelle approche a certainement permis à la linguistique de gagner ses lettres de noblesse auprès d’autres disciplines scientifiques, qui y ont vu la volonté de la part d’une discipline de sciences humaines d’asseoir ses découvertes sur la réalité du langage, et donc du monde. Cette reconnaissance a à son tour permis à d’autres disciplines de voir en la linguistique un compagnon avantageux en termes de découvertes et fiable en termes de méthodologie. L’ouverture à une nouvelle forme de corpus, les corpus de conversations orales, les plus authentiques possibles, serait l’étape suivante la plus logique. C’est à mon sens la perspective d’avenir la plus importante pour la linguistique en général et nous espérons avoir ici fait la démonstration de l’intérêt de telles recherches.

Remerciements Un grand merci pour sa relecture attentive et son soutien indéfectible à ma directrice de thèse, Mme Martine Dalmas, dont la disponibilité et la patience me sont toujours d’un grand réconfort ; et un autre grand merci à mon ami et collègue, M. Daniel Soulié, qui en plus d’avoir le sens de la formule, trouve toujours les bons mots.

é érences AUTHIER-REVUZ, J. (1995). Méta-énonciation et (dé)figement: le préfabriqué et l'imprévu du dire. Les Cahiers du français contemporain, 2, pages 17-39. BACH, E., et HARMS, R. T. (1968). Universals in Linguistic Theory. New York, Holt, Rinehart & Winston. BALLY, C. (1909). Traité de stylistique française. Paris, Klincksieck. BRINKER, K., et SAGER, S. F. (2010). Linguistische Gesprächsanalyse : eine Einführung. Berlin, E. Schmidt. BURGER, H. (2007). Phraseologie - Eine Einführung am Beispiel des Deutschen. Tübingen, Niemeyer. BURGER, H., et al. (2007). Phraseology: Subject area, terminology and research topics. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter, pages 10-19. CONSEIL D'ADMINISTRATION DE LA LEIBNIZ-GEMEINSCHAFT (2003). Bewertungsbericht Institut für Deutsche Sprache. COULMAS, F. (1981). Routine im Gespräch. Zur pragmatischen Fundierung der Idiomatik.

Page 17: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

« Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat

111

Wiesbaden, Athenaion. DOBROVOL'SKIJ, D., et PIIRAINEN, E. (2005). Figurative Language. Cross-Cultural and Cross-linguistic Perspectives. Amsterdam, Elsevier. DOBROVOL'SKIJ, D., et PIIRAINEN, E. (2009). Zur Theorie der Phraseologie - Kognitive und kulturelle Aspekte. Tübingen, Stauffenburg. FIEHLER, R., et WAGENER, P. (2005). Die Datenbank Gesprochenes Deutsch (DGD) - Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgaben der Sprachwissenschaft. Gesprächforschung - Online-Zeitschrift aur verbalen Interaktion, 6, pages 136-147. FILLMORE, C. (1968). The Case for Case. In BACH, E. et HARMS, R.T. (éds.), Universals in Linguistic Theory. New York, Holt, Rinehart & Winston, pages 1-88. FLEISCHER, W. (1997). Phraseologie der deutschen Gegenwartssprache. Tübingen, Max Niemeyer Verlag. GLEDHILL, C., et FRATH, P. (2007). Collocation, phrasème, dénomination : vers une théorie de la créativité phraséologique. La Linguistique , 43-1, pages 65-90. HAUSMANN, F.J., REICHMANN, O., WIEGAND H.E., et ZGUSTA L. (1989). Wörterbücher: ein internationales Handbuch zur Lexikographie. Dictionaries. Dictionnaires. Berlin, Walter de Gruyter. HAUSMANN, F.J. (1989). Le dictionnaire des collocations. In HAUSMANN, F. J., REICHMANN, O., WIEGAND, H. E., et ZGUSTA L. (éds.), Wörterbücher: ein internationales Handbuch zur Lexikographie. Dictionaries. Dictionnaires. Berlin, Walter de Gruyter, pages 1010-1019. HAUSMANN, F. J. (2003). Was sind eigentlich Kollokationen? In STEYER, K. (éd.), Wortverbindungen, mehr oder weniger fest. Berlin, Walter de Gruyter, pages 309-334. HAUSMANN, F. J., et BLUMENTHAL, P. (2006). Présentation : collocations, corpus, dictionnaires. Langue française , 150-2, pages 3-13. KALLMEYER, W., et ZIFONUN, G. (2006). Sprachkorpora : Datenmengen und Erkenntnisfortschritt. Berlin, Walter de Gruyter. KOLLER, W. (1977). Redensarten. Linguistische Aspekte, Vorkommensanalysen, Sprachspiel. Reihe Germanistische Linguistik, 5. LAKOFF, G., et JOHNSON, M. (1980). Metaphors we live by. Chicago, University of Chicago. LEGALLOIS, D. (2009). Mémento sur quelques rapports entre mémoire et linguistique. Questions de Style, 6, pages 1-21. LEMNITZER, L., et ZINSMEISTER, H. (2006). Korpuslinguistik. Eine Einführung. Tübingen, Narr. MARTINS-BALTAR, M. (1997). La locution : entre langue et usages. Fontenay-aux-Roses, ENS. MAYAFFRE, D. (2005). Rôle et place des corpus en linguistique : réflexions introductives. Texto! , 10-4. MILLER, G. A. (1991). The Place of Language in a Scientific Psychology. National Student Speech Language Hearing Association Journal , 18, pages 66-72. MOON, R. (2007). Corpus linguistic approaches with English corpora. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter, pages 1045-1059. PECMAN, M. (2005). Les apports possibles de la phraséologie à la didactique des langues étrangères. Alsic, 8-2.

Page 18: Corpus et phraséologie : un catalogue de "prêt-à-parler"?

Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco

112

PILZ, K. D. (1978). Phraseologie. Versuch einer interdisziplinären Abgrenzung, Begriffsbestimmung und Systematisierung unter besonderer Berücksichtigung der deutschen Gegenwartssprache. Göppinger Arbeiten zur Germanistik, 239. PUSCH, C. D., et RAIBLE, W. (2002). Romanistische Korpuslinguistik : Korpora und gesprochene Sprache - Romance Corpus Linguistics : Corpora and Spoken Language. Tübingen, Narr. RASTIER, F. (2004). Enjeux épistémologiques de la linguistique de corpus. Texto! , 9-2. SAILER, M. (2007). Corpus linguistic approaches with German corpora. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter. STEINLIN, J. (2003). Générer des collocations. Mémoire de DEA. http://olst.ling. umontreal.ca/pdf/SteinlinDEA2003.pdf. [Consulté le 01/09/2012] STEYER, K. (2004). Kookurrenz, Korpusmethodik, linguistisches Modell, lexikographische Perspektiven. In STEYER, K. (éd.), Wortverbindungen, mehr oder weniger fest. Berlin, Walter de Gruyter, pages 87-116. TEUBERT, W. (2009). La linguistique de corpus : une alternative. Semen, 27. TOGNINI-BONELLI, E. (2001). Corpus Linguistics at Work. Amsterdam, John Benjamin’s Publishing. TUTIN, A., et GROSSMANN, F. (2002). Collocations régulières et irrégulières : esquisse de typologie du phénomène collocatif. Revue française de Linguistique appliquée, 7-1, pages 7-25.