UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique.

UNIVERSITÉ DE ROUEN

Laborato i re DySoLa ( D y n a m i q u e s S o c i a l e s e t L a n g a g i è r e s )

Méthodologie pour la structuration semi-automatique d’un corpus lexicographique

bilingue : le cas du dictionnaire français-kabyle

[email protected]

Mahfoud MAHTOUT

Processus d’informatisation du Dictionnaire français-kabyle(1902-

1903) de Gustave Huyghe

Numérisation

Récupération des

données textuelles

Structuration des

données

Constitution d’une base de donnée

interrogeable

2

Notre étude

Objectifs de l’étude

• Proposer une méthodologie de structuration de corpus lexicographiques bilingues– Accès libre à une ressource linguistique difficilement consultable

– Valorisation du patrimoine écrits franco-algérien

– Constitution d’une base de données lexicales au service des recherches fondamentales

Pourquoi le choix du dictionnaire bilingue de Huyghe• Il n’existe aucune tentative d’informatisation de

dictionnaires bilingues anciens– Le dictionnaire français-kabyle foisonne d’exemples qu’il était

souhaitable d’interroger séparément du texte

– Il est représentatif de l’idéologie véhiculée par le pouvoir colonial

3Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014

Caractéristiques du projet

Un projet pluridisciplinaire faisant coopérer:• Informaticiens (INSA de Rouen)

– Numérisation du dictionnaire papier au format électronique– Extraction de données textuelles– Structuration et gestion XML des données– Constitution d’une base de données lexicales

• Linguistes– Analyser et décrire la structure linguistique des articles du

dictionnaire– Annoter les informations microstructurelles

• Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc.


Numérisation et récupération des données textuelles

• Numérisation par la bibliothèque universitaire de Grenoble (SICD 2)– Document scanné au format PDF-image

• Reconnaissance optique de caractères– Conversion du format PDF-image en format texte

– Utilisation du logiciel OCR Omnipage 18

• Vérification et contrôle du texte– Relecture et correction des erreurs de

reconnaissance

– Préservation des caractéristiques typographiques du texte original


Structuration des données

Codage du document textuel en XML • Codage automatique

– Spécification typographique• Vedettes (Bookman Old Style, gras, 14)• Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.)• Exemples (Ex.: )• Tournures (Tourn.)• Remarques (Rem.)• Expressions (Expr.), • Limites des articles, etc.

– Usage d’expressions régulières • Annotation et pose de balises

• Conversion au format XML


Structuration des données

Codage semi-automatique• Utilisation d’un éditeur XML (Adobe FrameMaker)

• Compléter le fichier XML issu du premier traitement• Insérer des balises et marqueurs aux endroits voulus

• Balisage des éléments restants• Blocs sémantiques• Indicateurs sémantiques• Contexte d’usage

• Vérification et validation du document XML


L’interface utilisateur

Trois modes de consultation • Recherche simple

– S’effectue sur une entrée de la nomenclature

– Donne accès à l’article lui correspondant

• Recherche plein texte – S’effectue dans le texte intégral

– Trouve toutes les occurrences du mot recherché

– Affiche à l’écran la liste des résultats trouvés

• Recherche avancée– Effectuer des recherches expertes ciblées au moyen de critères

multiples

– Possibilité de combiner plusieurs critères• catégories grammaticales• Exemples• Expressions• Equivalents kabyles• Forme d’habitude, etc. 8Mahfoud MAHTOUT Université de Rouen

Atelier TALAF, Marseille, 1 juillet 2014

Conclusion

• Ressources informatisées pour les langues africaines– Base de données lexicales importantes du point de vue

historique et patrimonial– Soutien précieux aux recherches fondamentales,

notamment en métalexicographie– Accès au grand public à une ressource peu disponible– Valorisation des langues peu dotées en ressources

informatisées

• Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes– Beaussier– De Foucauld– Dallet

9

Merci de votre attention

10

UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique.

Documents