UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français- kabyle [email protected] Mahfoud MAHTOUT
UNIVERSITÉ DE ROUEN
Laborato i re DySoLa ( D y n a m i q u e s S o c i a l e s e t L a n g a g i è r e s )
Méthodologie pour la structuration semi-automatique d’un corpus lexicographique
bilingue : le cas du dictionnaire français-kabyle
Mahfoud MAHTOUT
Processus d’informatisation du Dictionnaire français-kabyle(1902-
1903) de Gustave Huyghe
Numérisation
Récupération des
données textuelles
Structuration des
données
Constitution d’une base de donnée
interrogeable
2
Notre étude
Objectifs de l’étude
• Proposer une méthodologie de structuration de corpus lexicographiques bilingues– Accès libre à une ressource linguistique difficilement consultable
– Valorisation du patrimoine écrits franco-algérien
– Constitution d’une base de données lexicales au service des recherches fondamentales
Pourquoi le choix du dictionnaire bilingue de Huyghe• Il n’existe aucune tentative d’informatisation de
dictionnaires bilingues anciens– Le dictionnaire français-kabyle foisonne d’exemples qu’il était
souhaitable d’interroger séparément du texte
– Il est représentatif de l’idéologie véhiculée par le pouvoir colonial
3Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014
Caractéristiques du projet
Un projet pluridisciplinaire faisant coopérer:• Informaticiens (INSA de Rouen)
– Numérisation du dictionnaire papier au format électronique– Extraction de données textuelles– Structuration et gestion XML des données– Constitution d’une base de données lexicales
• Linguistes– Analyser et décrire la structure linguistique des articles du
dictionnaire– Annoter les informations microstructurelles
• Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc.
4Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014
Numérisation et récupération des données textuelles
• Numérisation par la bibliothèque universitaire de Grenoble (SICD 2)– Document scanné au format PDF-image
• Reconnaissance optique de caractères– Conversion du format PDF-image en format texte
– Utilisation du logiciel OCR Omnipage 18
• Vérification et contrôle du texte– Relecture et correction des erreurs de
reconnaissance
– Préservation des caractéristiques typographiques du texte original
5Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014
Structuration des données
Codage du document textuel en XML • Codage automatique
– Spécification typographique• Vedettes (Bookman Old Style, gras, 14)• Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.)• Exemples (Ex.: )• Tournures (Tourn.)• Remarques (Rem.)• Expressions (Expr.), • Limites des articles, etc.
– Usage d’expressions régulières • Annotation et pose de balises
• Conversion au format XML
6Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014
Structuration des données
Codage semi-automatique• Utilisation d’un éditeur XML (Adobe FrameMaker)
• Compléter le fichier XML issu du premier traitement• Insérer des balises et marqueurs aux endroits voulus
• Balisage des éléments restants• Blocs sémantiques• Indicateurs sémantiques• Contexte d’usage
• Vérification et validation du document XML
7Mahfoud MAHTOUT Université de RouenAtelier TALAF, Marseille, 1 juillet 2014
L’interface utilisateur
Trois modes de consultation • Recherche simple
– S’effectue sur une entrée de la nomenclature
– Donne accès à l’article lui correspondant
• Recherche plein texte – S’effectue dans le texte intégral
– Trouve toutes les occurrences du mot recherché
– Affiche à l’écran la liste des résultats trouvés
• Recherche avancée– Effectuer des recherches expertes ciblées au moyen de critères
multiples
– Possibilité de combiner plusieurs critères• catégories grammaticales• Exemples• Expressions• Equivalents kabyles• Forme d’habitude, etc. 8Mahfoud MAHTOUT Université de Rouen
Atelier TALAF, Marseille, 1 juillet 2014
Conclusion
• Ressources informatisées pour les langues africaines– Base de données lexicales importantes du point de vue
historique et patrimonial– Soutien précieux aux recherches fondamentales,
notamment en métalexicographie– Accès au grand public à une ressource peu disponible– Valorisation des langues peu dotées en ressources
informatisées
• Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes– Beaussier– De Foucauld– Dallet
9
Merci de votre attention
10