Outillage de l’accès aux textes par la lecture active étymologique multilingue pour apprenants berbérophones et arabophones Slimane Abdellaoui(1) Valérie Bellynck(2) Mathieu Mangeot(3) Christian Boitet(4) (1) Université Paris 13 et LIG-GETALP (2), (3) Université Grenoble Alpes et LIG-GETALP (4) LIG-GETALP 26/09/2018 1 S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue
30
Embed
Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Outillage de l’accès aux textes par la lecture active étymologique multilingue pour apprenants berbérophones et arabophones
Slimane Abdellaoui(1) Valérie Bellynck(2) Mathieu Mangeot(3) Christian Boitet(4)
(1) Université Paris 13 et LIG-GETALP (2), (3) Université Grenoble Alpes et LIG-GETALP
(4) LIG-GETALP
26/09/2018 1
S. Abdellaoui et al. TALAf-LTT2018 Lecture active étymologique
multilingue
GETALP-LIG
Equipe spécialisée en traitement automatique des
langues naturelles et de la parole.
R&D en lexicographie computationnelle depuis 1986.
JIBIKI Plate-forme de bases lexicales multilingues contributives en
ligne.
Réalisation récente Cesselin/lecture/J-F
◦ Outil de lecture active en ligne
◦ Incorpore la segmentation et la lemmatisation de MECAB et
l’accès au dictionnaire Cesselin.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 2/30
Lecture active pour le lao –français (Berment, 2004)
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 3/30
Lecture active pour le japonais-français Cesselin/JIbIkI (Mangeot, 2016)
Exemple de la lecture active de Cesselin/lecture
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 4/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 5/30
Lecture active pour les Tweets (SUFT-1/JIBIKI (Shah, 2017)
(Shah.R 2017)
Le projet Étymolo
Étymolo = « lecture active étymologique multilingue ».
Faciliter la lecture aux apprenants connaissant plusieurs langues.
Utiliser des liens lexicaux (en particulier des « cognats ») entre une
ou plusieurs langues pour faciliter la mémorisation lexicale.
Le projet Étymolo/berbère
Spécialiser Étymolo au contexte de l’apprentissage du berbère (en Algérie)
Adapter Cesselin/lecture à ce contexte, de façon différente de SUFT-1/Jibiki
Produire un outil réellement utilisable et vérifier l’utilité des « cognats ».
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 6/30
Contexte
◦ PFE Master TILDE au LIG-GETALP◦ Le projet Étymolo et le projet Étymolo/berbère◦ Le berbère
Ce qu’il y a à faire◦ Cognats entre le berbère, l’arabe et le français◦ Situations typiques d’apprentissage◦ Situations visées◦ Maquettage de l’interface souhaitée. Objectifs
Méthodologie
Que doit-on faire pour réaliser Cesselin/lecture/berbère?◦ Collecter des corpus◦ Collecter des dictionnaires◦ Collecter des cognats◦ Lemmatiser les formes◦ Accéder par les lemmes à la base lexicale via l’API de Jibiki
Perspectives
S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/09/2018 7/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 22/30
E
Évaluation du nombre des mots-formes
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 23/30
Liste de dictionnaires en berbère dans Lexilogos
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 24/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 25/30
But final: récupération secondaire
Dictionnaire Nombre d’entrées Intérêt(/20) Facilité de récupération(/20) Score(/20)
Amawal Tamazight-
Tafransist
4505 15 15 15
Dictionnaire kabyle-français 10950 17 13 15
Amawal.net 10958 15 14 14,5
Dictionnaire tarifit-français 6700 15 12 13,5
Vocabulaire grammatical
(français-anglais-berbère-
arabe)
1280 12 15 13,5
Amawal Wikidot 13000 13 12 12,5
Danoun Chez Alice 4049 10 15 12,5
Amawal Ingliz-Amazigh-
Aԑrab
1090 10 15 12,5
Lexique Animal français-
kabyle
1343 10 15 12,5
Lexique Informatique 1200 10 12 11
Dictionnaire français-kabyle 9400 12 10 11
Dictionnaire français tachelhit
et tamazight
8900 12 10 11
Dictionnaire IRCAM 100 10 10 10
Vocabulaire Amazigh de la
mer
100 10 10 10
Dictionnaire français berbère
de DCCC XLIV
6500 10 10 10
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/01
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 27/30
Récupération de plus de 350 cognats des corpus et dictionnaires.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 28/30
Implémenter réellement toutes les fonctionnalités, ainsi qu’intégrer et construire les ressources nécessaires.
Pour cela, récupérer les deux ou trois premiers dictionnaires de notre liste.
Extraire le plus possible de cognats à partir des dictionnaires et textes des langues concernées.
Construire un lemmatiseur pour chacune des langues concernées.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 29/30
• Berment, V. (2004) Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”. Autre [cs.OH]. Université Joseph-Fourier - Grenoble.
• Mangeot-Nagata, M. (2016). Collaborative Construction of a Good Quality, Broad Coverage and Copyright Free Japanese-French Dictionary. International Journal of Lexicography, Oxford University PressPress (OUP). International Journal of Lexicography, 31(1), 78-112. https://doi.org/10.1093/ijl/ecw035
• Shah, R. (2017). SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères: expérimentation et évaluation sur les tweets indiens et japonais (thèse). Université Grenoble-Alpes, LIG-GETALP, Grenoble.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 30/30