Développement de ressources en swahili pour un système de RAP Hadrien Gelas 1,2 , Laurent Besacier 2 , François Pellegrino 1 1 Laboratoire DDL, CNRS - Université de Lyon, France 2 LIG, CNRS - Université Joseph Fourier Grenoble, France
Développement de ressources en
swahili pour un système de RAP
Hadrien Gelas1,2, Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France
1 2 3
Introduction
du Swahili
Ressources
pour la RAP
Résultats
du système
Swahili ?
1
Parlée dans plus de 9 pays
Grande partie d’Afrique de l’Est
Langue officielle de 5 nations
Grande partie d’Afrique de l’Est
Langue
swahili
Grande partie d’Afrique de l’Est
entre 40M et 100M de locuteurs
2% seulement de locuteurs natifs
(entre 800k et 5M)
98% sont non-natifs
Services numériques en swahili
Services numériques en swahili
Services numériques en swahili
Services numériques en swahili
Services numériques en swahili
Services numériques
Services numériques
Services numériques
Services numériques
Services numériques
Services numériques
Mais pas encore
333
Famille Bantu
Ressources
Morphologie riche Classes nominales système d’accord verbes complexes
Swahili et RAP
Non tonale
Orthographe
Ressources en RAP
"r l
r l
Dictionnaire
prononciation
J Sorties texte
2
Modèles
acoustiques
Modèles
de langage
J
"r l
r l
Nécessite un corpus
de texte
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
Corpus texte (M mots)
2
5
12
28
Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus
Corpus texte (M mots)
2
5
12
28
Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus
Collecté depuis 16
sites de news
Morphologie Riche en swahili
Morphologie Riche en swahili
English They will not tell you
Morphologie Riche en swahili
English They will not tell you
Swahili hawatakuambieni
Morphologie Riche en swahili
English They will not tell you
Swahili hawatakuambieni
Segm. ha-wa-ta-ku-ambi-e-ni
Gloss NEG-SM2-FUT-OM2-tell-FIN-PL
Morphologie Riche et RAP [Creutz et al., 2007]
19.17
12.46
10.28
Word-65k Word-200k Word-400k
OOV % élevé
Morphologie riche en RAP (Type OOV %)
19.17
12.46
10.28
Word-65k Word-200k Word-400k
Afin d’obtenir une couverture lexicale
plus large, nous avons utilisé une approche non-supervisée (Morfessor) pour segmenter les mots en unités
sub-lexicales
Morphologie riche en RAP (Type OOV %)
19.17
12.46
10.28 11.36
1.61
Word-65k Word-200k Word-400k Morf-65k Morf-200k
Morphologie riche en RAP (Type OOV %)
J
"r l
r l
Nécessite la prononciation
des unités
Ressources en RAP
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Dictionnaire de prononciation
65k unités les plus fréquentes
+ Un script Grapheme-to-phoneme tirant
bénéfice de la regularité de l’orthographe swahili
MAIS…
Problèmes avec tout les mots anglais, noms
propres et acronymes !
Dictionnaire de prononciation
65k unités les plus fréquentes
+ Un script Grapheme-to-phoneme tirant
bénéfice de la regularité de l’orthographe swahili
Près de 9% des unités dans le
lexique de 65k mots apparaissent
dans le dictionnaire anglais du CMU
Dictionnaire de prononciation
… games g a m e s …
… games G EY M Z …
Mots dans dict. 65k Mots dans dict. CMU
Dictionnaire de prononciation
… games g a m e s …
… games G EY M Z …
Mot identique 1 Mots dans dict. 65k Mots dans dict. CMU
Dictionnaire de prononciation
… games g a m e s …
… games G EY M Z …
Mot identique 1
2 Conversion vers les phones
du swahili
Mots dans dict. 65k Mots dans dict. CMU
Dictionnaire de prononciation
… games g a m e s games(2) g e y m z …
… games G EY M Z …
Mot identique 1
2 Conversion vers les phones
du swahili
3 Ajout
comme
variante
Mots dans dict. 65k Mots dans dict. CMU
Dictionnaire de prononciation
J
"r l
r l
Nécessite des données audio
ainsi que les transcriptions
correspondantes
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
Corpus Audio
Contrainte principale pour nous !
Une tâche longue et coûteuse.
Corpus de parole lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
Corpus de parole lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs
Corpus de parole lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs
3h30 collectées
Transcriptions via Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Transcriptions via Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs
Durée bien plus longue que pour l’anglais
Problèmes éthiques
Transcriptions via Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Seulement un test,
1h30 de parole lue transcrite
Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs
Durée bien plus longue que pour l’anglais
Problèmes éthiques
Transcription collaborative (3ème solution)
Corpus à transcrire : web broadcast news (disponible en ligne avec une qualité suffisante)
Collaboration avec un institut kenyan :
Un 1er model acoustique
(MA) est appris à partir
du corpus de parole lue
MA 1er set
Transcription collaborative (3ème solution)
Préparation
Set de 2h
Un set de 2h est
segmenté et filtré
automatiquement
Transcription collaborative (3ème solution)
MA 1er set
Set de 2h
transcrit
Le set de 2h est transcrit
avec notre 1er MA
Transcription collaborative (3ème solution)
MA 1er set
Préparation
Set de 2h
Set de 2h
corrigé
Le set de 2h est envoyé
au Taji Institute pour
correction
Transcription collaborative (3ème solution)
MA 1er set
Préparation
Set de 2h
Set de 2h
transcrit
MA 2ème set
Après correction, les
données sont
a joutées au corpus
d’entrainement et un
nouveau MA est
appris
Transcription collaborative (3ème solution)
Préparation
Set de 2h
Set de 2h
transcrit
Set de 2h
corrigé
MA 6ème set 12h sont ainsi
transcrites
Transcription collaborative (3ème solution)
Préparation
Set de 2h
Set de 2h
transcrit
Set de 2h
corrigé
60 65 70 75 80 85
1520
2530
3540
Character Accuracy Rate (%)
Tim
e S
pent
(hou
rs)
Caractères corrects (%)
Transcription collaborative 1er set
2ème set
3ème set
4ème set
5ème set
6ème set
40
25
15
60 70 85
Temps
(heures)
Résultats (WER)
"r l
r l
Sorties texte J 3
Dictionnaire
prononciation Modèles
acoustiques
Modèles
de langage
Asante! (Merci!)
13.5
26.2
32.7 35.6
39.5
61.3
67.5
78.6
Africa Asia World
Average
Middle East Latin
America /
Caribbean
Europe Oceania /
Australia
North
America
Taux de pénétration d’Internet (%)
2988.4
789.6
528.1
2244.8
1205.1
376.4 214 152.6
Africa Asia World
Average
Middle East Latin
America /
Caribbean
Europe Oceania /
Australia
North
America
Internet – croissance de la population (%)
2000-2011
Ressources en ligne