DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ [email protected]
119
Embed
Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?. Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ [email protected]. Plan. Introduction aux processus de la communication parlée - PowerPoint PPT Presentation
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
DEA de Sciences Cognitives 1
Le traitement automatiquede la parole
Comment reproduire les processus physiologiques et cognitifs humains?
Ivan Magrin-Chagnolleau, CNRS
Laboratoire Dynamique Du Langage, Lyonhttp://www.ddl.ish-lyon.cnrs.fr/
1. Introduction aux processus de la communication parlée
2. Analyse de la parole
3. Synthèse de la parole
4. Reconnaissance de la parole
5. Reconnaissance du locuteur
DEA de Sciences Cognitives 3
1. Introduction aux processus de la communication parlée
DEA de Sciences Cognitives 4
Quelques segments d’un signal
DEA de Sciences Cognitives 5
Quelques propriétés du signal de parole
• La parole est quasi-stationnaire
• La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps)
• La parole est un signal large bande(il remplit toute la largeur de bande)
• La parole est un signal à bande limitée(0-8000 Hz essentiellement)
DEA de Sciences Cognitives 6
Anatomie de l’appareil vocal (1)
DEA de Sciences Cognitives 7
Anatomie de l’appareil vocal (2)
DEA de Sciences Cognitives 8
Anatomie de l’appareil vocal (3)
DEA de Sciences Cognitives 9
Fonctionnement acoustique de l’appareil vocal
• Système acoustique = excitateur + résonateur
• Trois modes de fonctionnement– Excitation glottique du conduit vocal– Excitation du conduit vocal en un point de
constriction par un bruit d’écoulement– Excitation du conduit vocal par une impulsion
acoustique
DEA de Sciences Cognitives 10
Transcription phonétique du français
DEA de Sciences Cognitives 11
Transcription phonétique du français
DEA de Sciences Cognitives 12
Description acoustique de la parole
DEA de Sciences Cognitives 13
Voyelles orales françaises
DEA de Sciences Cognitives 14
Triangle vocalique
DEA de Sciences Cognitives 15
Représentation acoustique (ex. 1)
DEA de Sciences Cognitives 16
Représentation acoustique (ex. 2)
DEA de Sciences Cognitives 17
Grille polaire de Maeda
DEA de Sciences Cognitives 18
Coupes saggitales des voyelles
DEA de Sciences Cognitives 19
Fonctions d’aires des voyelles
DEA de Sciences Cognitives 20
Anatomie de l’oreille
DEA de Sciences Cognitives 21
Les limites de l’oreille
• L’oreille est à bande limitée
• L’oreille est fausse sur des sons purs
• L’oreille n’est pas également sensible
• L’oreille a une résolution en temps limitée
• L’oreille a une résolution en fréquence limitée
DEA de Sciences Cognitives 22
2. Analyse de la parole
DEA de Sciences Cognitives 23
Objectifs de l’analyse de parole
Extraire des paramètres du signal de parole
afin de :• Retirer l’information non pertinente• Réduire la redondance• Obtenir une représentation plus compacte• Atteindre un niveau d’abstraction plus élevé• Définir des mesures de ressemblance simples
DEA de Sciences Cognitives 24
Principes
• Prétraitement
• Découpage en trames– Taille des trames– Décalage entre trames
• Fenêtrage
• Extraction de paramètres acoustiques
DEA de Sciences Cognitives 25
Principe d’une analyse acoustique
DEA de Sciences Cognitives 26
Paramètres acoustiques non spectraux
• Energie
• Fréquence fondamentale
• Taux de passage par zéro du signal
• Taux de passage par zéro de la dérivée du signal
DEA de Sciences Cognitives 27
L’enveloppe spectrale
Les approches conventionnelles
visent à extraire des caractéristiques
de l’enveloppe spectrale.
• Analyse par banc de filtres
• Analyse par prédiction linéaire
• Coefficients cepstraux
DEA de Sciences Cognitives 28
Analyse par banc de filtres (1)
DEA de Sciences Cognitives 29
Analyse par banc de filtres (2)
DEA de Sciences Cognitives 30
Analyse par banc de filtres (3)
DEA de Sciences Cognitives 31
Analyse par prédiction linéaire (1)
Modélisation de la parole sous forme
d’un filtre de prédiction linéaire
Filtre de
prédiction linéaire
e(t) s(t)
)()(0
teitsap
ii
DEA de Sciences Cognitives 32
Analyse par prédiction linéaire (2)
DEA de Sciences Cognitives 33
Coefficients cepstraux
• On applique une transformée de Fourier inverse sur le module du spectre logarithmique.
• Les premiers coefficients caractérisent l’enveloppe spectrale.
DEA de Sciences Cognitives 34
L’information dynamique
• On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas
pk
pk
pk
pk
k
ktck
tc
)(
)(
pk
pk
pk
pk
k
ktck
tc2
2 )(
)(
DEA de Sciences Cognitives 35
3. Synthèse de la parole
DEA de Sciences Cognitives 36
La synthèse, pour quoi faire ?• Services de télécommunications
– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)
• Applications en bureautique– Terminaux parlants, lecture des emails par la voix, etc.
• Applications dans les transports– Information dans les automobiles, aide à l’exploitation des trains, lecture de
cadrans dans les avions, etc.
• Aide aux personnes handicapées– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre
astrophysicien Stephen Hawking)
• Apprentissage des langues étrangères– Dictionnaires électronique avec prononciation intégrée, logiciels
d’apprentissage des langues étrangères, traduction automatique, etc.
• Livres et jouets parlants– À l’usage des enfants en bas âge
• Motivations :– Caractéristiques physiologiques– Origine géographique– Contexte socioculturel
• Difficultés :– Non reproductibilité (état de santé, facteurs psychologiques,
état émotionnel, âge, etc.) dérive temporelle de la voix– Bruits ambiants, canal de transmission– Modifications intentionnelles (masquage, imitation)
→ pas d’empreinte vocalemais plutôt une signature vocale
DEA de Sciences Cognitives 86
Et l’homme ?
• L’homme n’est pas particulièrement bon pour ce type de tâche.
• Il faut beaucoup d’entraînement pour y arriver.• Même sur des voix familières, on a parfois des
difficultés.• C’est encore plus dur à travers le téléphone.• Quand c’est possible, on utilise plutôt le visage.
DEA de Sciences Cognitives 87
Les enjeux scientifiques de la RAL
• Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?
• Faut-il utiliser les mêmes dans un système automatique ?
• Quelles sont les informations extractibles d’un enregistrement d’une voix ?
• Comment faire un modèle de locuteur ?
DEA de Sciences Cognitives 88
Comment reconnaître une personne ?
• Quelles informations ?– Spectrales (analyse acoustique)– Phonétiques (façon de prononcer les sons)– Idiolectales (façon d’utiliser les mots)– Prosodiques (intensité, hauteur, longueur)
• Comment les exploiter ?– Modèles statistiques– Réseaux de neurones– Réseaux bayésiens
DEA de Sciences Cognitives 89
Les enjeux applicatifs de la RAL
• Surtout vérification• 3 grandes familles :
– Applications sur site– Applications télécoms– Applications policières / judiciaires
• Mais aussi :– Organisation de l’information– Jeux– Etc.
DEA de Sciences Cognitives 90
Applications sur site La personne doit être physiquement présente en un lieu
précis- Serrure vocale (pour des locaux, un compte informatique, etc.)- Interactivité matérielle (retrait d’argent à un guichet automatique,
etc.)
Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques
vocales Possibilité de techniques additionnelles de vérification
de l’identité Possibilité d’intervention humaine
DEA de Sciences Cognitives 91
Applications télécoms
La vérification s’opère à distance- Accès à des services pour des abonnés (serveurs, données,
etc.)- Transactions à distance (opérations bancaires, paiements par
carte bancaire, etc.)
Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification
de l’identité Pas d’intervention humaine possible
DEA de Sciences Cognitives 92
Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de
preuves, etc.- Tests auditifs par des experts- Lecture de spectrogrammes par des experts- Méthodes (semi-)automatiques
Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable
→ Nécessité d’une précaution extrêmepas toujours garantie
DEA de Sciences Cognitives 93
Mais aussi…
• Organisation de l’information– Structuration, archivage de documents sonores– Navigation dans ces documents
• Jeux– Augmenter l’interactivité– Utilisation de profils de joueurs
• Personnalisation des services– Stocker un profil d’utilisateur pour accéder plus
rapidement à des services
DEA de Sciences Cognitives 94
Les enjeux applicatifs : conclusion
• La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.
• L’ergonomie peut pallier certaines faiblesses des algorithmes.
• La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).
• Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.
DEA de Sciences Cognitives 95
Les enjeux stratégiques
• Ecoutes téléphoniques– Protection de la démocratie ?– Intrusion dans la vie privée ?
• Recherche de suspects / Authentification– Le corbeau de l’affaire Grégory– La cassette Ben Laden
DEA de Sciences Cognitives 96
Historique
Trois étapes• Reconnaissance par l’écoute faite par des
« experts » (à partir de 1940)• Reconnaissance par la lecture de
spectrogrammes réalisée par des« experts » (de 1960 à 1970)
• Reconnaissance par des systèmes automatiques (ou pseudo-automatiques)(à partir de 1970)
DEA de Sciences Cognitives 97
Reconnaissance par l’écoute
Tests par paires
DEA de Sciences Cognitives 98
Reconnaissance par spectrogrammes
DEA de Sciences Cognitives 99
Reconnaissance automatique
• Systèmes reposant sur des modélisations statistiques• Ordres de grandeur pour la vérification (EER)
– En laboratoire :
– Pour des applications commerciales :• Performances connues mais non publiques• Jugées suffisantes pour quelques produits pionniers
– Pour des applications policières / judiciaires :• Performances évaluées ?
conditions idéales parole téléphonique(lignes fixes)
dépendant du texte <0.1 % 0.5 à 2 %
indépendant du texte 0.5 à 1 % 5 à 10 %
DEA de Sciences Cognitives 100
Composantes d’un système
• Une phase d’apprentissage– Construction d’un modèle de locuteur
• Une phase de test– Comparaison entre un énoncé et un modèle
de locuteur
DEA de Sciences Cognitives 101
Phase d’apprentissage
analysesignal
identité
paramètres modélisation
Dictionnairede modèlesde référence
ENTREES
SORTIE
DEA de Sciences Cognitives 102
Phase de test en identification
analysesignal paramètres modélisation
Dictionnairede modèlesde référence
ENTREE
comparaison
Scores
décision
SORTIE
DEA de Sciences Cognitives 103
Phase de test en vérification
analyse paramètres modélisation
Dictionnairede modèlesde référence
comparaison
Score
décision
SORTIE
signal
identité
ENTREES
DEA de Sciences Cognitives 104
La phase de paramétrisation
DEA de Sciences Cognitives 105
Paramètres d’analyse
• Paramètres spectraux :– Analyse par banc de filtres ou analyse LPC– Transformation cepstrale– Paramètres delta (et delta-delta)
→ Existe-t-il des paramètres spécifiquesà la reconnaissance du locuteur?
DEA de Sciences Cognitives 106
Modélisation
• Les précurseurs• Programmation dynamique (DTW)• Quantification vectorielle (VQ)• Modèles de Markov cachés (HMM)• Réseaux de neurones (NN)• Modèles auto-régressifs vectoriels (ARVM)• Modèles par mélange de Gaussiennes (GMM)
DEA de Sciences Cognitives 107
Les précurseurs
PRUZANSKY 1963
Mesure de corrélation entre spectres à long terme
ATAL 1968
Utilisation de contours prosodiques normalisés
BRICKER 1971
Mesure de Mahalanobis sur spectres à long terme
DEA de Sciences Cognitives 108
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
DEA de Sciences Cognitives 109
Quantification vectorielle (VQ)
meilleurequant.
),()Y,X( X2
jiCd y
Dictionnaire locuteur 1
Dictionnaire locuteur 2
Dictionnaire locuteur n
“Bonjour” locuteur test Y
Dic
tionn
aire
locu
teur
X
SOONG, ROSENBERG 1987
DEA de Sciences Cognitives 110
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
ROSENBERG 1990, TSENG 1992
DEA de Sciences Cognitives 111
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
HMM locuteur 1
HMM locuteur 2
HMM locuteur n
“Bonjour” locuteur test Y
HM
M lo
cute
ur X
PORITZ 1982, SAVIC 1990
DEA de Sciences Cognitives 112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
DEA de Sciences Cognitives 113
La phase de décision
• Calcul d’un score– Avec le modèle de locuteur considéré
– Avec un « modèle du monde »
– Rapport entre les deux scores
• Comparaison à un seuil– Si supérieur au seuil, on « accepte »
– Si inférieur au seuil, on « rejette »
DEA de Sciences Cognitives 114
L’évaluation
• EER : fausse acceptation = faux rejet
• Courbe DET :
• Les évaluations NIST
DEA de Sciences Cognitives 115
La caractérisation du locuteur à DDL
• Recherche d’une technique d’analyse du signal plus adaptée
• Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre
• Intégration des informations prosodiques dans les systèmes
• Modélisation de la dérive temporelle de la voix• Utilisation de la reconnaissance du locuteur
dans des tâches d’indexation sonore
DEA de Sciences Cognitives 116
Conclusion sur la RAL
• Domaine pluridisciplinaire nécessitant des connaissances multiples
• Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire
• On peut parler de signature vocale mais pas d’empreinte vocale
DEA de Sciences Cognitives 117
Perspectives de la RAL
• Améliorer les systèmes– Nouvelles sources d’information (prosodie)– Analyse du signal plus adaptée– Meilleurs modèles statistiques– Robustesse (meilleure prise en compte de la
variabilité)– Etude de la dérive temporelle de la voix
• Autres tâches– Segmentation par locuteurs– Indexation par locuteurs
DEA de Sciences Cognitives 118
Discussion sur une actualité récente
• La vérification d’identité dans les milieux judiciaires
• L’affaire Grégory – la cassette Ben Laden
• Des articles de journaux la semaine dernière
• La prise de position des scientifiques français
DEA de Sciences Cognitives 119
Bibliographie• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.
Traitement de la parole. Presses Polytechniques Romandes.
• Calliope. La parole et son traitement automatique. Masson, 1989.