Le Signal Vocal • Production du signal ; Modèles de production • Notions sur l’audition • Allure temporelle • Analyse en fréquence • Typologie des signaux • Représentation Temps-Fréquence, spectrogramme • Transmission , Synthèse, Reconnaissance • Détection de la mélodie, de l’intonation • Analyse « cepstrale » et par prédiction linéaire • Analyse des formants et de leur évolution • Principe de la synthèse de parole • Données utilisées en reconnaissance de parole http://tcts.fpms.ac.be/cours/1005-08/speech/parole.p http://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html
54
Embed
Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Le Signal Vocal
• Production du signal ; Modèles de production• Notions sur l’audition• Allure temporelle• Analyse en fréquence• Typologie des signaux• Représentation Temps-Fréquence, spectrogramme• Transmission , Synthèse, Reconnaissance• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• Analyse des formants et de leur évolution• Principe de la synthèse de parole• Données utilisées en reconnaissance de parole
Signal résiduel à coder- Recherche de la périodicité (pitch :
prédiction à long termeon code x(t)-x(t-L) : estimer L
- Quantification vectorielle
1617181920212223242526272829303132346.71
4.74
337.22
L
On découpe le signal en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre
Spectre du signal résiduel
temps
temps
fréquence
Synthèse de son ; diphones
Difficultés:• Enchainement de sons élémentaires• Intonation naturelle
.
Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch
)().()( tfttxts nn
nknknk httsn
ty ,, ).()(
Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons
Synthèse de parole
)()( nn ttsn
tx
mbrola
http://tcts.fpms.ac.be/synthesis/mbrola.html
On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...
Plus aigu : diminuer
Plus grave : augmenter
Modification de l ’amplitude en changeant
nkt ,
nkt ,
nkh ,
Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés
Hidden Markov Models
1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate
http://htk.eng.cam.ac.uk/
transition
mesures
a m m( ' , )
b m n( , ') b m n( , )
2. Automates utilisés dans les modèles de Markov cachés
Séquence d’états :
Séquence de mesures :
(Probabilités)
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
d m p s m( ) ( ) 0
a m m p s m s mt t( ' , ) ( '/ ) 1
b m n p y n s mt t( , ) ( / )
états
n’ n
m’ m
probabilité de transition de l’état m’ à l’état m
probabilité de mesurer ‘n’ quand l’automate estdans l’état m
probabilité que l’état initial soit m
Les trois problèmes :
1. Reconnaissance : Y donné quelle est la S la plus probable ?
2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?
3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)
Séquence d’états :
Séquence de mesures :
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0
Initialisation
Récurrence
Fin de l’algorithme
r m r m a m m b m ytm
t t( ') max ( ) ( , ') ( ' , ) 1
r m d m b m y0 0( ) ( ) ( , )
t T
r mt 1( )
q mt ( ')m'
Obtention de la séquence la plus probable
m' '
t 1 t t 1 temps
Etat m
« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps
Probabilité d’observation d’une séquence Y avec (a,b,d)
p Y d s b s y a s s b s yt t t tt
T
S( ) ( ) ( , ) ( , ) ( , )
0 0 0 1
1
1
Calcul à t croissant
t t tm p s m y y( ) ( ,[ , , ]) 0
0 0( ) ( ) ( , )m d m b m y
tm
M
t tm m a m m b m y
11
1( ) ( ') ( ' , ) ( , )'
p Y mm
T( ) ( )
Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)
(aussi utilisé dans les « turbocodes en détection d ’erreurs »
Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »
t
t’
(lourd : nécessite de nombreuses réalisations deY)
3. Mise en forme des données mesurées sur la parole
Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle
Peuvent être liés aux coefficients de la prédiction linéaire
c k a kk
a c kk
( ) ( ) ( ) ( ) ( )
1
1
1
Quantification vectorielle
Trouver des représentants pour des nuages de points
Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence
Passer des c(k) aux y (mesures)
Toutefois, beaucoup de réglages et de variantes…
Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)
Comprendre le fonctionnement de la cochlée et du système nerveux auditif