Perception auditive et perception de la parole Jean-Luc Schwartz, GIPSA-Lab Grenoble-Image-Parole-Signal-Automatique ICP-Département Parole & Cognition 1. Les objets sonores La nature des sons (signal, représentation temps-fréquence), entre cause physique et expérience perceptive 2. Traitements auditifs et représentations perceptives Les représentations du signal acoustique dans les neurones du nerf auditif et des premiers centres nerveux 3. Traitements centraux, constitution des objets dans le cerveau Traitement de l’information dans le cerveau, liage, décision, conscience 4. Les mécanismes perceptifs, entre le monde et le cerveau Des questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la simulation, jusqu’aux neurones miroir 5. Les théories de la variabilité et de l’invariance en perception de parole Invariance et variabilité / Les théories « phare » : théories auditives vs. motrice, théorie quantique, théorie H&H, PACT / Phylogenèse 6. La parole multisensorielle La perception multisensorielle, des architectures cognitives aux interfaces multimodales Perception et réalité : Prémisses philosophiques et principes computationnels Est-ce que ce que nous percevons est « réel » ? Comment la réalité du monde physique contraint-elle nos perceptions ?
19
Embed
Perception auditive et perception de la …jean-luc.schwartz/fichiers...la cognition motrice et de la simulation, jusqu Õaux neurones miroir 5. Les th ories de la variabilit et de
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Une arbitrarité des catégories, linguistiquement déterminée
Ou des universaux neurobiologiquement déterminés ?
En tout cas, pas de catégorie physique apparente …
La perception des couleurs La perception visuelle des états de l’eau
Une morphologie physique qui s’impose à notre perception
Un contour est la résultante à la fois d’une propriétéphysique majeure, et d’une mise en forme neurocognitive
(il en est de même du «!destin commun!» auditif
Un monde sensible fait d’objets physiqueset de gestes construits
Les deux problèmes de l'invarianceLes deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
Les deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
2. Nommer les objets
Invariance de la catégorie, acceptée comme telle,malgré la variabilité de ses instantiations
Peut-on entendre la forme d’un tambour ?
Peut-on voir la forme 3D d’un objet ?
Pour Tomaso Poggio (Vision, MIT), laperception bas niveau est une inversion
Monde physique Monde sensible
Lois de la physique
Perception bas niveau
Objets 3D Images 2D
Lois de l’optique
Vision bas niveau
Le cas de la vision
Du 2D au 3D, un déficit d’information comblé par deshypothèses (statistiques) sur les régularités des objets
Exemple : la vision stéréoscopique
Rétine gauche Rétine droite
appariement
Régularisation
Unicité et continuité
Unicité : Rd = f(Rg)
Continuité : f doit minimiser un critère d(f(Rg), Rg))
Fonction f
RdRg
Hypothèses acceptables dans un monde sans trou !
Johansson
"Le système est 'contraint' de choisir l'interprétation la plus crédible en
fonction des règles et des régularités. La règle d'inférence du système
visuel serait donc fondée sur une loi (la projection) et une régularité (la
nature rigide des objets)."
(Donald Hoffman, 1984)
" One of the best definitions of low-level vision is that it is inverse
optics. Most of the goals of low-level vision can be seen as the
solution to inverse problems. Consider, for instance, the problem of
recovering the three dimensional structure of a scene from the
images of it. While in classical optics the problem is to determine
the images given certain physical objects, we are confronted here
with the inverse problem of finding their three-dimensional shape
(and perhaps their physical properties) from the light intensity
distribution in the image." (Poggio, 1984)
Objets 3D Sons
Lois de l’acoustique
Audition bas niveau
Le cas de l’audition
Un flux d'information qui circule sur le réseau n'est pas simplement un ensemble de bits ou de pixels à traiter, coder, compresser ;
c'est en général une scènescène complexe
constituée d'objetsobjets physiquesphysiques multisensorielsmultisensorielsanimés ou non, parfois dotés danimés ou non, parfois dotés d’’intentionsintentions ;
Ce sont ces objets et ces agents qu’il faut localiser, indexer, identifier,
pour interagir efficacement.
La parole multisensorielle
La perception multisensorielle, desarchitectures cognitives auxinterfaces multimodales
La parole multisensorielle
I. Les compétences audiovisuelles
du sujet humain
0 1000 2000 3000 4000 5000-50
0
50
Audition
La parole produit des objets multisensoriels
Vision
Toucher
[i] [y]
[u]
[a]
[e] [ø][o]
Lèvres étirées/arrondies
Langue avant/arrière
Mâch -Langue haut/bas
F1
F2
[i][y]
[u]
[e][ø]
[o]
[a]
Les principaux gestess’entendent
[i] [y]
[a]
[e] [ø]
Les lèvres et la mâchoire sevoient, mais pas la langue
On peut voir le conduit vocal
Lecture labiale : 40-60% des phonèmes
10-20% des mots ... jusqu'à plus de 60%
grande variabilité individuelle,pour les sourds comme les bien entendants
les meilleurs sont des sourds
+18
+12
+6
0
-6
-12
-18
t k p f th s sh m n d g b v dh z zh
Pour les consonnes,
on entend bien le mode
1
15
2
3
4
5
6
7
8
9
10
11
12
13
14
f lv th dh s z sh zh p b m w r g k n t d y
On voit bien le lieu
(du moins à l’avant)
On peut toucher le conduit vocal
Méthode Tadoma
On place le pouce sur les lèvres du locuteur, l’index sur la
joue et les autres doigts sur le cou en-dessous de la mandibule
On peut ajouter de l'information visible sur les gestes non visibles
Langage Parlé Complété
On lit sur les lèvres dans le bruit …
Sumby et Pollack (1954)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Erber (1969)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Binnie et al. (1974)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Benoît et al. (1994)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
audio + visage du locuteur
audio seul
Et même sans bruit !
Le téléphone et la radio en langue étrangère …
Parler, c’est produire des actions orofaciales pour
être entendu … et pour être vu
Zouc et Mme Von Allmen
Et Denis Beautemps !
Parler, c’est produire des actions orofaciales pour
être entendu … et pour être vu (suite)
Pourquoi « maman » ? Parce qu’on a des yeux !
préférence marquée pour les bilabiales au début du babillagerenforcée chez les enfants malentendants,diminue chez les enfants aveugles
la distinction entre [m] et [n], peu audible mais bien visible, existe danspresque toutes les langues du monde.
Les bébés se servent de la vision
La parole multisensorielle
II. Questions d’architecture cognitive
Fusion : architecture et contrôle
Traitements, formats de représentation
Opérations, contexte
Identification Directe Identification Séparée
Fusion après classificationmonosensorielle
Recodage dans la modalité Dominante
Recodage dans la modalité Motrice
Fusion après recodagespectro-temporel
Fusion après interactionperception-action
Représentationcommune du sonet de l’image ?
Représentationcommune précèdela catégorisation ?
Représentationcommune liée à
modalité A ou V ?
oui
nonIdentification
Directe
oui
non
oui
non
IdentificationSéparée
Recodage Mod.Dominante
Recodage Mod.Motrice
Trois questions expérimentales pour une taxonomie des modèles
Une découverte récente sur l’architecture de fusion :
des interactions dès la prise d’information
A + Bruit …… A + Bruit ……AV + Bruit
Lire sur les lèvres permet d’abord de mieux entendre
(avant de mieux comprendre)
Une astuce expérimentale
Etudier l’intelligibilité dans le bruit
de séquences indistingables en lecture labiale (visemes)
[y u ty tu ky ku dy du gy gu]
50
55
60
65
70
75
80
85
AV A V
Correct
(%)
Frequency
prevoicing
burstA
time
Vowel nucleus
Lip area
V
target
onset
time
~ 100 ms
~ 240 ms
On comprend mieux, sans lecture labiale !
On entend mieux quand on voit
AV > A V =0
50
55
60
65
70
75
80
85
AV A
AV = A
Un effet « speech specific » ?
Démo Olha Nahorna
Contexte cohérent vs incohérent
Fusion : architecture et contrôle
+, x, etc
« biais » de contexte
Facteurs contextuels :
1. Attention (Tiippana et al.)
Facteurs contextuels :
2. Variation interindividuelle (Cathiard)
Visuels Auditifs
2 ms
6 ms
10 ms
Fusion : architecture et contrôle
Traitements, formats de représentation
Opérations, contexte
La parole multisensorielle
III. Eléments d’architecture corticale Un système cortical mettant encorrespondance observation et