N° d'ordre: 160 2000 Année 2000 THESE Présentée devant l'UNIVERSITE CLAUDE BERNARD - LYON 1 Pour l'obtention Du Diplôme DE DOCTORAT Discipline Acoustique (arrêté du 30 mars 1992) Présentée et soutenue publiquement le 27 Septembre 2000. Par M. Nicolas GRIMAULT PERCEPTION DE LA HAUTEUR DES SONS COMPLEXES HARMONIQUES: ETUDE DES MECANISMES SOUS-JACENTS ET RELATION AVEC L'ANALYSE DE SCENES AUDITIVES. Directeur de Thèse: Docteur Christophe MICHEYL JURY: Docteur Georges CANEVET (DR. CNRS), rapporteur Docteur Robert P. CARLYON (MRC Senior Scientist) Professeur Lionel COLLET Docteur Laurent DEMANY (DR. CNRS), rapporteur Docteur Christophe MICHEYL (CR. CNRS) Docteur Richard RAGOT (CR CNRS) Professeur Michel SUNYACH
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
N° d'ordre: 160 2000 Année 2000
THESE
Présentée
devant l'UNIVERSITE CLAUDE BERNARD - LYON 1
Pour l'obtention
Du Diplôme DE DOCTORAT Discipline Acoustique
(arrêté du 30 mars 1992)
Présentée et soutenue publiquement le 27 Septembre 2000.
ParM. Nicolas GRIMAULT
PERCEPTION DE LA HAUTEUR DES SONS COMPLEXESHARMONIQUES: ETUDE DES MECANISMES SOUS-JACENTS ET
RELATION AVEC L'ANALYSE DE SCENES AUDITIVES.
Directeur de Thèse: Docteur Christophe MICHEYL
JURY: Docteur Georges CANEVET (DR. CNRS), rapporteurDocteur Robert P. CARLYON (MRC Senior Scientist)Professeur Lionel COLLETDocteur Laurent DEMANY (DR. CNRS), rapporteurDocteur Christophe MICHEYL (CR. CNRS)Docteur Richard RAGOT (CR CNRS)Professeur Michel SUNYACH
REMERCIEMENTS
Au Docteur Christophe Micheyl qui a encadré l'ensemble de mon travail.Il m'a apporté lapassion nécessaire au chercheur par son dynamisme scientifique et il m'a enseigné lapsychoacoustique avec beauoup de patience et de tact.Au Professeur Lionel Collet qui m'a accordé sa confiance sans retenue dès que je l'ai sollicité.Il m'a non seulement accueilli dans son laboratoire mais aussi soutenu tout au long de mondoctorat.Au Docteur Laurent Demany qui a bien voulu rapporter mon travail et qui, par ses critiques,m'a permis d'approfondir ma réflexion et d'amméliorer la qualité d'ensemble de ma thèse.Au Docteur Georges Canévet qui lui aussi a rapporté mon travail mais qui surtout, par laqualité de son enseignement, est responsable de mon orientation vers la psychoaoustique.Au Docteur Robert Carlyon qui, plus qu'un membre du jury, à été un collaborateur précieuxtout au long de mon doctorat et dont j'ai profité de la très grande expérience.Aux Professeur Michel Sunyach et Docteur Richard Ragot qui ont accepté de participer à monjury et qui ont donc contribué à la realisation de ce document.A l’ensemble des membres d’Entendre et en particulier à Messieurs Lombard, Bouroukhoff,Leblanc, Arthaud et Garnier qui, en me finançant, ont permis la réalisation de mon doctorat.De nombreux membres d’Entendre ont été de réels collaborateurs et ont donc participé nonseulement financièrement mais aussi scientifiquement à ce travail.Aux Docteurs Sid Bacon et Jungmee Lee qui m’ont initié à la phychoacoustique pendant monDEA et qui m’ont permis de débuter en tant que chercheur dans ce domaine.Aux Professeurs Magnan, Chais et Cazals qui m’ont fait découvrir à Marseille les aspectscliniques que peut parfois revètir la psychoacoustique.A l’ensemble des membres du laboratoire et du pavillon U et en particulier à Annick, Collette,Michel, Vincent, John, Evelyne, Sylvianne, Berger Vachon et Annie qui, de mille et unefaçons m’ont permis, au quotidien, de réaliser mon doctorat dans les meilleurs conditions.A tous les étudiants du laboratoire, Vincent, les deux Stéphanies, Arnaud, Marie, Caroline,Nathalie, Sonia, les Stéphanes et tous les autres, qui ont partagé avec moi le laboratoire, lesrepas et les pauses au cours de ces trois années de travail en commun.A Nadège, Mathieu et Bénédicte avec qui, au cours de ces trois ans, mes relations sontdevenues tout particulièrement amicales.A ma famille, mes parents, et en particulier à mon père, qui m’ont permis de réaliser d’aussilongues études et qui sont incontestablement à l’origine de ma vocation de chercheur.A ma femme, Christine, qui m’a toujours soutenu et qui accepte avec plaisir les contraintes demobilité inhérente à un cursus universitaire de chercheur transformant cette contrainte enaventure.
Grimault 1
TABLES DES MATIERES
AVANT PROPOS: Au sujet de la psychoacoustique.
INTRODUCTION
MISE AU POINT BIBLIOGRAPHIQUE
1-Le système auditif comme analyseur spectral.
1-1-La tonotopie cochléaire.
1-2-Le phénomène de vérouillage de phase.
1-3-Le concept de bande critique.
2-Le codage de la hauteur des sons complexes harmoniques.
2-1-Le codage spectral.
2-1-1-Le modèle de Goldstein.
2-1-2-Le modèle de Terhart (Terhart, 1972, 1978).
2-1-3-Conclusions.
2-2-Le codage "non-spectral".
2-3-Le codage de la hauteur par autocorrélation.
2-3-1-La notion d'autocorrélation.
2-3-2-Une autocorrélation physiologique ?
2-3-3-Les modèles "autocorrélatifs".
2-3-3-1 Le modèle de Meddis & Hewitt (1991a,b).
2-3-3-2- confrontation de ce modèle aux donnéespsychoacoustiques.
2-3-3-2-1- La hauteur des sons complexes composésd'harmoniques en phase sinus ou alternées.
2-3-3-2-2- La discrimination de la hauteur des sonscomplexes harmoniques.
Page
1
4
6
12
13
13
15
15
18
22
23
26
27
27
29
29
30
32
32
38
39
46
Grimault 2
2-3-3-2-3- Hauteur d'un son complexe ayant unharmonique décalée en fréquence.
2-3-3-2-4- Critique du modèle autocorrélatif de Meddis& Hewitt (1991).
3-L’analyse de scène en audition.
3-1-L’analyse par schémas.
3-2-L’analyse primitive des scènes auditives.
3-2-1-L’analyse de sources simultanées.
3-2-1-1-La corrélation temporelle (principe du destincommun).
3-2-1-2- Progression de la transformation, continuité etlenteur.
3-2-2-L’analyse de sources séquentielles: "le streaming".
3-2-2-1-Cadre général.
3-2-2-2-L'influence particulière de la hauteur virtuelle.
3-2-2-3-Les modèles de groupement séquentiel.
3-2-2-4-De l'organisation séquentielle à la discrimination dehauteur.
4-Résumé, objectifs de ce travail et introduction de mes travaux personnels.
5-Une méthode d'exploration basée sur les apprentissages sélectifs.
5-1-Introduction.
5-2-La plasticité neuronale du système auditif interne induite parapprentissage.
TRAVAUX EXPERIMENTAUX
Chapitre 1: Etude des mécanismes d'encodages de la hauteur des sons complexesharmonique résolus ou non-résolus par le système auditif périphérique.
Article 1: Evidence for two pitch encoding mechanisms using a selective auditorytraining paradigm.N. Grimault, C. Micheyl, R. P. Carlyon et L. Collet.
51
52
57
59
60
61
62
65
69
70
74
76
77
78
80
80
83
87
88
89
Grimault 3
Article 2: Perceptual learning in pure-tone frequency discrimination and amplitude-modulation rate discrimination, and generalization to fundamental frequencydiscrimination.N. Grimault, C. Micheyl, R. P. Carlyon, S. P. Bacon et L. Collet.
Chapitre 2:Implication et importance d'un codage performant de la hauteur surl'analyse de scènes en audition.
Article 3: Influence of peripheral resolvability on the perceptual segregation ofharmonic complex tones differing in fundamental frequency.N. Grimault, C. Micheyl, R. P. Carlyon, P. Arthaud et L. Collet.
Article 4: Perceptual auditory stream segregation of sequences of complexsounds in subjects with normal and impaired hearing.N. Grimault, C. Micheyl, R. P. Carlyon, P. Arthaud et L. Collet.
Article 5: Further evidence for the resetting of the pitch analysis system by abrupttemporal transitions between sucessive tones.N. Grimault, C. Micheyl, R. P. Carlyon et L. Collet.
RESUME GENERAL ET CONCLUSIONS.
1-Les mécanismes présumés d'encodages de la hauteur.
2-L'analyse de scène auditive est-elle conditionnée par les mécanismes deperception de la hauteur.
3-Conclusions.
BIBLIOGRAPHIE GENERALE
ANNEXES
A1: Modèle de calcul des patterns d'excitations périphériques.
A1-1-Présentation du modèle.
A1-2-Application du modèle.
A1-3-Discussion du modèle.
A1-4-Résultats et apport du modèle à la discussion de l'étude 5.
RESUME EN ANGLAIS
INDEX
109
141
142
153
173
191
192
196
199
200
220
221
221
224
225
226
230
231
Grimaut 4
AVANT PROPOS
Au sujet de la psychoacoustique.
La psychoacoustique est un domaine souvent mal connu et même très souvent
totalement inconnu du grand public. Il me semble donc important de donner ici un bref aperçu
de cette discipline et en particulier de ses objectifs et de ses outils de travail. Toute cette
discipline part de l'idée qu'il doit exister des règles universelles gouvernant les sensations
éveillées par les stimulations auditives. Il s'agit alors de découvrir ces règles dans le double
but de pouvoir prévoir la sensation qu'évoquera un stimulus donné et de mieux comprendre
les mécanismes permettant l'élaboration de cette sensation.
Le psychoacousticien tente donc toujours de relier les grandeurs physiques du stimulus
(Intensité de la pression acoustique, fréquence, fréquence fondamentale...) aux sensations
évoquées (Sonie, tonie, hauteur...).
Système auditif
Stimulation Sensation
Pa (t) ,F,F0,...Sonie,Tonie,Hauteur, Timbre...
Fig 1: La boite noire de la psychoacoustique. Une stimulation d'entrée avec différents
paramètres (pression acoustique en fonction du temps (Pa(t)), fréquence (F), fréquence
fondamentale (F0)...) donne lieu à une sensation sonore ayant différentes caractéristiques de
sonie, de tonie, de hauteur et de timbre. La psychoacoustique a la charge d'expliciter la boite
noire ci-dessus.
Grimaut 5
La connaissance de ces règles est extrêmement utile pour rendre performante toute
communication utilisant les voies auditives et mettant en oeuvre un appareil électrique,
mécanique ou électronique. Ces appareils peuvent être aussi variés qu'un récepteur de
téléphone, une prothèse auditive, un implant cochléaire ou un instrument de musique.
De plus il est parfois possible de déduire de ces règles les mécanismes neuronaux qui sont
sous-jacents aux processus perceptifs. Cette discipline a donc à la fois une portée pratique et
théorique et peut apporter des informations sensibles au domaine des Neurosciences en
permettant de déterminer des fonctionnements neurologiques.
Les méthodes d'exploration le plus classiquement utilisées sont celles de la
psychologie expérimentale. Schématiquement, pour relier l'évolution d'un paramètre physique
à l'évolution de la sensation qu'il procure, nous pouvons faire écouter à un sujet plusieurs
conditions de stimulation obtenues en variant la grandeur physique du paramètre puis lui
demander, soit de juger le son en le plaçant sur une échelle sensitive, soit de le comparer à un
son de référence. Nous obtenons alors des éléments permettant de déterminer l'influence du
paramètre sur la sensation auditive évoquée.
Cette thèse de psychoacoustique a un double objectif. La première est de préciser les
mécanismes qui font naître la sensation caractéristique de hauteur lors de la présentation d'un
son complexe harmonique (ie. Un son composé de plusieurs sons purs dont les fréquences
sont toutes multiple d'une même fréquence dite fréquence fondamentale). La seconde est
d'obtenir plus d'informations sur la contribution de la hauteur dans les mécanismes
d'organisation perceptive auditive.
Grimaut 6
INTRODUCTION
Grimaut 7
Les ondes acoustiques complexes dont le spectre est constitué d'harmoniques (spectre
de raies) évoquent en général une sensation auditive de hauteur dite fondamentale ou virtuelle.
Ce phénomène, qui est connu depuis plus d’un siècle et a fait l’objet de nombreuses études
expérimentales durant les dernières décennies, suscite encore aujourd’hui certaines
interrogations. Ainsi, les mécanismes par lesquels le système auditif central « calcule » cette
hauteur virtuelle sur la base des informations diponibles en sortie du système auditif
périphérique constituent toujours l’objet de débats animés dans le champ de la
psychoacoustique et de la physiologie auditive. Une question particulièrement brûlante depuis
quelques années concerne l’unicité ou au contraire la multiplicité de tels mécanismes. En
effet, si un ensemble de travaux de modélisation mathématiques et physiologiques suggèrent
qu'un unique mécanisme permet de déterminer la hauteur virtuelle de tous les sons complexes
périodiques, que ceux-ci contiennent des harmoniques de rang élevé ou faible et que leur
fréquence fondamentale soit faible ou élevée, certains résultats psychoacoustiques suggèrent,
en revanche, la nécessaire existence de mécanismes dissociés pour s’accommoder des
contraintes fonctionnelles de la périphérie auditive et, plus précisément, de la résolution
fréquentielle cochléaire. Ainsi, de façon schématique, il faudrait distinguer deux cas de figures
selon que les harmoniques sont suffisamment espacés pour exciter des filtres auditifs
périphériques distincts ou non. Dans le premier cas, les harmoniques sont alors dits « résolus »
par le système auditif ; dans le second, ils sont dits « non résolus ». A chacun de ces cas de
figure correspondrait un mécanisme sous-jacent différent pour l’encodage de la sensation de
hauteur virtuelle.
Cette question de l’unicité ou, au contraire, de la multiplicité, des mécanismes
d’encodage de la hauteur virtuelle en fonction de la résolution fréquentielle du système auditif
périphérique a constitué la toile de fond de ma recherche doctorale et constitue par conséquent
le thème majeur de cette thèse. Dans un premier groupe de travaux expérimentaux, j’ai tenté
Grimaut 8
d’apporter un éclairage nouveau à cette question en utilisant une approche relativement
originale, fondée sur l’étude du transfert d’apprentissage perceptif de la discrimination de
hauteur fondamentale entre des conditions de stimulation différant par degré de résolution
fréquentielle des harmoniques de sons complexes. J’ai émis l’hypothèse que si les
mécanismes sous-jacents à l’encodage de la hauteur virtuelle des harmoniques résolus et non
résolus avaient effectivement un substratum neurophysiologique différent, les bénéfices d’un
entraînement sélectif prolongé de l’un de ces mécanismes au moyen de stimulus composés
exclusivement d’harmoniques résolus devrait se transférer peu ou prou à des conditions de test
impliquant des harmoniques non résolus (et vice versa) car les unités nerveuses mises en jeu
lors de l’entraînement et du test seraient différentes. Ayant testé cette hypothèse au moyen
d’une première étude longitudinale dont les résultats (que j’invite le lecteur à découvrir en
détail dans l’article dévolu à leur présentation) vont globalement dans le sens de l’hypothèse
duale, j’ai souhaité aller plus loin dans cette question en essayant de déterminer la nature des
mécanismes d’encodage de la hauteur virtuelle des harmoniques résolus et non résolus.
Certaines données de la littérature, décrites dans la partie théorique de la thèse, suggèrent que
la première étape du mécanisme utilisé pour déterminer la hauteur virtuelle d’un groupe
d’harmoniques résolus, consistant à déterminer la hauteur de chacune des composantes
individuelles du son, est similaire à celui mis en œuvre pour encoder la hauteur d’une unique
composante fréquentielle. Par conséquent, on peut faire l’hypothèse que la discrimination de
fréquence fondamentale d’hamoniques résolus bénéficie d’un entraînement à la discrimination
fréquentielle de sons purs. D’un autre côté, certains travaux suggèrent que l’encodage de la
hauteur virtuelle d’un groupe d’harmoniques non résolus impliquerait la détermination
relativement précise de la cadence des fluctuations d’enveloppe en sortie des filtres auditifs
périphériques (dans lesquelles l’interaction de plusieurs harmoniques suscite une activité
fluctuant à une cadence qui correspond à la fréquence fondamentale). Par conséquent, on peut
Grimaut 9
faire l’hypothèse que la discrimination de fréquence fondamentale d’harmoniques non résolus
bénéficie d’un entraînement à la discrimination de cadences de modulation d’amplitude.
J’invite le lecteur, là encore, à découvrir dans la seconde partie de la thèse les résultats de
cette seconde étude portant sur l’existence et la nature des mécanismes sous-jacents à la
discrimination de hauteur d’harmoniques résolus et non résolus.
L’autre grande question qui a inspiré ma recherche doctorale concerne l’influence de la
résolution fréquentielle sur l’organisation perceptive des séquences de sons complexes sur la
base de leur hauteur virtuelle. Cette question, connexe de la précédente, a été inspirée par les
résultats d’une étude antérieure réalisée par Micheyl et Carlyon (1998), qui suggèrent que les
auditeurs ont plus de mal à (voire, se trouvent dans l’impossibilité de) tirer profit de
différences de fréquence fondamentale entre des sons complexes successifs afin de les séparer
en différents « flux » perceptifs. En d’autres termes, une insuffisante résolution fréquentielle
périphérique pourrait mettre en défaut les mécanismes de l’organisation perceptive qui
opèrent dans le domaine séquentiel. Cette hypothèse m’a paru constituer un prolongement
intéressant de mes autres travaux car si une meilleure connaissance de l’influence de la
résolution fréquentielle sur les mécanismes de la perception de la hauteur des sons complexes
est passionnante d’un point de vue théorique, ses implications pratiques demeurent
relativement abstraites ou indirectes. En revanche, s’il s’avère que cette influence de la
résolution fréquentielle conditionne en partie la capacité à organiser perceptivement les
séquences de sons complexes (que sont, schématiquement, la musique et la parole), cela
pourrait avoir des retombées importantes sur la compréhension des difficultés qu’éprouvent
les individus atteints de surdité partielle d’origine cochléaire vis-à-vis des scènes auditives
complexes. En effet, divers travaux de la littérature indiquent que la résolution fréquentielle
périphérique est presque systématiquement réduite par les atteintes cochléaires. Par
conséquent, j’ai réalisé deux études dans ce champ : Une première étude chez des sujets
Grimaut 10
normo-entendants visait à tester dans quelle mesure la résolution fréquentielle des
harmoniques influence la capacité à former des flux auditifs sur la base de séquences ABA de
sons complexes différant par la fréquence fondamentale. Une seconde étude, impliquant des
sujets normo- et malentendants, visait à compléter la précédente en testant si les performances
de séparation en flux des séquences de sons complexes harmoniques sur la base de différences
de fréquence fondamentale sont effectivement moindres chez les seconds que chez les
premiers. Le lecteur découvrira dans la seconde partie de la thèse les deux articles consacrés à
ces études et à la présentation de leurs résultats. Il y découvrira également une troisième et
dernière étude que j’ai réalisée dans le but de caractériser l’influence de la résolution
fréquentielle sur l’organisation perceptive des séquences de sons complexes. Les résultats de
cette dernière étude trouvent parfaitement leur place à la fin de cette thèse en ce que, d’une
part, ils complètent les résultats précédemment obtenus, mais, d’autre part, suggèrent un
certain nombre de perspectives pour de futures études dans le cadre de cette vaste
problématique de l’influence de la résolution fréquentielle sur la perception des séquences
sonores.
Pour clore cette introduction, et avant d’entrer dans le vif du sujet, je préciserai que j’ai
tenté de réunir dans la première partie de cette thèse les principaux éléments bibliographiques
qui seront je l’espère utiles aux lecteurs n’étant pas spécialistes des domaines de la
psychoacoustique concernés par les études expérimentales présentées en seconde partie ; à
savoir, essentiellement : la perception de la hauteur virtuelle, les règles de l’organisation
auditive, et l’apprentissage perceptif auditif. Loin de prétendre couvrir ces vastes questions de
façon exhaustive, cette première partie vise plutôt à faire ressortir des multiples publications
antérieures qui ont été consacrées à ces questions, les résultats qui ont inspiré mes hypothèses
de travail, en précisant par là même le contexte général dans lequel ma recherche doctorale est
venue s’inscrire.
Grimaut 11
Grimaut 12
MISE AU POINT BIBLIOGRAPHIQUE
Grimaut 13
1-Le système auditif comme analyseur spectral.
L'ensemble des signaux utilisés pendant la durée de mon doctorat sont des sons
complexes harmoniques. Il est connu de longue date que notre système auditif, à la réception
d'un tel son, composé de plusieurs sons purs, est capable, sous certaines contraintes, d'analyser
ce son. Ainsi, si on envoie simultanément deux sons purs dont les fréquences sont espacées,
nous pouvons isoler chacune des composantes et percevoir ainsi l'un et l'autre des sons purs
(Plomp, 1964; Green, 1964). Notre système auditif fonctionne donc comme un analyseur
spectral.
1-1-La tonotopie cochléaire
Pour réaliser cette analyse spectrale des signaux que nous percevons, l'utilisation des
propriétés tonotopiques de la cochlée semble plausible.
Rappelons tout d'abord que lorsqu'un son pur excite la membrane basilaire, la fréquence de ce
son est en bijection avec la situation géographique du maximum de l'enveloppe de la vibration
de la membrane basilaire (figure 2). La correspondance entre la situation du maximum et la
fréquence du son incident a été mesurée par Dolmazon en 1978 (cité dans Canévet, 1995).
Grimaut 14
Figure 2: Cette figure, extraite de l'ouvrage de Moore (1989), reprend les travaux de von
Békésy (1947). Elle représente schématiquement le déplacement instantané de la membrane
basilaire à deux instants successifs. Les auteurs ont tracé en pointillé l'enveloppe du
déplacement de la membrane. Le maximum de cette enveloppe dépend de la fréquence du son
incident.
Les fibres nerveuses connectées au niveau de ce maximum sont ainsi représentatives de la
fréquence du son pur. Cette tonotopie cochléaire est ensuite conservée tout au long des voies
auditives.
D'autre part, les fibres nerveuses connectées en ce point sont tout particulièrement réceptives
aux sons de cette fréquence. Chaque neurone répond ainsi de façon privilégiée aux sons d'une
fréquence particulière. On peut ainsi tracer des courbes en cloche caractérisant la réponse de
chaque neurone en fonction de la fréquence. Ces courbes sont classiquement appelées les
courbes d'accord des neurones.
Ce mécanisme de codage de la fréquence serait particulièrement exploité lorsque les sons
présentés sont courts ou/et de haute fréquence.
Grimaut 15
1-2-Le phénomène de verouillage de phase.
Par contre, en présence de sons purs de fréquence relativement basse (<4 kHz), les
neurones déchargent préférentiellement lors des pics de pression de l'onde excitatrice.
L'existence d'une période réfractaire des neurones -durée d'une milliseconde environ
succédant à une décharge et pendant laquelle toute décharge est impossible- rend la
synchronisation incomplète mais on peut toutefois déduire la fréquence d'un son en observant
la cadence de décharge des fibres. En effet, celles-ci déchargent à des instants qui
correspondent tous à un nombre entier de période. Ce type de codage de la fréquence pourrait
bien être dominant en présence de sons relativement longs et surtout à des fréquences
inférieures à 4-5 kHz (Rose et al., 1968; Moore, 1973). Au-dessus de 5 kHz, les neurones ne
parviennent plus à suivre la cadence du son excitateur.
Toutefois, cet indice semble difficile à exploiter lors de la présentation d'un signal complexe.
1-3-Le concept de bande critique
Le concept initial de bande critique (Fletcher, 1940) vient de l'observation
expérimentale suivante: dans une expérience de détection d'un son pur plongé dans un bruit
large bande (par exemple un bruit blanc), seule une petite bande spectrale centrée sur le son
pur gène ou masque sa perception. La largeur de cette bande "masquante" défini la bande
critique à la fréquence du son.
Cette bande donne ainsi toute la gamme des fréquences des sons risquant d'interférer
avec le son pur s'ils sont présentés simultanément à celui-ci.
Grimaut 16
Le fonctionnement de la cochlée pourrait être ainsi modélisé par une juxtaposition de
bandes critiques (36 de ces bandes couvrent la gamme fréquentielle allant de 26 Hz à 10781
Hz). Ces bandes critiques peuvent être considérées comme les bandes passantes à -3 dB de
filtres passe-bandes. La cochlée peut alors être modélisée par un banc de filtres auditifs. Le
passage au travers de ce banc de filtres permettrait ainsi l'analyse fréquentielle de n'importe
quel signal complexe excitant la cochlée.
L'exploration de ces filtres auditifs et le calcul de leurs différentes caractéristiques
spectrales et temporelles (la détermination de leur largeur en fonction de leur fréquence
centrale, la détermination de leur réponse impulsionelle dans le domaine temporel...) a donné
lieu à de très nombreuses études qui ont donné naissance à de nombreux modèles du
fonctionnement du système auditif périphérique (Glasberg & Moore 1990; Irino & Patterson,
1997).
Grimaut 17
Fig 3: Simulation des sorties temporelles de 10 filtres auditifs centrés à des fréquences allant
de 250 Hz à 6 kHz. Ces filtres ont été stimulés par les 20 premiers harmoniques de 500 Hz (ie.
20 sons purs de fréquences n*500 ng[1,20]). Le spectre de ce stimulus est présenté
verticalement, à droite. Cette simulation a été réalisée avec des filtres auditifs de type
"gammachirp" définis par Irino & Patterson (1997).
J'ai moi-même développé au cours de cette thèse un modèle permettant le calcul des
diagrammes d'excitation en sortie de périphérie auditive (i.e. la forme d'onde temporelle en
sortie de chaque filtre auditif) qui utilise les réponses impulsionelles des filtres auditifs telles
qu'elles sont décrites par Irino & Patterson. Contrairement au modèle de diagrammes
d'excitation de Glasberg & Moore ou le passage du domaine temporel au domaine spectral,
qui se fait au moyen d'une transformée de Fourier rapide, n'a pas de fondement physiologique,
celui ci convolue directement les signaux avec le filtre cochléaire défini dans le domaine
Grimaut 18
temporel. La fenêtre temporelle d'intégration est donc plus proche de la réalité physiologique
et dépend de la fréquence centrale du filtre utilisé.
On voit ainsi sur la figure 3 qu'un modèle du système auditif périphérique comprenant un
ensemble de filtres auditifs permet une analyse du signal d'entrée. Les réponses dans le
domaine temporel (les diagrammes d'excitation) sont représentées à la sortie de 10 filtres
auditifs. Le filtre centré sur 250 Hz n'est, par exemple, pas excité car cette fréquence n'est pas
présente dans le signal alors que celui centré sur le premier harmonique du stimulus (500 Hz)
est excité. On voit aussi que le pouvoir d'analyse d'un banc de filtres est limité par la largeur
des filtres. Ceci est tout particulièrement vrai en haute fréquence car la largeur des filtres
augmente avec leur fréquence centrale. Ainsi, la largeur du filtre centré sur 4750 Hz fait qu'il
est excité par plusieurs harmoniques de 500 Hz (Figure 3).
J'ai évoqué en introduction deux différentes cas de figure de sons complexes (les sons
"résolue" et "non-résolue") dont nous verrons par la suite la définition rigoureuse. On peut
cependant préciser dès à présent que la "résolvabilité" d'un son complexe dépend du nombre
d'harmoniques par filtre auditif.
2-Le codage de la hauteur des sons complexes harmoniques.
Avant toute chose, il convient maintenant de définir précisément ce que l'on entend par
"son complexe harmonique" -qui sera souvent abrégé en "son complexe" dans cet ouvrage. De
façon générale, on appelle son complexe tout son qui n'est pas un son pur et dont le spectre
n'est donc pas limité à une unique raie. Un son complexe harmonique est quant à lui composé
d'un ensemble de sons purs dont les fréquences sont toutes multiples d'une même fréquence
que l'on appelle la fréquence fondamentale. Ainsi, il existe toujours une fréquence
Grimaut 19
fondamentale F0 telle que le spectre S d'un son complexe harmonique puisse se décomposer
mathématiquement de la façon suivante:
∑Ψ∈
⋅=k
FkS 0
[ [+∞⊂Ψ ;1
Ï est l'ensemble constitué des rangs des harmoniques présents dans le spectre.
Ce son peut ainsi être représenté par son spectre, comme sur la figure 4.
Fréquence
Rangn=1 n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9
F0 2.F0 3.F0 4.F0 5.F0 6.F0 7.F0 8.F0 9.F0
Fig 4: Spectre schématique d'un son complexe harmonique de fréquence fondamentale F0 ,
avec Ï=[1,9].
La hauteur d'un son comme celui-ci sera approximativement égale à sa fréquence
fondamentale F0 lorsque tous les harmoniques du son complexe sont en phase. On comprend
bien, qu'un tel son ne contient pas nécessairement l'harmonique de fréquence F0 (dès que
1hÏ). Pour cette raison, on appelle souvent la hauteur évoquée par un son complexe
harmonique la "hauteur virtuelle".
Grimaut 20
La perception ou non d'une hauteur en absence de l'harmonique de rang 1 a donné lieu a un
débat historique mettant en scène des hommes de science aussi illustres que Ohm (1843) et
Helmholtz (1863, 1877). Ce premier, en se basant sur le théorème de Fourier, a fait
l'hypothèse de la nécessaire présence de la fréquence fondamentale pour donner lieu à une
hauteur. Cette hypothèse dont la preuve expérimentale manquait a été démontrée comme étant
expérimentalement inexacte par Seebeck (1841, 1843). La reconnaissance scientifique de ce
dernier n'était cependant pas suffisante à l'époque pour résister lorsque Helmoltz vint soutenir
les travaux de Ohm. Il faudra attendre les travaux de Schouten en 1940 pour réhabiliter
Seebeck et confirmer ses résultats.
Il convient au passage de définir un vocabulaire associé à ces notions de sons complexes et de
bande critique. Le spectre d'un son complexe est donc constitué d'un ensemble d'harmoniques
equi-répartis en fréquence. Lors de l'excitation de la cochlée par un tel son, deux cas de
figures sont possibles. Ces deux configurations sont représentées sur la figure 5.
Grimaut 21
Base Apex
Son complexe résolu par le système auditif périphérique.
Son complexe non-résolu par le système auditif périphérique.
Base Apex
Fig 5: Représentation des deux configurations possibles (résolu et non-résolu) lors du
passage d'un son complexe harmonique au travers du banc de filtres auditifs. En haut, tous
les harmoniques sont isolés dans un filtre distinct. Le son est alors résolu. En bas, plusieurs
harmoniques interfèrent dans les filtres. Le son est non-résolu.
Sur cette figure où la cochlée est schématisée, des filtres auditifs ont été répartis ainsi qu'un
son complexe. On voit bien que la largeur des filtres varie suivant leur position sur la cochlée.
Ils sont larges à la base (codage des hautes fréquences) et étroits à l'apex (codage des basses
fréquences). Suivant la fréquence fondamentale du son complexe et le rang de ses
harmoniques, de nombreux harmoniques peuvent interférer dans des filtres ou au contraire y
être isolés. Nous pouvons à présent définir la notion de "résolvabilité" évoquées en
introduction: dans le premier cas, on dira que le son complexe est non-résolu par le système
auditif périphérique et dans le second cas, qu'il est résolu. Ce vocabulaire est extrêmement
Grimaut 22
important et sera réutilisé continuellement dans la suite de ce texte puisque cette thèse a pour
objectif principal l'étude des différences perceptives conditionnées par la résolvabilité des
signaux.
Nous allons dans ce chapitre faire une revue non exhaustive des différents modèles qui
ont été proposés dans la littérature pour expliquer par quels mécanismes le système auditif
"calcule" cette hauteur virtuelle. Ces modèles se séparent en deux grandes classes: les modèles
spectraux et les modèles temporels. La réalité physiologique de ces différents modèles suscite
toujours des polémiques scientifiques entre les différentes équipes travaillant sur ce sujet. Les
conclusions auxquelles aboutissent les études réalisées pendant ma thèse (voir à ce sujet les
articles du chapitre 1) sont les suivantes: au moins deux modèles peuvent être potentiellement
utilisés par le système auditif pour coder les sons complexes harmoniques. L'un serait sans
doute de type spectral et l'autre temporel. Mais n'anticipons pas trop et présentons dans un
premier temps les différents modèles proposés à ce jour dans la littérature.
2-1-Le codage spectral
Ces mécanismes potentiels de codage de la hauteur, qui sont aussi appelés des
mécanismes de codage "par la place", du fait de l'utilisation de la tonotopie cochléaire, ont été
historiquement les premiers à être élaborés.
Ils se regroupent en deux grandes classes de modèles:
2-1-1-Le modèle de Goldstein.
Grimaut 23
Ce modèle a été développé initialement par Goldstein en 1973. Il a cependant été
repris et revu par de nombreuses études jusque vers la fin des années 80 (Beerends &
Walliser, K. (1969a) Zusammenhänge zwischen dem Schallreiz und der Periodentonhöle.
Acoustica, 21, 319-328.
Walliser, K. (1969b) Zur Unterschiedsschwelle der Periodentonhöhe. Acoustica, 21, 329-336.
Walliser, K. (1969c) Uber ein Funktionsschema für die bildung der eriodentonhöhe aus dem
Schallreiz. Kybernetik, 6, 65-72.
Whitfield, I.C. (1967) The auditory pathway, Arnold, London.
Grimault 140
Whitfield, I.C. (1970) Central nervous processing in relation to spatiotemporal discrimination
of auditory patterns. In Frequency Analysis and periodicity perception in hearing (ed.
R. Plomp and G.F. Smoorenburg), Sijthoff, Leiden.
Grimault 141
Chapitre 2:Implication et importance d'un codage performant de la hauteur sur l'analyse descènes en audition.
Grimault 142
Article 3: Influence of peripheral resolvability on the perceptual segregation of
harmonic complex tones differing in fundamental frequency.
Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon, Patrick Arthaud et Lionel Collet
RESUME:
Nous avons déterminé dans les études 1 et 2 que la résolvabilité des sons complexes
harmoniques conditionnait l'utilisation de mécanismes neuronaux différents pour le codage de
la hauteur. Les deux études qui vous sont présentés ici étudient l'influence de la résolvabilité
sur l'organisation perceptive de séquences sonores constituées de sons complexes
harmoniques variant par leur fréquence fondamentale. En utilisant une méthode à stimuli
constant, nous avons déterminé les seuils de scission de séquences de type A-B-A... en
fonction de la différence entre les fréquences fondamentales de A et de B.
Dans la première de ces expériences, ces mesures ont été réalisées avec des sons complexes de
fréquences fondamentales nominales 88 Hz et 250 Hz, filtrés dans trois régions fréquencielles
-LOW (125-625 Hz), MID (1375-1875 Hz) et HIGH (3900-5400 Hz). Ces paramètres
permettent d'obtenir différentes conditions de résolvabilité indépendamment de la fréquence
fondamentale ou de la région de filtrage.
Les sujets sont parvenus à séparer A de B en région HIGH ou toutes les harmoniques sont
non-résolus. Cependant, les seuils mesurés dans cette condition sont dégradés en regard de
ceux mesurés dans les régions LOW et MID.
La seconde expérience indique que l'aptitude des sujets à séparer A de B en région HIGH n'est
pas dûe à l'utilisation d'éventuels produits de distorsion.
Influence of peripheral resolvability on the perceptualsegregation of harmonic complex tones differingin fundamental frequency
Nicolas GrimaultUMR CNRS 5020 Laboratoire ‘‘Neurosciences and Syste`mes Sensoriels,’’ Hoˆpital E. Herriot-Pavillon U,69437 Lyon Cedex 03, France and ENTENDRE Audioprothesists Group GIPA2, Pontchartrain,France
Christophe MicheylUMR CNRS 5020 Laboratoire ‘‘Neurosciences and Syste`mes Sensoriels,’’ Hoˆpital E. Herriot-Pavillon U,69437 Lyon Cedex 03, France
Robert P. CarlyonMRC-Cognition and Brain Sciences Unit 15, Chaucer Road, Cambridge CB22EF, England
Patrick ArthaudENTENDRE Audioprothesists Group GIPA2, Pontchartrain, France
Lionel ColletUMR CNRS 5020 Laboratoire ‘‘Neurosciences and Syste`mes Sensoriels,’’ Hoˆpital E. Herriot-Pavillon U,69437 Lyon Cedex 03, France
~Received 9 April 1999; revised 20 October 1999; accepted 31 March 2000!
An important phenomenon in the perceptual organition of sound sequences consists of stream segregation.refers to the fact that, under certain conditions, soundquences can give rise to the perception of two or more atory streams~Miller and Heise, 1950; Bregman and Cambell, 1971; van Noorden, 1975; Anstis and Saida, 1985!. Itcan be experienced each time one listens to music andlows a given instrument among the orchestral backgroundlaboratory conditions, it is traditionally investigated usinsimplified stimuli consisting of a repeating sequence of ‘‘Aand ‘‘B’’ tones ~e.g., van Noorden, 1975!; when the stimulusrepetition rate is rapid enough, or the frequency separabetween the ‘‘A’’ and ‘‘B’’ tones large enough, the sequenbreaks down into two perceptual streams. The minimumquency separation between ‘‘A’’ and ‘‘B’’ tones for whictwo streams can be heard when the listener is trying to atto one or the other subset of elements has been dubbe‘‘fission’’ boundary ~van Noorden, 1975!.
To date, the mechanisms underlying this phenome
263 J. Acoust. Soc. Am. 108 (1), July 2000 0001-4966/2000/10
-hise-i-
l-In
n
-
ndthe
n
remain largely unknown. While certain authors have sugested that streaming is a central phenomenon~Bregman,1990!, others have proposed that it is determined to a laextent by the functioning of peripheral mechanisms~Beau-vois and Meddis, 1996!. One question, in particular, concerns the role of peripheral auditory filtering in streaminHartmann and Johnson~1991! have proposed that beyondifferences in the physical characteristics of the sounstreaming is determined by parallel bandpass filtering,‘‘channeling’’ of incoming sounds by the auditory peripherBasically, sounds falling in different auditory channels aeasily segregated, while sounds occupying successivelysame auditory filters are less likely to be allocated to diffent auditory streams. This view is supported by the resultearly experiments. Computer models based on this ‘‘chneling’’ principle can account successfully for a varietyexperimental data on streaming~Beauvois and Meddis1996; McCabe and Denham, 1997!. On the other hand, however, some experimental results demonstrate that signaltures not related to channeling can affect stream segrega
For example, it has been shown that differences in tempenvelope between sounds having the same frequency cocan promote streaming~Iverson, 1995! and that the segregation boundary can be shifted by temporal envelope fac~Singh and Bregman, 1997!. Therefore, at present, the exteto which streaming depends on peripheral filtering remaunclear.
The question of the influence of peripheral frequenresolution on streaming has been addressed recently byand Moore~1997!. Using repeating ABA sequences, theauthors measured the fission boundary in normal-hearinghearing-impaired subjects. Based on the notion that streing depends on peripheral frequency selectivity~Hartmannand Johnson, 1991; Beauvois and Meddis, 1996! and thatcochlear hearing impairment is associated with reducedquency selectivity, one prediction was that the fission bouary would be larger in hearing-impaired than in normhearing subjects. The results in normal-hearing listenindicated that the fission thresholds at different centerquencies were independent of the frequency differencetween the A and B tones when expressed in terms of ERa common measure of auditory-filter bandwidth; this argfor the hypothesis that streaming depends on frequencylectivity. However, the results in hearing-impaired subjerevealed a much less clear pattern, which did not allowhypothesis to be confirmed.
One problem with the use of pure tones to study the rof peripheral frequency resolution on streaming comes frthe fact that, for such tones, changes in frequencystrongly correlated with changes in pitch; consequenthese two factors cannot be disentangled. Complex tonesthe contrary, can vary by their fundamental frequency (F0,which largely determines virtual pitch! and/or their spectralocus, corresponding to the region in which the harmonare filtered. Early experiments by van Noorden~1975! indi-cated thatF0 played no significant role in streaming, in cotrast to the spectral locus of the harmonics. In particularwas shown that alternating complex tones that had the sF0 but that were composed of different sets of harmongave rise to two perceptual streams, one having a tinniebrighter quality than the other. However, as pointed outBregman~1990!, this experiment did not giveF0 a ‘‘fairchance’’ as a potential factor of stream segregation givenknown large influence of spectral differences. Later expments concerned with the respective influence ofF0 andspectral locus on streaming questioned this conclusionsuggested that these two factors both had a significant inence on streaming~Singh, 1987; Bregmanet al., 1990; Singhand Bregman, 1997!. For example, Bregman and Levita~cited in Bregman, 1990! and Bregmanet al. ~1990! foundan effect ofF0 on streaming in a study which measurstreaming as a function of differences inF0 and peak posi-tion for harmonic complexes with a formantlike spectral evelope. However, as in the studies by Singh and by Brman, they used resolved complexes, and so differences inF0would have covaried with differences in the excitation pterns of the complexes.
This question of the influence of resolvability on thstreaming of complex tones has recently become the ob
264 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
alent
rs
s
yse
ndm-
e--
-rs-e-s,se-
sis
e
re,on
s
ite
sory
ei-
ndu-
--
-
ct
of increased interest. Very recently, Vliegen and Oxenh~1999! reported effects ofF0 on streaming using completones consisting entirely of unresolved harmonics. They ccluded that streaming can be mediated byF0 differences inthe absence of excitation-pattern cues, and, indeed, repothat streaming was not reduced relative to a condition wresolved harmonics. This absence of an effect of resolvaity is somewhat surprising because, as they pointed out,virtual pitch percept produced by unresolved harmonicsconsiderably weaker than that obtained with resolved hmonics ~Houtsma and Smurzynski, 1990; Shackleton aCarlyon, 1994!. In a more recent study, Vliegenet al. ~1999!showed that streaming induced by gross spectral differenwhich were produced by filtering the harmonics in differefrequency regions, was more potent than streaming induby F0 differences in the absence of spectral cues. They sgested that the difference between these results and tobtained by Vliegen and Oxenham~1999! might be due tothe fact that in that earlier study, stream segregation wadvantageous~i.e., leading to better performance!, whereasin the Vliegenet al. ~1999! study it was detrimental. Unfor-tunately, the latter study did not include a condition in whithe harmonics of the A and B complex tones were resolandfiltered in the same frequency region; therefore, the pposed explanation for the differences between the outcoof the two studies may have been confounded by differenin the cues available to the listeners to perform the tasks~i.e.,local spectral cues in the former study versus global sptrum or timbre cues in the latter!.
Indirect evidence for the fact that harmonic resolvabilinfluences streaming even when stream segregation is adtageous for the listeners has been provided in a studyMicheyl and Carlyon~1998!, and recently confirmed byGockelet al. ~1999!. These authors have shown that theF0discrimination of target complex tones can be substantiimpaired by preceding and following complex tones havinslightly differentF0, and that this temporal interference efect is significantly larger when all complexes are madeunresolved harmonics than when they contain resolvedmonics. They paralleled this finding to the informal observtion that in the unresolved condition, the listeners couldstream apart the target from the interfering complexwhereas they could in the resolved conditions.
The present study investigated further the effect ofsolvability on auditory stream segregation using a taskinstructions which encouraged the use of a neutral criterby the listeners—namely, whether the sequences sounmore like one or two streams. Stream segregation of coplex tones was measured as a function both ofF0 and of thefrequency region into which the tones were filtered. Theteraction between these two factors determined the extenwhich the components in each complex were resolved byperipheral auditory system in a way which has been msured in some detail~Shackleton and Carlyon, 1994!, therebyallowing us to examine the effects of resolvabilityper se,independently of either frequency region orF0.
264Grimault et al.: Resolvability and streaming
taanngsencinhed.th
se
foamndp
dth
r
en
mtioleam
erait
fllythd
nured
C3thsD-
ensige
for
enton
on,of-
ged
sh-toehis
nicition
epa-ith
88ass/nd375ondi-
s,en.all-nthelvedre-ceolds fil-
re-
iseich
I. GENERAL METHODS
A. Procedure
Stream segregation was measured using a consstimuli procedure. Following a paradigm devised by vNoorden ~1975!, subjects were presented with repeatiABA tone sequences, where ‘‘A’’ and ‘‘B’’ represent toneof either the same or a different frequency. Subjects winstructed to indicate whether, at the end of the 4-s sequethey heard either a single auditory stream with a galloprhythm or two independent streams. Subjects indicated tresponse by pressing ‘‘1’’ or ‘‘2’’ on a computer keyboarThe program did not accept responses until completion ofwhole sequence, and waited for the response before preing the next sequence. Bregman~1978! has shown thatstreaming is a cumulative process, i.e., that it takes timethe listener to decide that there are two independent streHe estimated the time constant of the process to be arous. Over longer durations, spontaneous reversals in thecept have been shown to occur~Anstis and Saida, 1985!.Accordingly, the stimulus duration was chosen in this stuso that streaming was nearing its maximum at the end ofstimulus sequence, just as subjects had to indicate theisponse.
Overall, five or six different frequency separations btween the A and B tones were presented, including adifference condition~control condition for false-alarm rate!.These different stimulus conditions were presented ten tieach, in random order. Tests began with a demonstrawherein the subjects could hear examples of sequencesing unambiguously to a single-stream or to a two-strepercept.
B. Material
Two testing systems were used. With the first, TuckDavis-Technologies-based system, signals were generdigitally in the time domain and output through a 16-bdigital-to-analog converter~TDT DA1! at a sampling rate o44.1 kHz. A pink-noise background was generated digitarecorded on CD, and played out continuously throughoutexperiment~Sony CDP-XE300!. The signals and backgrounnoise were low-pass filtered~TDT FT6-2 attenuation morethan 60 dB at 1.15 times the corner frequency! at 15 kHz.They were then led to two separate programmable attetors ~TDT PA4!. The outputs of the attenuators wesummed~TDT SM3! and led to a Sennheiser HD465 heaphone via a headphone buffer~TDT HBC!. The subject wascomfortably seated in a sound booth.
The second system consisted of an Interacoustics Aaudiometer. The same sound files as used with the otesting system were used. The masker was produced uthe same prerecorded CD, played from the computer CROM drive. Signals were output via a 16-bit digital-toanalog converter. The masker and signals were then attated and added using the AC30 audiometer before beingto one earpiece of Sennheiser HD465 headphones. Scharacteristics at the output of the two test systems wmonitored using an HP3561A signal analyzer.
265 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
nt-
ree,
gir
ent-
rs.4
er-
ye
re-
-o-
esn
ad-
-ted
,e
a-
-
0ering-
u-entnalre
II. EXPERIMENT 1
A. Rationale
The aim of experiment 1 was to test systematicallythe influence of resolvability on streaming elicited byF0differences. To that end, differences inF0 were varied inde-pendently of differences in spectral regions. Three differfrequency regions, defined by Shackleton and Carly~1994! and used in several subsequent studies~Carlyon andShackleton, 1994; Carlyon, 1996a, b; Micheyl and Carly1998!, were used here. A prediction inspired by the resultsMicheyl and Carlyon~1998! was that streaming should decrease with decreasing resolvability.
B. Subjects
Seven subjects took part in the experiment. They ranin age between 22 and 29 years (mean525.7, s.d.52.7).They all had normal hearing, i.e., absolute pure-tone threolds at or below 15 dB HL at octave frequencies from 2508000 Hz ~ANSI, 1969!. Four subjects were tested with thF0 of signal A set to 88 Hz; for the other three subjects, tF0 was set to 250 Hz.
C. Stimuli
The stimuli consisted of 4-s sequences of harmocomplex tones. Each sequence was formed by the repetof three 100-ms complex tones~A-B-A ! occurring immedi-ately after each other. The three-tone sequences were srated by a 100-ms silent interval. The tones were gated w20-ms raised-cosine ramps. TheF0 of signal A was fixed at88 or 250 Hz, whereas that of signal B varied betweenand 352 Hz in half-octave steps. The signals were bandpfiltered digitally. The digital filter had a flat top and 48 dBoct slopes. Depending on the condition, the filter lower aupper corner frequencies were set to 125 and 625 Hz, 1and 1875 Hz, or 3900 and 5400 Hz. These values correspto the LOW, MID, and HIGH frequency regions of a prevous study by Shackleton and Carlyon~1994!. They showedthat complexes with anF0 of 88 Hz were resolved in theLOW region and unresolved in the MID and HIGH regionwhereas those withF0s of 250 Hz were resolved in thLOW and MID regions and unresolved in the HIGH regio~Resolvability was defined as the number of harmonics fing within the 10-dB-down bandwidth of an auditory filter ithe center of each region; this was lower than two forresolved complexes and higher than 3.25 for the unresocomplexes. In addition, manipulating the phase of the unsolved but not of the resolved complexes could influenpitch!. The signal level was set to 40 dB above the threshin quiet measured using a sequence composed of signaltered in the MID region, withF0s of 88 and 250 Hz for Aand B, respectively. For convenience, this level will beferred to as 40 dB SL in the following.1 All signals werepresented in a pink-noise background. The level of this nowas set 10 dB above its absolute detection threshold, whwas measured beforehand in each subject.
265Grimault et al.: Resolvability and streaming
he
. I
ene
reheein
-
e-
n
ltn
lau
om
ixid
nt
f
that
as
tionofDn in
the
if-tion
ith
hen
’sints ofys-
il-nt
s-e’ r.rrendthro
in
sted
D. Results
The results of experiment 1 obtained when theF0 of theA tones was 88 and 250 Hz are shown in the left- and righand panels of Fig. 1, respectively. These results indicatfirst sight that although differences inF0 are an importantfactor for streaming, there are other sources of variationparticular, overall higher percents of segregation~corre-sponding to larger percentages of ‘‘two streams’’ respons!were observed in the LOW region than in the MID regioand in the MID region than in the HIGH region. Also, thway in which streaming scores varied as a function of theF0separation between tones A and B appeared to be diffeacross regions. In order to assess the significance of tobservations, two-way repeated-measures ANOVAs wperformed separately on the data obtained at each nomF0.
The results revealed that atF0A588 Hz there was, inaddition to a significant effect of theF0 separation@F(4,12)594.55,p,0.001], a significant effect of the frequency region in which the stimuli were filtered@F(2,6)59.26, p,0.05]. There was no significant interaction btween these two factors@F(8,24)51.46, p50.22]. At F0A
5250 Hz, a significant effect of the frequency regio@F(2,4)56.98, p,0.05] and F0 separation @F(4,8)514.24,p50.001] was observed. In contrast to the resufor F0A588 Hz condition, a significant interaction betweethe frequency region andF0 separation@F(8,16)54.21, p50.007] was obtained.
In order to investigate the existence of quantitative retionships between the degree of resolvability of the stimand the streaming scores in the different conditions, we cputed a ‘‘combined resolvability index’’~CRI!. This index,the mathematical details of which are given in the Appenddepends on the interaction between auditory filter bandw~which covaries with the frequency region! and theF0s ofthe A and B sounds. It varies between 0~fully unresolved!and 1~fully resolved!. Table I indicates the CRI and perce
FIG. 1. Streaming scores as a function ofF0 separation in the LOW, MID,and HIGH regions. Left-hand panel: data obtained withF0A588 Hz. Right-hand panel: data obtained withF0A5250 Hz. The horizontal scale showthe distance in octaves between theF0s of A and B; negative values correspond to cases where theF0 of A was below that of B. The vertical scalrepresents streaming scores expressed in percent of ‘‘two stream’sponses; the larger the score, the better the streaming performanceparameter was the filtering region. Filled circles and continuous line cospond to data in the LOW region. Squares and dashed lines correspodata in the MID region. Circles and dotted lines correspond to data inHIGH region. The error bars show the standard error of the mean acsubjects.
266 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
t-at
n
s,
ntse
real
s
-li-
,th
of ‘‘two stream’’ judgments for different combinations oF0s between the A and B tones, for cases where theF0difference is constant and equal to half an octave. Noteboth the CRI and segregation rates are greatest at highF0sand in low-frequency regions. A strong correlation wfound between these two variables (r 50.95, p,0.005, N56), which does not appear to be due to eitherF0 or fre-quency region alone. For example, the CRI and segregascores are both higher in the third than in the fourth rowTable I even though the stimuli are all filtered into the MIregion; conversely, both scores are higher in the first thathe fifth row, even though theF0s of the stimuli are thesame. This general pattern of results is consistent withidea that resolvability, rather thanF0 or frequency regionper se, has an effect on streaming byF0 differences. Table IIshows the CRI and percents of segregation forF0 separa-tions of half an octave below and above 250 Hz in the dferent frequency regions. Here again, a strong correlawas obtained (r 50.93,p,0.01,N56).
E. Discussion
The results of this experiment are in agreement wthose of previous studies indicating that differences inF0can be used to stream harmonic complexes~Singh, 1987;Bregmanet al., 1990; Singh and Bregman, 1997!. In particu-lar, the present finding that streaming can occur even wspectral cues are not available to the listeners~as in theHIGH frequency region! supports Vliegen and Oxenham~1999! conclusion. However, our results differ from theirsshowing that streaming is enhanced when the componeneach complex are resolvable by the peripheral auditory stem.
Some other indirect evidence for an effect of resolvabity on streaming is provided by the results of two rece
e-The-to
ess
TABLE I. CRI and experimental percent of segregation forF0 separationsof 20.5 or 10.5 octave in the three different frequency regions testedexperiment 1.
F0A F0B
Frequencyregion CRI Percent
250 176 LOW 0.8953 86.6788 125 LOW 0.6426 40
250 176 MID 0.3527 4088 125 MID 0.0155 15
250 176 HIGH 0.0007 1088 125 HIGH 0 2.5
TABLE II. CRI and experimental percent of segregation forF0 separationsof 60.5 octave around 250 Hz in the three different frequency regions tein experiment 1.
studies~Micheyl and Carlyon, 1998; Gockelet al., 1999!,which revealed that, in the LOW and MID frequency rgions, theF0 discrimination of a harmonic complex is impaired by preceding and succeeding complexes, i.e., temral ‘‘fringes,’’ having a similarF0, but not by fringes havinga widely differentF0. In contrast, in the HIGH region, wherall complexes were unresolved, interference effects occueven between fringes and targets differing widely inF0. In-formal observations made during the course of these stuindicated that the conditions in which interference effeoccurred corresponded to those in which the fringe-targfringe sequences could not be split into two streams;was, in particular, the case when the fringes and targets wfiltered in the same frequency region, were presented tosame ear, and had a similarF0. Thus, it was proposed thathe F0 of the target could not be encoded independentlythat of the fringes when it formed part of the same auditstream. Consequently, the finding that interference effectF0 discrimination occurred even for large target-fringe serations in the HIGH region was interpreted as indirect edence for the fact that streaming was less easy in this HIregion, unresolved condition. The present results supportinterpretation.
A possible reason for the different outcomes of tpresent study and that of Vliegen and Oxenham~1999!,which indicated no significant influence of resolvability ostream segregation, may come from the instructions givVliegen and Oxenham’s listeners were told to ‘‘try to heout tone B separately from tone A,’’ whereas our procedencouraged a more ‘‘neutral’’ criterion~whether the se-quence sounded more like one or two streams at the e!.The task of trying to hear two streams is different from thof trying to hold on to a coherent percept~van Noorden,1975; Bregman, 1990!, which the neutral criterion used hermay have encouraged the listeners to do. Also, the frequeseparation at the temporal coherence boundary—wherelistener is trying to hold on to the percept of a singstream—has been shown to be highly sensitive to the trepetition rate~van Noorden, 1975!. In fact, it has been suggested that the temporal coherence and the fission boundreflect different phenomena, the former indicating the poabove which the auditory system is forced to segregationautomatic primitive processes, while the second indicateslimit of the attention-based component of streaming~Breg-man, 1990!. Consequently, it is conceivable that stimulurelated factors, like repetition rate and resolvability, havlarger influence on streaming when listeners are not tryinhear-out two streams. However, there is no evidencepresent for the existence of an interaction between faclike repetition rate and resolvability.
Another possible reason for the apparent discrepancytween the results of Vliegen and Oxenham and thosetained here is that, in the present study and the preceones by Micheyl and Carlyon~1998! and Gockel et al.~1999!, a largerF0 range was used~88 to 250 Hz! than inthe study of Vliegen and Oxenham~100 to 189 Hz!. Wecomputed that while the minimum CRI in all studies is~corresponding to a fully unresolved condition!, the maxi-mum CRI is 0.31 in Vliegen and Oxenham’s study vers
267 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
o-
ed
esst-isre
he
fyin-
-His
n:re
dt
cyhe
e
iesty
he
atoatrs
e-b-ng
s
0.94 in ours~given that 1 corresponds to a fully resolvecondition!. Thus, the use of more extreme resolved andresolved harmonic conditions in the present study may hpromoted the emergence of significant influences of resability.
Three interpretations can be invoked to explain the fining that although harmonic resolvability influences tstreaming of complex tones differing inF0, streaming basedon F0 differences can occur even when the harmonicsunresolved. According to a first interpretation, spectral care not absolutely necessary for streaming to occur, but tcontribute to the phenomenon, together with other factonamely,F0 differences. According to a second interpretion, streaming does not depend directly on spectral cueson virtual pitchper se; the fact that streaming performanceare larger for resolved than for unresolved harmonicsthen be explained by the fact that the virtual pitch derivfrom resolved harmonics is generally more robust than tderived from unresolved harmonics~Houtsma and Smurzynski, 1990; Shackleton and Carlyon, 1994!. These two inter-pretations are considered further in Sec. IV. According tthird interpretation, although the components in the physstimulus could not be resolved by the peripheral auditsystem, distortion products were generated by the ear; sof these combination tones were low enough in frequencbe resolved and may thus have provided spectral cues.third interpretation was further tested in a second expment, described in the next section.
III. EXPERIMENT 2
A. Rationale
The results of experiment 1 indicate that sequencessounds differing by theirF0 can still be split into differentstreams by the auditory system, even when the individcomponents of the sounds fall in the same frequency regand are unresolved. Nevertheless, although the physical cponents of the sounds were unresolved, one may not rulethe possibility that distortion products corresponding to sharmonics of these components were generated by thethese combination tones, falling in a region where the autory filters were narrower, may have provided spectral cas to theF0 differences between the A and B stimuli. Thwould, in particular, be the case if an internal componcorresponding to the fundamental frequency of the hifrequency complex was generated by the ear. Recent resuggest that amplitude-modulated high-frequency comnents can give rise to a strong combination tone at thequency of the modulation~Wiegrebe and Patterson, 1999!.Earlier data in the literature indicate that combination tonproduced by two-tone complexes are audible when the leof the primaries is between about 40 and 70 dB SL on avage; however, there are large variations between subjectssome subjects can apparently detect combination toneprimary levels as low as 20 dB SL~Plomp, 1965!. Similarly,combination tones corresponding to the missing fundameof complexes composed of all harmonics between the secand the tenth can be detected when the level of the comis on average 57 dB SL, but some subjects could detect
267Grimault et al.: Resolvability and streaming
ithea
velicraP2s,despTdB
dt.tbx
enen
e12
n
r4
seec
a1
eo
tenetten
e-dBvelthat
nre-adamthison-to-eri-ntlyourthatisethe
notes,
lv-ts.in-
nifi-
e inof. TherclesSLlevel
he
about 30 dB SL~Plomp, 1965!. On the basis of these data,cannot be completely excluded that some listeners cancombination tones when presented with a 40 dB SL hmonic complex, as was the case in experiment 1.
In their recent article, Vliegen and Oxenham~1999! es-timated that a pink-noise background with a spectrum leof 25 dB at 1 kHz ensured that the distortion products eited by their harmonic complexes were masked. The ovelevel of their complexes being fixed at 70 dB SPL, the Sper component in the passband varied between around 561, depending on theF0 and frequency region tested. Thuat 1 kHz, the component level was between 27 and 36above the level of the noise. In experiment 1 of the presstudy, the overall SPL of the stimuli in the MID region waestimated to be around 52 dB SPL and the SPL per comnent in the passband varied between about 44 and 49.estimated spectrum level of the noise at 1 kHz was 9.71Thus at this frequency, the component level was betweenand 39 dB above the noise level, and it cannot be concluthat distortion products were inaudible in that experimen
Consequently, we performed a second experimenwhich we first reduced the signal level by 10 dB, theremaking the signal-to-noise ratio 10 dB smaller than in eperiment 1, and similar to that used by Vliegen and Oxham~1999!. Then, keeping this new signal-to-noise ratio, wran a second condition in which we increased both the sigand noise levels by 20 dB, which were then comparablethose used in Vliegen and Oxenham~1999!.
B. Subjects
Four subjects with normal hearing~thresholds less than15 dB HL at conventional audiometric frequencies betwe250 and 8000 Hz! who all had taken part in experimentparticipated to experiment 2. They were aged betweenand 29 years.
C. Stimuli
The stimuli were the same as those used in experime~open circles! in the HIGH frequency region condition withF0A588, except for a change in level. Whereas in expement 1 the signal and pink-noise background levels wereand 10 dB SL, respectively, in this experiment they wereeither to 30 and 10 dB SL, or to 50 and 30 dB SL, resptively.
D. Results
The streaming scores obtained at the two test levelsshown in Fig. 2, along with the results from experiment~HIGH region, F0A588 Hz). The data in these threconditions—the two conditions of experiment 2 plus thatexperiment 1—were analyzed using a two-way repeameasures ANOVA. As in the previous experiment, a stroeffect of F0 separation on streaming was observ@F(4,12)573.32, p,0.001], but no statistically significandifference was found between the three conditions tes@F(2,6)51.61,p50.28]. No significant interaction betweecondition and F0 separation was noted either@F(8,24)50.64,p50.74].
268 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
arr-
l-ll
Lor
Bnt
o-he.
35ed
iny--
alto
n
2
t 1
i-0t-
re
fd-gd
d
E. Discussion
The fact that the streaming scores for the HIGH frquency complex were not significantly reduced by a 10-decrease in signal-to-noise ratio even when the signal lewas raised to 50 dB SL argues against the hypothesisdistortion products are necessary for the streaming of usolved, high-frequency harmonics. This outcome is in broagreement with the recent findings of Vliegen and Oxenh~1999!. The agreement between their results and ours onpoint is further supported by the fact that in the second cdition of our experiment 2, the signal levels and signal-noise ratios were comparable to those used in their expment 1a and, yet, streaming scores were not significadifferent from those measured at the lower levels used inexperiments 1 and 2. In more general terms, the findinga 20-dB increase in signal level with the same signal-to-noratio had no significant effect on streaming suggests thatsignal level, independently of the signal-to-noise ratio, isan important factor in the streaming of harmonic complexat least over the 30 to 50 dB SL range.
IV. SUMMARY AND CONCLUSION
Experiment 1 compared streaming in different resoability conditions in the same, normal-hearing subjecStreaming scores were found to decrease overall withcreasing frequency region, being in some instances sig
FIG. 2. Streaming scores as a function ofF0 difference in three differentlevel conditions in the HIGH region. The abscissa shows the distancoctave between theF0s of A and B. The ordinate represents the percentsegregation; the larger the score, the better the streaming performanceparameter was the presentation level of the signal and noise. Filled ciand continuous line correspond to a 30 dB SL signal level and 10 dBmasker level. Squares and dashed line correspond to a 50 dB SL signaland 30 dB SL masker level~same signal-to-noise ratio!. Circles and dottedline correspond to data from the first experiment~40 dB SL signal level and10 dB SL masker level!, replotted for comparison. The error bars show tstandard error of the mean across subjects.
268Grimault et al.: Resolvability and streaming
-toexndtsthivoneger-esin
hasiga
olvthrigeu-
rehaifiedh
fourretceth
n
tef
ipp
teoe
urwt
ina
-
ise
ourd onay
cleshow
cantly larger in the LOW and MID than in the HIGH frequency region. Furthermore, streaming scores appearedsignificantly correlated with a computed resolvability indtaking into account the combined resolvability of the A aB tones forming the test sequences. However, the resulthis experiment and those of experiment 2 also indicatedcompletely unresolved harmonic complexes could still grise to two perceptual auditory streams, even in conditiwhere subjects were unlikely to use combination tonThese results confirm the recent demonstration by Vlieand Oxenham~1999! that streaming of complex tones diffeing in F0 can occur on the sole basis of temporal cuHowever, they differ from the results of these authorsshowing that the degree of resolvability of the harmonicsa significant influence on streaming. This outcome is content with other recent results which suggest that streaminsubstantially weaker for unresolved than for resolved hmonics ~Micheyl and Carlyon, 1998; Gockelet al., 1999!.The present results further indicate that an effect of resability on stream segregation can be observed even iftask and instructions encourage the use of a neutral criteby listeners. Therefore, the explanation proposed by Vlieet al. ~1999! to explain the difference between their conclsions and those reached by Vliegen and Oxenham~1999!may not be valid.
Overall, the results of the different experiments psented here suggest that although resolvability of themonics is not absolutely necessary for streaming, it signcantly contributes to it. This contribution may be mediateither by spectral cues, which are associated to resolvedmonics, or by pitch strength, which is known to be largerresolved than for unresolved harmonics. The aim of futexperiments might consist of trying to disentangle thespective influence of these two factors by manipulating pistrength independently of spectral cues. However, becausthe strong relationship that exists between these factors,aim may well prove difficult to achieve.
ACKNOWLEDGMENTS
This research was supported by the French NatioCenter for Scientific Research~CNRS! and by the ENTEN-DRE hearing-aid dispensers group. The authors are grato Sid Bacon, Brian Roberts, and an anonymous reviewervery helpful comments on earlier versions of the manuscrJean-Christophe Be´ra is gratefully acknowledged for his helwith calibration.
APPENDIX
1. Apparatus interchangeability check
For practical reasons, not all subjects could be tesusing the same apparatus; two testing systems had tused. The preliminary experiment described below was pformed in order to check that the streaming scores measusing these two systems were not different. To do this,tested the same four subjects in the same conditions ontwo systems. Furthermore, in order to investigate withsubject variability, the stimuli were presented 30 timeseachF0 combination. TheF0 of the A sound was main
269 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
be
ofates
s.n
.
ss-isr-
-e
onn
-r--
ar-re-hofis
al
fulort.
dber-edehe-t
tained constant at 88 Hz; theF0 of B was varied between 88and 352 Hz. The signal level was 40 dB SL and the nolevel was 10 dB SL. The stimuli were filtered in the MIDfrequency region~1375–1875 Hz!.
Figure A1 shows the mean streaming scores of the fsubjects on the two testing systems. The results obtainethe two testing systems are largely similar. A two-w
FIG. A1. Mean streaming scores on the two testing systems. Filled cirshow the results obtained with the AC30-based system. Empty circles sresults obtained using the Tucker-Davis-Technologies-based system.
TABLE AI. CRI for different F0 separations (F0A588 Hz) in the LOW~a!, MID ~b!, and HIGH~c! region, ‘‘y’’ and ‘‘n’’ indicate that harmonicswere or were not resolved according to Shackleton and Carlyon’s~1994!definition.
F0A588 HzF0B CRI y/n
~a! LOW region62 0.4097 y88 0.4097 y
125 0.6426 y176 0.8 y250 0.8953 y352 0.9457 y
~b! MID region62 0.0002 n88 0.0002 n
125 0.0155 ?176 0.1221 ?250 0.3527 y352 0.5912 y
~c! HIGH region62 0 n88 0 n
125 0 n176 0 n250 0.0007 n352 0.0265 ?
269Grimault et al.: Resolvability and streaming
o
e-bat
aib
tn
md-re
g
-
er
fre
lvit
uefa
es
exhehence
la.i-
hern theestionifierolutethe
oxi-ck-nt of
Am.
a-
-xp.
hol.
xoc.
l-m.
itch
’ J.
-
oc.
ts
repeated-measure ANOVA indicated a significant effectthe F0 difference@F(4,12)5169.08,p,0.001] on stream-ing but no difference between the two systems@F(1,3)50.03, p50.87]. The results of this experiment also rvealed that the streaming percentages estimated on theof 30 presentations were very close to those estimated onbasis of only ten presentations; using a Mann-Whitney pwise comparison statistical test, the two were found not tosignificantly different. In view of this small within-subjecvariability, we chose to restrict the number of presentatioof each stimulus to ten in the actual experiments.
2. The combined resolvability index
This index was obtained by computing the average nuber of harmonics falling in the 10-dB auditory-filter banwidth whose center frequencies fall within the corner fquencies of the considered frequency region~LOW, MID,HIGH!. The resulting number was then transformed throua Gaussian function so that it was bounded between 0~fullyunresolved! and 1~fully resolved!. The formula used to compute the resolvability index is given below:
where fu and fl correspond to the upper and lower cornfrequencies, respectively, of the considered frequencygion, F0 corresponds to theF0 of the complex and ERB(f )is the equivalent rectangular bandwidth at the centerquencyf, as defined in Glasberg and Moore~1990!.
A complex was considered to be resolved if its resoability index was greater than 0.135 and unresolved ifresolvability index was smaller than 0.005; these two valcorrespond respectively to mean numbers of harmonics
TABLE AII. CRI for different F0 separations (F0A5250 Hz) in the LOW~a!, MID ~b!, and HIGH~c! regions. ‘‘y’’ and ‘‘n’’ indicate that harmonicswere or were not resolved according to Shackleton and Carlyon’s~1994!definition.
F0A5250 HzF0B CRI y/n
~a! LOW region62 0.8953 y88 0.8953 y
125 0.8953 y176 0.8953 y250 0.8953 y352 0.9458 y
~b! MID region62 0.3527 y88 0.3527 y
125 0.3527 y176 0.3527 y250 0.3527 y352 0.5912 y
~c! HIGH region62 0.0007 n88 0.0007 n
125 0.0007 n176 0.0007 n250 0.0007 n352 0.0265 ?
270 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
f
sisher-e
s
-
-
h
re-
-
-ssll-
ing in the auditory-filter bandwidth of 2 and 3.25~Shackle-ton and Carlyon, 1994!. Furthermore, because sequenccomprising A and B tones having differentF0s were used inthis study, we computed a combined resolvability ind~CRI!. This index was computed as the maximum of tresolvability index of the A and B complexes comprising tsequence. The combined resolvability index of a sequeA-B-A is then given by
~ f u2 f l ! D 2Y 2J G ,where all symbols are the same as in the previous formu
Tables AI and AII show the CRI in each of the condtions tested in this study.
1All stimulus levels used in this study were specified in terms of SLs ratthan SPLs. Nevertheless, some information regarding the SPLs used istudy could be obtaineda posteriori. The Sennheiser HD465 headphonused in the study were calibrated using a Zwislocki coupler in combinawith a 0.5-in. BK1433 condenser microphone and a BK2610 preamplfeeding an HP35665A signal analyzer. Based on the measured absthresholds of one of the normal-hearing listeners who had taken part inexperiment, the level of the 40-dB SL signal was estimated to be apprmately 52 dB SPL. The spectrum level of the 10-dB SL pink noise baground was measured to be about 41 dB below the level per componethe harmonic at 1500 Hz in this listener.
ANSI ~1969!. ANSI S3.6-1969,Specifications for Audiometers~AmericanNational Standards Institute, New York!.
Anstis, S., and Saida, S.~1985!. ‘‘Adaptation to auditory streaming offrequency-modulated tones,’’ Percept. Psychophys.11, 257–271.
Beauvois, M. W., and Meddis, R.~1996!. ‘‘Computer simulation of auditorystream segregation in alternating-tone sequences,’’ J. Acoust. Soc.99, 2270–2280.
Bregman, A. S.~1978!. ‘‘Auditory streaming is cumulative,’’ J. Exp. Psy-chol. 4, 380–387.
Bregman, A. S.~1990!. Auditory Scene Analysis: The Perceptual Organiztion of Sound~MIT, Cambridge, MA!.
Bregman, A. S., and Campbell, J.~1971!. ‘‘Primary auditory stream segregation and the perception of order in rapid sequences of tones,’’ J. EPsychol.89, 244–249.
Bregman, A. S., Liao, C., and Levitan, R.~1990!. ‘‘Auditory grouping basedon fundamental frequency and formant peak frequency,’’ Can. J. Psyc44, 400–413.
Carlyon, R. P.~1996a!. ‘‘Encoding the fundamental frequency of a completone in the presence of a spectrally overlapping masker,’’ J. Acoust. SAm. 99, 517–524.
Carlyon, R. P.~1996b!. ‘‘Masker asynchrony impairs the fundamentafrequency discrimination of unresolved harmonics,’’ J. Acoust. Soc. A99, 525–533.
Carlyon, R. P., and Shackleton, T. M.~1994!. ‘‘Comparing the fundamentalfrequencies of resolved and unresolved harmonics: Evidence for two pmechanisms?,’’ J. Acoust. Soc. Am.95, 3541–3554.
Glasberg, B. R., and Moore, B. C. J.~1990!. ‘‘Derivation of auditory filtershapes from notched-noise data,’’ Hear. Res.47, 103–198.
Gockel, H., Caryon, R. P., and Micheyl, C.~1999!. ‘‘Context dependence offundamental frequency discrimination: Lateralized temporal fringes,’Acoust. Soc. Am.106, 3553–3563.
Hartmann, W. M., and Johnson, D.~1991!. ‘‘Stream segregation and peripheral channeling,’’ Mus. Perc.9, 155–184.
Houtsma, A. J. M., and Smurzynski, J.~1990!. ‘‘Pitch identification anddiscrimination for complex tones with many harmonics,’’ J. Acoust. SAm. 87, 304–310.
Iverson, P.~1995!. ‘‘Auditory stream segregation by musical timbre: Effecof static and dynamic acoustic attributes,’’ J. Exp. Psychol.21, 751–763.
270Grimault et al.: Resolvability and streaming
.
u
di
es:
,’’ J.
foge-
n
ured
McCabe, S. L., and Denham, M. J.~1997!. ‘‘A model of auditory stream-ing,’’ J. Acoust. Soc. Am.101, 1611–1621.
Micheyl, C., and Carlyon, R. P.~1998!. ‘‘Effect of temporal fringes onfundamental-frequency discrimination,’’ J. Acoust. Soc. Am.104, 3006–3018.
Miller, G. A., and Heise, G. A.~1950!. ‘‘The trill threshold,’’ J. Acoust.Soc. Am.22, 637–638.
Plomp, R. ~1965!. ‘‘Detectability threshold for combination tones,’’ JAcoust. Soc. Am.37, 1110–1123.
Rose, M. M., and Moore, B. C. J.~1997!. ‘‘Perceptual grouping of tonesequences by normally hearing and hearing-impaired listeners,’’ J. AcoSoc. Am.102, 1768–1778.
Shackleton, T. M., and Carlyon, R. P.~1994!. ‘‘The role of resolved andunresolved harmonics in pitch perception and frequency modulationcrimination,’’ J. Acoust. Soc. Am.95, 3529–3540.
271 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000
st.
s-
Singh, P. G.~1987!. ‘‘Perceptual organization of complex-tones sequencA tradeoff between pitch and timbre?’’ J. Acoust. Soc. Am.82, 886–899.
Singh, P. G., and Bregman, A.~1997!. ‘‘The influence of different timbreattributes on the perceptual segregation of complex-tone sequencesAcoust. Soc. Am.102, 1943–1952.
van Noorden L. P. A. S.~1975!. ‘‘Temporal coherence in the perception otone sequences,’’ unpublished doctoral dissertation, Technische Hschool Eindhovern, Eindhoven, The Netherlands.
Vliegen, J., and Oxenham, A. J.~1999!. ‘‘Sequential stream segregation ithe absence of spectral cues,’’ J. Acoust. Soc. Am.105, 339–346.
Vliegen, J., Moore, B. C. J., and Oxenham, A. J.~1999!. ‘‘The role ofspectral and periodicity cues in auditory stream segregation, measusing a temporal discrimination task,’’ J. Acoust. Soc. Am.106, 938–945.
Wiegrebe, L., and Patterson, R. D.~1999!. ‘‘Quantifying the distortion prod-ucts generated by amplitude-modulated noise,’’ J. Acoust. Soc. Am.106,2709–2718.
271Grimault et al.: Resolvability and streaming
Grimault 153
Article 4: Perceptual auditory stream segregation of sequences of complex sounds in
subjects with normal and impaired hearing
Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon, Patrick Arthaud et Lionel Collet
RESUME:
Cette expérience quantifie l'influence néfaste de l'âge et d'une perte auditive sur notre faculté à
séparer des flux auditifs. La même procédure que dans l'expérience précédente est utilisée pour
mesurer la capacité de sujets jeunes et normo-entendants (groupe 1), malentendants et âgés
(groupe 2) ou seulement âgés (groupe 3) à organiser une séquence A-B-A... de sons complexes en
deux flux distincts sur la base d'une différence de fréquence fondamentale entre A et B. Etant
donné que l'âge et la perte auditive dégradent la résolvabilité des stimuli, cette étude, dans la
continuité de l'étude 3, tente d'objectiver les difficultés spécifiques dont souffrent les personnes
âgées -malentendantes ou pas- pour organiser des scènes auditives. Lorsque la fréquence
fondamentale des signaux utilisés est suffisamment basse pour supprimer tout indice spectral
pour les sujets des trois groupes expérimentaux, tous les sujets de l'étude montrent des seuils de
scission similaires. Au contraire, dans les conditions de stimulations résolues pour les uns
(groupe 1) et non résolues pour les autres (groupes 2 et 3), les seuils de ségrégation sont
significativement meilleurs pour les premiers. Ces résultats suggèrent qu'une perte de
résolvabilité diminue nos capacités à organiser une séquence A-B-A... en deux flux auditifs A-...
et B-.... Ils apportent ainsi des éléments d'explication au phénomène de "cocktail party".
Grimault 154
Perceptual auditory stream segregation of sequences of complex sounds in
subjects with normal and impaired hearing
Nicolas Grimaulta),b), Christophe Micheyl a), Robert P. Carlyon c),
où a, b, c, n, fr et å sont les paramètres du modèle (Irino & Patterson, 1997) et ERB consiste
en la fonction définie par Glasberg & Moore (1990) qui est rappelée dans le premier chapitre:
rr ffERB 108.07.24)( += (2)
Grimault 222
J'ai développé ce modèle dans l'objectif de quantifier le "splater" induit par les temps de
monté-descentes (les rampes) des sons complexes harmoniques utilisés dans l'étude 5 (entre
2.5 ms et 40 ms).
Détaillons les différentes phases de calcul de ce modèle.
1-Avant toute chose, précisons que ce modèle calcule l'énergie RMS du signal incident dans
32 bandes auditives numérotées de 2 à 33 d'après la formule de Glasberg & Moore (1990):
)137.4(log4.21 10 +=° kHzFERBN (3)
Les fréquences centrales (FkHz) de ces bandes sont donc répartis entre 55 Hz et 7743 Hz et leur
largeur est calculée grâce à la fonction ERB (eq.2).
Ainsi, connaissant le signal incident et son niveau global en dB SPL, on extrait l'énergie par
bande de ce signal par simple transformée de Fourrier (algorithme FFT) puis transformée de
Fourrier inverse (IFFT).
2-L'énergie par bande est alors corrigée pour prendre en compte la variation des seuils auditifs
aux différentes fréquences. Cette correction utilise les données expérimentales de Robinson &
Dadson (1956) qui sont rapportées dans Glasberg & Moore (1990) dans le tableau MAF
("Minimum Auditory Field"). Une interpolation affine par morceau de cette courbe sur une
échelle des abscisses logarithmiques permet de calculer la correction à apporter pour chaque
fréquence. Cette interpolation ainsi que les points expérimentaux de Robinson & Dadson
(1956) sont représentés sur la figure ci dessous.
Grimault 223
Fig A1: Les cercles représentent les seuils auditifs (MAF) mesurés par Robinson & Dadson
(1956). La ligne représente la fonction continue utilisée pour trouver une approximation du
seuil pour une fréquence quelconque.
3-Une fois l'énergie par bande connue, on peut calculer à l'aide de l'équation 1 les 32 réponses
impulsionnelles correspondant aux 32 fréquences centrales Fcs. Ces réponses impulsionnelles
sont intensité-dépendantes. Il était donc indispensable de connaître préalablement l'énergie par
bande calculée en 1 et corrigée en 2.
Au passage, pour chaque réponse impulsionelle (ie. Pour chaque Fc), un coefficient
normalisateur est calculé afin qu'un son pur centré sur Fc ne perde pas d'énergie en traversant
le filtre auditif centré, lui aussi, sur Fc.
4-La convolution du signal incident avec les 32 réponses impulsionnelles normées par leur
coefficient respectif donne alors 32 patterns d'excitation en sortie de 32 filtres auditifs.
A1-2-Application du modèle.
Grimault 224
Nous avons appliqué ce modèle à 12 des signaux complexes utilisés dans l'étude 5. Les
paramètres sont les suivants:
Fréquence fondamentale (F0): 62 Hz ou 352 Hz.
Filtrage passe bande en région LOW (125-625 Hz), MID (1375-1875 Hz) ou HIGH (3900-
5400 Hz).
Intensité globale: entre 55 dB SPL (certains signaux ont été calibrés à 55 dB SPL) et 54.41 dB
SPL (l'énergie des autres a été déduite numériquement).
Durée des signaux: la durée prise en compte de chaque signal est égale à son temps de montée
(2.5 ms ou 40 ms). La durée totale du signal est 200 ms.
Le modèle compare donc la réponse des filtres (l'énergie RMS par filtre) pendant le temps de
montée (2.5 ou 40 ms) dans différentes régions et F0s. L'énergie de chaque pattern d'excitation
dans chacune des conditions ci-dessus est tracée sur la figure ci-dessous. La réponse
énergétique des 32 filtres est normée (maximum égal à 1) pour chaque signal afin de prendre
en compte les différences d'énergies dues à des durées disparates et de permettre ainsi une
comparaison inter-signal.
Grimault 225
Fig A2: Energie RMS par bande en réponse à des sons complexes de fréquences
fondamentales 62 Hz (en haut) ou 352 Hz (en bas). Ces sons sont filtrés dans trois régions
distinctes: LOW (à gauche), MID (au milieu) et HIGH (à droite). Enfin, dans chaque cadre, le
trait continu correspond à la réponse (normée) à un son montant sur 2.5 ms, le trait pointillé
à un son montant sur 40 ms et le trait en tirets à la différence de ces deux valeurs.
A1-3-Discussion du modèle.
Ce modèle à l'avantage d'utiliser, dans le domaine temporel, les réponses
impultionelles simulants les filtres auditifs. Ceci permet d'avoir un réel aperçu du splater (la
sur-activation de nombreux filtres auditifs) provoqué lors de l'onset brutal (2.5 ms) d'un son.
Grimault 226
Un problème apparaît cependant comme incontournable. Le calcul des réponses
impultionelles (c'est à dire le calcul des filtres auditifs) nécessite la connaissance préalable de
l'énergie présente dans chaque filtre. Or le calcul de cette énergie demande lui aussi la
connaissance préalable des filtres. Nous sommes donc enfermés dans un cercle infernal et sans
solution entièrement satisfaisante.
Pour contourner ce problème, nous avons choisi ici de calculer l'énergie dans des bandes
critiques rectangulaires (ERB) puis d'assimiler cette énergie à celle contenue dans le
gammachirp correspondant. Il s'avère que ce procédé introduit une certaine approximation.
Cette approximation rend incomplet ce modèle et explique qu'il n'ait pas été inclu dans
l'article 5.
A1-4-Résultats et apport du modèle à la discussion de l'étude 5.
Il est toutefois intéressant, malgré la remarque ci-dessus, de bien observer les courbes
de la figure A2.
Région Différence intégrée moyenne ââ
LOW 1.48 (0.19)
MID 1.36 (1.16)
HIGH 0.14 (0.65)
Table A1: Somme sur les 32 bandes des indices spectraux en région LOW, MID et HIGH. La
déviation standard est donnée dans la troisième colonne.
Grimault 227
Tout d'abord, on remarque que globalement, les sons ayant des temps de montées rapides ont
tendance à exciter plus de filtres auditifs. La différence induite par des temps d'onset de 2.5
ms et de 40 ms (les indices spectraux) est maximum dans la région LOW (Table A1). Elle
décroît très légèrement dans la région MID et elle est quasiment inexistante dans la région
HIGH (Table A1). Ceci est en accord avec les éléments qui ont été discutés dans l'étude N°5.
Si nous admettons que le splater physique d'un son est indépendant de sa fréquence (figure
A3). Le spectre d'un son de fréquence F ayant un temps de monté lent se rapproche d'un dirac
en F (ÔF). Par contre, celui d'un son de fréquence F ayant un très court temps de monté sera
élargi (présence de splater) et il peut donc être représenté schématiquement par une bande
centrée sur F de largeur L (L dépendant principalement du temps de montée).
Am
plit
ude
(arb
)A
mpl
itud
e (a
rb)
Am
plit
ude
(arb
)A
mpl
itud
e (a
rb)
Temps (s)
Temps (s)
Fréquence (Hz)
Fréquence (Hz)
F=100 Hz
F=10 kHz
∆∆
Fig A3: Les représentations temporelles (à gauche) et spectrales (à droite) de deux sons purs
de 20 ms, de fréquences 100 Hz (en haut) et 10 kHz (en bas) sont représentées sur cette figure.
La représentation spectrale a été obtenue par transformée de Fourrier (FFT). On observe que
la largeur Ç du lobe principal des deux spectres est grossièrement identique pour chacun des
signaux quelque soit leur fréquence (100 Hz ou 10 kHz).
Grimault 228
Si les filtres sont larges (région HIGH), le passage de ÔF à L ne constituera pas un
changement majeur puisque ÔF excitait déjà de nombreux filtres. Par contre, si les filtres sont
étroits (région LOW), le passage de ÔF, qui n'excitait qu'un filtre, à L qui en excite plusieurs
est tout à fait remarquable. Cette argumentation est schématisée sur la figure A4.
LOW HIGH
Temps de monté: 40 ms
Temps de monté: 2.5 ms
filtres auditifs
spectredu signal
Fig A4: Cette figure représente schématiquement 4 configurations possibles:
1-En haut à gauche, un son pur basse fréquence (région L0W) ayant un temps de monté de 40
ms excite un unique filtre auditif.
2-En haut à droite, ce même son en haute fréquence (région HIGH) excite 3 filtres.
3-En bas (temps de monté 2.5 ms), quelque soit la région stimulée (LOW ou HIGH), le son de
basse et celui de haute fréquence excitent tous les deux trois filtres auditifs.
En région LOW, le passage de 2.5 ms à 40 ms provoque donc la stimulation de 2 filtres
supplémentaires. Ceci n'est pas vrai en région HIGH.
C'est donc certainement ce phénomène qui est mis en évidence par la figure A2. Remarquons
tout de même que cet effet ne semble pas être corrélé à la résolvabilité des signaux mais bien
plutôt à la région de filtrage (ie. à la largeur des filtres auditifs stimulés). En effet, le signal
62-MID (F0=62 Hz et région MID) fournit plus d'indices spectraux que le signal 62-HIGH
(F0=352 Hz et région HIGH) alors que tous deux sont non-résolus.
Grimault 229
Grimault 230
THE PITCH OF HARMONIC COMPLEX TONES: STUDY OF ENCODINGMECANISMS AND CONNECTION WITH AUDITORY SCENE ANALYSIS.
Summary:
In the first and introductory part of the thesis, the principal results and models of theliterature concerning the virtual pitch encoding theories are presented. Additionally, I presentthe main rules of the primitive auditory scene analysis. The connection between, on the onehand, the pitch analysis and, on the other hand, the auditory scene analysis is underlined. Thelast part of the introduction deals with auditory learning. As a matter of fact, thispsychoacoustical field has been used as a method to put into evidence similarities betweenneuronal process.Five studies succeed to this introduction. Using a transfer of learning paradigm, the first andthe second studies clearly argue for the existence of two different pitch encoding processdepending on the harmonic's resolvability. The selective learning transfer between pure-tonesdiscrimination and resolved harmonic complex tones discrimination task suggests that thepitch of resolved harmonics could be encoded by a spectral or a spectro-temporal process.All three last studies are aimed to investigate the auditory scene organization using pitchproximity. The first one put into evidence that although streaming can occur in the absence ofspectral cues, the degree of resolvability of the harmonics has a significant influence. Thesecond one gives a first explanation of the streaming difficulties experienced by elderlyhearing -impaired individuals. Their reduced peripheral frequency selectivity prevents themfrom using spectral cues in the same way as young and healthy subjects. The last study isaimed to further investigate the influence of temporal transition in pitch analysis mechanismsand auditory stream segregation. Overall, the results of this study confirm and extend those ofprevious studies showing that discrimination limens for fundamental frequency discriminationcan be impaired by temporally adjacent complexes. The results are consistent with thehypothesis that abrupt transitions between successive tones, generating spectral splatters,contribute to reset the mechanism which is responsible for pitch analysis and help forsegregation. As a conclusion, a general discussion of these results is provided in order toembrace the five experiments. A peripheral auditory simulation is described in annex.
Key-words: Psychoacoustic, pitch, auditory scene analysis, streaming, frequency selectivity,hearing-impairment.
Grimault 231
INDEX PAR AUTEUR1
1-Cet index fournit les numéros des pages où sont cités les auteurs. Les numéros précédés de "A" se réfèrent à unnuméro d'étude ou d'article (par exemple: A1 pour étude numéro 1).
Grimault 232
Auteur Page
Abramson J. 64Ahad P 69,A5Ahissar, M. A1,192Alain C. A4Alexander G.C. A4Allerhand, M. 34Anderson, D.J. 15Anstis, S. 77,A3Arezzo J.C. 27,55,A1Artaud, P. A1,A2,A4Bacon, S.P. 64Beauvois, M.W. 76,77,A4Bedi G. 84Beerends J.G. 23Békésy, G. Von 14Bilecen, D. 86Bilsen, F.A. 25,28-29 32,39,52,A3Bregman A.S. 58-60,64,67-69,71-77,A2,A3,A4,A5,198Broadbent, D.E. 74Brown J.C. 29,32Brugge, J.F. 15Brunstrom J.M. 27,51Bundy, R.S. 26Buonomano, D.V. A1Burns E.M. 28,A2Buunen T.J.F. 25Buus S. A4Byma G. 84Campbell J. 72,A3,A4Canévet, G. 13Cardozo, B.L. A1Cariani P.A. 31,55,A1Carlyon R.P. 9,25,3844,46,47,49,50,52-54,78,A1,A2,A3,A4,A5,192,196,197Carr, C.E. 31Casseday, J.H. 31Cherry E.C. A4Ciocca V. 51,43,69Clarkson M.G. 26Collet L. 86,A1,A2,A4Colombo, J. 26Corwin J. A4Covey E. 31Cox R.M. A4Crottaz, S. A1Cusack R. A4Dadson R.S. 222,223Dannenbring, G. 71Darwin C.J. 25,51,69Davis A. A4de Cheveigné A. 29,30Delgutte B. 31,55,A1Demany L. 52,53,56,81-83,A1,A2,A5
Auteur Page
Denham, M.J. 76,A3,A4Deutsch D. A5Doehring P. 64Dolmazon 13Doty S.L. 27Evans E.F. 55Faulkner A. 23Fernandes M. 64,A4Festen J.M. 25Fishman Y.I. 27,55,A1Fitzgerald M.B. A2Fletchter, H. 15,A2,A4Florentine M. A4Foxton J.M. A4Gehr S.E. A4Gerson, A. 23Giguère, C. 34Glasberg B.R. 16,25,34,46,A3,A4,221,222Gockel, H. 78,A3,A4,A5,197Goldstein J.L. 23-25,56,A2,194Green D.M. 13,A4Greenwood, D.D. 34Grimault N. 64,A1,A4Haggard, M.P. 64Hall, J.W. 26,64Hallé P. A5Hartmann W.M. 27,58,72,A1,A2, A3,A4Heil P. 55Heise, G.A. A3Helmholtz, H.L.F. Von 20,A1Hewitt, M. 29,31-33,47,52,56,A1,A2,192Hicks, M.L. 64Hind, J.E. 15Hochstein, S. A1,192Hoekstra A. A4Holdsworth, J. 34Houtsma A.J.M. 23,A3,A4,196Humes L.E. A4Irino T. 16,17,A1,221Irvine, D.R.F. 31Iverson P. A3Jeffress, L.A. 31Jenkin W.M. 84Johnson D. A3,A4Joris, P.X. 31Kaernbach C. 53,56Karni, A. 81,A1,192Kim J 69,A5Konishi, M. 31Ladefoged 74Langner G. 55,A2Lee J. 64Levitan R. 73-75,A2,A3,A4
Grimault 233
Auteur Page
Levitt, H. A1,A2,A5Liao C. 73,A2,A3,A4Licklider, J.C.R. 31,35Lin J.Y. 27Lindley IV G. A. 86Lundeen, C. 25Lyon R.F. 29,32Mahncke, H.W. A1Martens J.P. 27Massaro D.W. A5Maubaret C. 83McAdams S. 65McCabe S.L. 76,A3,A4McKeown, J.D. 25Meddis R. 29,31-34,36-38,40, 44-45,47-48,50-53,56,76,77,A1,A2,A3,A4,192Melnerich L. 69,A5Menning, H. 85Merzenich M.M. 84,A1Micheyl C. 9,44,78,A1,A2,A3,A4,A5,197Miller S.L. A3Miller, G.A. 84Milroy R. A4,196Montgomery C.R. 26Moore B.C.J. 14-17,25,28,34,46,A2,A3,A4,221,222Nagarajan S.S. 84Nejime Y. A4Nelson T. 86Nimmo-Smith I. 34,A4,196O’Mard L. J. 32,36-38,40,44,45, 47-48,50-51,53,A1,A2,192Ogawa K.H. A4Ohm, G.S. 20Oxenham, A.J. 74,A3,A4,196Palmer C. 86Pantev, C. 85Pashler, H. 81,A1Patterson R.D. 16,17,34,52,A1,A3,A4,196,221Peter, R.W. 26,28Philibert, B. 86Pinker S. 74,76Plack C.J. 44,A1,A2,A5Plomp R. 13,24,28,A3,A4Polat, U. 81,A1,192Probst, R. 86Puckette M.S. 29,32Radü, E.W. 86Ragot, R. A1Rasch, R.A. 62,63Recanzone G.H. 84,A1Reser D.H. 27,55,A1Rice, P. 34Ritsma R.J. 28,29,32,52,A1,A4
Auteur Page
Roberts B. 27,51,85Robertson I.H. A4Robinson K. 84,A1,193Robinson D.W. 222,223Rose, J.E. 15Rose, M.M. A3,A4Sagi, D. 81,A1,192Saida, S. 77,A3Sams M. 55Sandell G.J. 51,69Scharf B. A4Scheffers M.T.M. 23Scheffler, K. 86Scheich H. 82,A2Schmid, N. 86Schouten, J.F. 20,27-29,32,A1,A2Schreiner C.E. 55,84,A1Schroeder C.E. 55,A1Schulze H. 55,82,A2Schwartz, I.R. 31Seebeck, A. 20Seifritz, E. 86Semal, C. 83,A5Shackleton, T.M. 25,39-43,46,49,53-54,A1,A2,A3,A4,A5,192,196Shiu, L.P. 81,A1Singer, J. 26Singh, P.G. A3Slaney M. 29,32Small, A.M. 25Smith, P.H. 31Smurzynski J. A3,A4,196Snodgrass J.G. A4Sommers M.S. A4Srulovicz P. 23,56Steinschneider M. 27,55,A1Stevens S.S. A4Sullivan, W.E. 31Summerfield A.Q. 84,A1,193Swets J.A. A4Takahashi, T.T. 31Tallal P. 84Terhardt, E. 26,A2,194Thurlow,W.R. A2Tyler R.S. A4Ueda K. A5Van den Brink G. 25Van Noorden L.P.A.S 72,77,A3,A4Veuillet, E. 86Viemeister N.F. 28,A2Vliegen J. 74,A3,A4,196Wagner, H. 31Walliser, K. A2Wang X. 84Warren, R.M. 66,67Weber D.L. A4,196
Grimault 234
Auteur Page
Wetzel, S. 86White L.J. A5Whitfield, I.C. A2Wiegrebe L. 52,A3Wood E.J. A4Woods D.L.. A4Wright B.A. A2Wright, B.A. A1Yin, T.C.T. 31Yost, W.A. 52Zwicker E. A4
PERCEPTION DE LA HAUTEUR DES SONS COMPLEXES HARMONIQUES:ETUDE DES MECANISMES SOUS-JACENTS ET RELATION AVEC L'ANALYSEDE SCENES AUDITIVES.
Résumé en Français:
Dans une première partie d'introduction, j'ai présenté de façon non exhaustive lesprincipales hypothèses et les principaux résultats de la littérature concernant les mécanismesd'encodage de la sensation de hauteur que nous évoque un son complexe harmonique. Danscette même partie, j'ai rapidement exposé les principales règles et mécanismes de groupementauditif qui nous permettent d'organiser en sources sonores distinctes la mixture sonore qui, àchaque instant, nous parvient à l'oreille. J'ai alors mis en évidence l'interconnexion de cesdeux grands domaines de la psychoacoustique. En fin d'introduction, un bref exposé sur lesapprentissages perceptifs auditifs permet de préciser un point de méthode essentiel qui a étéutilisé dans deux des études présentées dans ce document.
Cinq études sont intégrées dans ce manuscrit. Les deux premières études, en utilisantun paradigme de transfert d'apprentissage, ont apporté des arguments en faveur de l'hypothèseselon laquelle deux mécanismes neuronaux différents pouvaient être mis en oeuvre pour coderune sensation commune de hauteur. L'un de ces mécanismes semble partager des processuscommuns avec celui utilisé pour la perception de la hauteur tonale car un transfert partield'apprentissage se produit entre la tâche de discrimination de sons purs et celle dediscrimination de sons complexes harmoniques lorsque les harmoniques sont résolus par lesystème auditif périphérique. Le second de ces mécanismes pourrait, quant à lui, utiliser lesfluctuations temporelles d'enveloppe pour extraire la hauteur. Toutefois, cette secondehypothèse n'a été que très partiellement confirmée par les résultats.
Une revue de littérature a montré, en introduction, que la hauteur est un puissant outilde l'analyse de scènes auditives, les trois études suivantes explorent en détail le groupementpar proximité de hauteur. Nous avons mis en évidence que si la présence d'indices spectrauxn'était pas indispensable aux mécanismes de groupement, ces indices facilitaient néanmoinsleur mise en oeuvre. Une autre étude a mis en évidence que les malentendants ont, pour cetteraison, des difficultés spécifiques pour analyser les scènes auditives. Enfin, la dernière étudemesure l'influence des temps de montée et des temps de descente dans une expérience dediscrimination de hauteur entre des sons complexes précédés d'une frange temporelle. Lestransitions brusques, en élargissant le spectre des stimuli, permettraient sans doute deréinitialiser les mécanismes d'encodage de la hauteur et d'améliorer ainsi les performances dediscrimination en favorisant la ségrégation des sons complexes.
Pour conclure ce travail, une discussion générale des résultats résume et relie entre euxles différents travaux expérimentaux. Enfin, un modèle de perception auditive périphériqueest présenté en annexe.