Communication expressive : Communication expressive : agents rationnels, agents agents rationnels, agents conversationnels, conversationnels, r r ôle des émotions ôle des émotions Véronique Aubergé
Feb 01, 2016
Communication expressive :Communication expressive :agents rationnels, agents conversationnels, agents rationnels, agents conversationnels,
rrôle des émotionsôle des émotionsVéronique Aubergé
Agent Communicant AniméAgent Communicant Animé
Synthèse vocale : une voix = un corps = une personne => but inter-agir - avant la synthèse par corpus : intelligibilité + « naturel »- aujourd’hui : « pertinence » => personnalité C affects, attention, motivation
pas un problème lié à la virtualité…
personnalité attendue en contexte
Super-ordi Hal / Carl , 2001 L’Odyssée de l’espace
version ori traduction
Super-ordi revisité Un ticket pour l’espace
Serveur vocal standard Uni Stendhal - voix naturelle…
Languages “intuitions” about affects:Languages “intuitions” about affects:English from Whissell and Plutchik
Accepting, Adventurous, Affectionate Afraid, Aggressive, Agreeable, Amazed,
Ambivalent, Amused, Angry, Annoyed, Antagonistic, Anticipatory, Anxious, Apathetic,
Apprehensive, Ashamed, Astonished, Attentive, Awed, Bashful, Bewildered, Bitter,
Boastful, Bored, Calm, Cautious, CheerfuI, Confused, Contemptuous, Content,
Contrary, Co-operative, Critical, Curious, Daring, Defiant, Delighted, Demanding,
Depressed, Despairing, Disagreeable, Disappointed, Discouraged, Disgusted,
Disinterested, Disobedient, Displeased, Dissatisfied, Distrustful, Eager, Ecstatic,
Elated, Embarrassed, Empty, Enthusiastic, Envious, Exasperated, Expectant, Forlorn,
Furious, Generous, Gleeful, Gloomy, Greedy, Grief-stricken, Grouchy, Guilty, Happy,
Helpless, Hesitant, Hopeful, Hopeless, Hostile, Humiliated, Impatient, Impulsive,
Indecisive, Indignant, In love, Inquisitive, Interested, Intolerant, Irritated, Jealous,
Joyful, LoathfuI, Lonely, Meek, Nervous, Obedient, Obliging, Outraged, Panicky,
Patient, Pensive, Perplexed, Planful, Pleased, Possessive, Proud, Puzzled, Quarrelsome,
Ready, Receptive, Reckless, Rebellious, Rejected, Remorseful, Resentful, Revolted,
Sad, Sarcastic, Satisfied, Scared, Scornful, Self-conscious, Self-controlled, Serene,
Shy, Sociable, Sorrowful, Stressed, Stubborn, Submissive, Surprised, Suspicious,
Sympathetic, Terrified, Timid, Tolerant, Trusting, Unaffectionate, Uncertain,
Uncooperative, Unfriendly, Unhappy, Unreceptive, Unsympathetic, Vascillating,
Vengeful, Watchful, Wondering, Worried…
Affects : Affects : empirisme naempirisme naïf de notre langue/culture/sociétéïf de notre langue/culture/société
- humeurs (stress)
- émotions (joie, dégoût)
- attitudes, traits comportementaux, intentions
- états mentaux/cognitifs
- sentiments (bonheur)
(hostile, vengeur, sympathique)
(amoureux)
Ecole TCAN, 2006
Conscience langagière, philosophieConscience langagière, philosophie=> science : psychologie=> science : psychologie
plusieurs grandes approches - La perspective néo-darwinienne (Darwin, Ekman…)- La perspective physiologique
(James/Lange,Cannon/Bard)
- La perspective cognitive (Damasio, Frijda, Scherer…)
- le constructivisme social (Averill)
(1) cerveau + (?) corps(2)« appraisal /évaluation ; self-conscious/conscience de « soi » => les autres ? (empathie, théorie de l’esprit => BDI)(3) expressions => catégories vs./+ continuum(4) « Affective Science » & émotions
Ecole TCAN, 2006
Evolutive theory: Evolutive theory: Basic/Discrete/Universal Basic/Discrete/Universal
EmotionsEmotions• Paul Ekman and Carroll Izard
– Insist that there are a limited number of basic emotions
• Basic emotions– Emotions that are found in all cultures, that are
reflected in the same facial expressions across cultures, and that emerge in children according to their biological timetable
• Various forms of its expression• Static forms• No proposal on speech expression coherenceANGERANGER FEARFEAR DISGUSTDISGUSTSURPRISESURPRISE JOYJOY SADNESSSADNESS
Ecole TCAN, 2006
Charles Snodon, Expression of Emotion in Nonhuman Animals, Hanbook of Affective Science, 2003
Ecole TCAN, 2006
Ekman : une école en faciale :Ekman : une école en faciale :psychologie + talking heads/robotiquepsychologie + talking heads/robotique
Beaucoup de travaux en facial, peu de modèles alternatifs
par ex D Massaro : “l’analyse objective > humain”
ou modèles statistiques (Bateson + …)
Ecole TCAN, 2006
Emotion in bodyEmotion in body• Body/Physical
– blood pressure– heart rate– adrenaline levels– muscle activity when smiling, frowning, etc.– posture– tears – perspiration– lie detector readings (??)
• neural images : body in the brain
Ecole TCAN, 2006
Physiology => cognitionPhysiology => cognition
Ecole TCAN, 2006
Cognitive theories: continuous Cognitive theories: continuous dimensionsdimensions
Arousal +
Arousal -
Valence + Valence -
JOIE
TRISTESSE
Russel 2-Darousal; potency
Plutchik 3-D Circumplex Model arousal; hedonism; potency
Ecole TCAN, 2006
affects expression channels in acousticsaffects expression channels in acoustics
voice
speech
oral language
face gestuality acoustic speech
[Fonagy; Scherer, Banziger; Cowie; Cahn; Batliner; Campbell; Ni Chasaide, Gobl; Ron Amir; Schröder; Laukka…]
Ecole TCAN, 2006
involuntary control
emotional functions
in voice « during speech »
emotion events
time
Affective Affective functionsfunctions of speech of speech communicationcommunication
embodied functionalismembodied functionalism model model« perception-action theory but directed by « perception-action theory but directed by
functions »functions »
[Aubergé 92..02]
Contrôle involontaire : inné=> universels ??
inhibition : profil psychologiquereconstruction sociale
Ecole TCAN, 2006
Klaus Scherer, Tom Johnstone, Gundrun KlasmeyerVocal Expression of emotion,
Handbook of Affective Sciences, 2003
ContrContrôle involontaire = innéôle involontaire = inné => universels ?? émotions ou expressions ?=> universels ?? émotions ou expressions ?
inhibition => variations inter-culturelles
Ecole TCAN, 2006
amused vs. neutral Aubergé et Cathiard (04), Schroder & Aubergé (98)
stimulus A stimulus B
84% of discrimination
? the more amused ?
audio alone amusement is audible
mechanical smile vs. neutral Tartter et al (93)
stimulus A stimulus B
64% of discrimination
? the more amused ?
audio aloneface smileis audible
amused vs. mechanical smile
stimulus A stimulus B
69% of discrimination
? the more amused ? prosodiceffects
Ecole TCAN, 2006
Not specific or specific control of emotion expression? [Aubergé et Cathiard,, 2003]
AV integration of the same
sensori motor/cognitive control
AV integration of same and
different
sensori-motor/cognitive
controls
Visible expression
(1) audible facial gestures
(2) audible physiological changing
+
(3) audible emotions values specific to speech
Acoustic speech
Visible speech
Audible expression
emotional prosody =
=> prosody
Ecole TCAN, 2006
multi-modality multi-modality
/ multi-processing?/ multi-processing?
same nature/intensity
Face motor control
Body motor control
Voice motor control
emotion brain representations
inhibition
same nature /
different intensity
Face motor control
Body motor control
Voice motor control
emotion brain representations
inhibition
Face motor control
Body motor control
Voice motor control
emotion brain representations
inhibition
control of strategies
different natures&intensity
activation level
intensity level
C
C
C
Ecole TCAN, 2006
decision taking[Frijda, Damasio]
prosodyprosody
Intonation
Rhythm
face
body
gestuality
somatic system
The processing of The processing of moods/emotionsmoods/emotions indices in C-Clone indices in C-Clone
commands on
expressions
Emotional
States
changing
voice
internalemotionevents
external emotion events
Ecole TCAN, 2006
simulation
direct expressions
attitudinal functions
« building speech »
the speaker intentions
voluntary control
linguistic time
involuntary control
emotional functions
in voice « during speech »
emotion events
time
Affective Affective functionsfunctions of speech of speech communicationcommunication
=> => embodied functionalismembodied functionalism model model
Ecole TCAN, 2006
Les expressions dans la parole
Scherer et al (84 - 05) : Les effets pull et push
Les émotions entre - expression prosodique (modèles de configuration), - qualité de voix (modèle de covariation)
- conséquences physiologiques
Contrôle volontaire Contrôle involontaire Facteur push Facteur pull
Modèle de Modèle de co-variation Configuration
Messages mixtes
Co-variation des changements Patterns acoustiques et physiologiques et des Antagonisme configurations valorisés caractéristiques acoustiques socialement
Qualité de voix Expression prosodique
Ecole TCAN, 2006
Attitudes = social affectsAttitudes = social affects=> attitudes with prosody=> attitudes with prosody
French(6 attitudesEnglish
(11 attitudes)
Japanese(12 attitudes)
cultural distance
Grépillat (1996) Morlec (1997) Aubergé (2005)
Diaferia (2002)
Arrogance-Impoliteness
Simple Politeness
Sincerity-Serious
Kyoshuku
Shochi (2004)
Surprise
Doubt
Evidence
Admiration
Seduction
Irritation
Scorn
Authority
Politeness
Gestalts & superposition processingMandarin
Swedish
Hungarian
Baba’1
Lien avec Austin, Searle, Vandervecken…?les fonctions “corporéisées”
comme fils conducteurs des buts de l’interaction
verbale/non verbale
Ecole TCAN, 2006
direct expressions
attitudinal functions
« building speech » the speaker intentions
voluntary control
linguistic time
involuntary control
emotional functions
in voice « during speech »
emotion events
time
expressiveness strategy
indirect expressions
linguistic functions
« building language »
focus (VID model)
hierarchization/segmentation
modalization
Affective Affective functionsfunctions of speech of speech communicationcommunication
=> => embodied functionalismembodied functionalism model model
Le langage est construit pour “dire les affects”(ne pas avoir d’attitude est une attitude)
=> dans les situations “vernaculaires”, en IHM..? :peu d’émotions (donc très informatives)
beaucoup d’affects volontaires (5 ans de parole d’une japonaise [Campbell, 04])
Ecole TCAN, 2006
Ce petit passant chantait.
Ce passant tout fou chantait.
Son pas doux retentissait.
mamamamamamama
Fonction de segmentation/hiérarchisationFonction de segmentation/hiérarchisationprosodie & syntaxe => degré de liberté
Ecole TCAN, 2006
ContrContrôle du degré de libertéôle du degré de liberté
Association
Dissociation
Chance
Homogeneous(Same locations; same levels)
Same locations; different levels
Different locations; same levels
Different locations; different levels
Fonction affective=
stratégiedu choix
de segmentation(1)par l’agent prosodie(2) de répartition entre
prosodie et syntaxe
[Thèse A. Rilliard]
Ecole TCAN, 2006
Roger fait du chocolat chaud
Les gamins jouent les mécanos
Cytopathogénicité
““le chat retombe sur ses pattes”le chat retombe sur ses pattes”= focus…= focus…
Ecole TCAN, 2006
Lo tendait ce pain à Jean.
Focus Function: the VID modelFocus Function: the VID model(1) (1) ValenceValence
communicative function: binary (no/yes focus)
no focus
yes focus
valence
information
magnet effect
[Aubergé, Rilliard, 04]
perception: static cue ( Gestalt) <> linguistic category
Ecole TCAN, 2006
Lo tend ce tapis à Jean.
(2) I(2) Intensityntensity
communicative function = preference/speaker intention
intensity
information
Do you want anfor apple or for pear
tomorrow?
yes focus
typical dialog function
psycho-acoustic gradience <> pragmatic function
intensity
Ecole TCAN, 2006
Lo tendait ce pain à Jean.
(3) Domain(3) Domain
word vs. syllable communicative function: new/contrast vs. metalinguistic
Lo tendait ce pain à Jean.
tendait
threshold: glissando??79,7
discrimination score
83,7
word focus
syllable focus
domain
information
word focus
syllable focus
[ Brichet, Aubergé, 02]
perception: dynamic cue <> linguistic timing
[Aubergé, Rilliard 06]
quite magnet effect
Aie,// mouais, heu //cÕ̌tait //plus difficile que les tests prˇcˇdents en difficultˇ Ahh cÕest mauvais//, mes impressions cÕest// ah cÕest mauvais (É.) a hh bref,/ je me suis //Éo h peu importe /je me cherche pas dÕexcuse
Pas contente, nerveuse
Aie aie aie /cÕest pas bon en difficultˇ Alalala //cÕest toujours /aussi mauvais Pas contente,
fatiguˇe Ah cÕest nul, /cÕest nul/ mes impressions/ cÕest que cÕest nul Dˇ¨ue Ouh la la //au secours //quÕest ce que cÕest /que ce nÕimporte quoi un peu perdue Oh la la cÕest pourri, //pourquoi /pourquoi cÕest mauvais ? Perdue, inqui¸te
Apr¸s avoir essayˇ /de les distinguer /avec les couleurs et t out ¨ a, //de les faire rˇpˇte r/ une fois peut tre //enfin /jÕsais pas,// jÕaurais peut tre mieux //, jÕaurais peut tre mieux / rˇuss i ¨a apr¸s ;
Pas confortable, soucieuse
jÕsuis en train//juste dans le trap¸ze / le plus ouvert a priori /cÕestÉ ///je sais plus // je sais plus /si cÕest euhÉ //(É) mais/ je sais plus /si cÕest tr¸s ouvert en bas / ou si cÕest É //aahhh bref // je me suisÉ
Pas contente, irritˇe
Oualala ///au secours //quÕest ce que cÕest /que ce nÕimporte quoi,// (rire) yÕa un , //non ben //jÕsais pas// l je mÕexplique rien du tout //jÕessaie plus /de comprendre //(rire) [Page suivante]
Pas compris, amusˇe
Stratégies linguistiques Stratégies linguistiques => pas de « para-phrases »=> pas de « para-phrases »
Ecole TCAN, 2006
decision taking[Frijda, Damasio]
prosodyprosodyIntonatio
nRhyth
m
morphology
lexicon
sound system
syntax
face
body
gestuality
somatic system
strategies
inter-functio
ns
Intra
-functio
ns
commands on
expressions
Emotional
States
changing
voice
internalemotionevents
external emotion events
pragmati
cs
meaning
C-CloneC-Clone: a MAS for embodied functionalism : a MAS for embodied functionalism of speech communicationof speech communication
Ecole TCAN, 2006
Experimental methodology: building corpusExperimental methodology: building corpus
theoritical principles
corpus
perceptive analysis
acoustic analysis
simulation
evaluation
Ecole TCAN, 2006
in vivo
in vitro
_
experimental
control
spontaneous/authentical
InductionElicitatio
n
acted
Acted
live
language generation
direct expressions: emotions and attitudes
indirect expressiveness
InductionElicitatio
nActed
live
« added »feelings
+experimental
control
How to collect expressive corpus? How to collect expressive corpus?
Ecole TCAN, 2006
Inside body loop
Does the actor simulate the emotion or its expression?
Does a good actor still simulate?
simulationloop
[Damasio, 95]
AV authentic amusement vs.
AV acted amusement
59% of identification listeners effect
[Schröder, Aubergé, Cathiard, 98]
[Aubergé et Cathiard, 03]
Control & authenticityControl & authenticity- acted vs. real corpus -- acted vs. real corpus -
voluntary smile: motor cortex lesionspontaneous smile: anterior cingular cortex
Ecole TCAN, 2006
SémantiqueSémantique : :Comment Comment annoterannoter
les émotions les émotions ressenties ? ressenties ? exprimées ?exprimées ?
par un humainpar un humain
Ecole TCAN, 2006
- qui annote ?qui annote ?
- avec quelles étiquettes ?avec quelles étiquettes ?
- sur quels signaux ?sur quels signaux ?
- avec quelles connaissances du avec quelles connaissances du
contexte ?contexte ?
Labeling by expertsLabeling by experts
statisticalstatisticalverificationverification
of the coherenceof the coherencebetween between expertsexperts
The corpusThe corpus
Ecole TCAN, 2006
Pour Frijda, un critère fondamental de l’évaluation (appraisal) est la compatibilité de l’événement émotionnel avec des normes ou des valeurs sociales ou personnelles
PhD P. Garcia-Prieto, post-doc GERG“ Nous avançons des hypothèses, basées sur la théorie de l’évaluation (appraisal) et de la différentiation de l’émotion de Scherer (1984) et sur celle de l’identité sociale de Tajfel et Turner (1986), qui expliquent de quelle manière l’identité sociale peut influencer certaines des dimensions d’évaluation, cognitivement plus complexes, supposées être impliquées dans le processus émotionnel, et qui ont été identifiées comme étant particulièrement sensibles aux facteurs contextuels sociaux.”
Effets stroops lexicaux : biais attentionnels/mémoriels sur reconnaissance de mots Effets stroops lexicaux : biais attentionnels/mémoriels sur reconnaissance de mots émotionnels, selon certains états (anxiété etc) et autres (faim…)émotionnels, selon certains états (anxiété etc) et autres (faim…)J. Junca des Morais : « Comme la communication verbale orale est plus ancienne, des biais attentionnels pourraient être observés avec ce type de matériel [verbal], lorsque celui-ci a une valence émotionnelle négative »
« Expert » ou humain en situation« Expert » ou humain en situation écologique exogroupeécologique exogroupe => limites de l’empathie ???=> limites de l’empathie ???
variabilité, fenêtre, des transcriptions. Modèle d’annotation. (cf. annotation phonétique de corpus)
mesure de cohérence sur les experts [LIMSI, Abrilian, Devillers, Martin]
Ecole TCAN, 2006
Annotations par experts :Annotations par experts :la méthodologie la plus répandue
• Noe Humaine : - Cowie et al, Belfast Univ, GB- Martin, Devillers et al Limsi, F- Heylen et al, Twente Univ, NL- …
• Crest Expressive Speech Processing :- Campbell, ATR Japan
Labeling by Labeling by expertsexperts
statisticalstatisticalverificationverification
of the coherenceof the coherencebetween between expertsexperts
The corpusThe corpus
Auto-annotationsAuto-annotationsby the subject himselfby the subject himself
self consciousnessself consciousnessautobiographical memoryautobiographical memory complex combinationscomplex combinations
more than affectsmore than affects
Ecole TCAN, 2006
W.G. Huitt, à propos de Lazarus « The theory that an emotion-The theory that an emotion-provoking stimulus triggers a cognitive appraisal, which is provoking stimulus triggers a cognitive appraisal, which is followed by the emotion and the physiological arousalfollowed by the emotion and the physiological arousal » » Lazarus : conscience du ressenti émotionnel (grâce à l’apparasial), rapport à la verbalisation, mémoire d’un épisode émotionnel
Scherer : mémoire de l’expérience émotionnelle
Ekman 99 (automatic appraisal + extended appraisal) « …then the person is quite aware of what Lazarus [66..91] calls the “meaning analysis” which occurs. »
Lewis (2005) « les événements émotionnels font partie de la (2005) « les événements émotionnels font partie de la chaîne causale qui contribue à l’évolution et à la consolidation chaîne causale qui contribue à l’évolution et à la consolidation du pattern d’appraisal. A partir de là, ce qui évolue n’est pas du pattern d’appraisal. A partir de là, ce qui évolue n’est pas juste un appraisal mais un amalgame appraisal-émotion ou juste un appraisal mais un amalgame appraisal-émotion ou « interprétation émotionnelle », conscience de ressentir ».« interprétation émotionnelle », conscience de ressentir ».
=> auto-annotation
Conscience et mémoire de l’émotionConscience et mémoire de l’émotion => limites de granularité ???=> limites de granularité ??? => limites de appraisal vs. mémoire ???=> limites de appraisal vs. mémoire ???
……
Perception tests by naive listenersPerception tests by naive listeners
Labeling by Labeling by expertsexperts
statisticalstatisticalverificationverification
of the coherenceof the coherencebetween between expertsexperts
The corpusThe corpus
Auto-annotationsAuto-annotationsby the subject himselfby the subject himself
self consciousnessself consciousnessautobiographical memoryautobiographical memory complex combinationscomplex combinations
more than affectsmore than affects
Ecole TCAN, 2006
Methodology for E-Wiz corpora Methodology for E-Wiz corpora (Crest ESP) (Crest ESP)
theoritical principles
Speaker
control of the speaker
motivation
psychologicalprofile
scenarioof the wizard
authenticcorpus
annotations
perceptive analysis
acoustic analysis
actedcorpus
+ big six
simulation
evaluation
[Audibert, Aubergé, Rilliard, 03..05]
speech interactions =monowords [brik, vEr, rU3,jOn, sabl] « page suivante » free comments
E-Wiz E-Wiz platformplatform (GPL free available)(GPL free available)
language learning
pretext task:
« easy learning of the
prounounciation
of sounds of world »
directly motivated «caught» subjectswizards of Oz
Ecole TCAN, 2006
Experiment steps Subject tasks Wizard evaluationTask presentation subject averagePronunciation 98% 96%Perception of opening 98% 96%CommentsPerception of front/back 96% 93%CommentsPerception of rounding 97% 95%CommentsPerception of centralization 97% 96%Comments
Step 1Ź: The vowels of French
General results Positive evaluation,within 5 best ones
Step 2Ź: Vowels near of French É Very positive,evaluation within 3 best ones
Step 3Ź: Generalization to otherlanguages
ÉWARNING
Negative evaluation
before afterPerception of openingPerception of front/back 65% 96%Perception of roundingPerception of centralizationWARNINGŹ perception É
É
Pronunciation
Step 4Ź: Perceptual check(back to the vowels of French)
WARNING production Very negativeWarning of cognitivedamage.
Examples of emotions noted by a speaker Emotions progressionsStressed, intimidated, concentratedNegative surprised, astonishedA little bored, irritated, nervousVery surprised, flattered, amused, proudDisconcertatedSurprised by such good resultsReconcentratedSelf-confidentWorried by the difficultyAgain surprised by good results, littleboredA little tired, self-confident
4 steps - concentration- positive feed-back- negative feed-back- warning feed-back
Spontané + acteur
3 types of behaviors
•
••
•
[Audibert, 03 ; Noiray, 03]
17 sujets (dont 7 acteurs)
6 heures parole=> 3400 mono-syllabic + commentaires
10 heures de non parole => informations face, corps, voix, ou autre bruit…
communication = flux permanent ponctué par les tours de parole
=> pas d’ACA autiste !! => pas d’ACA autiste !!
Ecole TCAN, 2006 Subject M2
Ecole TCAN, 2006
Comment “objectiviser” l’auto-Comment “objectiviser” l’auto-
annotationannotation - terminologies directes :”calme”, “tranquille”, “concentration”, “réfléchis
à”, “sûre de moi”, “confiant”, “stressée”, “inquiète”, “déconcertée”, “perplexe”, “doute”, “surprise”, “surprise en bien”, “étonnée”, “perdue”, “fatigue”, “exaspéré”
- quantifieurs abs/rel : “très”, “un peu”, “grand”, “légère”, “plus que”, “croissante”,…
- explicatifs : ennui “(long)”, fatiguée“,parce que long”, surprise“des bons résultats”, amusé “parce que résultats inattendus”, concentraté “mon but étant de comprendre ce que je dois répondre”, “la difficulté augmente, le stress aussi”, “surprise par les résultats car j’avais un gros doute sur ma réponse”
- descriptifs : “un peu de mal à me mettre dans la tâche”, “Je sens une senvie de rire qui monte”, “ emprise du logiciel dans le sens ou je suis les consignes du mieux que je peux”, “surprise par les résultats car un doute persistait sur la prononciation. néanmoins les résultats donnent une certaine satisfaction personnelle”
Ecole TCAN, 2006
Temps Phase annotations En minutes Introduction : Phase 1 : les voyelles du
fran¨ais
2,88 - prononciation Surprise - perplexe 7,43 - perception ouverture concentrˇe 9,78 - commentaires amusement 10,41 - perception position Av /Ar concentrˇe 11,68 - commentaires Concentrˇ 12,28 - perception arrondissement Perplexe,
concentrˇe 13,13 - commentaires ˇtonnˇe 13,68 - perception centralisation concentrˇe 14,4 - commentaires idem 14,7 - rˇsultats gˇnˇra ux perplexe Phase 2 : les voyelles proches de
celles du fran¨ais
15,95 - perception ouverture Surprise, agacement 17,11 - commentaires blazˇe 17,78 - perception position Av /Ar concentration 18,7 - commentaires idem 19,2 - perception arrondissement Agacement,
concentrˇe 20,13 - commentaires amusement 20,45 - perception centralisation Agacement,
concentrˇe 21,5 - commentaires Amusemen 22,1 - prononciation Amusement,
concentrˇe 24,05 - rˇsultats gˇnˇra ux Concentrˇe,
largement agacˇe
Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du fran¨ais Stress, intimidˇe - soucieuse de faire
bien 0,73 - prononciation Surprise - ˇ tonnement 5,38 - perception ouverture Ennui (longueurs), agacˇe - ˇnervˇe 7,86 - commentaires Tr¸s s urprise, flattˇ e, amusˇe
Amusˇe compte tenu du rˇsultat 8,81 - perception position Av /Ar dˇconcertˇe 9,61 - commentaires idem 10,58 - perception arrondissement idem 11,11 - commentaires idem 11,6 - perception centralisation rien 12,3 - commentaires Surprise du rˇsultat et un peu
saoulˇ e, long 12,81 - rˇsu ltats gˇnˇraux idem Phase 2 : les voyelles proches de celles
du fran¨ais
13,61 - perception ouverture Agacˇe - fatiguˇe 14,38 - commentaires Concentrˇ e - attentive 14,98 - perception position Av /Ar Agacˇe, long, jÕen ai marre ! 15,45 - commentaires idem 15,86 - perception arrondissement idem 16,5 - commentaires idem 16,98 - perception centralisation Agacˇe - fatiguˇe, 17,48 - commentaires Perturbˇe, perdue 17,96 - prononciation surprise 18,16 - rˇsu ltats gˇnˇraux Tr¸s flattˇ e et contente Phase 3 : gˇnˇ ralisation aux langues
du monde
20,3 - perception ouverture Dˇconcertˇ e - perdue 21,03 - commentaires Stressˇe, dˇ ¨ue 21,43 - perception position Av /Ar saoulˇ e 22,06 - commentaires idem 22,28 - perception arrondissement idem 22,71 - commentaires idem
Ecole TCAN, 2006
Phase 3 : gˇnˇralisation aux langues du monde
27,61 - perception ouverture Hˇs itant
29,78 - commentaires Lassitude
30,4 - perception position Av /Ar Dˇception
31,4 - commentaires Idem, surprise
31,95 - perception arrondissement Sarcastique, dˇc eption
33 - commentaires Idem
33,33 - perception centralisation Exaspˇ ration - perdu
35,73 - commentaires Exaspˇ ration
36,31 - prononciation Grosse exaspˇ ration
37,2 - Warning Exaspˇ rˇ -inquiet
Phase 4 : Vˇrification perceptive
39,05 - perception ouverture Exaspˇ ration, relent de concentration
40,65 - commentaires Inquiet, soucieux
41,5 - perception position Av /Ar Dˇconcentrˇ
42,38 - commentaires Exaspˇ rˇ
42,51 - perception arrondissement Perplexe, ˇnervˇ
43,26 - commentaires Exaspˇ rˇ, inquiet
43,6 - perception centralisation Exaspˇ rˇ
44,21 - commentaires Rassurˇ un peu, inquiet beaucoup
44,6 - Warning perceptif Inquiet, amusˇ
45,45 - prononciation Exaspˇ rˇ
46,38 - Warning production Rassurˇ
46,63 - Fin Idem, perplexe
Phase 3 : gˇnˇralisation aux langues du monde
45 - perception ouverture
29
- commentaires ne suis plus s˛r de moi, lˇger agacement
1 - perception position Av /Ar
58
- commentaires fais des effort pour rester concentrˇ, agacˇ
22 - perception arrondissement
41
- commentaires doute, tr¸s agacˇ. ris de ma mauvaise performance.
25 - perception centralisation essaie de rester concentrˇ
44
- commentaires compl¸ tement perdu. tr¸s tr¸s agacˇ (cf. 32Õ8ÕÕ). rire = tentative de dˇcontraction
25 - prononciation dˇconcentrˇ 1 - commentaires agacˇ. rˇponds au hasard
32 - Warning gnˇ, dˇ ¨u par mes rˇsultats Phase 4 : Vˇ rification perceptive
33 - perception ouverture
54
- commentaires doute et en ai marre. ne mÕamuse plus du tout
12 - perception position Av /Ar agacˇ 16 - commentaires agacˇ et doute 33 - perception arrondissement attente de la fin 24 - commentaires hasard 43 - perception centralisation
23
- commentaires lapsus Š> en a marre. commence ne plus prendre les choses au sˇ rieux
37 - ŅWarningÓ perception deception mais mÕen amuse 22 - prononciation compl¸ tement dˇconcentrˇ 23 - ŅWarningÓ production agacˇ, perplexe 45 - Fin soulagˇ
Ecole TCAN, 2006
sec Phase Annotation Phase 1 : les voyelles du fran¨ais 27 - prononciation pas lÕaise, inqui¸te
37
- commentaires ¨a va, jÕaime pas les camˇras
22 - perception ouverture perplexitˇ 47 - commentaires pas s˛re de moi 17 - perception position Av /Ar concentration
2 - commentaires un peu perdue 32 - perception arrondissement jÕai lÕair dˇ¨ue X - commentaires 32 - perception centralisation ˇtonnˇe ? 32 - commentaires stressˇe 32 - rˇsultats gˇnˇra ux calme ?
Phase 2 : les voyelles proches de celles du fran¨ais
7 - perception ouverture concentrˇe 17 - commentaires Ē 47 - perception position Av /Ar mal lÕaise 37 - commentaires inqui¸te
2
- perception arrondissement oppressˇe (suis une grande stressˇe)
52 - commentaires assez calme 22 - perception centralisation inquiˇt ude (encore) 17 - commentaires dˇcepti on 57 - prononciation stress 12 - rˇsultats gˇnˇra ux rassurˇe, plus dˇten due
sec Phase Annotation Phase 1 : les voyelles du fran¨ais
33
- prononciation un petit peu de mal commencer, une certaine envie de rigoler
X - commentaires -> retour au sˇ rieux par la suite
13
- perception ouverture grande concentration, le but ˇ tant de comprendre ce qui est prononcˇ
X - commentaires lˇger stress qui appara”t
23
- perception position Av /Ar la difficultˇ sÕaccro”t donc le stress aussi
8 - commentaires Ē
48
- perception arrondissement plus de sˇrieux, plus de concentration
26
- commentaires Ē emprise Č du logiciel dans le sens o¯ je suis les consignes du mieux que je peux
50 - perception centralisation Ē 15 - commentaires Ē 46 - rˇsultats gˇnˇraux
Phase 2 : les voyelles proches de celles du fran¨ais
43 - perception ouverture idem 35 - commentaires un petit peu de confiance en soi 13 - perception position Av /Ar concentration 43 - commentaires confiance en soi sur certains points
3 - perception arrondissement ˇcoute attentive 45 - commentaires 18 - perception centralisation idem
53
- commentaires toujours une certaine confiance en moi et sur mes compˇtences
30 - prononciation je doutais de ce que je disais
35
- rˇsultats gˇnˇraux surprise par les rˇsultats car un doute persistait sur la prononciation. nˇanmoins les rˇsultats donnent une certaine satisfaction personnelle.
Ecole TCAN, 2006
Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du
fran¨ais Un peu perdu, essaie de comprendre, concentrˇ
3,21 - prononciation Pas s˛r de ce quÕil faut faire,perdu - surpris du rˇ sultat
5,2 - perception ouverture Un peu perdu, commence comprendre, plus confiant
7,96 - commentaires Encore perdu, pas s˛r de moi
9,91 - perception position Av /Ar
Content de comprendre, dÕy arriver
11,46 - commentaires Content du rˇsultat, amusement
12,43 - perception arrondissement
Pas s˛r de comprendre,
14,21 - commentaires Etonnˇ du rˇsu ltat - content
14,88 - perception centralisation
Pas s˛r de comprendre
16,26 - commentaires Etonnˇ - content
17,13 - rˇs ultats gˇnˇraux Tr¸s ˇ tonnˇ des rˇsultats, pensait avoir moins
19,95 Phase 2 :
20,68 - perception ouverture confiant
22,35 - commentaires Content , pense avoir compris
24,26 - perception position Av /Ar
Concentrˇ, essaie dÕamˇliorer mes rˇsultats
24,81 - commentaires Un peu ˇtonnˇ que mes rˇs ultats baissent
26,16 - perception arrondissement
Fait du hasard ou nÕai-je pas compris ?
29,48 - perception centralisation
rien
32,93 - rˇs ultats gˇnˇraux Content, confiant, dˇ tendu mais reste ˇ tonnˇ
sec Phase Annotation Phase 1 : les voyelles du fran¨ais
17 - Prononciation (t‰che) curiositˇ, concentration
59 - perception ouverture (t‰che) doute devant la t‰che qui para”t difficile au dˇbut, je gagne un peu en confiance ensuite.
07 - commentaires rˇ flexion
55 - perception position Av /Ar (t‰che) un peu plus dˇ tendue car la t‰che me para”t plus facile que la prˇcˇde nte.
51 - commentaires ˇ tat calme
23 - perception arrondissement (t‰che) toujours calme, mais doute
10 - commentaires un peu plus confiante
31 - perception centralisation (t‰che) hˇs itations, doute
30 - rˇsultats gˇnˇraux surprise ; je suis (un peu) rassurˇe.
Phase 2 : les voyelles proches
36 - perception ouverture (t‰che) intˇrt pour la nouvelle ˇ tape. Je commence plut™t confiante, doute pendant la t‰che
03 - commentaires jÕexplique assez tranquillement le probl¸me rencontrˇ, je rˇ flˇchis pour bien le formuler
54 - perception position Av /Ar (t‰che) effort, doute
46 - commentaires comme les commentaires prˇcˇde nts
16 - commentaires esprit plut™t positif : je cherche une solution mon probl¸me
53 - perception centralisation (t‰che) doute
07 - commentaires lˇger dˇc ouragement, fatigue
34 - production (t‰che) doute
37 - commentaires surprise. Il reste un lˇge r malaise : jÕai le
sentiment de ne pas comprendre ce quÕon me fait faire.
20 - rˇsultats gˇnˇraux Je cherche une explication ma rˇuss ite qui
ne sÕaccorde pas avec mon sentiment. Je doute de la mˇthode dÕapprentissage.
Phase 3 : gˇnˇ ralisation aux langues du monde
29 - perception ouverture (t‰che) concentration
23 - commentaires mon doute quant la mˇthode se trouve
confirmˇ.
11 - perception position Av /Ar (t‰che) un peu plus tendu, effort pour comprendre,
dˇ termination 20 - commentaires 57 - perception arrondissement (t‰che) lˇg ¸re baisse dÕattention 36 - commentaires fatigue (mais pas dˇc ouragement)
26 - perception centralisation (t‰che) fatigue, malaise persistant (je nÕapprends pas de
cette fa¨on-l) 10 - production (t‰che) doute 22 - commentaires toujours le mme malaise
Ecole TCAN, 2006
Sound Teacher script: main Sound Teacher script: main stepssteps
end begin middle
Ecole TCAN, 2006
Loud speaker
Wizard Client computer EGG computer
Synchronization beep
Audio recording (DAT)
Video + audio recording (DV Cam)
Physiological recording (BioGraph)
Mixing table
Screen copy
Speaker
Cli
ent c
ompu
ter
Sync
hron
izat
ion
beep
Microphone
Screen
DV Cam
Physio. sensors :RED, temp., resp.,heart rate, EMG
Client computer
Spea
ker
Spea
ker
+ C
lien
t com
pute
r +
Syn
chro
niza
tion
bee
p
Network
Quiet room
Synchronization beep
Synchronized signals
The experimental protocolThe experimental protocolacoustic, articulatory, visual + bio-signals
- - -+annotations
étape 1 étape 2 étape 3
- - -+annotations
sujet 1
… sujet n
données physio
parole (éditeur = Praat)(mot monosyl) (mot monosyl) (mot monosyl) (mot monosyl)
(commentaires) (commentaires) (commentaires)
langage (éditeur = transcriber)
voix
face
EGG articulatoire
corps
Ecole TCAN, 2006
MorphologieMorphologie : :Comment Comment annoterannoter
les expressionsles expressionsde la facede la facedu corpsdu corpsde la voixde la voix
de la parolede la paroledu langagedu langage
=> => éthogramme…éthogramme…
Ecole TCAN, 2006
confident, little amused
little irritated, little anxious
concentration ++
“nothing”
Expressions of emotions/moods/mental statesExpressions of emotions/moods/mental statesExample of subject Y: authentic stimuli => 12 auto-annotated “labels sets”: confidence, positive concentration, joy/surprise, joy, amusement, negative concentration, disappointment /surprise, anxiety, anxiety/fear, weariness, irritation, resignation, “nothing”but => 6 direct remembered “labels” for Y acting + 3 added: satisfaction, resignation, worried, anxiety, disappointment, nothing + added (joy, sadness, disgust)
[Rilliard et al, 04]
Ecole TCAN, 2006
only A AV
significative correlation whatever the length
Perceptive validationPerceptive validation[Rilliard, Audibert, Aubergé, 2004]
Quelle morphologie pour ces affects-là :
les émotions - contrôle involontaire ?
=> relation avec la morphologie de la prosodie pour toutes les fonctions
à contrôle volontaire (dont les attitudes) ?
Ecole TCAN, 2006
Klaus Scherer, Tom Johnstone, Gundrun Klasmeyer, 2003 H of Af Sc
prosodie=
gradience
Ecole TCAN, 2006
Klaus Scherer, Tom Johnstone, Gundrun Klasmeyer, 2003 H of Af Sc
émotion=
dimension“réservée”
En reco automatiquetoujours une combinaison de multiples paramètres partiellement redondants=> A. Batliner
Ecole TCAN, 2006
vs.
specific dimensions?voice quality
intensity, durationfundamental frequency
depending on which emotion[Mozziconnacci; Scherer; Laukka; Ni Chasaide]
fundamental frequency intensity, duration
voice quality
[Scherer & Ladd, 84] [Delattre, 70, Fonagy 76, Aubergé 91]
functions driven superposition of gradient contours
emotional prosodyemotional prosody
gradience
linguistic prosodylinguistic prosody
global contours
specific morphology?
Ecole TCAN, 2006 -6
-1
4
9
14
19
se
mit
on
es
confidence
positive-concentration
nothing
-6
-1
4
9
14
19
se
mit
on
es
weariness
deception/ surprise
joy /surprise
anxiety /fear
anxiety
nothing
joy
negative-concentration
Patterns evidencePatterns evidence for one dimensionshared with linguistic prosody: F0 parameter disappointment
Ecole TCAN, 2006
Dimensional projectionDimensional projection
Dimension per dimension: from emotion to “nothing”
5 resynthesis conditions for Praat vs. LF-ARX
• full resynthesis (control condition)• F0 only• intensity only• F0 and intensity• voice quality and duration
emotion
neutral
resynthesis (Praat)projectio
n
[Audibert, Aubergé, Rilliard, 05] [Audibert, Vincent, et al, 06]
Ecole TCAN, 2006
• 40 juges (langue mat. fr., âge moy. = 23,3 ans)
• 3 présentations de chaque stimulus, ordre aléatoire• Choix fermé parmi les 9 étiquettes (dont « neutre»)• Intensité émotionnelle perçue sur une échelle de 1 à 10
EvaluationEvaluation perceptiveperceptive
Ecole TCAN, 2006
Condition de contrôle : « resynthèse complète »Condition de contrôle : « resynthèse complète »
joiesatisfaction
anxiétéinquiétude
tristesse – décép.résignation
dégoût neutre
Identification (%)
Attr
activ
enes
s (%
)
8080 6060 2020
20
10
30
000
4040
47.9%
20.0%
Att
ract
ivit
é (%
)
Ecole TCAN, 2006
Condition « F0 seule »Condition « F0 seule »
Identification (%)
Attr
activ
enes
s (%
)
8080 6060 2020
20
10
30
000
63.3%
4040
43.8%
37.8%
23.3%
Att
ract
ivit
é (%
)
joiesatisfaction
anxiétéinquiétude
tristesse – décép.résignation
dégoût neutre
Ecole TCAN, 2006
Condition « F0 & intensité »Condition « F0 & intensité »
Identification (%)
Attr
activ
enes
s (%
)
8080 6060 2020
20
10
30
000
4040
51.7%36.7%
24.2%
23.3% 22.2%
36.9%
Att
ract
ivit
é (%
)
joiesatisfaction
anxiétéinquiétude
tristesse – décép.résignation
dégoût neutre
Ecole TCAN, 2006
Condition Condition « Intensité « Intensité
seule »seule »
Identification (%)
Attr
activ
enes
s (%
)
8080 6060 2020
20
10
30
000
4040
40
52.9%
34.2%
53.1%
49.2%
42.5%
26.3%
37.5% Att
ract
ivit
é (%
)
joiesatisfaction
anxiétéinquiétude
tristesse – décép.résignation
dégoût neutre
Ecole TCAN, 2006
Condition « Qualité de voix & durée » Condition « Qualité de voix & durée »
Identification (%)
Attr
activ
enes
s (%
)
8080 6060 2020
20
10
30
000
4040
22.9%
22.9%
64.2%
28.6%
35.8%
Att
ract
ivit
é (%
)
joiesatisfaction
anxiétéinquiétude
tristesse – décép.résignation
dégoût neutre
Ecole TCAN, 2006
émotions
négatives
émotions
positives
joie satisfactio
n
tristesse dégoût
déception anxiété
inquiétude résignatio
n
contours F0> Qualité de Voix &
durée
Qualité de Voix & durée> F0
aucune dimension ne porte seule toute aucune dimension ne porte seule toute l’information affectivel’information affective
Intensité renforce
l’identification par F0 et QV
Ecole TCAN, 2006
glottis controlspeaker
affective labels/« functions »fear, anger, joy…politeness…intimacy … degree of care[ Laver] [Campbell]
affective speech
phonation categoriesbreathy, creaky, lax…[ Laver] [Ni Chasaide&Gobl]
perception/cognitionlistener
acoustic processing:inversion problem
acousticprosody modeling
[Scherer, Cowie, Laukka…]
articulatory models[Liliencrant Fant]
QualitéQualité de voixde voix
QuickTime™ et undécompresseur Cinepak
sont requis pour visionner cette image.
http://www.hopkinsmedicine.org/voice/rehab.html
Ecole TCAN, 2006
La glotte
Ecole TCAN, 2006
Les cordes vocales
Ecole TCAN, 2006
A calculation of A calculation of breathyness? breathyness?
[Alku et al., 2002]
pressed (0.08-0.11), modal (0.11-0.17) and breathy (0.23-0.35)
Algorithm
NAQ is phoneme-dependent
NAQ is in the inversion paradigm for nasal
pres
sedm
odal
brea
thy
NAQ for breathy voice
[Rossato, Audibert, Aubergé, 2004]
[Mokthari & Campbell., 2004]
breathy
pressed i
Ecole TCAN, 2006
Global voice quality codingGlobal voice quality coding
Integration of LF-ARX [Vincent, Rosec & Chonavel, 05]
Evaluation on the natural (Praat) references same performances [Audibert, Vincent, et al, 06]
[Fant et al, 85] [Ding et al, 95]
Ecole TCAN, 2006
« e » (8mn59) : toujours en bas, lève sourcils fait « mmmmm »aspiré à 9mn03 pince lèvres sur gauche puis se redresse pince vite lèvres sur droite puis se baisse un peu en disant « brique » à 9mn11 lève sourcils front toujours plissé icône IGG22 rapide front plissé sourcils froncés nez très remonté bouche ouverte on voit ses dents lèvre inférieure tendue puis tête sur la droite se redresse avec sa mimique IG-3 sourcils levés front plissé menton plissé, coins de la bouche relevé fait « mm » à 9mn16 en accentuant sa mimique (sourcils froncés), rentre menton, puis rentre ses lèvres mimique disparaît mais toujours front plissé, bouche pincée
IGG22
IG-3QuickTime™ et un
décompresseur Cinepaksont requis pour visionner cette image.
Feeling of ThinkingFeeling of Thinking : annotation ? : annotation ?cerveau d’humain avant interprétation => iccerveau d’humain avant interprétation => icônesônes
Ecole TCAN, 2006
concentré - négatif
statique / dynamique /rythmique (schéma)statique / dynamique /rythmique (schéma)exp faciale exp dyna ou stratégie organisation de gestes[Ekman] [Frijda] [Pelachaud] [Graff et al]
video 1« grande concentration, le but étant de comprendre
ce qui est prononcé »
video 2« la difficulté s’accroît donc le
stress aussi »
QuickTime™ et undécompresseur Video
sont requis pour visionner cette image.
Sabrina_+intense.wmv Sabrina_furtif.wmv
concentré - négatif
Ecole TCAN, 2006
Situations négatives Les regards hors de l’écran : « perplexité », « doute », « stress », « ennui », « approximation »,« perplexité », « incompréhension », « agacement » plus fréquent avec augmentation du stress Les rires : plus souvent en situation négative qu’en situation positive ; « fatigué et amusé », « irrité, anxieux », « stressé, je ne comprends pas » « surpris, nerveux » « doute, très agacé, ri de ma mauvaise performance », « rire = tentative de décontraction », « déception mais m’en amuse », « au pif, une envie de rigoler ». La protrusion des lèvres : « j’ai l’air déçue », « concentré », « agacé », « concentration, ennui ». Jamais pendant les tours de parole. Les bruits de bouche : plus fréquents et plus irréguliers dans la phase de déstabilisation Très peu pendant les tours de parole. Situations positives Peu d’indices spécifiques, sauf Les sourires : plus fréquents dans les deux premières phases, « calme », « assez calme », « concentrée » « fier, content », « étonné et doute », « très fier, content, étonné ». Spécifique au sujet « penche la tête de coté » très majoritairement sur sa droite avant de répondre sauf dans la partie de déstabilisation où fréquent et irrégulier
Ecole TCAN, 2006
Durˇ e totale des corpus par sujet
0
500
1000
1500
2000
2500
3000
3500
4000
4500
jean
-fra
n¨oi
s
nadi
a
clar
ina
luc
cand
ice
mar
ie
robi
n
sabr
ina
anne
-laur
e
mar
ie2
tiph
oura
nia
nico
las
laur
ent
aude
patr
icia
yann
sujets
seco
nd
es
sujets
moyenne
Ecole TCAN, 2006
- parole Tanziger et Scherer- GERC Genève; Schröder et al-DFKI, Saarbrucken ; Ni
Chasaide et al- Dublin Un; Audibert et Vincent et al, ICP & FT R&D, France…
- face Ekman et al- UCSF USA; Massaro et al-UCSC, USA
- gestesPelachaud et al, LINC Paris (ACA Greta)
Méthode par Méthode par annotation/analyse/resynthèseannotation/analyse/resynthèse
Ecole TCAN, 2006
Summary of questionsSummary of questions• cross languages of attitudes & prosody teaching: false friend paradigm
• cross languages of emotions (E-Wiz in Hungarian)
• a multi-agents architecture for the communication system
• linguistic strategies of expressiveness
• affective and linguistic prosody in an integrated morphology processing
• but two cognitive time domains ? (emotion events time vs. linguistic time)
=> coherence with biosignals & prosodic morphology timing => planed: brain timing measurement
• authentic vs. acted: extended to timing question => perception and production specificities => planed: brain processing evidences
• multi-modality is « coordination » of face & voice information/action-perception gestures => perception & expression timing
• « FoT » in and out talk turn => ethograms, intra-speaker rhythm => embodied conversational agent
• dialog is all affective states & mental states, with ou without speech (cf. grunts interactions)•••