La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Communication expressive : agents rationnels, agents conversationnels,

Présentations similaires


Présentation au sujet: "Communication expressive : agents rationnels, agents conversationnels,"— Transcription de la présentation:

1 Communication expressive : agents rationnels, agents conversationnels,
rôle des émotions Véronique Aubergé

2 Agent Communicant Animé
Synthèse vocale : une voix = un corps = une personne => but inter-agir - avant la synthèse par corpus : intelligibilité + « naturel » aujourd’hui : « pertinence » => personnalité C affects, attention, motivation Super-ordi Hal / Carl , 2001 L’Odyssée de l’espace version ori traduction Super-ordi revisité Un ticket pour l’espace personnalité attendue en contexte pas un problème lié à la virtualité… Serveur vocal standard Uni Stendhal - voix naturelle…

3 Languages “intuitions” about affects:
English from Whissell and Plutchik Accepting, Adventurous, Affectionate Afraid, Aggressive, Agreeable, Amazed, Ambivalent, Amused, Angry, Annoyed, Antagonistic, Anticipatory, Anxious, Apathetic, Apprehensive, Ashamed, Astonished, Attentive, Awed, Bashful, Bewildered, Bitter, Boastful, Bored, Calm, Cautious, CheerfuI, Confused, Contemptuous, Content, Contrary, Co-operative, Critical, Curious, Daring, Defiant, Delighted, Demanding, Depressed, Despairing, Disagreeable, Disappointed, Discouraged, Disgusted, Disinterested, Disobedient, Displeased, Dissatisfied, Distrustful, Eager, Ecstatic, Elated, Embarrassed, Empty, Enthusiastic, Envious, Exasperated, Expectant, Forlorn, Furious, Generous, Gleeful, Gloomy, Greedy, Grief-stricken, Grouchy, Guilty, Happy, Helpless, Hesitant, Hopeful, Hopeless, Hostile, Humiliated, Impatient, Impulsive, Indecisive, Indignant, In love, Inquisitive, Interested, Intolerant, Irritated, Jealous, Joyful, LoathfuI, Lonely, Meek, Nervous, Obedient, Obliging, Outraged, Panicky, Patient, Pensive, Perplexed, Planful, Pleased, Possessive, Proud, Puzzled, Quarrelsome, Ready, Receptive, Reckless, Rebellious, Rejected, Remorseful, Resentful, Revolted, Sad, Sarcastic, Satisfied, Scared, Scornful, Self-conscious, Self-controlled, Serene, Shy, Sociable, Sorrowful, Stressed, Stubborn, Submissive, Surprised, Suspicious, Sympathetic, Terrified, Timid, Tolerant, Trusting, Unaffectionate, Uncertain, Uncooperative, Unfriendly, Unhappy, Unreceptive, Unsympathetic, Vascillating, Vengeful, Watchful, Wondering, Worried…

4 Affects : empirisme naïf de notre langue/culture/société
humeurs (stress) émotions (joie, dégoût) attitudes, traits comportementaux, intentions états mentaux/cognitifs sentiments (hostile, vengeur, sympathique) (bonheur) (amoureux)

5 Conscience langagière, philosophie => science : psychologie
plusieurs grandes approches La perspective néo-darwinienne (Darwin, Ekman…) La perspective physiologique (James/Lange,Cannon/Bard) La perspective cognitive (Damasio, Frijda, Scherer…) le constructivisme social (Averill) cerveau + (?) corps « appraisal /évaluation ; self-conscious/conscience de « soi » => les autres ? (empathie, théorie de l’esprit => BDI) (3) expressions => catégories vs./+ continuum (4) « Affective Science » & émotions Lorsqu’on aborde le domaine des émotions et les nombreuses théories qui s’y rapportent, le premier constat évident est la difficulté qu’il peut y avoir pour objectiver ce phénomène bien particulier. Ainsi, avant le 19ème siècle, les études qui se penchaient sur les émotions étaient essentiellement celles des philosophes. Il s’agissait alors d’introspection sur leur propre état d’âmes et le débat s’articulait presque toujours autour de la notion de passion, qui était considérée comme une maladie de l’esprit, comme une pathologie. Par ailleurs, les dénominations des émotions dans les langues posent directement le problème de leur perception. Ainsi, de la même façon que les esquimaux perçoivent et nomment plusieurs teintes de blancs alors que nous nous en sommes incapables, le nombre d’adjectifs se rapportant aux émotions varient aussi beaucoup dans les langues. Ainsi, il y a deux hypothèses à cette relation entre la perception est le système linguistique: soit, le système linguistique se base sur le sur le système perceptif, ce qui signifie que nous avons effectivement une perception catégorielle des émotions, soit au contraire, nous percevons un continuum mais nous exprimons des catégorie à travers la langue. Nous ne répondrons pas à cette question ici, mais elle illustre parfaitement la difficulté d’objectivation des émotions. Pour mener à bien ce projet, il nous a d’abord fallu bien comprendre les émotions. Ceci, A travers l’étude des différentes approches théoriques qui s’attachent à décrire et à fournir des explications quant à ce phénomène. Ses composantes, ses fonctions, son mécanisme constituent pour nous des informations essentielles : par exemple, quelles sont les parts de contrôle et de volonté qui régissent les émotions et quelle en est la signification ? Actuellement, en ce qui concerne leur étude, quatre principaux courants théoriques se distinguent, leur différence est due à l’angle d’approche choisi : La perspective néo-darwinnienne ou adaptative La perspective physiologique et enfin la perspective cognitive.

6 Evolutive theory: Basic/Discrete/Universal Emotions
Paul Ekman and Carroll Izard Insist that there are a limited number of basic emotions Basic emotions Emotions that are found in all cultures, that are reflected in the same facial expressions across cultures, and that emerge in children according to their biological timetable Various forms of its expression Static forms No proposal on speech expression coherence SURPRISE JOY SADNESS ANGER FEAR DISGUST 2 2

7 Charles Snodon, Expression of Emotion in Nonhuman Animals,
Hanbook of Affective Science, 2003

8 Ekman : une école en faciale :
psychologie + talking heads/robotique Beaucoup de travaux en facial, peu de modèles alternatifs par ex D Massaro : “l’analyse objective > humain” ou modèles statistiques (Bateson + …)

9 Emotion in body Body/Physical neural images : body in the brain
blood pressure heart rate adrenaline levels muscle activity when smiling, frowning, etc. posture tears perspiration lie detector readings (??) neural images : body in the brain

10 Physiology => cognition

11 Cognitive theories: continuous dimensions
Plutchik 3-D Circumplex Model arousal; hedonism; potency Russel 2-D arousal; potency Arousal + JOIE Valence + Valence - TRISTESSE Arousal -

12 oral language speech voice affects expression channels in acoustics
face gestuality acoustic speech [Fonagy; Scherer, Banziger; Cowie; Cahn; Batliner; Campbell; Ni Chasaide, Gobl; Ron Amir; Schröder; Laukka…] affects expression channels in acoustics oral language speech voice

13 in voice « during speech »
Affective functions of speech communication embodied functionalism model « perception-action theory but directed by functions » [Aubergé ] emotional functions in voice « during speech » involuntary control emotion events time

14 Contrôle involontaire : inné => universels
Contrôle involontaire : inné => universels ?? inhibition : profil psychologique reconstruction sociale

15 Contrôle involontaire = inné
=> universels ?? émotions ou expressions ? inhibition => variations inter-culturelles Klaus Scherer, Tom Johnstone, Gundrun Klasmeyer Vocal Expression of emotion, Handbook of Affective Sciences, 2003

16 amused vs. neutral Aubergé et Cathiard (04), Schroder & Aubergé (98)
mechanical smile vs. neutral Tartter et al (93) ? the more amused ? face smile is audible audio alone stimulus A stimulus B 64% of discrimination amused vs. neutral Aubergé et Cathiard (04), Schroder & Aubergé (98) ? the more amused ? amusement is audible audio alone stimulus A stimulus B 84% of discrimination amused vs. mechanical smile Les paires de phrases amusé vs. neutre ont été présentées dans les trois conditions audio seul, vidéo seule, et AV. En audio seul, 84% des paires sont discriminées correctement. L’amusement est donc audible. On peut remarquer aussi que ce taux est plus élevé que les 63% de Tartter, ce qui suggère déjà l’existence d’indices supplémentaires pour l’amusement par rapport au sourire mécanique. En condition de présentation vidéo seule, 95% des paires sont discriminées correctement. ? the more amused ? prosodic effects stimulus A stimulus B 69% of discrimination

17 => prosody Not specific or specific control of emotion expression?
[Aubergé et Cathiard,, 2003] Acoustic speech AV integration of the same sensori motor/cognitive control Visible speech Visible expression AV integration of same and different sensori-motor/cognitive controls Audible expression (1) audible facial gestures (2) audible physiological changing + (3) audible emotions values specific to speech emotional prosody = => prosody

18 multi-modality / multi-processing? Face motor control
activation level emotion brain representations inhibition Face motor control same nature/intensity Body motor control intensity level Voice motor control emotion brain representations inhibition Face motor control same nature / different intensity Body motor control emotion brain representations inhibition Voice motor control Face motor control C control of strategies different natures&intensity Body motor control C C Voice motor control

19 external emotion events
Emotional States changing internal emotion events decision taking [Frijda, Damasio] somatic system commands on expressions prosody Intonation voice Rhythm face body gestuality The processing of moods/emotions indices in C-Clone

20 in voice « during speech »
Affective functions of speech communication => embodied functionalism model direct expressions emotional functions in voice « during speech » attitudinal functions involuntary control voluntary control « building speech » the speaker intentions simulation emotion events time linguistic time

21 Les expressions dans la parole
Scherer et al ( ) : Les effets pull et push Les émotions entre - expression prosodique (modèles de configuration), qualité de voix (modèle de covariation) conséquences physiologiques Contrôle volontaire Contrôle involontaire Facteur  push  Facteur pull  Modèle de Modèle de co-variation Configuration Messages mixtes Co-variation des changements Patterns acoustiques et physiologiques et des Antagonisme configurations valorisés caractéristiques acoustiques socialement Qualité de voix Expression prosodique Scherer est l’un des premier chercheurs à s’être intéressés aux corrélats acoustique des émotions, dans une perspective cognitive.

22 Attitudes = social affects => attitudes with prosody
Plusieurs études ont été menées sur les attitudes à l’ICP. D’abord sur le français, les travaux de Yann Morlec et de Touliki Grépillat, ont recensé et analyser très précisément la réalisation de 6 attitudes choisies sur la base de critères d’apprentissage définies en FLE. Ensuite Marie-Laure Diaferia a construit et étudié un corpus portant sur 11 attitudes de l’anglais, en se basant également beaucoup sur la littérature de l’enseignement. Dans deux langues proches que l’histoire et la culture ont de plus beaucoup mis en contact, on observe des valeurs et des expressions partagées sur lesquelles l’enseignement rencontre peu de difficultés, par exemple …. Malgré tout on rencontre des lieux d’ambiguité ou d’incompréhension, comme cet exemple du mépris en anglais mal perçu par les français natifs pourtant souvent exposés à l’anglais. Le travail que je vous propose ici porte sur les attitudes du japonais, éloigné du français et de l’anglais dans ses racines peu ou pas présente dans le milieu socio-culturel des français que nous avons observé. Surprise Doubt Evidence Admiration Seduction Irritation Scorn Authority Politeness Grépillat (1996) Morlec (1997) Aubergé (2005) French (6 attitudes Lien avec Austin, Searle, Vandervecken…? les fonctions “corporéisées” comme fils conducteurs des buts de l’interaction verbale/non verbale English (11 attitudes) Diaferia (2002) Arrogance-Impoliteness Simple Politeness Sincerity-Serious Kyoshuku Swedish Hungarian cultural distance Baba’1 Japanese (12 attitudes) Shochi (2004) Mandarin Gestalts & superposition processing

23 the speaker intentions in voice « during speech »
Affective functions of speech communication => embodied functionalism model expressiveness strategy indirect expressions direct expressions attitudinal functions « building speech » the speaker intentions voluntary control linguistic time involuntary control emotional functions in voice « during speech » emotion events time linguistic functions « building language » focus (VID model) hierarchization/ segmentation modalization

24 Le langage est construit pour “dire les affects” (ne pas avoir d’attitude est une attitude) => dans les situations “vernaculaires”, en IHM..? : peu d’émotions (donc très informatives) beaucoup d’affects volontaires (5 ans de parole d’une japonaise [Campbell, 04])

25 Fonction de segmentation/hiérarchisation
prosodie & syntaxe => degré de liberté mamamamamamama Ce petit passant chantait. Ce passant tout fou chantait. Son pas doux retentissait.

26 Contrôle du degré de liberté
Association Homogeneous (Same locations; same levels) Fonction affective = stratégie du choix de segmentation par l’agent prosodie de répartition entre prosodie et syntaxe Chance Same locations; different levels Different locations; same levels Different locations; different levels Dissociation [Thèse A. Rilliard]

27 “le chat retombe sur ses pattes”
= focus… Roger fait du chocolat chaud Les gamins jouent les mécanos Cytopathogénicité

28 Lo tendait ce pain à Jean.
Focus Function: the VID model (1) Valence [Aubergé, Rilliard, 04] perception: static cue ( Gestalt) <> linguistic category Lo tendait ce pain à Jean. communicative function: binary (no/yes focus) valence la prosodie pointe. ECOUTER SON Mais quelques soient les fonctions de la prosodie qu’on peut étudier en les isolant, c’est ce que nous avons fait, en les modélisant acoustiquement par analyse guidée de corpus statistiquement représentatif et en évaluation par la synthèse vocale, ces fonctions n’appartiennent pas à la prosodie, mais à un degré de granularité global qui est celui du système communicatif yes focus no focus information magnet effect

29 for apple or for pear tomorrow?
(2) Intensity psycho-acoustic gradience <> pragmatic function Lo tend ce tapis à Jean. communicative function = preference/speaker intention la prosodie pointe. ECOUTER SON Mais quelques soient les fonctions de la prosodie qu’on peut étudier en les isolant, c’est ce que nous avons fait, en les modélisant acoustiquement par analyse guidée de corpus statistiquement représentatif et en évaluation par la synthèse vocale, ces fonctions n’appartiennent pas à la prosodie, mais à un degré de granularité global qui est celui du système communicatif intensity intensity Do you want an for apple or for pear tomorrow? yes focus information typical dialog function

30 Lo tendait ce pain à Jean. Lo tendait ce pain à Jean.
(3) Domain [ Brichet, Aubergé, 02] [Aubergé, Rilliard 06] perception: dynamic cue <> linguistic timing Lo tendait ce pain à Jean. Lo tendait ce pain à Jean. word vs syllable  communicative function: new/contrast vs. metalinguistic tendait threshold: glissando?? la prosodie pointe. ECOUTER SON Mais quelques soient les fonctions de la prosodie qu’on peut étudier en les isolant, c’est ce que nous avons fait, en les modélisant acoustiquement par analyse guidée de corpus statistiquement représentatif et en évaluation par la synthèse vocale, ces fonctions n’appartiennent pas à la prosodie, mais à un degré de granularité global qui est celui du système communicatif domain word focus syllable focus information quite magnet effect

31 Stratégies linguistiques => pas de « para-phrases »

32 external emotion events
C-Clone: a MAS for embodied functionalism of speech communication external emotion events Emotional States changing internal emotion events pragmatics strategies inter-functions Intra-functions decision taking [Frijda, Damasio] somatic system meaning commands on expressions morphology prosody Intonation voice Rhythm sound system Voici enfin l’architecture théorique d’un clone expressif communicant intégrant tous les niveaux de contrôles fonctionnels et les contraintes morphologiques de la prosodie, en coopération avec les agents cognitifs linguistiques et les agents de contrôle émotionnel. syntax lexicon face body gestuality

33 theoritical principles
Experimental methodology: building corpus acoustic analysis theoritical principles simulation corpus evaluation perceptive analysis

34 spontaneous/authentical
How to collect expressive corpus? direct expressions: emotions and attitudes indirect expressiveness language generation « added » feelings spontaneous/authentical acted in vivo _ experimental control live  live  + experimental control Induction Elicitation Acted Induction Elicitation Acted in vitro

35 AV authentic amusement
Control & authenticity - acted vs. real corpus - Does the actor simulate the emotion or its expression? Does a good actor still simulate? [Damasio, 95] voluntary smile: motor cortex lesion spontaneous smile: anterior cingular cortex AV authentic amusement vs. AV acted amusement Inside body loop Comme on l'a vu les mécanismes de perception des émotions se déroulent normalement en boucle au sein du corps, ce qui correspond au schéma du haut; mais Damasio avance que nous possédons des mécanismes neuraux qui parviennent à simuler dans le cerveau la perception d'un état corporel qui est en fait inexistant, dans ce cas la boucle de perception s ’effectue uniquement au niveau du cerveau, comme on peut le voir sur le schéma du bas. Les mécanismes de simulation seraient acquis par l'association répétée de certaines situations et des états corporels qui sont survenus lors de ces situations. Ce stockage de l ’état somatique est nécessaire pour pouvoir percevoir les émotions secondaires par la suite, et c’est parce qu’il y a le stockage d ’un état corporel simplifié, que la prise de décision est accélérée avec les émotions secondaires. 59% of identification  listeners effect simulation loop [Schröder, Aubergé, Cathiard, 98] [Aubergé et Cathiard, 03]

36 les émotions ressenties ? exprimées ?
Sémantique : Comment annoter les émotions ressenties ? exprimées ? par un humain

37 qui annote ? avec quelles étiquettes ? sur quels signaux ? avec quelles connaissances du contexte ?

38 The corpus statistical verification of the coherence between experts
Labeling by experts statistical verification of the coherence between experts

39 « Expert » ou humain en situation écologique exogroupe
=> limites de l’empathie ??? Pour Frijda, un critère fondamental de l’évaluation (appraisal) est la compatibilité de l’événement émotionnel avec des normes ou des valeurs sociales ou personnelles PhD P. Garcia-Prieto, post-doc GERG“ Nous avançons des hypothèses, basées sur la théorie de l’évaluation (appraisal) et de la différentiation de l’émotion de Scherer (1984) et sur celle de l’identité sociale de Tajfel et Turner (1986), qui expliquent de quelle manière l’identité sociale peut influencer certaines des dimensions d’évaluation, cognitivement plus complexes, supposées être impliquées dans le processus émotionnel, et qui ont été identifiées comme étant particulièrement sensibles aux facteurs contextuels sociaux.” Effets stroops lexicaux : biais attentionnels/mémoriels sur reconnaissance de mots émotionnels, selon certains états (anxiété etc) et autres (faim…) J. Junca des Morais : « Comme la communication verbale orale est plus ancienne, des biais attentionnels pourraient être observés avec ce type de matériel [verbal], lorsque celui-ci a une valence émotionnelle négative » variabilité, fenêtre, des transcriptions. Modèle d’annotation. (cf. annotation phonétique de corpus) mesure de cohérence sur les experts [LIMSI, Abrilian, Devillers, Martin]

40 Annotations par experts :
la méthodologie la plus répandue Noe Humaine : Cowie et al, Belfast Univ, GB Martin, Devillers et al Limsi, F Heylen et al, Twente Univ, NL Crest Expressive Speech Processing : - Campbell, ATR Japan

41 autobiographical memory
The corpus Auto-annotations by the subject himself Labeling by experts self consciousness autobiographical memory complex combinations more than affects statistical verification of the coherence between experts

42 Conscience et mémoire de l’émotion
=> limites de granularité ??? => limites de appraisal vs. mémoire ??? W.G. Huitt, à propos de Lazarus «  The theory that an emotion-provoking stimulus triggers a cognitive appraisal, which is followed by the emotion and the physiological arousal »  Lazarus : conscience du ressenti émotionnel (grâce à l’apparasial), rapport à la verbalisation, mémoire d’un épisode émotionnel Scherer : mémoire de l’expérience émotionnelle Ekman 99 (automatic appraisal + extended appraisal) « …then the person is quite aware of what Lazarus [66..91] calls the “meaning analysis” which occurs. » Lewis (2005) « les événements émotionnels font partie de la chaîne causale qui contribue à l’évolution et à la consolidation du pattern d’appraisal. A partir de là, ce qui évolue n’est pas juste un appraisal mais un amalgame appraisal-émotion ou « interprétation émotionnelle », conscience de ressentir ». => auto-annotation

43 autobiographical memory
The corpus Auto-annotations by the subject himself Labeling by experts self consciousness autobiographical memory complex combinations more than affects statistical verification of the coherence between experts Perception tests by naive listeners

44 theoritical principles
Methodology for E-Wiz corpora (Crest ESP) [Audibert, Aubergé, Rilliard, ] perceptive analysis acoustic analysis theoritical principles Speaker control of the speaker motivation psychological profile scenario of the wizard authentic corpus simulation evaluation acted corpus + big six annotations

45 E-Wiz platform wizards of Oz language learning pretext task:
speech interactions = monowords [brik, vEr, rU3,jOn, sabl] « page suivante » free comments E-Wiz platform (GPL free available) language learning pretext task: « easy learning of the prounounciation of sounds of world » directly motivated «caught» subjects wizards of Oz

46 Spontané + acteur • • • • 4 steps - concentration 3 types of behaviors
- positive feed-back - negative feed-back - warning feed-back Spontané + acteur 3 types of behaviors [Audibert, 03 ; Noiray, 03]

47 communication = flux permanent ponctué par les tours de parole
17 sujets (dont 7 acteurs) 6 heures parole => 3400 mono-syllabic + commentaires 10 heures de non parole => informations face, corps, voix, ou autre bruit… communication = flux permanent ponctué par les tours de parole => pas d’ACA autiste !!

48 Subject M2

49 Comment “objectiviser” l’auto-annotation
- terminologies directes :”calme”, “tranquille”, “concentration”, “réfléchis à”, “sûre de moi”, “confiant”, “stressée”, “inquiète”, “déconcertée”, “perplexe”, “doute”, “surprise”, “surprise en bien”, “étonnée”, “perdue”, “fatigue”, “exaspéré” - quantifieurs abs/rel : “très”, “un peu”, “grand”, “légère”, “plus que”, “croissante”,… - explicatifs : ennui “(long)”, fatiguée“,parce que long”, surprise“des bons résultats”, amusé “parce que résultats inattendus”, concentraté “mon but étant de comprendre ce que je dois répondre”, “la difficulté augmente, le stress aussi”, “surprise par les résultats car j’avais un gros doute sur ma réponse” - descriptifs : “un peu de mal à me mettre dans la tâche”, “Je sens une senvie de rire qui monte”, “ emprise du logiciel dans le sens ou je suis les consignes du mieux que je peux”, “surprise par les résultats car un doute persistait sur la prononciation. néanmoins les résultats donnent une certaine satisfaction personnelle”

50

51 Les théories prosodiques les plus répandues proposent une morphologie différentez entre la prosodie des émotions et la prosodie linguistique. Scherer caractérise quantitativement les émotions par des valeurs globales qui varizent en fonction des dimensions émotionnelles : plus ou moins actif, plus ou moins positif, etc. Dans le domaine de la prosodie linguistique, les modèle par contours intègrent déjà pour certains (fon. Aub.) les fonctions affectives qui prennent part à la construction verbale dans le temps linguistique. …. Notre proposition est d’intégrer la prosodie des événements émotionnels, qui se déroulent pendant que l’on parle et la prosodie des fonctions affectives construites dans la parole en un même modèle de contours gradients.

52

53 afin d’évaluer séparément les paramètres de la prosodie affective, nous avons ensuite procédé à une évaluation par analyse/resynthèse. pour cela nous avons généré 42 stimuli à partir de 10 stimuli actés de référence, en copiant de façon sélective les différents contours d’un stimulus à l’autre. les stimuli ont été générés avec 5 conditions de resynthèse distinctes (exemple=satisfaction). ces stimuli ont fait l’objet d’une éval. perceptive avec 16 sujets, dont 11 ont été retenus sur des critères statistiques. les réponses devaient être données en choix fermé. certaines catégories ont été regroupées en fonctions des confusions faites par les sujets.

54 Sound Teacher script: main steps
begin middle end

55 Video + audio recording (DV Cam) Physiological recording
The experimental protocol acoustic, articulatory, visual + bio-signals Wizard Client computer EGG computer Network Quiet room Client computer Screen copy Synchronization beep Screen Synchronization beep Microphone Loud speaker Audio recording (DAT) Speaker + Client computer + Synchronization beep Speaker Video + audio recording (DV Cam) Speaker DV Cam Mixing table Physiological recording (BioGraph) Client computer Physio. sensors : RED, temp., resp., heart rate, EMG Synchronization beep Synchronized signals

56 parole (éditeur = Praat)
données physio EGG articulatoire corps face voix parole (éditeur = Praat) (mot monosyl) (mot monosyl) (mot monosyl) (mot monosyl) (commentaires) (commentaires) (commentaires) langage (éditeur = transcriber) sujet 1 À terme : 1 seul éditeur pour événements physio/ événements voix +icônes gestuelles/ événements parole /événements langage Kevin Fanny + Anne Nico Luca En intra-sujet : Lier les champs à travers l’historique du script, pas au “fil à plomb” (cad pas de corrélation aveugle) => en inter-sujets : lier le meme champ sur tous les sujets Petit lexique “maison” - non verbal = voix, face/geste qui ne véhicule pas une fonction de communication langagière (par exemple segmenter avec la main est verbal, un grunt vocal est non verbal, une interjection (pre-lexique) est à mi-chemin) Temporellement : deux canaux de communication pour un sujet : (1) il prend la parole - avec verbal ou non verbal), (2) il écoute le tour de parole/ou il prépare le sien (que du non verbal MM) - - - + annotations … sujet n - - - + annotations étape 1 étape 2 étape 3

57 Morphologie : Comment annoter les expressions de la face du corps de la voix de la parole du langage => éthogramme…

58 little irritated, little anxious
Expressions of emotions/moods/mental states [Rilliard et al, 04] Example of subject Y: authentic stimuli => 12 auto-annotated “labels sets”: confidence, positive concentration, joy/surprise, joy, amusement, negative concentration, disappointment /surprise, anxiety, anxiety/fear, weariness, irritation, resignation, “nothing” but => 6 direct remembered “labels” for Y acting + 3 added: satisfaction, resignation, worried, anxiety, disappointment, nothing added (joy, sadness, disgust) Voilà le type de stimuli qu’on obtient ici pour de la parole réduite à une structure langagière et dialogique minimale. Dans ces mono-syllabes on montre que l’information émotionnelle est en mêle quantité perceptive que sur des énoncés longs de même valeur. ECOUTE “nothing” concentration ++ confident, little amused little irritated, little anxious

59 Perceptive validation
[Rilliard, Audibert, Aubergé, 2004] only A AV significative correlation whatever the length

60 Quelle morphologie pour ces affects-là : les émotions - contrôle involontaire ? => relation avec la morphologie de la prosodie pour toutes les fonctions à contrôle volontaire (dont les attitudes) ?

61 prosodie = gradience Klaus Scherer, Tom Johnstone, Gundrun Klasmeyer,
2003 H of Af Sc

62 émotion = dimension “réservée” En reco automatique
Klaus Scherer, Tom Johnstone, Gundrun Klasmeyer, 2003 H of Af Sc En reco automatique toujours une combinaison de multiples paramètres partiellement redondants => A. Batliner

63 functions driven superposition
emotional prosody gradience vs. linguistic prosody global contours specific morphology? functions driven superposition of gradient contours [Scherer & Ladd, 84] [Delattre, 70, Fonagy 76, Aubergé 91] specific dimensions? voice quality intensity, duration fundamental frequency depending on which emotion [Mozziconnacci; Scherer; Laukka; Ni Chasaide] Les théories prosodiques les plus répandues proposent une morphologie différentez entre la prosodie des émotions et la prosodie linguistique. Scherer caractérise quantitativement les émotions par des valeurs globales qui varizent en fonction des dimensions émotionnelles : plus ou moins actif, plus ou moins positif, etc. Dans le domaine de la prosodie linguistique, les modèle par contours intègrent déjà pour certains (fon. Aub.) les fonctions affectives qui prennent part à la construction verbale dans le temps linguistique. …. Notre proposition est d’intégrer la prosodie des événements émotionnels, qui se déroulent pendant que l’on parle et la prosodie des fonctions affectives construites dans la parole en un même modèle de contours gradients.

64 Patterns evidence for one dimension
shared with linguistic prosody: F0 parameter disappointment

65 Dimensional projection
Dimension per dimension: from emotion to “nothing” 5 resynthesis conditions for Praat vs. LF-ARX full resynthesis (control condition) F0 only intensity only F0 and intensity voice quality and duration emotion resynthesis (Praat) projection neutral [Audibert, Aubergé, Rilliard, 05] [Audibert, Vincent, et al, 06] afin d’évaluer séparément les paramètres de la prosodie affective, nous avons ensuite procédé à une évaluation par analyse/resynthèse. pour cela nous avons généré 42 stimuli à partir de 10 stimuli actés de référence, en copiant de façon sélective les différents contours d’un stimulus à l’autre. les stimuli ont été générés avec 5 conditions de resynthèse distinctes (exemple=satisfaction). ces stimuli ont fait l’objet d’une éval. perceptive avec 16 sujets, dont 11 ont été retenus sur des critères statistiques. les réponses devaient être données en choix fermé. certaines catégories ont été regroupées en fonctions des confusions faites par les sujets.

66 Evaluation perceptive
40 juges (langue mat. fr., âge moy. = 23,3 ans) 3 présentations de chaque stimulus, ordre aléatoire Choix fermé parmi les 9 étiquettes (dont « neutre») Intensité émotionnelle perçue sur une échelle de 1 à 10

67 Condition de contrôle : « resynthèse complète »
Attractivité (%) joie satisfaction anxiété inquiétude tristesse – décép. résignation dégoût neutre

68 tristesse – décép. résignation
Condition « F0 seule » Attractivité (%) joie satisfaction anxiété inquiétude tristesse – décép. résignation dégoût neutre

69 Condition « F0 & intensité »
Attractivité (%) joie satisfaction anxiété inquiétude tristesse – décép. résignation dégoût neutre

70 Condition « Intensité seule »
Attractivité (%) joie satisfaction anxiété inquiétude tristesse – décép. résignation dégoût neutre

71 Condition « Qualité de voix & durée »
Attractivité (%) joie satisfaction anxiété inquiétude tristesse – décép. résignation dégoût neutre

72 aucune dimension ne porte seule toute l’information affective
Qualité de Voix & durée > F0 contours F0 > Qualité de Voix & durée tristesse dégoût déception anxiété inquiétude résignation joie satisfaction émotions négatives émotions positives Intensité renforce l’identification par F0 et QV

73 Qualité de voix affective labels/« functions » fear, anger, joy…
politeness… intimacy … degree of care [ Laver] [Campbell] de voix acoustic prosody modeling [Scherer, Cowie, Laukka…] affective speech glottis control speaker perception/cognition listener acoustic processing: inversion problem phonation categories breathy, creaky, lax… [ Laver] [Ni Chasaide&Gobl] articulatory models [Liliencrant Fant]

74

75 La glotte

76 Les cordes vocales

77 A calculation of breathyness?
[Rossato, Audibert, Aubergé, 2004] pressed i breathy  NAQ for breathy voice breathy [Alku et al., 2002] pressed ( ), modal ( ) and breathy ( ) Algorithm NAQ is phoneme-dependent NAQ is in the inversion paradigm for nasal modal [Mokthari & Campbell., 2004] pressed

78 Global voice quality coding
Integration of LF-ARX [Vincent, Rosec & Chonavel, 05] Evaluation on the natural (Praat) references same performances [Fant et al, 85] [Ding et al, 95] [Audibert, Vincent, et al, 06] afin d’évaluer séparément les paramètres de la prosodie affective, nous avons ensuite procédé à une évaluation par analyse/resynthèse. pour cela nous avons généré 42 stimuli à partir de 10 stimuli actés de référence, en copiant de façon sélective les différents contours d’un stimulus à l’autre. les stimuli ont été générés avec 5 conditions de resynthèse distinctes (exemple=satisfaction). ces stimuli ont fait l’objet d’une éval. perceptive avec 16 sujets, dont 11 ont été retenus sur des critères statistiques. les réponses devaient être données en choix fermé. certaines catégories ont été regroupées en fonctions des confusions faites par les sujets.

79 Feeling of Thinking : annotation ?
cerveau d’humain avant interprétation => icônes IGG22 IG-3 « e » (8mn59) : toujours en bas, lève sourcils fait « mmmmm »aspiré à 9mn03 pince lèvres sur gauche puis se redresse pince vite lèvres sur droite puis se baisse un peu en disant « brique » à 9mn11 lève sourcils front toujours plissé icône IGG22 rapide front plissé sourcils froncés nez très remonté bouche ouverte on voit ses dents lèvre inférieure tendue puis tête sur la droite se redresse avec sa mimique IG-3 sourcils levés front plissé menton plissé, coins de la bouche relevé fait « mm » à 9mn16 en accentuant sa mimique (sourcils froncés), rentre menton, puis rentre ses lèvres mimique disparaît mais toujours front plissé, bouche pincée

80 « la difficulté s’accroît donc le stress aussi »
statique / dynamique /rythmique (schéma) exp faciale exp dyna ou stratégie organisation de gestes [Ekman] [Frijda] [Pelachaud] [Graff et al] Sabrina_furtif.wmv Sabrina_+intense.wmv video 2 « la difficulté s’accroît donc le stress aussi » video 1 « grande concentration, le but étant de comprendre ce qui est prononcé » concentré - négatif concentré - négatif

81

82

83 annotation/analyse/resynthèse
Méthode par annotation/analyse/resynthèse parole Tanziger et Scherer- GERC Genève; Schröder et al-DFKI, Saarbrucken ; Ni Chasaide et al Dublin Un; Audibert et Vincent et al, ICP & FT R&D, France… face Ekman et al- UCSF USA; Massaro et al-UCSC, USA gestes Pelachaud et al, LINC Paris (ACA Greta)

84 Summary of questions •••
• cross languages of attitudes & prosody teaching: false friend paradigm • cross languages of emotions (E-Wiz in Hungarian) • a multi-agents architecture for the communication system • linguistic strategies of expressiveness • affective and linguistic prosody in an integrated morphology processing • but two cognitive time domains ? (emotion events time vs. linguistic time) => coherence with biosignals & prosodic morphology timing => planed: brain timing measurement • authentic vs. acted: extended to timing question => perception and production specificities => planed: brain processing evidences • multi-modality is « coordination » of face & voice information/action-perception gestures => perception & expression timing « FoT » in and out talk turn => ethograms, intra-speaker rhythm => embodied conversational agent • dialog is all affective states & mental states, with ou without speech (cf. grunts interactions) •••


Télécharger ppt "Communication expressive : agents rationnels, agents conversationnels,"

Présentations similaires


Annonces Google