1 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle ? » - la communication située - Véronique Aubergé GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216 Laboratoire dInformatique de Grenoble, GETALP – CNRS UMR 5217 Atelier PIRSTEC LIMSI, juin 09
2 La permanence informationnelle : lauditeur communicant - expressions des Feeling of Thinking et autres émotions… « Quand, où, pourquoi, à qui, qui parle ? » - la communication située - Atelier PIRSTEC LIMSI, juin 09 Véronique Aubergé GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216 Laboratoire dInformatique de Grenoble, GETALP – CNRS UMR 5217
Atelier PIRSTEC - LIMSI - 11 juin Pertinence de lexpression dans sa multi-modalité ( voix, parole, langage, face, gestualité ) instanciation dans le contexte interaction face à face continuité communicative auditeur locuteur situation tâche Communication « expressive » : Quand, où, pourquoi, à qui, qui parle ?
Atelier PIRSTEC - LIMSI - 11 juin Pertinence de lexpression dans sa multi-modalité ( voix, parole, langage, face, gestualité ) instanciation dans le contexte comportement => personnalité intentions/buts - motivation - attention variations des états mentaux - attitudinaux- émotionnels - humeurs => exprimées en continu interaction face à face continuité communicative auditeur locuteur situation tâche sujet Communication « expressive » : Quand, où, pourquoi, à qui, qui parle ? Communication située
Baratinoo par lexemple Thierry MOUDENC Juin 2009 Serveur vocal Université Grenoble Pertinence intrinsèque à la SPC corpus = bon prototype de « quand, où, pourquoi, à qui, qui parle ? »
Atelier PIRSTEC - LIMSI - 11 juin Film "Les lascars" Et plus encore… Assistant vocal : mobile vocalisé pour malvoyants "Hello", le PC à 1 pour les séniors Messages fixes des SVI : 1013 / 1014 / 3900 / 3000 Diane, assistance sur Orange.fr Suivant le temps (yc respirations) Messagerie : SMS2VOICE, 840, 3103 Annuaires : , 3288, AVME SVISpeech Online remplacement des enregistrements studio offre entreprise accessibilité fun Baratinoo
Atelier PIRSTEC - LIMSI - 11 juin Baratinoo : fiche technique Langues supportées en technologie SPC –français, anglais, espagnol, au moins1 voix Homme et 1 voix Femme par langue Logiciel portable –Serveur et station de travail : Windows, Linux, Solaris –Embarqué : Windows Mobile, Symbian, Linux, iPhone OS Scalable –De 400MB (serveur) à moins de 10MB (mobile) Pleinement intégrable –MRCP, SAPI, API native C++, interface HTTP –SSML, PLS Protection logicielle –flexnet de Macrovision, par voix et version ; host ID, date de fin, nb process Maintenance –Corrective –Evolutive : 1 release par an, version actuelle 6.4 Création de voix –Très Haute Qualité ; Célèbres ; Sur mesure ; Fun. –2 mois maximum, engagement coût / délai / qualité
Atelier PIRSTEC - LIMSI - 11 juin théorie / modèle sur « corpus vivants » briques techno - réalisme usage/applications - réalité Collaborations obligatoires R&R, R&D, D&I
Atelier PIRSTEC - LIMSI - 11 juin Actor M1 / male / introvert
Atelier PIRSTEC - LIMSI - 11 juin Correct discrimination AVAV 50%68%71% bored, irritated, %AVAV M154,553,369,9 M27363,677,3 F155,857,172,2 F259,651,360,4
Atelier PIRSTEC - LIMSI - 11 juin Correct discrimination AVAV 50%68%71% spontaneous acted %AVAV M154,553,369,9 M27363,677,3 F155,857,172,2 F259,651,360,4 bored, irritated,
Atelier PIRSTEC - LIMSI - 11 juin empirisme <> expérimentation [Quine, 69] : « nous pouvons améliorer morceau par morceau notre schème conceptuel…mais nous ne pouvons pas nous en détacher et le comparer objectivement avec une réalité non conceptualisée » corpus « prototype (s) » réels « quand, où, pourquoi, à qui, qui parle » pas de paradoxe [Labov] … la communication située ? … éthnométhodologie ; éthologie ; linguistique behavioriste ; relevance theory [Sperber&Wilson] ; linguistique « floue » [Wittgenstein][Rosh] quels indices sur signaux observés/observables ? comment sorganise la multi-modalité ? voix, parole, langage, face, gestualité que doit on en comprendre ? annotation : automatiques / « expertes » / na ï ves états mentaux, intentionnels, socio-affectifs, émotionnels ou attendre ? pr é dire la dynamique du scenario interactif …
Atelier PIRSTEC - LIMSI - 11 juin multi-modality / multi-processing ? formes dynamiques ? indices abrupts ? formes statiques ? motifs (récurrence dévénement) ? Face motor control Body motor control Voice motor control emotion brain representations Control of strategies different natures&intensity activation level intensity level
Atelier PIRSTEC - LIMSI - 11 juin multi-modality / multi-processing ? formes dynamiques ? indices abrupts ? formes statiques ? motifs (récurrence dévénement) ? Face motor control Body motor control Voice motor control emotion brain representations inhibition Control of strategies different natures&intensity activation level intensity level
Atelier PIRSTEC - LIMSI - 11 juin multi-modality / multi-processing ? formes dynamiques ? indices abrupts ? formes statiques ? motifs (récurrence dévénement) ? Face motor control Body motor control Voice motor control emotion brain representations inhibition Control of strategies different natures&intensity activation level intensity level C C C
Atelier PIRSTEC - LIMSI - 11 juin [Audibert, Aubergé, Rilliard, ] E-Wiz plateforme générique logicielle & expérimentale multi-capteurs distribution libre video, audio, EGG, bio-physio tous synchronisés Scénario Sound Teacher - Spectre détats mentaux et socio-affects émotions => prototypes IHM - Variabilité comportementale (induction pos&neg) 17 sujets - Variabilité langues - cultures - Discrimination spontané vs. acté (7acteurs) Induction « naturelle » dexpressions authentiques « quand, où, pourquoi, à qui, qui parle » réaliste / réel [Audibert, Aubergé, Rilliard, 2008] Capture contrôlée dexpressions spontanées par perturbation/induction [Audibert, Aubergé, Rilliard, 2004]
Atelier PIRSTEC - LIMSI - 11 juin
Atelier PIRSTEC - LIMSI - 11 juin Feeling of Thinking
Atelier PIRSTEC - LIMSI - 11 juin Perceptual validation (naïve listeners) Labeling by external experts statistic verification of coherence between experts Auto-annotation by the speaker =>listener autobiographic memory complex combinations complex combinations more than affects more than affects Spontaneous expressive corpus Self-labeling of the collected affects
Atelier PIRSTEC - LIMSI - 11 juin Génération de parole expressive adaptative/adaptée émotion « pas démotion exprimée » Projection dune seule dimension resynthèse Multi-dimensions : F0, intensité, durée, qualité de voix [Audibert et al., ] [Audibert, Vincent et al., 2006] Protocoles dévaluation perceptive Mesure physique/perceptive des dimensions acoustiques [Aubergé, Audibert, Rilliard, 2006] Synthèse acoustique de la prosodie expressive (voix/parole/langage) => Modèle cognitif de superposition de Gestalts non expressive = attitude de non expressivité => Synthèse Par Corpus « situé » => Contrôle « quantique » de linteraction => Prépondérance de la fréquence fondamentale pour les expressions positives => Nécessité de considérer toutes les dimensions acoustiques en génération
Atelier PIRSTEC - LIMSI - 11 juin Génération de parole expressive adaptative/adaptée émotion « pas démotion exprimée » Projection dune seule dimension resynthèse Multi-dimensions : F0, intensité, durée, qualité de voix [Audibert et al., ] [Audibert, Vincent et al., 2006] Protocoles dévaluation perceptive Mesure physique/perceptive des dimensions acoustiques [Aubergé, Audibert, Rilliard, 2006] Synthèse acoustique de la prosodie expressive (voix/parole/langage) => Modèle cognitif de superposition de Gestalts non expressive = attitude de non expressivité => Synthèse Par Corpus « situé » => Contrôle « quantique » de linteraction => Prépondérance de la fréquence fondamentale pour les expressions positives => Nécessité de considérer toutes les dimensions acoustiques en génération repenser ce quest évaluer une parole virtuelle en adéquation à une application précise
22 turn taking changement de phase dans la continuité globale de linteraction : chaque sujet (humain/virtuel) est audit/locut- locut/audit
Atelier PIRSTEC - LIMSI - 11 juin %, mais la distribution des réponses n'est pas différente du hasard [Vanpé, 07]
Atelier PIRSTEC - LIMSI - 11 juin Statique – condition entier ** Cf. résultats du test statique : Vanpé & Aubergé, 2006 ** Répartition des réponses non significativement différente du hasard, p.0.01 (Khi-2, 8 ddl) ** Dynamique – conditions bas et haut Dynamique – conditions bas et entier Comparaison statique vs. Dynamique pour quelques labels int é ressants – sujet S
Atelier PIRSTEC - LIMSI - 11 juin %
Atelier PIRSTEC - LIMSI - 11 juin Cf. résultats du test statique : Vanpé & Aubergé, 2006 Comparaison statique vs. Dynamique pour quelques labels int é ressants – sujet T Dynamique – toutes conditions Dynamique – condition entier vs. Statique – condition haut Dynamique – condition haut Statique – condition entier Statique – condition bas
Atelier PIRSTEC - LIMSI - 11 juin Quels indices, ou leur absence, construisent globalement un agent générique vs.comportementalisé situation - personnalité - culture invariants et spécificités bruit de bouche grunt onomatopée interjection des (sou)rires multimodalité voix->parole->langage « micro-sons » [Loyau, 07] [Vanpé, 08]
28
Atelier PIRSTEC - LIMSI - 11 juin
Atelier PIRSTEC - LIMSI - 11 juin
Atelier PIRSTEC - LIMSI - 11 juin
Atelier PIRSTEC - LIMSI - 11 juin que déduire dun BB sur la dynamique de linteraction un agent virtuel doit produire/ ne pas produire des BB ? en MM ?
Atelier PIRSTEC - LIMSI - 11 juin Les affects socio-culturels : corps de m é tier du voix à voix / face à face = langage temps r é el French (6 attitudes English (11 attitudes) Japanese (12 attitudes) cultural distance Grépillat (1996) Morlec (1997) Aubergé (2005) Diaferia (2002) Arrogance-Impoliteness Simple Politeness Sincerity-Serious Kyoshuku Shochi (2004) Surprise Doubt Evidence Admiration Seduction Irritation Scorn Authority Politeness Mandarin Swedish Hungarian Baba1 Vietnamese (20 attitudes) Mac Dang (2008)