La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant:

Présentations similaires


Présentation au sujet: "Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant:"— Transcription de la présentation:

1 Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant: Fan YANG (TLP) Financé par le ministère de la France Encadrants: Claude BARRAS (TLP) Laurence DEVILLERS (TLP) Journée Des Doctorants du LIMSI

2 Mots clés Buts Condition d’usage Méthodologie
Identification du locuteur Détection des émotions Condition d’usage Interaction Humain-Robot Méthodologie Audio, vidéo, geste Fusion d’indices multimodales 1/9

3 Identification du locuteur
Objectif Recherche parmi un ensemble de personnes connues Usage Interaction humain-machine Sécurité d’accès Police criminelle Indexation multimédia Etc. 2/9

4 Détection des émotions
Affective Computing [Picard, R. W. “Affective Computing”, MIT Press, 1997] Représentations Etiquettes verbales [Ekman, P. 1972] Joie, colère, tristesse, surprise, peur, dégoût, neutre, etc. Dimensions abstraites [Mehrabian, A. 1980] Valence (positive / neutre / négative) Activation (active / passive) Pouvoir (potentiel de critique, fort / faible) Théories hybrides [Plutchik, R. 1980] Intérêts Communication affective Réduire de la distance mentale pour l’IHM 3/9

5 Interaction Humain-Robot
Robots envisagés: NAO, Roméo Cible: usage familial, assistance aux personnes en perte d’autonomie Identification entre quelques personnes Reconnaissance des émotions de base Fonctionnalités Capteurs multimodaux Temps réel Source des images: 4/9

6 Méthodologie Algorithme : Données -> Indices -> Classifieur(s) -> Décision Données Audio (micro), image et vidéo (caméra) Direction de voix et champs de profondeur (Kinect) Indices Fréquences, énergie, distance, pixel, etc. Classifieurs Direct (seuil, position, état, etc.) Statistique (SVM, HMM, etc.), étape supplémentaire d’entrainement de model par corpus Décision Oui / Non Confiance Poids de vote 5/9

7 Audio Intérêts Inconvénients 6/9 Moins de contraintes que la vidéo
Indices (Fo, énergie, MFCC, etc.) SVM, HMM Emotion Son Indices (Fo, cepstre, MFCC, etc.) GMM ID Intérêts Moins de contraintes que la vidéo Economie en CPU Inconvénients Influence par l’état de personne, par l’environnement Difficile à distinguer les émotions extrêmes (joie/colère) Dépendance importante au matériel d’enregistrement 6/9

8 Vidéo Intérêts Inconvénients 7/9 Mouvement des Action Units
PCA ID Image faciale LBP SVM Emotion1 Vidéo Image faciale Δt Emotion Mouvement des Action Units Emotion2 Intérêts Visage change peu à court terme Expressions faciales universelles Inconvénients Tendance humaine de cacher son émotion (micro-expression) Matériel requis (résolution, focus) Influence par lumière entrante, pose (orientation) 7/9

9 Geste Habitude gestuelle -> Identification
Geste corporel -> esprit implicite -> émotion cachée Par exemple Bras croisés -> tendance de protection -> peur probable Poings serrés -> tendance d’attaque -> colère probable Tremblement de jambe -> stress probable Intérêts Représentation facile du corps en squelette Inconvénients Robustesse faible 8/9

10 Fusion d’indices multimodales
ID (visage) ID (voix) Vote pour ID ID Condition d’environnement Condition de matériel Robustesse de modalité, etc. ID (geste) Amélioration de performance de détection des émotions en dépendant de l’ID Poids de vote variés selon des conditions Corpus prévu de test: SEMAINE-AVEC (20 sujets, 140 enregistrements de 5 min) Emotion (visage) Emotion (voix) Vote pour émotion Emotion Emotion (geste) 9/9

11 Merci de votre attention

12 Bibliothèque Picard, R. W. “Affective Computing”, MIT Press, 1997
Ekman, P. “Universals and cultural differences in Facial Expressions of Emotion”, in Current theory and research in motivation, v 19, pp , University of Nebraska Press, 1972. Mehrabian, A. "Basic dimensions for a general psychological theory". pp. 39–53, 1980. G. McKeown, M.F. Valstar, R. Cowie, and M. Pantic, “The SEMAINE corpus of emotionally coloured character interactions”, proceedings of the IEEE International Conference on Multimedia and Expo (ICME), 2010


Télécharger ppt "Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant:"

Présentations similaires


Annonces Google