Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant:

Slides:



Advertisements
Présentations similaires
Conférence: 28 août – Épluchons la politique
Advertisements

Temps de réaction et facteurs énergétiques
Guillaume HUTZLER Bernard GORTAIS Jean-Daniel ZUCKER LaMI
Champs de Markov en Vision par Ordinateur
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Simulations du VMike et évaluations comparatives.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
La population active. Intérêt (potentiel, taille maturité, rentabilité potentielle) 70% de la population (INSEE 2008). Soit individus. Contraintes.
3. Comprendre le consommateur
LES BASES DE LA COMMUNICATION
Communication non verbale
Indexation vidéo Indexation multimédia
3. Analyse et estimation du mouvement dans la vidéo
Définition Contraintes / Astreintes Taches / Activités
Les distances physiques
Enseigner la danse contemporaine en EPS
Identification des personnes par l’iris
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
Laboratoire LCOMS Equipe « Evaluation de Performance et Systèmes d’Aide à la Personne » (EPSAP) Guy Bourhis CENRob 4-5 avril.
Principes de communication
Bao LY VAN Doctorant – INT
Prototype d’agent émotionnel pour le dialogue
Expériences contrôlées Quasi-expériences Études de cas
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Chapitre 8 L’émotion 8.1 LES COMPOSANTES DE L’ÉMOTION
L’émotion dans les systèmes interactifs
Les facteurs du comportement liés à l’individu
Construction de modèles visuels
LA COMMUNICATION NON VERBALE
Les différentes méthodologies dévaluation en IPM Cours Ergonomie des Interactions Personne-Machine 17 novembre 2009 Mireille Bétrancourt - TECFA - FPSE.
La méthodologie expérimentale Fondements et bases d’application
La méthodologie expérimentale Fondements et bases d’application
face-à-face : application à la rééducation de sujets cérébro-lésés.
Agent Animé Ambiant & Adaptatif
Design dun système de vision embarqué. Application:
Chapitre 6: la lecture experte
1 ClassRoom 2000 (eclass) Séminaire SH pour le groupe de recherche DIVA de Fribourg Étudiant: Marco Genasci Professeurs: R. Ingold, D. Lalanne.
Projet du cours MMI Lecteur multimeodial
Base de données multimédia Cordelia Schmid
APPROCHE PSYCHOLOGIQUE DE L’EXPERIENCE REEDUCATIVE
Implémentation de X-NAQ, un Agent Émotionnel
* * *** * ** *** ** * * * * P < 0.05 ** P < 0.01 *** P < GENRE Aucune différence entre les groupes Reconnaissance du genre et des expressions faciales.
+ Stéphanie BUISINE Yun WANG Jean-Claude MARTIN Synchronisation temporelle entre parole et expression faciale des ACAs.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Reconnaissance des personnes par le visage dans des séquences vidéo
Cerveau Sens et Emotions
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1
Présentation RFIA janvier 2002
Mirweis Sangin - CRAFT1 Analyse de l’apprentissage individuel et collaboratif à partir de contenus multimédias animés. Mirweis Sangin TECFA
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
Reconnaissance de visage par vidéo
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 22/06/2004.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Un espace de classification pour l’interaction sur dispositifs mobiles
Limsi-CNRS, groupe CPU, Co-directeur de thèse: Vincent Boccara
Recherche & développement Expressions multimodales de caractéristiques anthropomorphiques d'un agent virtuel. Conception et évaluation dans le cadre d'une.
Les deux dimensions de l’intelligence émotionnelle
Interaction corporelle avec des avatars Modélisation de la variabilité intra-individuelle du mouvement Florian Focone, Groupe CPU ED 456 Sciences.
Les Extra-Trees+SW Réalisé par : Encadrante:
Journée Des Doctorants 2004
Time Of Flight LMS User Software Page 1 Créer une nouvelle Configuration dans le LMS, Pas à Pas !
Objectifs Outils pour l’animation d’un groupe  Capter rapidement l’attention des membres de l’équipe  Transformer le simple «spectateur» de réunion.
TA-O Rachelle Boutin James Forbes Guillaume Vadnais.
la reconnaissance de visages
Etude et construction d'un tomographe TEP/TDM pour petits animaux combinant détecteurs à pixels hybrides et modules phoswich à scintillateurs. Stan NICOL.
Pixels hybrides pour rayons X Les détecteurs XPAD.
Transcription de la présentation:

Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant: Fan YANG (TLP) Financé par le ministère de la France Encadrants: Claude BARRAS (TLP) Laurence DEVILLERS (TLP) Journée Des Doctorants du LIMSI 12.06.2013

Mots clés Buts Condition d’usage Méthodologie Identification du locuteur Détection des émotions Condition d’usage Interaction Humain-Robot Méthodologie Audio, vidéo, geste Fusion d’indices multimodales 1/9

Identification du locuteur Objectif Recherche parmi un ensemble de personnes connues Usage Interaction humain-machine Sécurité d’accès Police criminelle Indexation multimédia Etc. 2/9

Détection des émotions Affective Computing [Picard, R. W. “Affective Computing”, MIT Press, 1997] Représentations Etiquettes verbales [Ekman, P. 1972] Joie, colère, tristesse, surprise, peur, dégoût, neutre, etc. Dimensions abstraites [Mehrabian, A. 1980] Valence (positive / neutre / négative) Activation (active / passive) Pouvoir (potentiel de critique, fort / faible) Théories hybrides [Plutchik, R. 1980] Intérêts Communication affective Réduire de la distance mentale pour l’IHM 3/9

Interaction Humain-Robot Robots envisagés: NAO, Roméo Cible: usage familial, assistance aux personnes en perte d’autonomie Identification entre quelques personnes Reconnaissance des émotions de base Fonctionnalités Capteurs multimodaux Temps réel Source des images: www.aldebaran-robotics.com 4/9

Méthodologie Algorithme : Données -> Indices -> Classifieur(s) -> Décision Données Audio (micro), image et vidéo (caméra) Direction de voix et champs de profondeur (Kinect) Indices Fréquences, énergie, distance, pixel, etc. Classifieurs Direct (seuil, position, état, etc.) Statistique (SVM, HMM, etc.), étape supplémentaire d’entrainement de model par corpus Décision Oui / Non Confiance Poids de vote 5/9

Audio Intérêts Inconvénients 6/9 Moins de contraintes que la vidéo Indices (Fo, énergie, MFCC, etc.) SVM, HMM Emotion Son Indices (Fo, cepstre, MFCC, etc.) GMM ID Intérêts Moins de contraintes que la vidéo Economie en CPU Inconvénients Influence par l’état de personne, par l’environnement Difficile à distinguer les émotions extrêmes (joie/colère) Dépendance importante au matériel d’enregistrement 6/9

Vidéo Intérêts Inconvénients 7/9 Mouvement des Action Units PCA ID Image faciale LBP SVM Emotion1 Vidéo Image faciale Δt Emotion Mouvement des Action Units Emotion2 Intérêts Visage change peu à court terme Expressions faciales universelles Inconvénients Tendance humaine de cacher son émotion (micro-expression) Matériel requis (résolution, focus) Influence par lumière entrante, pose (orientation) 7/9

Geste Habitude gestuelle -> Identification Geste corporel -> esprit implicite -> émotion cachée Par exemple Bras croisés -> tendance de protection -> peur probable Poings serrés -> tendance d’attaque -> colère probable Tremblement de jambe -> stress probable Intérêts Représentation facile du corps en squelette Inconvénients Robustesse faible 8/9

Fusion d’indices multimodales ID (visage) ID (voix) Vote pour ID ID Condition d’environnement Condition de matériel Robustesse de modalité, etc. ID (geste) Amélioration de performance de détection des émotions en dépendant de l’ID Poids de vote variés selon des conditions Corpus prévu de test: SEMAINE-AVEC (20 sujets, 140 enregistrements de 5 min) Emotion (visage) Emotion (voix) Vote pour émotion Emotion Emotion (geste) 9/9

Merci de votre attention

Bibliothèque Picard, R. W. “Affective Computing”, MIT Press, 1997 Ekman, P. “Universals and cultural differences in Facial Expressions of Emotion”, in Current theory and research in motivation, v 19, pp 207-283, University of Nebraska Press, 1972. Mehrabian, A. "Basic dimensions for a general psychological theory". pp. 39–53, 1980. G. McKeown, M.F. Valstar, R. Cowie, and M. Pantic, “The SEMAINE corpus of emotionally coloured character interactions”, proceedings of the IEEE International Conference on Multimedia and Expo (ICME), 2010