Reconnaissance de visage par vidéo

Slides:



Advertisements
Présentations similaires
(Action COGNITIQUE - Ministère de la Recherche)
Advertisements

FREE-VIEWPOINT VIDEO OF HUMAN ACTORS Joel Carranza, Christian Theobalt, Marcus A.Magnor, Hans-Peter Seidel MPI Informatik, Saarbrücken, Germany.
Recent Advances in the Automatic Recognition of Audiovisual Speech
Gérard CHOLLET Fusion Gérard CHOLLET GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
Simulations du VMike et évaluations comparatives.
Projet IV²: Identification par l’Iris et le Visage via la Vidéo
Indexation vidéo Indexation multimédia
Application de réseaux bayésiens à la détection de fumées polluantes
A Pyramid Approach to Subpixel Registration Based on Intensity
Xialong Dai, Siamak Khorram
Segmentation de séquences d’images au sens du mouvement
Détection dobjets cartographiques dans les images satellites Très Haute Résolution Guray Erus, Nicolas Loménie Université René Descartes – Paris5, Centre.
Master Informatique 2ème année
Reconnaissance de la parole
Identification des personnes par l’iris
Traitements d'images et Vision par ordinateur
INF-1019 Programmation en temps réel
Projet Pluritechnique Encadree : Supervision du Portalp:
Monique THONNAT et Nathanaël ROTA Projet ORION
Recherche d’un même objet / scène
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Reconnaissance de visages
Tolérance aux fautes imprévues dans les systèmes complexes
Mise en correspondance et Reconnaissance
Construction de modèles visuels
Saint Egrève, 19 Juillet 2007http://biobimo.eurecom.fr1 BIOBIMO BIOmétrie BImodale sur MObile Réunion davancement 19 Juillet 2007, Saint-Egrève.
Méthode des Ensembles de Niveaux par Eléments Finis P1
Reconnaissance Vocale
RECONNAISSANCE DE FORMES
1 ClassRoom 2000 (eclass) Séminaire SH pour le groupe de recherche DIVA de Fribourg Étudiant: Marco Genasci Professeurs: R. Ingold, D. Lalanne.
Projet du cours MMI Lecteur multimeodial
Base de données multimédia Cordelia Schmid
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Université d’Avignon et du pays du Vaucluse
thèse encadrée par Jean-Marc OGIER et Karell BERTET
Introduction à la vision numérique
Segmentation (1ère partie)
Introduction à la reconnaissance:
Reconnaissance d’image CABRIERE Pierre – ROBERT Bastien.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Notre Système Laptoptech Sécurité par video surveillance Facile d’utilisation Application internet Le seul système temps réel Compression matériel Haux.
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 23/07/2004.
Suivi d’individus et interprétation vidéo
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Le genre musical François Pachet. Sur Amazon ? Pop General Adult Contemporary Britpop Dance Pop Disco Easy Listening Emerging Artists Latin Pop Motown.
Sophia-Antipolis, 07 Juin 2007http://biobimo.eurecom.fr1 BIOBIMO BIOmétrie BImodale sur MObile Réunion d’avancement 07 Juin 2007, Sophia-Antipolis.
Reconnaissance des personnes par le visage dans des séquences vidéo
Identification basée sur l’iris (Iris recognition)
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Plusieurs techniques ont été expérimenté. Différentes modulations ont été étudiées et testées. Un setup expérimental a été mis en place. Les résultats.
Contrôle du chargement de crayons de combustibles nucléaire par radiographie X 5GE Tdsi Miniprojet Bute Clément Flamary Rémi Ionescu Cristina Vaugon André.
Extraction non supervisée (séparation Image/fond) ● Objectifs : 1. temps réel 2. détection des «objets» en mouvement ● Compression temporelle de l'aspect.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
LASMEA Clermont, le 25 janvier Mesure et analyse de trajectoires Ordre du jour  10h45 – Accueil  11h00 – Introduction  11h05 – Trajectographie.
Mustapha Hamidou Vendredi 20 août Stage Contour Matching.
Présentation RFIA janvier 2002
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
Suivi rapide d’objet en mouvement
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 22/06/2004.
Eurecom, 30 June 2008http://biobimo.eurecom.fr BIOBIMO Amel ZNAIDIA.
Fusion d’indices multimodaux
(audio, visage et geste) pour l'identification du locuteur et de ses
émotions dans les interactions homme-robot Doctorant:
UMR Virtual arm for the Phantom Limb Pain Therapy Eynard L. and Meyer A. and Bouakaz S. June 2005.
MPEG : normalisation La vidéo est compressé en MPEG2 Une vidéo classique : (720x576) à 50 images entrelacées par seconde. Le Mpeg-2 travaille sur 1/4 de.
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Traitements d'images et Vision par ordinateur
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Transcription de la présentation:

Reconnaissance de visage par vidéo Usman Saeed, Jean-Luc Dugelay, Caroline Mallauran Institut Eurécom

Plan Introduction. Extraction de caractéristique. Reconnaissance. Résultats. Travaux en cours. Base de données. Reconnaissance Audio Vidéo. Conclusion.

Introduction Usman Saeed – Pakistanais - 24 2000 - 2004 Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Usman Saeed – Pakistanais - 24 2000 - 2004 BS Computer System Engineering GIK Institute Pakistan 2005 – 2006 Master IGMMV Université de Nice- Sophia Antipolis 2006 – Actuellement Doctorant Eurecom

Introduction Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions But du Projet: Reconnaissance de personne par étude comportementale du visage. Caractéristique: nombreuses variations possibles, de la vitesse avec laquelle une personne parle ou des gestes spécifiques d'œil. Reconnaissance : utilisation de GMM et classifieurs Bayésiens.

Introduction Suivi signaux Caractéristiques Locales Classification Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Suivi signaux Extraction de caractéristiques Locales Caractéristiques Locales Classification de Personnes Identité Vidéos

Extraction de Caractéristique Entrées: Séquences vidéos Localisation approximative [1] des yeux, du nez et de la bouche. Fonctionnalité: Extraction de caractéristiques Caractéristique Local Mouvement de la bouche. Mouvement des yeux. Sortie: Signal temporel Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions

Extraction de Caractéristique Mouvement de la bouche Littérature étendue sur la détection et la segmentation des lèvres. Expressions, Reconnaissance Audio Vidéo du locuteur , lecture labiale… Utilisation du bord externe des lèvres comme une mesure de la bouche . Algorithme basé sur la couleur et le contour. Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Caractéristique Surface Axe Majeure Axe Mineur Excentricité

Reconnaissance[1] Apprentissage Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Apprentissage Utilisation des GMM et EM pour enrôler des personnes. Reconnaissance Classification Bayésiens Etant donné xk le vecteur caractéristique, la probabilité à posteriori pour la classe wq

Résultats Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Par comparaison on a testé sur notre base de donnés notre algorithme et un algorithme classique, Eigenface. Notre Système: Taux d’ Identification est 97.0% EigenFace: Taux d’ Identification est 92.5 %

Travaux en cours Résultats pas encore finalisés Clignotement des yeux. Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Résultats pas encore finalisés Clignotement des yeux.  Mouvement des pupilles.

Base de données[1] (Actuelle) Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Pas d’ Audio 9 présentateurs TV 4 mins pour chaque personne. 144 séquences de vidéo de durée 14s. Résolution Spatiale 352×288 pixels Résolution Temporelle 23.97 f/s Compression 300 Kb/s Sérieux, regardant à la camera

Base de données (Proposé) Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Contents Enregistrements en mode indépendante du texte. vue frontale du visage. Résolution Vidéo -----------------------320X240 ou plus de pixel Résolution Temporelle --------------------------------------------25 f/s Compression Vidéo ---------------------------------------------aucun Format Vidéo -----------------------------------------------------------avi Couleur ----------------------------------------------------16 bit ou plus Nombre de Personne---------------------------------------------40-60 Distance entre les yeux----------------------------------40-60 pixels Longueur requise pour apprentissage --------------------5 mins Longueur requise pour Reconnaissance -----------10-15 secs Nombre de vidéos par personne---------------------------------20 Camera Spécifique / TV ---------------------------------------?????

Reconnaissance AV Base de donnés Audio Vidéo . Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions Base de donnés Audio Vidéo . Séquences de vidéo de taille fixe . Synchronisation de la vidéo et l’audio. Signal qui change avec temps. Vecteur caractéristique extrait à chaque image. Signal Audio ???? Conception de Classificateur . Signal d’ entrée – Combiné ou séparé. Classificateur si séparé, combiner les résultants au nivaux du score ou du rang. Poids de modalité. Multi-modalité Vs Détection de Imposteur. Améliorer les résultats avec un système multimodal. Vérification de l’audio par mouvement de la bouche

Conclusion Introduction Feature Extraction Local Features Mouth Eye Global Features Recognition Results Work in Progress Database A/V Proposal Conclusions But: Avons-nous assez de variations comportementales entre les personnes pour les identifier. Résultats préliminaires prometteurs mais qui valident l'idée, même sur une petite base de données. Priorité la plus élevée : Développer une base de donnés Audio - Vidéo

Questions /Comments

Bibliography [1] F. Matta and J-L. Dugelay, ”A behavioural approach to person recognition”, to appear in Proceedings of IEEE International Conference on Multimedia and Expo (ICME2006), 9–12 July 2006, Toronto, Canada. [2] U. Canzler and T. Dziurzyk, ”Extraction of Non Manual Features for Video based Sign Language Recognition”, in Proceedings of the IAPR Workshop on Machine Vision Application (MVA2002), 11–13 December 2002 , Nara, Japan, pp. 318–321.