Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1 Application d’une mémoire associative bidirectionnelle à fonction de sortie chaotique à la reconnaissance d’expressions faciales Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1 1Université du Québec à Montréal, 2Université du Québec en Outaouais, 3Institut Philippe-Pinel de Montréal
Motivation Les émotions de l’apprenant sont un facteur important pour un système tutoriel intelligent Les émotions sont souvents exprimées à l’aide d’expressions faciales La reconnaissance des expressions faciales demande habituellement des algorithmes complexes, dont les résultats ne sont pas parfaits
Quelques approches Transformée en ondelettes de Gabor sur 34 points Analyse de corrélation en phase de rappel 75-85% de réussite Vecteurs propres de regions choisies Prétraitement par ACP MLP avec 1 couche cachée 86% de réussite
Les mémoire associatives D’un grand intérêt théorique pour expliquer les capacités d’association du cerveau humain Un nouveau modèle corrige plusieurs limitations des mémoires associatives classiques (e.g. apprentissage binaire). Architecture récurrente à fonction de sortie chaotique
Topologie du modèle Les dimensions des couches X et Y n’ont pas à être égales V n’est pas la transposée de W
Règle d’apprentissage La règle d’apprentissage est interactive
Règle d’apprentissage Les matrices synaptiques convergent lorsque entrées = sorties
Fonction de sortie Carte cubique dans [-1,1] : autrement
Algorithme d’apprentissage 1- Sélection aléatoire d’une paire (x[0], y[0]) 2- Calcul de x[t] et y[t] selon la nouvelle règle de sortie. 3- Mise à jours des poids selon la règle d’apprentissage. 4- Répétition des étapes 1 to 3 jusqu’à la convergence de la matrice des poids.
Ensemble d’apprentissage Base de données CAFE (California Facial Expressions) Images photographiques des visages de 50 sujets 7 images par sujet reflétant les émotions (en colère, dégoûté, heureux, triste, craintif, neutre, surpris). 380x240 pixels par image, 8 bit de profondeur
Exemple de 5 sujets, 4 émotions
Méthodologie Taille des images réduite à 95x60 pixels Tons de gris normalisés entre [-1, 1] Paramètre d’apprentissage =0.1 et =0.00115 (région non chaotique) Étude de performance pour des prototypes, face au bruit gaussien, à inversion de pixels, à la rotation et aux patrons partiellement masqués
Bruit gaussien (30dbW)
Inversion de pixels (20%)
Rotation (20o)
Résultats Convergence après 15-17 époques d’apprentissage (300-340 présentations) pour des vecteurs d’entrée de de 5700 éléments (95x60 pixels)
Résultats Bruit Rappel correct (%) Nil 100 Gaussien (30 dBW) Inversion de pixels (20%) Inversion de pixels (40%) Inversion de pixels (50%) 60 Inversion de pixels (60%) 15 Inversion de pixels (>60%) Masque 1 Masque 2 Rotation (10o) 30 Rotation (20o) 35
Généralisation pour CAFE
Généralisation pour CAFE
Généralisation pour CAFE
Discussion et conclusion Pour le bruit gaussien, et le bruit par inversion de pixels d’intensité faible à modérée (<40%), le taux de reconnaissance est 100 %. Le réseau a pu identifier la bonne lettre à associer malgré la suppression de la région oculaire, une région importante pour l'identification des émotions. Les résultats pour l’ensemble complet des émotions et un nombre plus élevé de sujets révèlent une excellente capacité de mémoire. La propriété précédente peut être mise à profit pour pallier à la faible performance du réseau pour des images tournées, qui peuvent être apprises comme des patrons distincts. Les résultats obtenus sont surprenants en égard à la simplicité relative de notre architecture.
Peut-on faire mieux ?