Construction de modèles visuels
Motivation On veut décrire visages non-visages une classe d’objets (visages, piétons, montagnes etc.) un objet (en tenant compte de ses différents aspects) visages non-visages
Motivation Décrire Déterminer la classe d’appartenance visages une classe d’objets (visages, piétons, montagnes etc.) un objet (en tenant compte de ses différents aspects) Déterminer la classe d’appartenance visages non-visages modèle visuel = description d’image + apprentissage
Motivation Construction d’un modèle visuel à partir d’un ensemble d’images (positives / négatives) choix de la description de l’image descripteur global ou plusieurs descripteurs locaux descripteurs discriminants, sélection des descripteurs appropriés descripteurs invariants aux transformations image hiérarchie des descripteurs locaux
Motivation Construction d’un modèle visuel visages non-visages à partir d’un ensemble d’images (positives / négatives) choix des descripteurs description des variations d’apparence déterminer la fonction discriminante (SVM, réseau neuronaux) visages non-visages
Motivation Construction d’un modèle visuel objet A objet C objet B à partir d’un ensemble d’images (positives / négatives) choix des descripteurs description des variations d’apparence déterminer la fonction discriminante décrire la distribution (histogramme, clustering, mélange de Gaussiennes) objet A objet B objet C
Motivation Construction d’un modèle visuel à partir d’un ensemble d’images (positives / négatives) choix des descripteurs description des variations d’apparence déterminer la fonction discriminante décrire la distribution (histogrammes, clustering, mélange de Gaussiennes) apprentissage supervisé ou "faiblement'' supervisé
Définition de classes d’objets - exemples Apprentissage supervisé pour la classe des visages Apprentissage »faiblement » supervisé pour des objets texturés Apprentissage supervisé pour la classe des piétons
Détection de visages Représentation des visages : x Représentation des visages : descripteurs locaux génériques contraintes spatiales entre les descripteurs Apprentissage supervisé extraction manuelle des éléments caractéristiques
Apprentissage du modèle de visage À partir d’un ensemble d’images d’apprentissage sélection des caractéristiques et calcul des descripteurs locaux apprentissage de descripteurs génériques pour chaque caractéristique (yeux, nez, commissures des lèvres) apprentissage des incertitudes pour les contraintes spatiales
Descripteurs génériques La distribution est représentée par un mélange de Gaussiennes estimé par EM et MDL EM (expectation maximization) : estimation des paramètres MDL (minimum description length) : sélection du modèle
Algorithme de détection 1) Calcul d’un descripteur pour chaque pixel 2) Classifier chaque descripteur (maximum a posteriori) Choix d’un descripteur générique avec MAP
Algorithme de détection 1) Calcul d’un descripteur pour chaque pixel 2) Classifier chaque descripteur (maximum a posteriori) 3) Vérification de contraintes spatiales contraintes spatiales
Résultats de la détection de visages
Définition d’une classe d’objets Apprentissage supervisé pour la classe des visages Apprentissage »faiblement » supervisé pour des objets texturés Apprentissage supervisé pour la classe des piétons
Approche Apprentissage non supervisé Modèles non rigides pas d’extraction manuelle des caractéristiques/objets images étiquetées comme positives et négatives Modèles non rigides représentation à deux niveaux un ensemble de descripteurs génériques des fréquences de voisinage comme contraintes spatiales invariant à la rotation
Construction d’un modèle Extraction de descripteurs génériques Contraintes spatiales, fréquences dans un voisinage Sélection de l’information discriminante
Extraction de descripteurs génériques Calcul de descripteurs locaux en chaque pixel invariance à une rotation image Utilisation des répétitions de structure de niveaux de gris texture et répétitions de structures visuellement similaires dans l’image entre images Agglomération des descripteurs similaires clustering (k-means)
Exemple de descripteurs génériques
Contraintes spatiales Affectation de chaque pixel au cluster le plus similaire Calcul des fréquences dans un voisinage avec fenêtre autour de
Contraintes spatiales Probabilité jointe des fréquences du voisinage et du descripteur générique Distribution multi-modale Calcul des clusters de fréquence spatiale
Sélection de structures significatives Sélection des clusters caractéristiques, discriminants Apparaissent surtout dans des images positives Significance est définie par
Recherche d’images Calcul d’un score probabiliste pour chaque pixel Calcul du descripteur et sélection du cluster le plus similaire Calcul de la probabilité jointe Rejet des pixels ayant une probabilité jointe peu significative Moyenne des scores => reconnaissance Sélection des pixels ayant un score important => localisation
Résultats de reconnaissance exemples positifs (5) et négatifs (10) images les plus similaires (base contenant 600 images)
Localisation d’un modèle localisation d’un modèle dans une image reconnue
Précision / Rappel (zèbre)
Précision / Rappel (guépard)
Localisation d’un modèle localisation d’un modèle sur une image retrouvée
Précision / Rappel (visages)
Définition d’une classe d’objets Apprentissage supervisé pour la classe des visages Apprentissage »faiblement » supervisé pour des objets texturés Apprentissage supervisé pour la classe des piétons
Approche Description globale du motif Classification avec support vector machine Support vector machine Descripteurs Apprentissage Images d’apprentissage
Support vector machine On a exemple avec où donne la classe (xi,+1) y = +1 y = -1 (xj,-1)
Apprentissage Descripteurs ondelettes de Haar d’échelles 16x16 et 32x32 Gaussiennes d’échelle 17x17 et 34x34 Noyau linéaire : séparation linéaire des données détection en temps linéaire par rapport à la dimension de l’espace des descripteurs différence moyenne est précalculé
Détection Support vector machine Test Résultats Détection multi-échelle