Introduction au cours “Modèles stochastiques en traitement d’image” J. ZERUBIA – INRIA Sophia Antipolis Remerciements : X. Descombes, I. Jermyn, les post-docs, doctorants et stagiaires de Master Recherche du projet ARIANA (INRIA/I3S)
0. Images : déconvolution
0. Images : segmentation
0. Buts Définitions : que sont les champs de Markov ? Exemples : comment sont-ils utilisés pour la compréhension des images ? Algorithmes : comment peut-on extraire l’information désirée des modèles ?
Partie I : définitions
I. Modèles Probabilistes d’Images Une image étant donnée (observation), on veut connaître quelque chose sur la ‘scène’ (variable cachée). Exemple : on veut savoir s’il y avait une personne dans la scène, et si oui, où ? La théorie des probabilités décrit le raisonnement dans les situations de connaissance incomplète.
I. Théorème de Bayes On veut connaître la probabilité de la scène connaissant l’image. Le théorème de Bayes/Laplace transforme la probabilité de l’image sachant la scène en la probabilité de la scène sachant l’image. K représente toute la connaissance que l’on a avant de voir l’image
I . Théorème de Bayes La probabilité de l’image sachant la scène et K (la formation de l’image) : a souvent un modèle physique, appelée la vraisemblance. La probabilité de la scène avant d’avoir vu l’image (mais avec la connaissance K) : appelée la probabilité a priori. On doit construire des modèles pour les deux (vraisemblance et a priori).
I. Les espaces d’images Une image est une fonction d’un domaine D ½ ZN vers un espace C. Les signaux acoustiques : N = 1. Les images standard : N = 2. Les images IRM : N = 3. Les séquences vidéo : N = 3 = « 2 + 1 ».
I. Les espaces d’images La dimension de C : Images monochromatiques : 1. Images en couleur : 3. Images multi- ou hyper-spectrales : de 10 à plus de 200. D est envisagé comme plongé dans RN. Cela veut dire que les notions de géométrie peuvent être appliquées si N > 1.
I. Les espaces de scène : sémantique Information sur le monde 3D : Distances et positions des objets dans une photo; Types de végétation dans une image aérienne; Position d’une tumeur dans une image médicale ; Géométrie des bâtiments dans un plan. Paramètres de la caméra. Jugements plus subjectifs : Émotion d’un visage ; Style d’architecture.
I. Les espaces de scène : mathématique Une fonction de D vers un autre espace : Restauration : CD; Segmentation : LD où L est un ensemble (étiquettes d’interprétation) ; Une région : {0,1}D.
I. Probabilités sur ces espaces L’espace des images est énorme. 10157826 images possibles de 256 x 256 pixels. Il faut donc essayer de simplifier
I. Simplification des probabilités Les probabilités se simplifient quand quelques variables sont indépendantes les unes des autres. Les champs de Markov sont une façon (mais pas la seule) de définir des probabilités simplifiées, mais néanmoins utiles.
I. Exemple : indépendance Si la scène est décrite par une fonction sur D, la probabilité peut se factoriser sur les pixels : Dans ce cas, on peut traiter chaque pixel séparément (problème à une dimension).
I. Champs de Markov (MRFs) Un champ de Markov sur un ensemble D est une probabilité sur l’espace de fonctions CD de D vers un autre espace C satisfaisant les 2 conditions ci- dessous. Positivité : . On peut savoir tout ce qui est possible de la valeur de fp sachant seulement les valeurs des ‘voisins’ fN(p)-p.
I. Champs de Markov (MRFs) Voisinage : pour chaque point , il y a un sous-ensemble t.q.
I. Interprétation comme un graphe Un graphe non-orienté G est : Un ensemble V (noeuds); Un sous-ensemble t.q. Etant donné un champs de Markov, on définit un graphe de la façon suivante :
I. Cliques Un sous-ensemble est une clique ssi : . On définit comme l’ensemble de toutes les cliques dans le graphe G.
I. Distributions de Gibbs Pour une fonction : Q(G) £ CD ! R, la probabilité suivante est appelée une distribution de Gibbs:
I. Distribution de Gibbs U est appelé l’énergie. Z est appelé le fonction de partition. Pour une distribution de Gibbs, l’estimée MAP prend une forme simple:
I. Théorème de Hammersley-Clifford 1971. Très important parce qu’il permit la construction facile de champs de Markov. Pour chaque fonction , est un champs de Markov. Pour chaque champs de Markov Pr, on peut trouver une fonction t.q. Conclusion: GIBBS = MRF
I. Estimées Г : C £ ! R Utilité = fonction de coût : Utilité moyenne : Estimée : Г : C D £ ! R
I. Estimées : MAP Maximum A Posteriori :
I. Estimées : MPM “Marginal Posterior Mode”
I. Estimées : champs moyen Erreur quadratique moyenne.
Partie II : exemples
II. Exemple 1 : bruit La lumière reflétée par la scène est bruitée avant d’attendre la caméra : Conditions atmosphériques ; Bruit photonique et électronique dans la caméra. On veut connaître l’image originale avant l’addition de bruit. On connaît l’image bruitée.
II. Exemple 1 : modélisation On veut modéliser deux choses : La formation de l’image à partir de la scène ; La scène : l’image originale est inconnue. Le domaine D est l’ensemble de pixels dans l’image. La scène prend des valeurs dans R (image monochromatique).
II. Exemple 1 : formation On suppose que le bruit est : Additif : le bruit s’ajoute au signal ; Stationnaire : la probabilité d’une configuration de bruit est la même pour toutes les translations possibles ; Blanc : le bruit en un point est indépendant du bruit aux autres points ; Gaussien : le niveau de bruit en chaque point est distribué selon une loi gaussienne.
II. Exemple 1 : formation Le bruit est un champs de Markov trivial. Toutes les variables sont indépendantes. Le graphe n’a pas d’arcs:
II : Exemple 1 : la Scène Qu’est-ce que l’on sait de la scène ? Peut-être rien : Pr(S) = constant. Les estimées par le MAP, MPM et la moyenne sont en accord : S = I. On n’a rien fait. Pas très satisfaisant !
II. Exemple 1 : la Scène En fait, on sait beaucoup plus de choses sur la scène. Une hypothèse souvent utilisée est que la scène est plus lisse que l’image. Deux pixels voisins ont généralement des valeurs proches.
II. Exemple 1 : la Scène On utilise un voisinage à 4 ou 8 voisins : Le modèle est stationnaire ( est constant). Z est une fonction de . 4 8
II. Exemple 1 : difficultés Le modèle de la scène n’est pas très bon : Le terme quadratique est trop fort ; Les images ont des discontinuités. On ne connait pas ou . On doit : Soit les estimer ; Soit les intégrer (marginaliser).
II. Exemple 2 : classification On suppose que, dans la scène, il y a des classes différentes. Les classes sont indexées par les éléments d’un ensemble L. On veut assigner une de ces étiquettes à chaque point dans le domaine de l’image. Donc la scène est une fonction de D vers L.
II. Exemple 2 : images satellitaires Une des tâches importantes dans le traitement d’images satellitaires est d’identifier les diverses classes de couverture du terrain. Zones urbaines ou suburbaines ; Forêts ; Aéroports ; Routes.
II. Exemple 2 : la Scène Comme toujours, le graphe est formé par les pixels dans D. Deux modèles sont les plus fréquents : Indépendant : chaque étiquette ne dépend pas de ses voisins (classification pixélique) ; Modèle de Potts : chaque pixel essaie d’avoir la même étiquette de ses 4 ou 8 voisins (classification contextuelle).
II. Exemple 2 : formation Normalement, on fait l’hypothèse suivante ( est le sous-ensemble qui a l comme cible) : Pour chaque étiquette, on a un modèle d’images qui ne contient que cette classe.
II. Exemple 2 : formation : niveaux de gris Chaque classe a un niveau de gris moyen et une variance. Cela veut dire que
II. Exemple 2 : la Scène : indépendant Chaque pixel est distribué selon la même loi : . Cela veut dire que
II. Exemple 2 : la Scène : indépendant Si Si l’on connaît les valeurs ; L’estimée MAP devient
II. Exemple 2 : difficultés Le problème est que chaque pixel prend sa décision seul. L’estimée est trop rugueuse. Il faut régulariser la solution en utilisant une probabilité a priori plus compliquée.
II. Exemple 2 : la Scène : Potts Le modèle de Potts favorise les configurations qui contiennent des voisins avec la même étiquette.
II. Exemple 2 : la Scène : Potts Le modèle de Potts rend la solution plus lisse et plus homogène.
Partie III : algorithmes
III. Solutions On ne veut pas seulement modéliser. Il faut aussi calculer la valeur des paramètres des modèles choisis. Les modèles ne sont pas simples : souvent ils demandent de grandes ressources en temps de calcul et en espace mémoire. Les espaces sont énormes et il y a beaucoup de minima locaux. Exemple : le recuit simulé peut prendre des heures dans des cas compliqués. Pour pallier ce problème si les images sont très grandes, on peut paralléliser.
III. Simulation Objet : synthétiser des configurations de champs markoviens suivant une certaine distribution de Gibbs. Problème : Z n’est pas calculable. On utilise des algorithmes de relaxation itératifs qui convergent vers la distribution : Metropolis (1953) ; Echantillonneur de Gibbs (Geman et Geman 1984).
III. Simulation : MCMC “Markov Chain Monte Carlo”. Soit une configuration dépendant du temps : . Construire une chaîne de Markov. La chaîne visite plus souvent les régions de forte probabilité
III. Simulation : Metropolis Tirer une nouvelle configuration F(t) avec probabilité : Accepter la nouvelle configuration avec probabilité :
III. Echantillonneur de Gibbs Passage de F(t-1) à F(t) : Choix d’un point p dans le domaine D ; Perturbation de la valeur F(t-1)p. Le choix d’un point p est fait : Soit par échantillonnage ; Soit par balayage déterministe.
III. Échantillonneur de Gibbs Tirage d’une nouvelle valeur d’après la distribution conditionnelle locale : Zp est la fonction de partition locale.
III. Utilisation des échantillonneurs Synthèse de textures : Estimée du MAP : optimisation globale. Échantillonneur à température variable : recuit simulé. Estimée moyenne :
III. Recuit Simulé : relaxation stochastique Introduction d’un facteur de température T : Quand , devient uniforme. Quand , se concentre sur les maxima globaux de . Engendrer une séquence de configurations avec .
III. Recuit Simulé : descente de température On prouve la convergence vers le minimum global si : Le plus souvent : pour aller plus vite. Convergence entre 300 et 1000 itérations.
III. Algorithmes sous-optimaux : ICM (Besag 1986) Choix d’un point p : balayage déterministe. Remise à jour de p par la valeur qui provoque la plus forte augmentation de probabilité (modes).
III. Algorithmes sous-optimaux : ICM Caractéristiques : Algorithme déterministe ; Convergence vers un minimum local ; Initialisation et mode de balayage influent sur le résultat ; Convergence en ~10 à 30 itérations Très utilisé. Cf. gradient.
III. Algorithmes sous-optimaux : HCF (Chou et Brown 1988) “High Confidence First”. Mesure de stabilité de la valeur fp à un point p ( est l’énergie de la configuration courante) : Les points sont classés dans une pile d’instabilité.
III. Algorithmes sous-optimaux : HCF (Chou et Brown 1988) A chaque itération, le point p0 le plus instable (sommet de la pile) est remis à jour. p0 devient stable. Les stabilités des points de N(p0) sont ré- évaluées. La pile est réordonnée. Répétez. Caractéristiques : Algorithme déterministe ; Convergence en ~1 à 5 itérations (après avoir fait un ICM en général).
III. Variantes Algorithmes multi-grilles : Pyramide sur les étiquettes ; Pyramide sur les données. Algorithmes multi-échelles : Pyramide sur étiquettes ; Données mono-résolution.
IV. Paramètres Tous les modèles ont des paramètres. Pour les estimer, deux approches : Etre bayésien : marginaliser ; Estimation.
IV. Marginalisation des paramètres L’approche la plus correcte. Souvent très difficile ou impossible. Principe : on marginalise toutes les quantités par lesquelles on n’est pas intéressé.
IV. Paramètres : estimation Maximisation de la vraisemblance : Normalement on ne connaît pas S : Algorithme EM (Dempster, 1977) : Pas-E : évaluation de l’espérance pour ; Pas-M : maximisation par rapport à .