DECONVOLUTION ET AUTRES

DECONVOLUTION ET AUTRES
PROBLEMES INVERSES DECONVOLUTION ET AUTRES H.Lantéri LUAN Plan * Généralités et difficultés des problèmes inverses * Maximisation de la Vraisemblance * Autres divergences *Régularisation classique * Méthodes

Les grandeurs en présence
Dans ce type de problèmes, 3 grandeurs interviennent *La grandeur d’entrée « x » *La grandeur de sortie *Le modèle (traduit la transformation entrée/sortie)«H» - S’il n’y a pas de bruit : - Si le modèle est linéaire:

Une question de vocabulaire
L’entrée « x » est connue, la transformation (H) est connue, on sait calculer (non bruité). C’est le problème direct. On connaît « x », on connaît « y » (une version bruitée de ), on cherche à décrire « H » par un ensemble de paramètres. Parfois « x » et « H » ne sont pas clairement distincts. C’est un « ajustement de modèle ». On connaît « y », on connaît « H », on cherche à retrouver « x » C’est de la « restauration de données ».

Quelles difficultés ? Les problèmes inverses sont en général des problèmes mal-posés au sens de Hadamard: * La solution peut « ne pas exister » * La solution peut « ne pas être unique » * La solution peut « ne pas être stable » vis-à-vis des erreurs de mesure. Si aucune de ces difficultés n’existe, le problème est « bien posé ».

Le problème est en général formulé dans l’espace des fonctions continues
Une étape inévitable est la discrétisation du problème. Cette étape ne supprime pas les difficultés car la solution du problème discrétisé n’est pas stable vis-à-vis des erreurs de mesure Dans le cas d’un modèle linéaire (Ex. convolution), on doit résoudre en « x », un problème de la forme y = Hx Mais la matrice H est mal conditionnée (i.e. elle est proche de la singularité) Comment se traduit ce mauvais conditionnement ?

Illustration du cas non-bruité: 2 inconnues
1 équation, infinité de solutions; on prend p.ex. celle de norme minimale ou encore celle d’entropie maximale 2 équations Solution unique 3 équations pas de solution au sens classique du terme; on peut chercher p.ex. , en guise de solution le couple qui minimise

Un autre petit exemple simple (en apparence)
10 7 8 5 6 9 ? 32 23 33 31 x = 1 La solution est:

On perturbe (un peu) les données, c.à.d. le second membre
32 23 33 31 0.01 -0.01 32.01 22.99 33.01 30.99 = + La solution est alors au lieu de au lieu de au lieu de au lieu de

Une perturbation (en valeur relative) du second membre de: 3 10-4
A pour conséquence: Une perturbation (en valeur relative) de la solution de: 0.8 L’erreur a été amplifiée d’un facteur………. 2500……Ho là Surprenant ?? Non, pas vraiment Parce que le nombre de condition de la matrice est de 3000 env.

Processus expérimental
Modèle simulé Spectre simulé Non – bruité {m(x)}i Paramètres inconnus Modèle Physique Effet instrumental Processus expérimental Processus Physique Effet instrumental Spectre bruité yi Bruit L’effet instrumental est connu, le bruit n’est pas nécessairement additif. Pour trouver les paramètres inconnus du modèle physique, on compare yi et m{x)}i , pour tout « i »

On doit disposer d’une fonction (scalaire) permettant de chiffrer l’écart entre 2 champs de données « pi » et « qi »: D(p,q) D(p,q) doit être positive si p différent de q D(p,p)=0 D(p,q) doit être convexe en « p » et en « q » On parle alors de « Divergence » Si, en plus, D(p,q) respecte l’inégalité triangulaire, c’est une distance, mais pour notre usage, ce n’est pas indispensable. Ce sera donc une fonction d’écart entre mesures et modèle:

Solution correspondant au Maximum de Vraisemblance:
Dans ce cas, on fait intervenir les propriétés statistiques du bruit de mesure, c’est-à-dire qu’on connaît l’expression de p(y/x), et on cherche la valeur de « x » qui correspond au Maximum de p(y/x); dans chaque pixel, la mesure bruitée « yi » est reliée au modèle « {m(x)}i » qui est la moyenne du processus. De plus, *Bruit Gaussien additif, indépendant entre les pixels Remarquons que J(x) est définie pour tout « x », ce ne sera pas toujours le cas

Cas d’une insuffisance statistique - Bruit de POISSON - indépendant entre les pixels
Du point de vue de la solution, minimiser J(x) est équivalent à minimiser: C’est une I-Divergence de Csiszär adaptée à des champs de données qui ne sont pas des lois de probabilités. J(x) bien que convexe, n’est plus quadratique, il reste donc à chercher « x », mais alors là, il faut le faire avec prudence car J(x) n’est pas définie pour tout « x ».

Les 2 « fonctions objectifs » qui apparaissent dans la maximisation de la vraisemblance sont des distances ou des divergences; Il en existe beaucoup d’autres; elles sont toutes fondées sur les propriétés de fonctions convexes f(u). Divergences de Csiszär: convexe éventuellement s’appuie sur Ex:

Divergences de Jensen: fondées sur l’inégalité de Jensen pour les fonctions convexes
On doit avoir 0 < α <1; le cas classique est α = 1/2 Symétrique, convexe sous certaines conditions pour « f »

Divergences de Bregman: fondées sur l’inégalité
Toujours convexe par rapport à « p » (le 1° argument), mais pas nécessairement par rapport à « q » (le 2° argument) Ex: l’écart quadratique moyen basé sur f(u) = u2

Cette classification est artificielle, en effet, une divergence de Jensen ou de Bregman peut être aussi une divergence de Csiszär. L’important est de se rendre compte qu’il y a beaucoup de façons de chiffrer l’écart entre deux champs de données. Mais alors, laquelle choisir ? Arguments ??? Ex de réponse: On prend la même que les autres (comme ça on ne risque rien)…………………………Prudent ou timide On choisit la plus jolie………………………..Esthète On pense que tout ça conduira au même résultat et on prend la plus simple à calculer…. Pas idiot du tout On essaie de s’appuyer sur les principes de la théorie de l’information…….....Raisonnable mais pas simple

REGULARISATION EXPLICITE
Elle permet de restreindre l’espace des solutions à une classe particulière Vraisemblance Probabilité « a posteriori » Probabilité « a priori » Constante de normalisation Point de vue Bayesien Théorème de Bayes

Point de vue énergétique :
La classe des solutions acceptables est décrite par l’expression de P(x). P(x) permet d’introduire toutes les informations connues sur la solution, i.e. toutes celles qui n’apparaissent pas dans la vraisemblance Après quoi, il faudra maximiser en « x », la loi « a posteriori », ou bien minimiser l’opposé de son Log, Point de vue énergétique : Terme d’attache aux données # Vraisemblance Pénalité # loi “a priori “ Facteur de régularisation; traduit le poids relatif de J1 par rapport à J2

Le terme de pénalité peut s’écrire:
Dans ce dernier contexte, dans le terme J2(x) on doit dire « ce qu’on ne veut pas », puis, « μ » permettra de dire « jusqu’à quel point on n’en veut pas ». Ex: Dans le cas de la restauration d’image (déconvolution, tomographie), et de façon générale dans toutes les situations ou l’inconnue est une fonction possédant des propriétés connues de douceur * Méthode de Tikhonov: on ne veut pas de solution instable, ce qui fait dire « on veut des solutions douces » Le terme de pénalité peut s’écrire: ici, p = Cte, c’est la solution « a priori », ou solution par défaut

Dans ce dernier cas, Δx correspond à la convolution de « x » par le masque Laplacien , Ax est la solution par défaut, c’est une version de la solution lissée par le masque MA L’important est de comprendre qu’il y a toujours une « solution a priori » et que J2 chiffre un écart entre la solution « x » et la solution « a priori ». Ici, cet écart est exprimé par une norme Euclidienne, mais il y a d’autres possibilités, à la fois: dans la façon d’exprimer cet écart dans la solution « a priori » elle-même, bien sûr.

*Une autre possibilité : la divergence de Kullback (entropie croisée)
Ici, la solution « a priori » est à nouveau une constante : p (différente de 0, sinon…), mais on peut aussi bien utiliser le « Ax » vu précédemment, ou tout autre « a priori » qui aurait la même signification (une version lissée de « x »). Il est bien clair, que toutes les divergences envisagées précédemment peuvent être utilisées. Il s’agit de chiffrer un écart entre la solution proposée et une solution « a priori ». Sans mésestimer l’importance de cet aspect du problème, on peut penser que le point le plus important est sans doute dans la formalisation du « prior »

En ce qui concerne le facteur de régularisation « μ »
Dans le cas de la reconstruction d’image, les différentes méthodes proposées pour déterminer « μ », par exemple la validation croisée « ordinaire » ou la validation croisée généralisée, conduisent à des valeurs trop fortes, la solution est trop lisse. En général, on procède par essais successifs…….

METHODES Toutes les méthodes sont fondées sur le même schéma:
1 - on propose des « candidates » solutions convenablement contraintes 2 - on teste leur qualité en évaluant la fonction objectif I - Méthodes de descente (ce sont des méthodes locales) Utilisables seulement - Si la « fonction objectif » est convexe vis à vis des paramètres inconnus Si on sait calculer le gradient de la « fonction objectif » Si on sait prendre en compte le problème des contraintes Ici, on a une « méthode simple » (une stratégie) pour proposer des « candidates » solutions

II – Méthodes par essais successifs
Ex: Recuit simulé, algorithmes génétiques Ce sont des méthodes globales, elles sont toujours utilisables, mais particulièrement adaptées si: La fonction objectif est : * Non convexe *Non différentiable *Non continue Le problème est compliqué ou impossible à résoudre analytiquement Simples à mettre en œuvre En général coûteuses en temps calcul car elles exigent pour chaque solution proposée, une simulation et une évaluation de la « fonction de coût »

Recuit simulé (Simulated annealing) (Métropolis)
1 - Déterminer (selon une procédure connue ), un paramètre qui joue le rôle de température initiale T0 2 - Choisir aléatoirement un vecteur initial des paramètres inconnus, soit Ei la fonction de coût correspondante 3 - Perturber d’une « petite quantité » l’un des paramètres et calculer la fonction de coût correspondante, soit Ef Si Ef < Ei, on accepte la nouvelle configuration Si Ef > Ei Calculer…………………………….. Comparer Z à un nombre aléatoire R tiré uniformément sur (0,1), - Si Z > R …………Accepter la perturbation - Si Z < R …………Rester dans l’état antérieur 4 - Répéter ces opérations pour que toutes les composantes du vecteur d’inconnues soient perturbées un grand nombre de fois

5 - L’examen de la courbe d’évolution du « coût » au cours des perturbations permet de stopper le processus de perturbation lorsque le coût atteint une valeur à peu près constante (Seuil). Alors, retenir le vecteur solution atteint et la valeur de la fc. de coût; ils seront utilisés comme point de départ du prochain cycle 6 - Diminuer la température, d’une quantité faible, selon une loi de décroissance fixée (plusieurs variantes) 7 - Recommencer le processus de perturbations pour cette nouvelle température. 8 - Arrêter tout lorsqu’une nouvelle diminution de température ne permet pas de faire évoluer notablement la fonction de coût Dans cette méthode, on ne fait évoluer qu’un seul vecteur solution Accepter des solutions qui ne diminuent pas la fc. de coût permet de sortir des minima locaux

Méthodes génétiques (Ex: Differential Evolution)
I – INITIALISATION: On construit une « population initiale » C’est un ensemble d’individus, i.e. de « vecteurs » contenant les paramètres inconnus II – MUTATION: On se donne une règle qui permet, pour chaque « individu », de créer un vecteur « donneur » à partir des individus III – RECOMBINAISON: Pour chaque « individu » et chaque « donneur » (1 pour 1), on choisit (suivant une règle), quels paramètres d’un « individu » sont à remplacer par leurs homologues du « donneur ». Le résultat de ces opérations est un « vecteur d’essai » IV – SELECTION : Décision (selon une règle) de remplacement d’un « individu » par le « vecteur d’essai » correspondant

La sélection étant terminée, on a obtenu la génération suivante, et on recommence…..
Question: Quand doit-on s’arrêter ? Réponse: 1 – On s’est fixé un nombre Max. de générations ???? 2 – On se fixe une règle portant sur les valeurs de la fonction de coût des individus d’une génération 3 - ………….. Il n’y a pas de démonstration de la convergence de ces méthodes. Elles sont comparées les unes aux autres sur un « banc test » de fonctions dont la solution est connue. Beaucoup de variantes qui diffèrent sur des points de détail de chacune des règles

Voilà, c’est fini Mais, …….. tout peut (doit) se discuter

DECONVOLUTION ET AUTRES

Présentations similaires

Présentation au sujet: "DECONVOLUTION ET AUTRES"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

DECONVOLUTION ET AUTRES

Présentations similaires

Présentation au sujet: "DECONVOLUTION ET AUTRES"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back