RECONNAISSANCE DE FORMES

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

RECONNAISSANCE DE FORMES IAR-6002

Appproches statistiques de la classification Introduction Théorème de Bayes Frontières de décisions Caractéristiques multiples Frontière de décision multidimensionnelles Frontières de décision d-dimensionnelle en notation matricielle Estimation des taux d’erreurs

Introduction Beaucoup d’applications en reconnaissance de formes (RF) utilisent des techniques de classifi-cation basées sur des modèles statistiques Ces modèles requièrent l’utilisation de paramè-tres descriptifs devant être estimés à partir des données disponibles En RF automatique, l’apprentissage supervisé (supervised learning) permet le design d’un classificateur

Introduction De plus, l’entraînement du classificateur est basé sur un ensemble (training set) de caractéristi-ques descriptives de chaque classe connue per-mettant la création des critères de discrimination Les critères de discrimination servent par la suite pour classer des observations (sample) dont nous voulons connaître la classe d’apparte-nance

Introduction Lorsque nous ne connaissons pas la forme des densités de probabilité (pdf) nous devons utiliser des techniques non-paramétriques (nonparametric classification) (ex: estimation de densité) D’autres méthodes permettent de regrouper des ensembles d’objets (clusters) en fonction de mesures de similarité et ce sans connaissance à priori des classes d’appartenance (unsupervised learning)

Introduction Avec la classification paramétrique (parametric classification) nous connaissons la forme géné-rale des pdf de chaque classe Les paramètres des pdf (moyenne et variance) ne sont pas connus Avant d’utiliser les pdf, il faut d’abord estimer les valeurs de ces paramètres

Introduction Généralement, le but des procédures de classifi-cation est d’estimer les probabilités qu’une observation (sample) à classer appartienne aux diverses classes Le classificateur choisi alors la classe la plus vraisemblable

Théorème de Bayes Un classificateur basé sur le théorème de Bayes choisi la classe d’appartenance la plus vraisem-blable d’une observation à classer La probabilité d’appartenance à une classe est calculée à partir du théorème de Bayes La probabilité jointe qu’une observation provienne d’une classe C avec comme valeur caractéristique x est donnée par

Théorème de Bayes Le théorème de Bayes s’écrit alors

Théorème de Bayes Lorsque les classes d’appartenance C1, C2, …..,Ck sont indépendantes au sens statistique (évènements mutuellement exclusifs) Le théorème de Bayes pour la classe C=Ci devient

Frontières de décision Nous pouvons aussi faire le design du classifica-teur en créant des régions ceinturées par des frontières Chaque région représente l’intervalle des valeurs de x associé à chaque classe Pour une observation x donnée, le classificateur détermine à quelle région Ri appartient l’obser-vation et associe x à la classe correspondant à la région Ri

Frontières de décision Le positionnement optimal des frontières permet de subdiviser l’espace des caractéristiques en régions R1, …,Rk de telle façon que le choix de la classe Ci est plus vraisemblable pour les valeurs x dans la région Ri que dans toute autre région

Frontières de décision Calculer la frontière de décision entre 2 classes A et B

Frontières de décision Pour calculer la frontière de décision entre 2 classes A et B nous supposons au préalable que les pdf sont continues et se chevauchent donnant

Frontières de décision Si les valeurs des caractéristiques x pour chaque classe A et B suivent une loi normale

Frontières de décision En simplifiant nous obtenons Nous pouvons alors déduire une fonction discri- minante de la forme

Frontières de décision Les règles de décision (classification) devien-nent SI D = 0 classer x dans A ou B SI D > 0 classer x dans B SI D < 0 classer x dans A

Frontières de décision La dernière égalité est quadratique selon x et peut avoir 1 racine réelle, 2 racines réelles ou aucune racine Lorsque les variances sont égales (A=B), l’expression quadratique devient linéaire avec alors une seule racine réelle

Caractéristiques multiples Lorsque nous supposons l’indépendance des carac-téristiques pour une même classe Cj, la probabilité d’occurrence du vecteur x est déduite par

Caractéristiques multiples Le théorème de Bayes multidimentionnel donne

Caractéristiques multiples Avec des distributions normales multivariées la probabilité d’occurrence conditionnelle du vecteur x devient

Frontières de décision multidimentionnelles Si nous avons 2 caractéristiques x1 et x2, la frontière de décision optimale entre 2 classes Ci et Cj est donnée par

Frontières de décision multidimentionnelles La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques est déduite par

Frontières de décision multidimentionnelles La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques

Frontières de décision multidimentionnelles Après simplification nous obtenons la frontière donnée par

Frontières de décision multidimentionnelles Sur la frontière La fonction discriminante est donnée par

Frontières de décision multidimentionnelles Les règles de décision (classification) devien-nent SI D = 0 classer l’observation dans C1 ou C2 SI D > 0 classer l’observation dans C1 SI D < 0 classer l’observation dans C2

Frontières de décision multidimentionnelles La frontière optimale entre 2 classes normales bivariées avec des valeurs des caractéristiques corrélées est déduite par

Frontières de décision multidimentionnelles La pdf jointe bivariée associée à chaque classe prend la forme

Frontières de décision multidimentionnelles Nous pouvons alors déduire les probabilités conditionnelles Sachant que sur la frontière En prenant le logarithme naturel de chaque côté

Frontières de décision multidimentionnelles Après simplifications nous obtenons la frontière donnée par Classes avec la même variance et corrélation

Frontières de décision multidimentionnelles La fonction discriminante devient dans ce cas Les règles de décision (classification) deviennent

Frontières de décision d-dimensionnelle en notation matricielle Si nous avons k classes et d caractéristiques, nous pouvons représenter les moyennes des caractéristiques de chaque classe Ci par un vecteur de moyennes

Frontières de décision d-dimensionnelle en notation matricielle Les variances et covariances des caractéristi-ques de chaque classe Ci sont représentées par une matrice Cette matrice est symétrique La variance de chaque caracté- ristique est sur la diagonale

Frontières de décision d-dimensionnelle en notation matricielle Le théorème de Bayes stipule qu’une observa-tion x ou x est un vecteur de caractériatiques est classée dans Ci qui maximise

Frontières de décision d-dimensionnelle en notation matricielle Le numérateur de l’expression précédente peut s’écrire En prenant le logarithme et multipliant par -2 nous pou- vont choisir la classe qui minimise

Frontières de décision d-dimensionnelle en notation matricielle Nous pouvons alors déduire une distance géné-ralisée Pour trouver la frontière entre 2 classes Ci et Cj nous devons trouver l’intersection par

Frontières de décision d-dimensionnelle en notation matricielle Sachant que La frontière entre les classes Ci et Cj devient

Frontières de décision d-dimensionnelle en notation matricielle De plus, si les matrices de covariances sont égales pour chaque classe

Frontières de décision d-dimensionnelle en notation matricielle L’hyperplan bTx = c est une frontière de décision linéaire qui peut aussi prendre la forme d: nombre de caractéristiques

Frontières de décision d-dimensionnelle en notation matricielle Une somme pondérée des matrices de covariance (pooled) donne une estimation non biaisée de la vraie covariance lorsqu’elles sont supposées égales pour toutes les classes ni: nombre d’observations de Ci N: nombre total d’observations k: nombre de classes i: Estimation non biaisée de la covariance de Ci

Frontières de décision d-dimensionnelle en notation matricielle i est estimée à partir des données d’entraînement par S est un estimateur non biaisé de 

Frontières de décision d-dimensionnelle en notation matricielle Si nous considérons un cas bidimensionnel avec 3 classes (k=3) avec une probabilité a priori uni-forme de 1/3

Frontières de décision d-dimensionnelle en notation matricielle Les pdf de P(Ci)p(x|Ci) de chaque classe

Frontières de décision d-dimensionnelle en notation matricielle Les fonctions discriminantes (Bayes rules) sont

Frontières de décision d-dimensionnelle en notation matricielle Les frontières de décisions sont

Frontières de décision d-dimensionnelle en notation matricielle Diagramme de dispersion de 1000 observa-tions

Frontières de décision d-dimensionnelle en notation matricielle Autre exemple de classification d-dimensionnelle IR R G B

Frontières de décision d-dimensionnelle en notation matricielle Autre exemple de classification d-dimensionnelle 1: Végétation 2: Rivière 3: Haie 4: Tributaire 5: Étang

Frontières de décision d-dimensionnelle en notation matricielle Autre exemple de classification d-dimensionnelle (résultat) Zones importantes: Sols nus Végétation Eau

Estimation des taux d’erreurs (model-based) La probabilité d’erreur de classification des obser-vations de la classe Ci correspond à la probabilité que x soit hors de la région d’appartenance Ri de Ci et est donnée par

Estimation des taux d’erreurs (model-based) Les probabilités d’erreur de classification de chaque classe Ci

Estimation des taux d’erreurs (model-based) La probabilité d’erreur totale est déduite à partir de la probabilité de bonne classification

Estimation des taux d’erreurs (model-based) Pour l’exemple précédent, la frontière de décision est placée à x=45. Alors si x>45 x est classé dans B sinon dans A. La probabilité d’erreur est

Estimation des taux d’erreurs (comptage simple) Comptage du nombre d’erreurs de classification du classificateur à partir d’un échantillons d’objets test de classification connue L’échantillon test doit être différent de celui utilisé pour construire le classificateur La probabilité d’erreur est estimée par k: nombre d’erreurs de classification n: nombre d’observations

Estimation des taux d’erreurs (comptage simple) La probabilité d’erreur estimée ne sera générale-ment pas égale à la vraie probabilité d’erreur La probabilité que k erreurs de classification surviennent dans n observations est donnée par la distribution binomiale

Estimation des taux d’erreurs (comptage simple) Si P(E) était connue, P(k) peut être calculée pour chaque valeur de k et nous pouvons alors déduire un intervalle de confiance dans lequel k tombe avec une probabilité donnée (95 %) Si P(E) = 0.2, et n = 10, alors k = 2 en moyenne, mais k peut prendre d’autres valeurs proches de 2 Nous cherchons alors l’intervalle dans lequel k tombe 95 % du temps

Estimation des taux d’erreurs (comptage simple) Si l’intervalle est symétrique, alors 5 % des probabilités sont à l’extérieur de l’intervalle (2.5 5 de chaque côté de nP(E) Si P(E)=0.2, les probabilités d’avoir k = 0..10 sont approximativement 0.11, 0.27, 0.30, 0.2, 0.09, 0.03, 0.0, 0.0, 0.0, 0.0, 0.0 L’intervalle [0,4] n’est pas symétrique mais comporte 97 % des probabilités Alors nous pouvons prévoir, que k sera dans l’in-tervalle [0,4] plus que 95 % du temps (P(E) = 0.2)

Estimation des taux d’erreurs (comptage simple) Cependant, P(E) est inconnue, nous ne connaissons que k et n Cherchons alors un intervalle de confiance pour P(E), celui contenant la vraie valeur de P(E) 95 % du temps étant donné k et n Si n=10 et k=2, par essai et erreur nous pouvons déduire que si P(E)=0.5561, P(k<=2) = 2.5 %

Estimation des taux d’erreurs (comptage simple) P(k<=2) est donné par  Si P(E) > 0.5561, P(k<=2) < 0.025 alors k=2 est hors de l’intervalle pour un classificateur avec P(E) > 0.5561  Si P(E) <= 0.0252, P(k>=2) <= 0.025  Alors l’intervalle [0.0252,0.5561] est un intervalle de confiance de 95 % pour P(E)