La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

RECONNAISSANCE DE FORMES IAR-6002. Techniques daggrégation (clustering) u Introduction u Aggrégation hiérarchique –Méthode UPGMA –Méthode de Ward u Algorithme.

Présentations similaires


Présentation au sujet: "RECONNAISSANCE DE FORMES IAR-6002. Techniques daggrégation (clustering) u Introduction u Aggrégation hiérarchique –Méthode UPGMA –Méthode de Ward u Algorithme."— Transcription de la présentation:

1 RECONNAISSANCE DE FORMES IAR-6002

2 Techniques daggrégation (clustering) u Introduction u Aggrégation hiérarchique –Méthode UPGMA –Méthode de Ward u Algorithme de Forgy u Algorithme k-means u Algorithme Isodata

3 Introduction u Lorsque nous ne pouvons définir à priori le nombre de classes u Nous devons avant le design du classificateur, extraire un ensemble dobservations tirées dune population quelconque pour ainsi déduire les sous- ensembles distincts u Laggrégation (clustering) consiste à regrouper des observations de telle façon que les observations sont semblables dans chaque groupe (agrégats)

4 Introduction u Le but des techniques daggrégation est de créer un ensemble daggrégats (cluster) regroupant des obser- vations de mêmes caractéristiques u Ces techniques cherchent alors à regrouper les ob- servations semblables u Le regroupement dobservations est basée entre autre sur la notion de distance par rapport à des centroïdes (centre de masse de chaque classe) u Ces techniques sont non supervisées

5 Aggrégation hiérarchique u Laggrégation hiérarchique consiste à regrouper des observations dans de gros regroupements contenant de plus petits groupements hiérarchiquement ratta- ché au groupement plus gros u Cette technique daggrégation peut être représenté par un arbre. Le plus petit regroupement se trouve au bas de larbre, chaque observation est en elle- même un aggrégat

6 Aggrégation hiérarchique u Si à un niveau L de larbre donné, un aggrégat contient un ensemble dobservations donné, cet ensemble se retrouveras dans les niveaux supérieurs de larbre u Ces techniques daggrégations sont soient agglomé- rante si larbre est construit du bas vers le haut et divisible si construit du haut vers le bas

7 Aggrégation hiérarchique (Techniques agglomérantes) u Algorithmes dagglomération 1- Commencer avec n (observations) aggrégats 2- Répéter létape 3, n-1 fois (n: nombre daggrégats du niveau L courant) 3- Trouver la paire daggrégats la plus semblable C i et C j et regrouper C i et C j dans le même aggrégat. Si il y a égalité, regrouper la première paire trouvée

8 Aggrégation hiérarchique (Méthode UPGMA) u La technique de liaison-moyenne (UPGMA) est basée sur lutilisation dune distance entre deux aggrégats découlant de la distance moyenne entre un point dans un aggrégat et un point dans lautre aggrégat. Si C i est un aggrégat avec n i éléments et C j un aggrégat avec n j éléments, la distance entre C i et C j est donnée par

9 Aggrégation hiérarchique (Méthode UPGMA, Exemple)

10 Aggrégation hiérarchique (Méthode de Ward) u La méthode de Ward consiste à regrouper la paire daggrégats produisant la plus petite erreur quadratique de lensemble des aggrégats résultants u Si un aggrégat contient m observations x 1, x 2,...., x m ou x i est le vecteur de caractéristiques (x i1,...,x id ), lerreur quadratique de lobservation x i (distance Euclidienne par rapport à la moyenne) est

11 Aggrégation hiérarchique (Méthode de Ward) u Lerreur quadratique pour tout un aggrégat est = ( 1,...., d ) 2 =( 2 1,....., 2 d ) Centroïdes

12 Aggrégation hiérarchique (Méthode de Ward, Exemple)

13 Algorithme de Forgy u Cet algorithme daggrégation prend en entrée: –Les observations –Le nombre de classes k –Les valeurs initiales des k centroïdes u Les valeurs initiales des centroïdes peuvent être choisies de façon aléatoire mais la connaissance à priori de la structure des classes peut guider leur choix

14 Algorithme de Forgy Initialisation des centroïdes avec les valeurs initiales FIN = FAUX TANT QUE NON FIN FAIRE POUR chaque observation FAIRE Trouver le centroïde le plus proche Placer lobservation dans laggrégat le plus proche FIN POUR SI aucun changement daggégat FAIRE FIN = VRAI SINON Calculer les nouveaux centroïdes FIN SI FIN TANT QUE

15 Algorithme de Forgy u Trouver le centro ï de le plus proche

16 Algorithme de Forgy u Calculer les nouveaux centro ï des

17 Algorithme de Forgy u Lalgorithme de Forgy converge très lentement puisque le critère de stabilité des aggrégats est très contraignant u Plus le nombre dobservations est grand plus le temps de convergence est grand u Certaine versions de cet algorithme permettent de restreindre le nombre ditérations

18 Algorithme k-means u Lalgorithme k-means est semblable à lalgorithme de Forgy u Cependant, le critère darrêt de lalgorihme k- mean est basé sur la stabilité des moyennes u Son taux de convergence est plus rapide

19 Algorithme k-means Initialisation des centroïdes avec les valeurs initiales FIN = FAUX TANT QUE NON FIN FAIRE POUR chaque observation FAIRE Trouver le centroïde le plus proche Placer lobservation dans laggrégat le plus proche FIN POUR SI aucun changement des valeurs des centroïdes FAIRE FIN = VRAI SINON Calculer les nouveaux centroïdes FIN SI FIN TANT QUE

20 Algorithme k-means (illustration de la convergence)

21

22 Algorithme Isodata u Comme les 2 autres algorithmes, Isodata permet de mini- miser lerreur quadratique en associant chaque observa- tion au centro ï de le plus proche u Isodata permet de traiter un nombre daggrégats variables pouvant aller au delà du nombre introduit par lusager u Isodata élimine les aggrégats avec trop peu déléments u Isodata peut regrouper des aggrégats si le nombre daggré- gats est trop grand ou certains aggrégats sont trop proches u Un aggrégat peut être divisé si le nombre daggrégats est trop petit ou si laggrégat contient des éléments dissem- blables

23 Algorithme Isodata u Paramètres dentrées –Nombre daggrégats –Nombre minimum déléments par aggrégat –Distance minimale entre chaque aggrégat –Paramètre de contrôle des subdivisions daggrégat –Nombre ditérations dans la première phase de lalgorithme –Nombre maximum de regroupements par itération –Nombre ditérations maximun dans le corps de lalgorith- me

24 Algorithme Isodata Initialisation des centroïdes finISO = FAUX nbiterISO = 0 TANT QUE NON finISO ET nbiterISO < iter_body FAIRE finF = FAUX nbiterF = 0 TANT QUE NON finF ET nbiterF < iter_start FAIRE POUR chaque observation FAIRE Trouver le plus proche aggrégat Insérer lobservation dans laggrégat le plus proche FIN POUR Calculer les nouveaux centroïdes SI aucune observation change daggrégat ALORS finF = VRAI FINSI nbiterF = nbiterF + 1 FIN TANT QUE

25 Algorithme Isodata Éliminer les aggrégats avec pas assez déléments et aussi les éléments eux-mêmes SI nb aggrégat >= 2 * no_cluster OU nbiterISO est paire ALORS nbmerge = 0 TANT QUE nbmerge < max_merge FAIRE SI la distance entre 2 centroïdes < min_dist ALORS /* AGGRÉGATION */ Regrouper ces 2 aggrégats Mise à jour des centroïdes FIN SI nbmerge = nbmerge + 1 FIN TANT QUE SINON SI nb aggrégat <= no_cluster/2 OU nbiterISO est impaire ALORS SI un aggrégat existe avec x a > split_size * x ALORS /* SUBDIVISION */ Calculer la moyenne de x de laggrégat Subdiviser laggrégat en 2 par rapport à la moyenne de x Calculer les 2 centroïdes

26 Algorithme Isodata SINON SI nb aggrégat <= no_cluster/2 OU nbiterISO est impaire ALORS SI un aggrégat existe avec x a > split_size * x ALORS /* SUBDIVISION */ Calculer la moyenne de x de laggrégat Subdiviser laggrégat en 2 par rapport à la moyenne de x Calculer les 2 centroïdes SI distance entre les 2 centroïdes >= 1.1 * min_dist ALORS Remplacer laggrégat par 2 aggrégats SINON Garder laggrégat inchangé FIN SI SINON SI aucun changement daggrégatdans la dernière itération globale ALORS finISO = VRAI FIN SI nbiterISO = nbiterISO + 1 FIN SI FIN TANT QUE

27 Algorithme Isodata (exemple) u Image digitalisée dun X avec comme vecteur de caracté- ristiques (4, 10, 10, 4, 10, 9, 11, 9)

28 Algorithme Isodata (exemple) u Lalgorithme Isodata est appliqué à 45 images (15 par lettres) avec comme paramètres: no_clusters = 4 min_elements = 8 min_dist = 2.5 split_size = 0.5 iter_start = 5 max_merge = 1 iter_body = 3

29 Algorithme Isodata (exemple) u A la fin, lalgorithme Isodata donne comme résultat de classification Classe # dans aggrégat 1 # dans aggrégat 2 # dans aggrégat 3 # dans aggrégat 4 8OX8OX

30 Algorithme Isodata (exemple) u Diagrammes de dispersion


Télécharger ppt "RECONNAISSANCE DE FORMES IAR-6002. Techniques daggrégation (clustering) u Introduction u Aggrégation hiérarchique –Méthode UPGMA –Méthode de Ward u Algorithme."

Présentations similaires


Annonces Google