Sujets spéciaux en informatique I PIF-6003
Technique d’aggrégation (clustering) Introduction Algorithme de Forgy Algorithme k-means Adaptive Resonance Technique (ART)
Introduction Lorsque nous ne pouvons définir à priori le nombre de classes Nous devons avant le design du classificateur, extraire un ensemble d’observations tirées d’une population quelconque pour ainsi déduire les sous-ensembles distincts L’aggrégation (clustering) consiste à regrouper des observations de telle façon que les observations sont semblables dans chaque groupe (agrégats)
Introduction Introduction Le but des techniques d’aggrégation est de créer un ensemble d’aggrégats (cluster) regroupant des obser-vations de mêmes caractéristiques Ces techniques cherchent alors à regrouper les ob-servations semblables Le regroupement d’observations est basée entre autre sur la notion de distance par rapport à des centroïdes (centre de masse de chaque classe) Ces techniques sont non supervisées
Algorithme d’agrégations x
Algorithme de Forgy Cet algorithme d’aggrégation prend en entrée: Les observations Le nombre de classes k Les valeurs initiales des k centroïdes Les valeurs initiales des centroïdes peuvent être choisies de façon aléatoire mais la connaissance à priori de la structure des classes peut guider leur choix
Algorithme de Forgy Initialisation des centroïdes avec les valeurs initiales FIN = FAUX TANT QUE NON FIN FAIRE POUR chaque observation FAIRE Trouver le centroïde le plus proche Placer l’observation dans l’aggrégat le plus proche FIN POUR SI aucun changement d’aggégat FAIRE FIN = VRAI SINON Calculer les nouveaux centroïdes FIN SI FIN TANT QUE
Algorithme de Forgy Trouver le centroïde le plus proche
Algorithme de Forgy Calculer les nouveaux centroïdes
Algorithme de Forgy L’algorithme de Forgy converge très lentement puisque le critère de stabilité des aggrégats est très contraignant Plus le nombre d’observations est grand plus le temps de convergence est grand Certaines versions de cet algorithme permettent de restreindre le nombre d’itérations
Algorithme k-means L’algorithme k-means est semblable à l’algorithme de Forgy Cependant, le critère d’arrêt de l’algorihme k-mean est basé sur la stabilité des moyennes Son taux de convergence est plus rapide
Algorithme k-means Initialisation des centroïdes avec les valeurs initiales FIN = FAUX TANT QUE NON FIN FAIRE POUR chaque observation FAIRE Trouver le centroïde le plus proche Placer l’observation dans l’aggrégat le plus proche FIN POUR SI aucun changement des valeurs des centroïdes FAIRE FIN = VRAI SINON Calculer les nouveaux centroïdes FIN SI FIN TANT QUE
Algorithme k-means (illustration de la convergence)
Algorithme k-means (illustration de la convergence)
ART x
ART Algorithme d’apprentissage non supervisé capable d’apprendre à reconnaître un vecteur qu’on lui présente en fonction des catégories qu’il construit lui-même. Il auto-organise les catégories et en crée quand cela lui semble nécessaire. Le principe de cette méthode est simple : Chaque vecteur (neurone) est présenté à une base d’apprentissage pour ensuite être comparé aux choix de celle-ci. Si un neurone s’y apparente (c'est-à-dire que le calcul de la différence le séparant de celui de la base est inférieur à un certain taux), il est choisi Sinon, on ajoute celui-ci comme choix futur dans la base d’apprentissage.
ART Algorithme