E-Motion Group ©2007 1 Olivier Aycard (E. Gaussier) Université Joseph Fourier Méthodes de classification.

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

Coupe de France de Robotique 2007 Candidat n°4 – Steven LY BTS IRIS – PROMOTION
Apprentissage spectral
Département Édition - Intégration SEMINAIRE SOA Migration du canal Esup MonDossierWeb Olivier Ziller / Charlie Dubois Université Nancy 2 16 octobre 2007.
Licence 2 Option de découverte (1L4INJM) APPLICATIONS INFORMATIQUES POUR LINTERACTION HOMME-ROBOT Responsable : Julien PINQUIER
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Fonctions & procédures
Regroupement (clustering)
Image et apprentissage
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Couleur – Vision – Image partie 1 : comment l’œil fonctionne-t-il ?
Réunion IA /06/2008 UTILISATION DES HORAIRES DECALES.
Module d’Enseignement à Distance pour l’Architecture Logicielle
Application de réseaux bayésiens à la détection de fumées polluantes
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Journées Composants 2005 Gestion de la qualité de service de la conception à l’exécution dans les applications distribuées multimédias Sophie Laplace.
Notions de poids et de masse
Le remplacement moléculaire
Reconnaissance d’objets par SVM et descripteurs de Fourier
Répondre aux questions suivantes :
Système déducation des éducateurs des adultes Projet du FSE, priorité 3.2: Support de l'éducation supérieure, de la recherche et du développement Enregistré
Coupe de France de Robotique 2007 Candidat n°4 – Steven LY BTS IRIS – PROMOTION
Chapitre 4 Les échelles.
Travail du médecin généraliste en montagne. Etude et analyse du temps des actes de traumatologie, et des facteurs influençant ce paramètre dans 11 stations.
Concepts avancés en mathématiques et informatique appliquées
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Mesure et suivi de la sténose carotidienne
Auto-organisation dans les réseaux ad hoc
Support Vector Machine
Classification Multi Source En Intégrant La Texture
Éducation en Pologne.
L’Indicateur du Développement Humain (IDH) du PNUD
Méthode des k plus proches voisins
Nombres entiers. Ensembles de nombres
La segmentation
RECONNAISSANCE DE FORMES
Chaîne logistique : - Approvisionnement - Stocks
19 février 2002 marketing - Danielle Léger 1 Réalisation : Danielle Léger Travail produit dans le cadre du cours EDU-7492 Réalisation : Danielle Léger.
DEA Perception et Traitement de l’Information
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
MINES Mission Numérique pour lEnseignement Supérieur Séminaire national C2i niveau 2 Métiers du Droit Université de Lille 16 décembre 2010.
Détection de défaillances pour les grilles
Module d’Enseignement à Distance pour l’Architecture Logicielle
Les maîtrises professionnelles De nouveaux modes de réussite aux cycles supérieurs Présenté par Salim Laaroussi, président du CNCS Conseil national des.
1 Protection des arbres multicast avec une forêt duale Mohand Yazid SAIDI Bernard COUSIN Miklós MOLNÁR 15 Février 2006.
Les Algorithmes de Tri Introduction Tri par Sélection
L ABORATOIRE d I NGÉNIERIE des S YSTÈMES A UTOMATISÉS EA 4014 – Université dAngers Institut des Sciences et Techniques de lIngénieur dAngers Master2 Recherche.
Initiation à la conception des systèmes d'informations
Université Laval, Faculté de médecine Journée annuelle de l enseignement 21 avril 2011 Marie-Paule Desaulniers, Ph.D. Réflexions sur la qualité de la relation.
Interprétation automatique
CHAPITRE 3 LE THÉORÈME DE GAUSS.
IFT6255 – Recherche d’information Jian-Yun Nie
Aide à la lecture critique d’une publication Malinovsky et coll. Ann Fr Anesth Réanim 2000;19:
Introduction à la reconnaissance:
Concours après MPSI et PCSI
Fabienne BUSSAC STATISTIQUES 1. VOCABULAIRE
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Arbres binaires et tables de hachage
Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Classification de données par l’algorithme FPSO-GA
Reconnaissance de chiffres manuscrits
Sujets spéciaux en informatique I
Recherche de motifs par projections aléatoires
En Algérie. Ce Qu’il faut savoir l’Algérie a donc rejoint graduellement ce courant de rénovation de l’enseignement supérieur qui devient presque universel:
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Transcription de la présentation:

e-Motion Group © Olivier Aycard (E. Gaussier) Université Joseph Fourier Méthodes de classification : Partitionnement des données

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Introduction On suppose maintenant quon ne connaît pas les classes auxquelles appartiennent les données (contrairement aux méthodes de catégorisation) : –Méthode de classification –Apprentissage non supervisé On veut répartir les données en K classes disjointes Il faut une représentation pour chaque classe Il faut trouver une méthode pour classifier les données

e-Motion Group © Introduction On veut répartir les étudiants en 2 classes en fonction de leur note

e-Motion Group © Introduction On veut répartir les étudiants en 2 classes en fonction de leur note Les étudiants dont la note est inférieure ou égale à 7 (ou 8, 9, 10) et les étudiants dont la note est supérieure à 7 (ou 8, 9, 10)

e-Motion Group © Introduction On veut répartir les étudiants en 2 classes en fonction de leur note Les étudiants dont la note est comprise entre 3 et 7 et les étudiants dont la note est comprise entre 11 et 16

e-Motion Group © Introduction On veut répartir les étudiants en 2 classes en fonction de leur note On a un nouvel étudiant dont la note est 9 Comment va-t-on le classer ?

e-Motion Group © Introduction On veut répartir les étudiants en 2 classes en fonction de leur note La classe détudiants dont la moyenne est de 5,40 et la classe détudiants dont la moyenne est de Un étudiant avec une note de 9 fait partie de la 1 ère classe

e-Motion Group © Introduction On veut maintenant répartir les étudiants en 3 classes en fonction de leur note

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Notion de distance ou métrique Pour partitionner des données, il faut pouvoir mesurer la distance entre 2 points (ou entre un point et une classe) (distance euclidienne) (distance de Manhattan) Ce sont les 2 distances les plus simples et les plus utilisés Le choix de la distance influence la répartition des points Les « meilleures » distances sont souvent dépendantes du problème étudié (cf. TP)

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Principe du partitionnement Répartir les N points en K classes disjointes Chaque point est affecté à la classe la plus proche Chaque classe est représentée par un point µ i (appelé le centre de gravité de la classe) avec 1<= i <= K Il faut trouver les K points représentants les classes Problème de minimisation

e-Motion Group © Exemple de partitionnement Reprenons notre exemple de partitionnement des étudiants en fonction de leur note On choisit deux classes : µ 1 = 3 et µ 1 = 14 On répartit les étudiants en fonction de la distance entre leur note et chaque classe

e-Motion Group © Exemple de partitionnement µ 1 = 3 et µ 2 = 14

e-Motion Group © Exemple de partitionnement µ 1 = 4 et µ 2 = 12 µ 1 = 4 et µ 1 = 12 partitionnent mieux les données que µ 1 = 3 et µ 1 = 14

e-Motion Group © Exemple de partitionnement Pour trouver le meilleur partitionnement, il faut calculer D (i,j) pour tous les couples (i, j) avec 0 <= i, j <= 20 Il y a 21 2 couples possibles Si on voulait partitionner les étudiants en 5 classes, il faudrait tester 21 5 (4x10 6 ) quintuplets possibles Dans le cas général, une approche exhaustive est à proscrire En plus, on se restreint à des valeurs entières pour représenter les classes On utilise lalgorithme des k-moyennes

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Algorithme des k moyennes Initialiser µ 1, …, µkµk Répéter Pour chaque classe µi,µi, recalcul du centre de gravité µi µi = Tant que Δ µ > ε Pour chaque donnée xj xj avec 1 <= j N, affectation à la classe i la plus proche : Ci Ci = min i d(x j, µi)µi) Complexité : O(KNI) avec I : nombre ditérations

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 2 classes Initialisation : µ 1 = 3 et µ 2 = 14 Affectation des données aux 2 classes Recalcul des centres de gravité

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 2 classes 2ème itération : µ 1 = 5.39 et µ 2 = Affectation des données aux 2 classes Recalcul des centres de gravité

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 3 classes Initialisation : µ 1 = 1, µ 2 = 6 et µ 3 = 9 Affectation des données aux 3 classes Recalcul des centres de gravité

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 3 classes 2 ème itération : µ 1 = 3, µ 2 = 5.89 et µ 3 = Affectation des données aux 3 classes Recalcul des centres de gravité

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 3 classes (autres valeurs initiales pour les centres de gravité) Initialisation : µ 1 = 0, µ 2 = 6 et µ 3 = 18 Valeurs finales des centres de gravité Affectation des données aux 3 classes

e-Motion Group © Exemple de lalgorithme des k-moyennes pour 3 classes (autres valeurs initiales pour les centres de gravité) : encore !!! Initialisation : µ 1 = 0, µ 2 = 10 et µ 3 = 20 Valeurs finales des centres de gravité Affectation des données aux 3 classes

e-Motion Group © Répartition des étudiants en 3 classes (résumé) Selon les valeurs initiales des centres de gravité, on obtient : On a des problèmes de minimums locaux : 2 minimums locaux et 1 minimum global En pratique, les 3 valeurs obtenues sont « utilisables »

e-Motion Group © Problème de maximums locaux Selon les valeurs initiales des centres de gravité, on obtient une répartition différente des données dans les classes Comment obtenir la meilleure répartition ? 2 solutions possibles : 1.On exécute lalgorithme k-moyenne n fois en choisissant aléatoirement les centres de gravité; On prend les centres de gravités qui minimisent D. 2.On exécute lalgorithme k-moyenne n fois en choisissant aléatoirement les centres de gravité; On regroupe les données qui se retrouvent toujours dans les mêmes classes (forme forte); On calcule les centres de gravités de ces classes; On exécute lalgorithme k-moyenne avec ces centres de gravités. Aucun de ces 2 algorithmes nassure de trouver le minimum global En pratique, lalgorithme des formes fortes donne de bons résultats

e-Motion Group © Exemple de lalgorithme des formes fortes(1/2) On exécute lalgorithme des k-moyennes 5 fois avec des centres de gravité choisis aléatoirement On obtient : 2 fois2 fois1 fois On a 4 formes fortes: µ 1 = 3.66, µ 2 = 6.73, µ 3 = et µ 4 = 15.09

e-Motion Group © Exemple de lalgorithme des formes fortes(2/2) On choisit 3 centres de gravités parmi les 4 formes fortes, on a 4 possibilités : 1.µ 1 = 3.66, µ 2 = 6.73 et µ 3 = µ 1 = 3.66, µ 2 = 6.73 et µ 3 = µ 1 = 3.66, µ 2 = et µ 3 = µ 1 = 6.73, µ 2 = et µ 3 = On obtient :

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Choix du nombre de classes(1/2) Lalgorithme K-moyennes suppose que le nombre de classes est fixée En pratique, on veut souvent déterminer le nombre de classes dans lesquelles on va répartir les données On peut mesurer si un nombre donné de classes est « correct » : –on veut que les données appartenant à une même classe soit le plus proche les unes des autres –la variance des données dune même classe doit être faible : on appelle aussi cela linertie intra classe –cest en fait ce que fait lalgorithme k-moyennes Plus on a de classes, plus la variance est faible : il suffit donc davoir beaucoup de classes !!! K D

e-Motion Group © Choix du nombre de classes(2/2) Il faut aussi prendre en compte la distance entre les classes : la distance entre les classes doit être la plus grande possible La distance entre les classes est aussi appelé linertie inter classe Elle se calcule en mesurant la variance des centres de gravité de chaque classe par rapport au centre de gravité de lensemble des données Il faut maximiser la distance entre les classes et minimiser la distance entre les données dune même classe Dans notre exemple, on pourra choisir K=4 K Variance intra classe Variance inter classe

e-Motion Group © Plan du cours Introduction Distance ou métrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problème de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion

e-Motion Group © Conclusion (1) On cherche à répartir un ensemble de N données en K classes Les données ne sont pas étiquetées –Apprentissage non supervisé –Méthode de classification Lalgorithme des k-moyennes répartit les N données en K classes en minimisant la distance entre les données de chaque classe et le centre de gravité de la classe correspondante Lalgorithme des K-moyennes est un algorithme itératif qui part dune valeur initiale pour chaque centre de gravité et laméliore itérativement –Il trouve un minimum local dans lensemble des centres de gravité

e-Motion Group © Conclusion (2) Lalgorithme des formes fortes permet de trouver de « bonnes » valeurs pour les valeurs initiales des centres de gravité Pour trouver le nombre de classes K pour répartir un ensemble de N données, on cherche à maximiser la distance entre les classes (i.e. linertie inter classe) et à minimiser la distance entre les données dune même classe (i.e. linertie intra classe) Il nous faut une distance/mesure pour répartir les données Il existe dautres méthodes de classification : modèles de mélanges (généralisation de lalgorithme k-moyennes)