Classification-Segmentation

Slides:



Advertisements
Présentations similaires
Regroupement (clustering)
Advertisements

Efficient Simplification of Point-Sampled Surfaces
Regroupement (clustering)
Formation en Analyse des Données
1. Les caractéristiques de dispersion. 11. Utilité.
Les classifications hiérarchiques
Equipe optimisation TempoSoft
Comparaison de plusieurs moyennes Analyse de variance
Modélisation des systèmes non linéaires par des SIFs
L ’ANALYSE MULTIDIMENSIONNELLE DES DONNEES
AGREGATION. Lagrégation de linformation est nécessaire à lune ou lautre étape de lévaluation pour: Comparer les actions (systèmes de cultures, programme.
Génération de colonnes
Lycée Louis Vincent SEANCE 6 Python Les listes Lundi 25 novembre 2013.
Analyse en Composantes Principales
Algorithmes Branch & Bound
Statistique descriptive, analyse de données
Chapitre VII. Tri Tri par tas Tri rapide.
Heuristiques A. Introduction B. Recherche d ’une branche
Groupe 1: Classes de même intervalle
La segmentation
RECONNAISSANCE DE FORMES
Séries chronologiques et prévision
III. Récursivité Principe et exemples
« Analyses descriptives multidimensionnelles »
Introduction Objet de la programmation mathématique, construction d'un modèle mathématique, problème général de programmation mathématique et classification,
Analyses typologiques
Classification automatique
Cours 3 : Classification
Outils mathématiques pour le datamining
Cours 3 : Classification
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Présentation du marché obligataire
Algorithmes Branch & Bound
Arbres binaires et tables de hachage
Sommaire Rappel introductif sur la définition de l’ACP
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
Seconde partie Cours de seconde
Sériation et traitement de données archéologiques
1 1 Huitième journée Quelques algorithmes. 2 Définition Description des tâches pour que celles-ci soient aisément programmables Différent d’une méthode.
Recherches locales et méta-heuristiques
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Sujets spéciaux en informatique I
Outils d’analyse: la méthode des moindres carrées
Knowledge discovery in Databases (KDD)
Université Farhat Abbas_setif
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Algorithme de DIJKSTRA
Analyse de données Cours 3 Analyse en composantes principales (ACP)
Vérifier les acquis La notion d’homogénéité sociale Exercice 1
Algorithmique Tableaux de données
STATISTIQUES.
Partie II : Segmentation
PIF-6003 Sujets spéciaux en informatique I
Seconde 8 Chapitre 4: Les statistiques
Distribution de la taille des aérosols
Analyse de données avec R
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
M1Management IAE Analyse de Données Classification-Segmentation.
AIDE à la DECISION Critères IAE de Picardie - LP1.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Statistiques Cours de première S. II Indicateurs de dispersion Ils permettent de caractériser la répartition des éléments autour de la moyenne ou de la.
STATISTIQUE DESCRIPTIVE
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Transcription de la présentation:

Classification-Segmentation MAE TQG CAH Classification-Segmentation

Plan AD vers FD Classification : principes CAH : la méthode CAH : les propriétés CAH : exemple IAE de Picardie LP

Base IAE de Picardie AD vs FD - LP 3 TAILLE PUIS REVENU QCSP QGEO 1,75 100000 1 1,74 6 90000 4 3 1,7 5 80000 2 1,59 9 200000 1,72 11 400000 1,5 120000 8 1,9 1,76 300000 IAE de Picardie AD vs FD - LP 3

Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 100 000 200 000 90 000 80 000 400 000 IAE de Picardie AD vs FD -LP 4

Classification-méthode -LP DESCRIPTIF PREDICTIF DESCRIPTIF projection ACP, AFC r.l. visualisation règles RBC regroupement CAH, k-means k? typologie nuées dynamiques PREDICTIF arbre de décision cart a priori fonction math RN, régression r.l. probabiliste associations a priori lien IAE de Picardie Classification-méthode -LP

Classification-méthode -LP Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) Classification-méthode -LP IAE de Picardie 6

Vocabulaire CLASSE/GROUPE/CLUSTER SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE Classification/discrimination : Ne pas confondre avec la discrimination visant à expliquer une cible par une variable la plus discriminante en prévision où les classes sont prédéfinies impliquant un ensemble de règles probabilistes, exemple: déterminer la probabilité qu’un emprunteur à de rembourser IAE de Picardie Classification-méthode -LP

Classification-méthode -LP IAE de Picardie Classification-méthode -LP

Classification-méthode -LP ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS IAE de Picardie Classification-méthode -LP

HOMOGENEITE L’homogénéité de ces classes est mesurée par une distance intraclasse leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse

fusionner les classes les plus proches -3arrêt: une seule classe 1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse IAE de Picardie LP

Cf. poly JPVillette IAE de Picardie LP

Outils mathématiques Partition Hiérarchie Ultramétrique Distance . Distance Agrégation Partition Hiérarchie Ultramétrique IAE de Picardie LP

Distance euclidienne libellé packaging l’accroche A 2 4 B 5 C 3 D 1 E Exemple tiré de l’ouvrage de R.LEFEBURE R.VENTURI, le datamining, Eyrolles 1999

Partition Cf. poly JPV p.92 P d’un ensemble E P = { Ei / i=1,…k }  Ei = E Ei Ej =  si i  j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…} , la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement . Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice  est élevé, moins la partition est fine «  hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. IAE de Picardie LP

Hiérarchie b c a d P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P1, P2, P3 } P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} H est une hiérarchie  e E , {e} H . la partition la plus fine est un objet de la hiérarchie. E  H, la partition la moins fine est un objet de la hiérarchie. A, B  H, alors A  B  { A , B ,  } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. IAE de Picardie LP

Hiérarchie indicée Diamètre d’un ensemble  : H  R+ A (A) Avec (e)= 0 (E)= 1 , et A  B  (A) (B) L’indice  associé à une hiérarchie

Agrégation : Principe de HUYGENS Tout point xi est muni d’une masse mi La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS

agrégation : décomposition -L’homogénéité des classes est mesurée par une distance intraclasse, leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse

Agrégation : perte d’inertie x et y agrégés en une classe t , le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I

algorithme Etape 1: Partir d’un objet x1 quelconque Chercher le plus proche voisin x1 x2 x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées

Critère de la médiane . Agrégation de x k-1 , x k Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …. , (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont. IAE de Picardie LP

Critères vérifiant celui de la médiane . dmax(A,B)= Max { d(x,y) / x A , x B } dmin(A,B)= Min { d(x,y) / x A , x B } IAE de Picardie LP 23

+ de variance dans les classes L’indice de niveau est la perte d’inertie Inter IAE de Picardie LP 24

Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes.

Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib. 96000 182500 86000 76000 375000 L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de Picardie LP

Effectif population n=100, répartition: 8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x8+200000x15+90000x12+80000x10+400000x5)/50=153600 revenu moyen femmes est (80000x2+165000x15+80000x8+75000x20+350000x5)/50=130500 IAE de Picardie LP

population Hommes 153600 Femmes 130500 population Ouv 76000 Empl 86000 Agri 96000 Cadr 182500 Pro lib 375000 IAE de Picardie LP