Classification-Segmentation MAE TQG CAH Classification-Segmentation
Plan AD vers FD Classification : principes CAH : la méthode CAH : les propriétés CAH : exemple IAE de Picardie LP
Base IAE de Picardie AD vs FD - LP 3 TAILLE PUIS REVENU QCSP QGEO 1,75 100000 1 1,74 6 90000 4 3 1,7 5 80000 2 1,59 9 200000 1,72 11 400000 1,5 120000 8 1,9 1,76 300000 IAE de Picardie AD vs FD - LP 3
Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 100 000 200 000 90 000 80 000 400 000 IAE de Picardie AD vs FD -LP 4
Classification-méthode -LP DESCRIPTIF PREDICTIF DESCRIPTIF projection ACP, AFC r.l. visualisation règles RBC regroupement CAH, k-means k? typologie nuées dynamiques PREDICTIF arbre de décision cart a priori fonction math RN, régression r.l. probabiliste associations a priori lien IAE de Picardie Classification-méthode -LP
Classification-méthode -LP Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) Classification-méthode -LP IAE de Picardie 6
Vocabulaire CLASSE/GROUPE/CLUSTER SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE Classification/discrimination : Ne pas confondre avec la discrimination visant à expliquer une cible par une variable la plus discriminante en prévision où les classes sont prédéfinies impliquant un ensemble de règles probabilistes, exemple: déterminer la probabilité qu’un emprunteur à de rembourser IAE de Picardie Classification-méthode -LP
Classification-méthode -LP IAE de Picardie Classification-méthode -LP
Classification-méthode -LP ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS IAE de Picardie Classification-méthode -LP
HOMOGENEITE L’homogénéité de ces classes est mesurée par une distance intraclasse leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse
fusionner les classes les plus proches -3arrêt: une seule classe 1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse IAE de Picardie LP
Cf. poly JPVillette IAE de Picardie LP
Outils mathématiques Partition Hiérarchie Ultramétrique Distance . Distance Agrégation Partition Hiérarchie Ultramétrique IAE de Picardie LP
Distance euclidienne libellé packaging l’accroche A 2 4 B 5 C 3 D 1 E Exemple tiré de l’ouvrage de R.LEFEBURE R.VENTURI, le datamining, Eyrolles 1999
Partition Cf. poly JPV p.92 P d’un ensemble E P = { Ei / i=1,…k } Ei = E Ei Ej = si i j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…} , la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement . Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice est élevé, moins la partition est fine « hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. IAE de Picardie LP
Hiérarchie b c a d P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P1, P2, P3 } P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} H est une hiérarchie e E , {e} H . la partition la plus fine est un objet de la hiérarchie. E H, la partition la moins fine est un objet de la hiérarchie. A, B H, alors A B { A , B , } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. IAE de Picardie LP
Hiérarchie indicée Diamètre d’un ensemble : H R+ A (A) Avec (e)= 0 (E)= 1 , et A B (A) (B) L’indice associé à une hiérarchie
Agrégation : Principe de HUYGENS Tout point xi est muni d’une masse mi La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS
agrégation : décomposition -L’homogénéité des classes est mesurée par une distance intraclasse, leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse
Agrégation : perte d’inertie x et y agrégés en une classe t , le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I
algorithme Etape 1: Partir d’un objet x1 quelconque Chercher le plus proche voisin x1 x2 x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées
Critère de la médiane . Agrégation de x k-1 , x k Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …. , (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont. IAE de Picardie LP
Critères vérifiant celui de la médiane . dmax(A,B)= Max { d(x,y) / x A , x B } dmin(A,B)= Min { d(x,y) / x A , x B } IAE de Picardie LP 23
+ de variance dans les classes L’indice de niveau est la perte d’inertie Inter IAE de Picardie LP 24
Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes.
Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib. 96000 182500 86000 76000 375000 L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de Picardie LP
Effectif population n=100, répartition: 8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x8+200000x15+90000x12+80000x10+400000x5)/50=153600 revenu moyen femmes est (80000x2+165000x15+80000x8+75000x20+350000x5)/50=130500 IAE de Picardie LP
population Hommes 153600 Femmes 130500 population Ouv 76000 Empl 86000 Agri 96000 Cadr 182500 Pro lib 375000 IAE de Picardie LP