Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Classification-Segmentation
MAE TQG CAH Classification-Segmentation
2
Plan AD vers FD Classification : principes CAH : la méthode
CAH : les propriétés CAH : exemple IAE de Picardie LP
3
Base IAE de Picardie AD vs FD - LP 3 TAILLE PUIS REVENU QCSP QGEO 1,75
100000 1 1,74 6 90000 4 3 1,7 5 80000 2 1,59 9 200000 1,72 11 400000 1,5 120000 8 1,9 1,76 300000 IAE de Picardie AD vs FD - LP 3
4
Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78
Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 90 000 80 000 IAE de Picardie AD vs FD -LP 4
5
Classification-méthode -LP
DESCRIPTIF PREDICTIF DESCRIPTIF projection ACP, AFC r.l. visualisation règles RBC regroupement CAH, k-means k? typologie nuées dynamiques PREDICTIF arbre de décision cart a priori fonction math RN, régression r.l. probabiliste associations a priori lien IAE de Picardie Classification-méthode -LP
6
Classification-méthode -LP
Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) Classification-méthode -LP IAE de Picardie 6
7
Vocabulaire CLASSE/GROUPE/CLUSTER
SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE Classification/discrimination : Ne pas confondre avec la discrimination visant à expliquer une cible par une variable la plus discriminante en prévision où les classes sont prédéfinies impliquant un ensemble de règles probabilistes, exemple: déterminer la probabilité qu’un emprunteur à de rembourser IAE de Picardie Classification-méthode -LP
8
Classification-méthode -LP
IAE de Picardie Classification-méthode -LP
9
Classification-méthode -LP
ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS IAE de Picardie Classification-méthode -LP
10
HOMOGENEITE L’homogénéité de ces classes est mesurée par
une distance intraclasse leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse
11
fusionner les classes les plus proches -3arrêt: une seule classe
1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse IAE de Picardie LP
12
Cf. poly JPVillette IAE de Picardie LP
13
Outils mathématiques Partition Hiérarchie Ultramétrique Distance
. Distance Agrégation Partition Hiérarchie Ultramétrique IAE de Picardie LP
14
Distance euclidienne libellé packaging l’accroche A 2 4 B 5 C 3 D 1 E Exemple tiré de l’ouvrage de R.LEFEBURE R.VENTURI, le datamining, Eyrolles 1999
15
Partition Cf. poly JPV p.92 P d’un ensemble E P = { Ei / i=1,…k } Ei = E Ei Ej = si i j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…} , la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement . Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice est élevé, moins la partition est fine « hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. IAE de Picardie LP
16
Hiérarchie b c a d P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}}
Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P1, P2, P3 } P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} H est une hiérarchie e E , {e} H . la partition la plus fine est un objet de la hiérarchie. E H, la partition la moins fine est un objet de la hiérarchie. A, B H, alors A B { A , B , } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. IAE de Picardie LP
17
Hiérarchie indicée Diamètre d’un ensemble : H R+ A (A)
Avec (e)= 0 (E)= 1 , et A B (A) (B) L’indice associé à une hiérarchie
18
Agrégation : Principe de HUYGENS
Tout point xi est muni d’une masse mi La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS
19
agrégation : décomposition
-L’homogénéité des classes est mesurée par une distance intraclasse, leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse
20
Agrégation : perte d’inertie
x et y agrégés en une classe t , le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I
21
algorithme Etape 1: Partir d’un objet x1 quelconque
Chercher le plus proche voisin x1 x2 x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées
22
Critère de la médiane . Agrégation de x k-1 , x k
Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …. , (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont. IAE de Picardie LP
23
Critères vérifiant celui de la médiane
. dmax(A,B)= Max { d(x,y) / x A , x B } dmin(A,B)= Min { d(x,y) / x A , x B } IAE de Picardie LP 23
24
+ de variance dans les classes
L’indice de niveau est la perte d’inertie Inter IAE de Picardie LP 24
25
Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes.
26
Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib.
L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de Picardie LP
27
Effectif population n=100, répartition:
8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x x x x x5)/50=153600 revenu moyen femmes est (80000x x x x x5)/50=130500 IAE de Picardie LP
28
population Hommes 153600 Femmes 130500 population Ouv 76000 Empl 86000
Agri 96000 Cadr Pro lib IAE de Picardie LP
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.