La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification-Segmentation

Présentations similaires


Présentation au sujet: "Classification-Segmentation"— Transcription de la présentation:

1 Classification-Segmentation
MAE TQG CAH Classification-Segmentation

2 Plan AD vers FD Classification : principes CAH : la méthode
CAH : les propriétés CAH : exemple IAE de Picardie LP

3 Base IAE de Picardie AD vs FD - LP 3 TAILLE PUIS REVENU QCSP QGEO 1,75
100000 1 1,74 6 90000 4 3 1,7 5 80000 2 1,59 9 200000 1,72 11 400000 1,5 120000 8 1,9 1,76 300000 IAE de Picardie AD vs FD - LP 3

4 Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78
Agriculteurs Cadres moyens ouvriers employés professions lib. taille m 1.75 1.78 1.74 1.70 1.72 Puissance véhicule 7 9 6 5 11 revenu F 90 000 80 000 IAE de Picardie AD vs FD -LP 4

5 Classification-méthode -LP
DESCRIPTIF PREDICTIF DESCRIPTIF projection ACP, AFC r.l. visualisation règles RBC regroupement CAH, k-means k? typologie nuées dynamiques PREDICTIF arbre de décision cart a priori fonction math RN, régression r.l. probabiliste associations a priori lien IAE de Picardie Classification-méthode -LP

6 Classification-méthode -LP
Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) Classification-méthode -LP IAE de Picardie 6

7 Vocabulaire CLASSE/GROUPE/CLUSTER
SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE Classification/discrimination : Ne pas confondre avec la discrimination visant à expliquer une cible par une variable la plus discriminante en prévision où les classes sont prédéfinies impliquant un ensemble de règles probabilistes, exemple: déterminer la probabilité qu’un emprunteur à de rembourser IAE de Picardie Classification-méthode -LP

8 Classification-méthode -LP
IAE de Picardie Classification-méthode -LP

9 Classification-méthode -LP
ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS IAE de Picardie Classification-méthode -LP

10 HOMOGENEITE L’homogénéité de ces classes est mesurée par
une distance intraclasse leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse

11 fusionner les classes les plus proches -3arrêt: une seule classe
1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse IAE de Picardie LP

12 Cf. poly JPVillette IAE de Picardie LP

13 Outils mathématiques Partition Hiérarchie Ultramétrique Distance
. Distance Agrégation Partition Hiérarchie Ultramétrique IAE de Picardie LP

14 Distance euclidienne libellé packaging l’accroche A 2 4 B 5 C 3 D 1 E Exemple tiré de l’ouvrage de R.LEFEBURE R.VENTURI, le datamining, Eyrolles 1999

15 Partition Cf. poly JPV p.92 P d’un ensemble E P = { Ei / i=1,…k }  Ei = E Ei Ej =  si i  j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…} , la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement . Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice  est élevé, moins la partition est fine «  hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. IAE de Picardie LP

16 Hiérarchie b c a d P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}}
Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P1, P2, P3 } P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} H est une hiérarchie  e E , {e} H . la partition la plus fine est un objet de la hiérarchie. E  H, la partition la moins fine est un objet de la hiérarchie. A, B  H, alors A  B  { A , B ,  } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. IAE de Picardie LP

17 Hiérarchie indicée Diamètre d’un ensemble  : H  R+ A (A)
Avec (e)= 0 (E)= 1 , et A  B  (A) (B) L’indice  associé à une hiérarchie

18 Agrégation : Principe de HUYGENS
Tout point xi est muni d’une masse mi La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS

19 agrégation : décomposition
-L’homogénéité des classes est mesurée par une distance intraclasse, leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse

20 Agrégation : perte d’inertie
x et y agrégés en une classe t , le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I

21 algorithme Etape 1: Partir d’un objet x1 quelconque
Chercher le plus proche voisin x1 x2 x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées

22 Critère de la médiane . Agrégation de x k-1 , x k
Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …. , (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont. IAE de Picardie LP

23 Critères vérifiant celui de la médiane
. dmax(A,B)= Max { d(x,y) / x A , x B } dmin(A,B)= Min { d(x,y) / x A , x B } IAE de Picardie LP 23

24 + de variance dans les classes
L’indice de niveau est la perte d’inertie Inter IAE de Picardie LP 24

25 Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes.

26 Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib.
L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de Picardie LP

27 Effectif population n=100, répartition:
8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x x x x x5)/50=153600 revenu moyen femmes est (80000x x x x x5)/50=130500 IAE de Picardie LP

28 population Hommes 153600 Femmes 130500 population Ouv 76000 Empl 86000
Agri 96000 Cadr Pro lib IAE de Picardie LP


Télécharger ppt "Classification-Segmentation"

Présentations similaires


Annonces Google