La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

M1Management IAE Analyse de Données Classification-Segmentation.

Présentations similaires


Présentation au sujet: "M1Management IAE Analyse de Données Classification-Segmentation."— Transcription de la présentation:

1 M1Management IAE Analyse de Données Classification-Segmentation

2 Plan n AD vs FD n Classification : principes n CAH : la méthode n CAH : les propriétés n CAH : exemple IAE de PicardieLP2

3 AD vs FD -LP3 Agriculteurs Cadres moyens ouvriersemployés professions lib. taille m1.751.781.741.701.72 Puissance véhicule 796511 revenu F100 000200 00090 00080 000400 000 IAE de Picardie3

4 AD vs FD - LP44 TIC logiciels Accessibilité Visualisation Cognition données externes TCP/IP SGBR Datamart Datamining Nettoyage Extraction Acquisition Standardisation Interprétation Veille OLAP Administrateur SQL Moteurs de règles Dico META données Repris de J.F GOGLIN La construction du Datawarehouse, Hermes,2001 indicateurs

5 AD vs FD - LP5 La forme liberté devient banale 11.0011INTERVIEWLIBERATIONParisJeudi 10 mai 1984"Le scepticisme ambiant sur les chances de réussite de toute politique économique, je dis bien de toute politique, dure depuis bientôt dix ans. Il a atteint, puis élimine la majorité précédente. Il frappe l'actuelle majorité. A cela une explication : l'opinion s'est lassée d'attendre le ""bout du tunnel"", comme cela lui fut naguère imprudemment promis, illusion dont nous ne nous sommes pas nous-mêmes suffisamment dépris. Elle veut juger sur pièces. Et je pense qu'elle a raison.Vous me demandez si je suis optimiste ou pessimiste. L'optimisme honnête se fonde sur le fait que la plupart des paramètres classiques qui permettent aux spécialistes d'apprécier l'évolution d'une situation économique sont meilleurs aujourd'hui qu'ils n'étaient pendant la première partie de ma présidence, meilleure que sous le septennat précédent. Voyez ce qui se passe pour l'inflation, le commerce extérieur, l'investissement industriel. Nous avons hérité d'une inflation à 14 % en 1981. En trois exercices nous l'aurons ramenée, selon les prévisions de l'INSEE, à un rythme de 6,5 % avec objectif de 5 %, ce qui constitue, et de loin, le niveau le plus bas depuis 1971. Le commerce extérieur accusait, en 1980, un déficit de 61 milliards de francs. Je pense qu'il n'atteindra pas 25 milliards cette année et que nous réaliserons (toujours selon l'INSEE, l'équilibre l'an prochain. Cela grâce, notamment au remarquable effort de nos exportateurs. Quant à l'investissement industriel, il est enfin reparti : on prévoit 11 % d'augmentation pour 1984. Du jamais vu depuis dix ans. Bref, la France bouge et recommence à regarder droit devant elle.Le pessimisme honnête s'appuie sur l'accroissement de la dette extérieure, la lourdeur de nos importations, le taux élevé (mais il baisse) de l'argent, la faiblesse de la croissance (mais en 1981 et 1982 nous avions la plus forte d'Europe). Je considère ces problèmes avec le sérieux qu'ils méritent et je ne mésestime pas les obstacles à vaincre. Mais le règlement de la dette est à notre portée. Le seul fait d'équilibrer notre commerce extérieur modifiera du tout au tout la tendance. pour le reste, nous agissons énergiquement afin de corriger les défauts structurels de notre économie.Suis-je optimiste ou pessimiste ? Je me contenterai de répondre : je fais ce que je dois.Certes la crise a duré plus longtemps que ne le prévoyaient la plupart des experts en 1981. Et le vieillissement de notre appareil industriel dans d'importants secteurs tel que ceux de l'industrie lourde ou du textile était plus grave que nous ne le supposions avant de gouverner.Aussi devons-nous mener la bataille sur plusieurs fronts. La lutte contre le chômage est l'un de ces fronts. En faisant de la formation professionnelle - 800.000 travailleurs irons en stage de formation cette année - la base de notre action, c'est- à-dire en préparant hommes et femmes aux métiers d'avenir, là où l'emploi se crée, nous luttons contre le chômage. En modernisant l'industrie pour gagner de nouveaux marchés, nous luttons contre le chômage.Cela suppose, dans un premier temps, de douloureuses remises en ordre - je pense à la sidérurgie -. Mais avons-nous le droit de laisser croire que les emplois seront sauvés, là où ils sont de toute façon perdus si l'on se contente de subventionner des entreprises qui ne sont plus compétitives ? La flexibilité sociale et la modernisation technologique sont les deux clés de la sortie de crise.La rigueur n'est pas une fin en soi, mais seulement un moyen de passer la tempête. Je cherche a convaincre les Français qu'il faut serrer les dents quand on veut gagner un combat difficile. J'ajoute que la rigueur n'a de sens, c'est-à-dire ne peut mobiliser les volontés de la nation qu'à la condition d'être équitable ment repartie entre les diverses couches de la société. Affaire de courage, oui, mais affaire de justice aussi. Le pays reconnaîtra, au bout du compte, que la gauche au pouvoir apporte non seulement plus d'équité sociale - ce qui n'est contesté par personne - mais aussi plus d'efficacité économique que la droite - ce qui changera en profondeur et non pas, comme trop souvent de façon épidermique, le jugement que portent sur elle les Français. Alors, soyez en sûr, les conditions d'une véritable alternance démocratique seront créées. Au lieu de conquérir le pouvoir une ou deux fois par demi-siècle, portée par de brefs mouvements d'humeur, la gauche apparaîtra comme la garantie permanente d'un bon gouvernement du pays. Et comme elle continuera d'être beaucoup plus que cela, par son projet et ses valeurs, son rayonnement durera.Je veux moderniser la France dans la justice sociale. Produire, vendre cette production, accroître nos ressources pour mieux en repartir le légitime profit, cela exige une volonté sans défaillance. On ne reforme pas les structures d'un pays, on ne réduit pas les injustices et les privilèges ancrés pendant près de deux siècles sans un effort de Spécificités loi libertés loi école IAE de Picardie5

6 Classification-méthode -LP6 lien DESCRIPTIF projectionACP, AFCr.l. visualisation règles RBC regroupementCAH, k-meansk? typologienuées dynamiques PREDICTIF arbre de décisioncarta priori fonction mathRN, régressionr.l. probabilisteassociationsa priori IAE de Picardie DESCRIPTIF PREDICTIF

7 Classification-méthode -LP7 Classification Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) IAE de Picardie7

8 Vocabulaire CLASSE/GROUPE/CLUSTER CLASSIFICATION SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE IAE de Picardie8 Classification-méthode -LP

9 IAE de PicardieClassification-méthode -LP9

10 Classification IAE de PicardieClassification-méthode -LP10 ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS

11 HOMOGENEITE L’homogénéité de ces classes est mesurée par -une distance intraclasse -leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse

12 IAE de PicardieLP12 Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse 1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE

13 IAE de PicardieLP13 Cf. poly JPV p.92

14 Outils mathématiques. IAE de PicardieLP14 Partition Hiérarchie Ultramétrique Distance Agrégation

15 Distance euclidienne libellépackagingl’accroche A24 B45 C43 D12 E55 15

16 Ultra-métrique. IAE de PicardieLP16. métrique ExE  R+ d : ( x, y )d(x,y) i- d(x,x)=0 ii- d(x,y)=d(y,x) symétrie iii-d(x,z)  d(x,y)+d(y,z) inégalité triangulaire une ultra-métrique est une distance particulière i- d(x,x)=0 ii- d(x,y)=d(y,x) iii’-d(x,z)  Max[d(x,y), d(y,z)] tous les triangles sont isocèles

17 Partition. IAE de PicardieLP17 P d’un ensemble E P = { E i / i=1,…k }  E i = E E i  E j =  si i  j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…}, la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice est élevé, moins la partition est fine « hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. Cf. poly JPV p.92

18 Hiérarchie IAE de PicardieLP18 Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P 1, P 2, P 3 } H est une hiérarchie   e  E, {e}  H. la partition la plus fine est un objet de la hiérarchie. E  H, la partition la moins fine est un objet de la hiérarchie. A, B  H, alors A  B  { A, B,  } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} b c a d

19 Hiérarchie indicée Diamètre d’un ensemble  : H  R+ A  (A) Avec  (e)= 0  (E)= 1, et A  B   (A)   (B) L’indice associé à une hiérarchie 19

20 Hiérarchie indicée ultramétrique H,  une hiérarchie indicée alors u(x,y)=  (Hx,y) Hxy est la plus petite partie contenant à la fois x et y, u est bien une ultramétrique: u(x,x)=  ({x})=0 Cf i- dans la définition d’une hiérarchie u(y,x)=u(x,y), posons que Hxz est la plus petite partie de H incluant x et z, car H hiérarchie indicée,  (Hx,z) comme elle n’est pas disjointe de Hyz Hxz  Hyz alors u(x,y)  u(z,y) d’où u(x,y)  Max[u(x,y), u(y,z)] réciproquement si u est une ultramétrique, x agrégé à y en t, pour tout z à agréger u(x,y)  u(x,z) et u(x,y)  u(y,z) or ultramétrique u(x,y)  Max[u(x,y), u(y,z)], Implique u(x,z) = u(y,z) Tous les triangles sont isocèles T xy Z avec diamètre ( A ) = Max u(x,y) diammètre ( E ) = Max u(x,y) x, y  A x, y  E il s’ensuit que  ({x}) = u(x,x)/  (E)=0  (E) =  (E)/  (E)=1 et on peut montrer que A  B   (A)   (B) 20

21 Agrégation : Principe de HUYGENS Tout point x i est muni d’une masse m i La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS 21

22 agrégation : décomposition -L’homogénéité des classes est mesurée par une distance intraclasse, -leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse 22

23 Agrégation : perte d’inertie x et y agrégés en une classe t, le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I 23

24 algorithme Etape 1: Partir d’un objet x1 quelconque Chercher le plus proche voisin x1x2x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées 24

25 Critère de la médiane. IAE de PicardieLP25 Agrégation de x k-1, x k Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …., (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont.

26 Critères vérifiant celui de la médiane. IAE de PicardieLP26 d max (A,B)= Max { d(x,y) / x  A, x  B } d min (A,B)= Min { d(x,y) / x  A, x  B }

27 IAE de PicardieLP27 Plus de variance dans les classes

28 Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes. 28

29 Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib. 96000 182500 86000 76000 375000 L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de PicardieLP29

30 Effectif population n=100, répartition: 8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe -variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x8+200000x15+90000x12+80000x1 0+400000x5)/50=153600 revenu moyen femmes est (80000x2+165000x15+80000x8+75000x20+ 350000x5)/50=130500 IAE de PicardieLP30

31 population Femmes 130500 Hommes 153600 Ouv 76000 Empl 86000 Cadr 182500 Pro lib 375000 population Agri 96000 IAE de PicardieLP31


Télécharger ppt "M1Management IAE Analyse de Données Classification-Segmentation."

Présentations similaires


Annonces Google