M1Management IAE Analyse de Données Classification-Segmentation.

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Objectif de la séance 2 : valeurs et vision
ATTEINDRE LES OBJECTIFS (1)Contribuer à laccroissement significatif, en termes daccès et de volume,du financement destiné à promouvoir laction en faveur.
Tolérance.
Regroupement (clustering)
Regroupement (clustering)
Le circuit économique 2012.
LA REGULATION PAR L ’ÉTAT
Les classifications hiérarchiques
Les relations internationales de 1945 à nos jours Document page 8. Introduction: Dès 1945, avant même l’armistice, les USA et l’URSS, pourtant alliés.
Statistique et probabilités au collège
Modélisation des systèmes non linéaires par des SIFs
Programmes de calculs en 3ème
À.
Utilisation des tableaux
Présentation: NGOK Emmanuel Expert en comptabilité nationale AFRISTAT
Analyse en Composantes Principales
introduction à la sociologie cours 4
Algorithmes Branch & Bound
Statistique descriptive, analyse de données
Groupe 1: Classes de même intervalle
3G / 4G L’attitude et la participation en classe L’étude à domicile La méthode de travail La tenue des notes de cours Le journal de classe L’évaluation.
LE DISCOURS PHILOSOPHIQUE
La segmentation
RECONNAISSANCE DE FORMES
Chaîne logistique : - Approvisionnement - Stocks
Réalité 4 L’INDUSTRIALISATION
Comprendre la variation dans les données: Notions de base
Algorithmes d ’approximation
LE MODÈLE KEYNÉSIEN 1. Note historique
Les SES et la filière ES Une présentation de la discipline et de la filière pour vous aider dans vos choix d ’orientation.
LA POLITIQUE ECONOMIQUE
Classification automatique
LA REGULATION PAR L ’ÉTAT
L’emploi salarié qui se stabilise Source : Pôle Emploi  A fin mars 2010, quasi-stabilité sur un an, avec un très légère baisse de 0,5%.  Baisse de l’emploi.
Présentation du marché obligataire
Algorithmes Branch & Bound
Arbres binaires et tables de hachage
Micro-intro aux stats.
Sériation et traitement de données archéologiques
Situation de l’emploi et du chômage au Maroc Tendances de la décennie
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Jeudi 30 avril 2015 Thème de réflexion n°1 : Le projet de loi pour la croissance, l’activité et l’égalité des chances économiques (projet de loi « Macron.
Analyse de données Cours 3 Analyse en composantes principales (ACP)
PRESENTATION FORMATION SYNDICALE BILAN, ENJEUX ET PERSPECTIVES Commission Exécutive Confédérale 9 Juin
Chapitre 4 Variables aléatoires discrètes
Vérifier les acquis La notion d’homogénéité sociale Exercice 1
Algorithmique Tableaux de données
BAROMETRE REGIONAL DE CONJONCTURE Juillet Globalement, tous secteurs d’activité confondus, le solde d’opinion sur le chiffre d’affaires s’améliore.
L ’É VOLUTION DE L ’É TAT ET LE RESPECT DE SES PROMESSES Module 2.
Analyse de données avec R
L'emploi qu'un homme finit par obtenir est rarement celui pour lequel il se croyait préparé et dans lequel il pensait pouvoir être utile. Marguerite Yourcenar.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Classification-Segmentation
Chapitre 3 Professions et catégories socioprofessionnelles (PCS) et études de la mobilité.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Ensemble Trouvons la manière d’aborder la continuité syndicale avec les actifs. Comité Général UCR du 19 mai
Quelques point de repère pour élaborer une progression concernant la technique opératoire de la division euclidienne (CM1 et CM2) I Rappels pour l’enseignant.
Cours de Systèmes de Gestion de Données - Licence MIAGE – 2003/20041 Cours n°2 La conception d ’un schéma relationnel (suite) Chantal Reynaud Université.
Les indices du commerce extérieur (ICE) méthodologie et réforme.
1 Introduction Combien parmi vous êtes des parents? Quels domaines spécifiques vous préoccupent quant au développement de vos enfants depuis le jour de.
SAINT SIMON & LE PRODUCTEUR I DE LA CRISE REVOLUTIONNAIRE AU SYSTÈME INDUSTRIEL.
STATISTIQUE DESCRIPTIVE
L’emploi et les métiers en 2022 Séminaire national des DAFPIC/DAFCO/DAET/CSAIO 30 mars 2016 Ministère de l’éducation nationale, de l’enseignement supérieur.
Voyage d’affaires “Après la crise… Nouvelles tendances Nouveaux voyageurs” Baromètre 2010.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

M1Management IAE Analyse de Données Classification-Segmentation

Plan n AD vs FD n Classification : principes n CAH : la méthode n CAH : les propriétés n CAH : exemple IAE de PicardieLP2

AD vs FD -LP3 Agriculteurs Cadres moyens ouvriersemployés professions lib. taille m Puissance véhicule revenu F IAE de Picardie3

AD vs FD - LP44 TIC logiciels Accessibilité Visualisation Cognition données externes TCP/IP SGBR Datamart Datamining Nettoyage Extraction Acquisition Standardisation Interprétation Veille OLAP Administrateur SQL Moteurs de règles Dico META données Repris de J.F GOGLIN La construction du Datawarehouse, Hermes,2001 indicateurs

AD vs FD - LP5 La forme liberté devient banale INTERVIEWLIBERATIONParisJeudi 10 mai 1984"Le scepticisme ambiant sur les chances de réussite de toute politique économique, je dis bien de toute politique, dure depuis bientôt dix ans. Il a atteint, puis élimine la majorité précédente. Il frappe l'actuelle majorité. A cela une explication : l'opinion s'est lassée d'attendre le ""bout du tunnel"", comme cela lui fut naguère imprudemment promis, illusion dont nous ne nous sommes pas nous-mêmes suffisamment dépris. Elle veut juger sur pièces. Et je pense qu'elle a raison.Vous me demandez si je suis optimiste ou pessimiste. L'optimisme honnête se fonde sur le fait que la plupart des paramètres classiques qui permettent aux spécialistes d'apprécier l'évolution d'une situation économique sont meilleurs aujourd'hui qu'ils n'étaient pendant la première partie de ma présidence, meilleure que sous le septennat précédent. Voyez ce qui se passe pour l'inflation, le commerce extérieur, l'investissement industriel. Nous avons hérité d'une inflation à 14 % en En trois exercices nous l'aurons ramenée, selon les prévisions de l'INSEE, à un rythme de 6,5 % avec objectif de 5 %, ce qui constitue, et de loin, le niveau le plus bas depuis Le commerce extérieur accusait, en 1980, un déficit de 61 milliards de francs. Je pense qu'il n'atteindra pas 25 milliards cette année et que nous réaliserons (toujours selon l'INSEE, l'équilibre l'an prochain. Cela grâce, notamment au remarquable effort de nos exportateurs. Quant à l'investissement industriel, il est enfin reparti : on prévoit 11 % d'augmentation pour Du jamais vu depuis dix ans. Bref, la France bouge et recommence à regarder droit devant elle.Le pessimisme honnête s'appuie sur l'accroissement de la dette extérieure, la lourdeur de nos importations, le taux élevé (mais il baisse) de l'argent, la faiblesse de la croissance (mais en 1981 et 1982 nous avions la plus forte d'Europe). Je considère ces problèmes avec le sérieux qu'ils méritent et je ne mésestime pas les obstacles à vaincre. Mais le règlement de la dette est à notre portée. Le seul fait d'équilibrer notre commerce extérieur modifiera du tout au tout la tendance. pour le reste, nous agissons énergiquement afin de corriger les défauts structurels de notre économie.Suis-je optimiste ou pessimiste ? Je me contenterai de répondre : je fais ce que je dois.Certes la crise a duré plus longtemps que ne le prévoyaient la plupart des experts en Et le vieillissement de notre appareil industriel dans d'importants secteurs tel que ceux de l'industrie lourde ou du textile était plus grave que nous ne le supposions avant de gouverner.Aussi devons-nous mener la bataille sur plusieurs fronts. La lutte contre le chômage est l'un de ces fronts. En faisant de la formation professionnelle travailleurs irons en stage de formation cette année - la base de notre action, c'est- à-dire en préparant hommes et femmes aux métiers d'avenir, là où l'emploi se crée, nous luttons contre le chômage. En modernisant l'industrie pour gagner de nouveaux marchés, nous luttons contre le chômage.Cela suppose, dans un premier temps, de douloureuses remises en ordre - je pense à la sidérurgie -. Mais avons-nous le droit de laisser croire que les emplois seront sauvés, là où ils sont de toute façon perdus si l'on se contente de subventionner des entreprises qui ne sont plus compétitives ? La flexibilité sociale et la modernisation technologique sont les deux clés de la sortie de crise.La rigueur n'est pas une fin en soi, mais seulement un moyen de passer la tempête. Je cherche a convaincre les Français qu'il faut serrer les dents quand on veut gagner un combat difficile. J'ajoute que la rigueur n'a de sens, c'est-à-dire ne peut mobiliser les volontés de la nation qu'à la condition d'être équitable ment repartie entre les diverses couches de la société. Affaire de courage, oui, mais affaire de justice aussi. Le pays reconnaîtra, au bout du compte, que la gauche au pouvoir apporte non seulement plus d'équité sociale - ce qui n'est contesté par personne - mais aussi plus d'efficacité économique que la droite - ce qui changera en profondeur et non pas, comme trop souvent de façon épidermique, le jugement que portent sur elle les Français. Alors, soyez en sûr, les conditions d'une véritable alternance démocratique seront créées. Au lieu de conquérir le pouvoir une ou deux fois par demi-siècle, portée par de brefs mouvements d'humeur, la gauche apparaîtra comme la garantie permanente d'un bon gouvernement du pays. Et comme elle continuera d'être beaucoup plus que cela, par son projet et ses valeurs, son rayonnement durera.Je veux moderniser la France dans la justice sociale. Produire, vendre cette production, accroître nos ressources pour mieux en repartir le légitime profit, cela exige une volonté sans défaillance. On ne reforme pas les structures d'un pays, on ne réduit pas les injustices et les privilèges ancrés pendant près de deux siècles sans un effort de Spécificités loi libertés loi école IAE de Picardie5

Classification-méthode -LP6 lien DESCRIPTIF projectionACP, AFCr.l. visualisation règles RBC regroupementCAH, k-meansk? typologienuées dynamiques PREDICTIF arbre de décisioncarta priori fonction mathRN, régressionr.l. probabilisteassociationsa priori IAE de Picardie DESCRIPTIF PREDICTIF

Classification-méthode -LP7 Classification Regrouper les individus ayant des caractères voisins en classes homogènes ou Décrire les données en réduisant le nombre d’individus. Un tableau de coordonnées des individus et des caractères, Ou le tableau des coordonnées sur les axes factoriels (caractères qualitatifs) IAE de Picardie7

Vocabulaire CLASSE/GROUPE/CLUSTER CLASSIFICATION SEGMENTATION/TYPOLOGIE/CLASSIFICATION HIERARCHIQUE / NON HIERARCHIQUE IAE de Picardie8 Classification-méthode -LP

IAE de PicardieClassification-méthode -LP9

Classification IAE de PicardieClassification-méthode -LP10 ASCENDANTE partant du bas, chaque individu est une classe et reconstituant la population en produisant des regroupements DESCENDANTE Partant de la population globale et la découpant en sous-groupes GROUPE NON PREDEFINIS

HOMOGENEITE L’homogénéité de ces classes est mesurée par -une distance intraclasse -leur différence par une distance interclasse Inertie totale = Inertie Interclasse+inertie Intraclasse

IAE de PicardieLP12 Plus l’inertie interclasse est élevée, meilleure est la séparation, le regroupement s’effectue entre deux classes dont la distance minimise la perte d’inertie interclasse 1-initialisation: n classes, 2-Itération: fusionner les classes les plus proches -3arrêt: une seule classe Algorithme lourd si n élevé, le critère est local mais ne nécessitant pas d’a priori, PERTE d’INERTIE INTERCLASSE MINIMALE

IAE de PicardieLP13 Cf. poly JPV p.92

Outils mathématiques. IAE de PicardieLP14 Partition Hiérarchie Ultramétrique Distance Agrégation

Distance euclidienne libellépackagingl’accroche A24 B45 C43 D12 E55 15

Ultra-métrique. IAE de PicardieLP16. métrique ExE  R+ d : ( x, y )d(x,y) i- d(x,x)=0 ii- d(x,y)=d(y,x) symétrie iii-d(x,z)  d(x,y)+d(y,z) inégalité triangulaire une ultra-métrique est une distance particulière i- d(x,x)=0 ii- d(x,y)=d(y,x) iii’-d(x,z)  Max[d(x,y), d(y,z)] tous les triangles sont isocèles

Partition. IAE de PicardieLP17 P d’un ensemble E P = { E i / i=1,…k }  E i = E E i  E j =  si i  j ex : les départements constituent une partition de la France D = { Ain, Aisne, Allier,…}, la réunion des départements constituent la France entière, et deux départements sont disjoints. Classification diffère de classement Une CHA est un processus d’agrégation, depuis les éléments jusqu’à l’ensemble lui-même. Plus le niveau de l’indice est élevé, moins la partition est fine « hiérarchique » indique que les partitions sont « emboîtées »,. Par exemple les partitions { régions} et { départements} de la France sont emboîtées. Cf. poly JPV p.92

Hiérarchie IAE de PicardieLP18 Une hiérarchie H est un ensemble de partitions « emboîtées », par exemple les partitions « régions » et « départements » sont emboîtées. H = { P 1, P 2, P 3 } H est une hiérarchie   e  E, {e}  H. la partition la plus fine est un objet de la hiérarchie. E  H, la partition la moins fine est un objet de la hiérarchie. A, B  H, alors A  B  { A, B,  } deux paquets sont sans élément communs ou bien l’un est contenu dans l’autre. P1 = { {a}, {b}, {c},{d}} P2= { {a}, {b}, {c, d}} P3 = { a, b, c, d} b c a d

Hiérarchie indicée Diamètre d’un ensemble  : H  R+ A  (A) Avec  (e)= 0  (E)= 1, et A  B   (A)   (B) L’indice associé à une hiérarchie 19

Hiérarchie indicée ultramétrique H,  une hiérarchie indicée alors u(x,y)=  (Hx,y) Hxy est la plus petite partie contenant à la fois x et y, u est bien une ultramétrique: u(x,x)=  ({x})=0 Cf i- dans la définition d’une hiérarchie u(y,x)=u(x,y), posons que Hxz est la plus petite partie de H incluant x et z, car H hiérarchie indicée,  (Hx,z) comme elle n’est pas disjointe de Hyz Hxz  Hyz alors u(x,y)  u(z,y) d’où u(x,y)  Max[u(x,y), u(y,z)] réciproquement si u est une ultramétrique, x agrégé à y en t, pour tout z à agréger u(x,y)  u(x,z) et u(x,y)  u(y,z) or ultramétrique u(x,y)  Max[u(x,y), u(y,z)], Implique u(x,z) = u(y,z) Tous les triangles sont isocèles T xy Z avec diamètre ( A ) = Max u(x,y) diammètre ( E ) = Max u(x,y) x, y  A x, y  E il s’ensuit que  ({x}) = u(x,x)/  (E)=0  (E) =  (E)/  (E)=1 et on peut montrer que A  B   (A)   (B) 20

Agrégation : Principe de HUYGENS Tout point x i est muni d’une masse m i La masse totale du nuage est L’inertie I, avec g centre de gravité Si P, partition s classes, masse de q ème La relation de HUYGENS 21

agrégation : décomposition -L’homogénéité des classes est mesurée par une distance intraclasse, -leur différence par une distance interclasse Inertie totale = Inertie Intraclasse + inertie Interclasse 22

Agrégation : perte d’inertie x et y agrégés en une classe t, le principe de Huygens permet de calculer la perte d’inertie En remplaçant t par sa valeur en fonction de x et y, on retrouve le critère de WARD La somme des indices de niveau, est égale à l’inertie totale I 23

algorithme Etape 1: Partir d’un objet x1 quelconque Chercher le plus proche voisin x1x2x3…. …x (k-1) x (k) Si 2 éléments successifs sont VR (paire minimale), cette chaîne s’arrête en k Alors il y a regroupement dans un nœud Etape 2: si k=2, la chaîne commence, choisir un nouvel élément Etape 3: si k>2, chercher les VR par extension à partir de x k-2 Arrêt: quand n-1 nœuds sont crées 24

Critère de la médiane. IAE de PicardieLP25 Agrégation de x k-1, x k Ne doit pas détruire la relation antérieure du plus proche entre x i-1 x i avec i = 1, 2, 3 …., (k-2) Nécessité de prolonger la chaîne après x k-2 afin d’éviter les inversions i.e. Si le nœud n crée par l’agrégation de a et b, ne peut être plus proche d’un c que a ou b ne le sont.

Critères vérifiant celui de la médiane. IAE de PicardieLP26 d max (A,B)= Max { d(x,y) / x  A, x  B } d min (A,B)= Min { d(x,y) / x  A, x  B }

IAE de PicardieLP27 Plus de variance dans les classes

Segmentation Expliquer des caractères qualitatifs ou quantitatifs en fonction d’autres qui sont qualitatifs EXPLICITER une hiérarchie en fonction des variables explicatives. CLASSES L’homogénéité de ces classes est mesurée par une distance intra-classes et leur différence par une distance inter-classes. 28

Segmentation Le revenu moyen Agri. Cadrm. Ouvr. Empl. Proflib L’écart entre les sexes est moins significatif qu’entre les catégories. Une dichotomie successive à deux branches: agriculteurs, ouvriers, employés, et cadres-prof libérales, Puis deux branches pour chacune hommes, femmes, soient 4 branches. IAE de PicardieLP29

Effectif population n=100, répartition: 8 h 2 f, agriculteurs,15 h 15 f cadres, 10 h 20f employés, 12h 8f d’ouvriers, 5 h 5 f prof lib. -segmentation sur le caractère: sexe -variable à expliquer: revenu si 50 h 50 f, revenu moyen homme est (100000x x x x x5)/50= revenu moyen femmes est (80000x x x x x5)/50= IAE de PicardieLP30

population Femmes Hommes Ouv Empl Cadr Pro lib population Agri IAE de PicardieLP31