Les classifications hiérarchiques

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

La Méthode de Simplexe Standardisation
CALCUL LITTERAL Bernard Izard 4° Avon LT
Les distances.
Notions de fonction Initiation.
Chapitre annexe. Récursivité
Les bases de la COMPTABILITE
Initiation à l’utilisation du logiciel STATISTICA
Le 10/07/2001Présentation de l'étude statistique sur les entreprises électriques européennes Caractérisation et dynamique des principales entreprises électriques.
Regroupement (clustering)
Fonctions & procédures
EVALUATION DE LEXPERIMENTATION DU C2i niveau 2 « Métiers de la Santé » Nguyen Jean-Michel, Université Nantes 1.
Regroupement (clustering)
Organisation et gestion de données, fonctions
ANALYSE CONJOINTE 29/06/07- Analyse conjointe.
ASSOCIATION entre caractères qualitatifs
CALCUL LITTERAL 3° Avon 2010 Bernard Izard 05-LT I – NOTATIONS
1. Les caractéristiques de dispersion. 11. Utilité.
Page : 1 / 8 Conduite de projet Examen du 3 juin 1988 Durée : 4 heures Le support de cours est toléré La notation tiendra compte très significativement.
Page : 1 / 4 FIIFO Conduite de projet Examen de rattrapage septembre 2004 Durée : 1H30mn Le support de cours et les notes sont nécessaires La notation.
Exercices Algorithmiques
Gestion de Projet Pilotage – 3 Reporting
Diffusion Nationale TOULOUSE -Avril 2006 STS Web Services libres Créer un service libre.
Plan de formation Chapitre 1 : Présentation de SAP
Analyse des proximités, des préférences et typologie
variable aléatoire Discrète
Diagramme d’activité.
Chapitre 1. Présentation de l’Univers
Christelle Scharff IFI 2004
Analyse en Composantes Principales
CHAPITRE 10 Fonctions affines – Fonctions linéaires
Probabilités.
Application des algorithmes génétiques
Les structures de données arborescentes
Algorithmes Branch & Bound
THÈME 8 Le risque et lanalyse coûts-avantages 1. PLAN I.Le risque II.Lanalyse coûts-avantages : application 2.
Module 1 Module 1.
Méthode des k plus proches voisins
La segmentation
RECONNAISSANCE DE FORMES
Tableaux de distributions
Lectures Livre du cours :
Tableaux de distributions
Paul-Marie Bernard Université Laval
Cours de Base de Données & Langage SQL
EXERCICES D’ARITHMETIQUES
Relations et fonctions
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Structure discriminante (analyse discriminante)
SUJET D’ENTRAINEMENT n°4
2. Optimisation sans contrainte Fonctions à une seule variable
Écart moyen et écart type
Les Définition + =.
III. Récursivité Principe et exemples
1 SYSTEMES D’EQUATIONS Bruno DELACOTE Collège de MASEVAUX Type d ’activité : leçon illustrée AVERTISSEMENT : Certaines images, dont les images clip art,
Analyses typologiques
Classification automatique
Factorisation Méthode Somme Produit. Méthode x x + 6 Appelons le premier terme : T 1 T1T1 Appelons le deuxième terme : T 2 T2T2 Appelons le troisième.
1 SYSTEMES D’EQUATIONS Bruno DELACOTE Collège de MASEVAUX Type d ’activité : leçon illustrée.
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Présentation du marché obligataire
Micro-intro aux stats.
Que sont les fichiers de mobilité de l’INSEE?
ANNEE UNIVERSITAIRE :2010/2011
Chapitre 4 Variables aléatoires discrètes
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Classification-Segmentation
Individus Illustratifs (Supplémentaires) Individus jugés « intrinsèquement différents » Individus jugés « atypiques » Exemple Exemple :classe différente,
Transcription de la présentation:

Les classifications hiérarchiques

C’est un ensemble de méthodes qui permettent de classer des individus, des modalités, des variables… en divers groupes que l’on souhaitera homogènes pour les variables que l’on soumet à l’analyse. Chacune de ces méthodes conduit à la réalisation d’un arbre hiérarchique à partir duquel l’analyste décidera du nombre de groupes à constituer. Le processus de classification est itératif. Il est construit d’une part sur les distances entre individus et d’autre part entre groupes d’individus.

La proximité entre individus est donnée par des distances telle que la distance euclidienne, du khi-deux, de Hamming, ou de Jaccard… La proximité entre groupes est une notion plus générale. Elle peut être mesurée par des distances dites ultramétriques dont les principales sont données ci-après.

Groupe 1 de taille N1 xi ° Groupe 2 de taille N2 ° yj d( xi , yj ) d est une distance calculée entre les individus du groupe 1 et les individus du groupe 2. A partir de là on définit une distance ultramétrique que l’on choisie parmi les plus usuelles en fonction du problème que l’on souhaite traiter:

la distance du saut minimal: le diamètre de la réunion:

la distance moyenne; la distance de Ward

Le processus de classification hiérarchique est itératif, et à chaque niveau de la hiérarchie, on cherche les groupes les plus proches que l’on agrège; on calcule les nouvelles distances entre les divers groupes nouvellement constitués. Le processus est terminé lorsqu’étant parti du niveau 0 de la hiérarchie où chaque individu est à lui seul un groupe, on arrive à un seul groupe constitué de tous les individus.

Présentation sur un exemple Présentation sur un exemple. On dispose du tableau des distances suivant, concernant 5 individus. Distances 1 2 3 4 5 7 6 0,5

Niveau 0 = {chaque individu constitue un groupe} Les distances entre groupes sont données. On regroupe les groupes 4 et 5 parce qu’ils sont les plus proches. La calcul des distances ultramétriques du saut minimal est donné dans le tableau suivant: di 1 2 3 {4, 5} 7 4

Au niveau 1 de la hiérarchie, on met ensemble les groupes 2 et {4, 5}, qui sont les plus proches à une distance de 1. On calcule les proximités des groupes nouvellement constitués. di 1 {2, 4, 5} 3 7 2

Au niveau 2 de la hiérarchie, on met ensemble les groupes 3 et {2, 4, 5}, qui sont les plus proches à une distance de 2. On calcule les proximités des groupes nouvellement constitués. di 1 {3, 2, 4, 5} 3 Au niveau 3 de la hiérarchie, on met ensemble les groupes 2 et {2, 3, 4, 5}, qui sont les plus proches à une distance de 3. Tout le monde est affecté.

Le déroulement de la méthode peut être représenté de la manière suivante: Distances ultramétriques 4 5 2 3 1 3 2 1 0,5 Une coupure de l’arbre à 1, 5 permet de constituer 3 groupes: Groupe 1 = {2, 4, 5} Groupe 2 = {3} Groupe 3 = {1}

Si l’on change la distance ultramétrique, on change la classification. 7 4 3 0,5 4 5 1 2 3 Une coupure de l’arbre hièrarchique à 3,5 permet d’identifier trois groupes: Groupe 1 = {4, 5} Groupe 2 = {1, 2} Groupe 3 ={3}

Exercice Le tableau suivant représente les réponses données par des opérateurs logistiques à un questionnaire concernant la qualité. L’évaluation globale est mesurée sur une échelle de valeurs comprises entre 1 et 10 (1 signifie que le service rendu n’est absolument pas de qualité et 10 signifie que le service est jugé de très bonne qualité. ). La variable associée est notée X. Les variables explicatives retenues sont définies par une notation entre 1 et 4 à chacune des affirmations suivantes (1 signifie que l’on n’est pas du tout d’accord avec cette affirmation et 4 que l’on est parfaitement d’accord.) : A : Compréhension rapide des besoins exprimés par le client. B : Bonne qualité des services. C : Gamme de services suffisamment large. D : Service après vente efficace. Notons X1, X2, X3, X4, les variables associées.

Variables individu 1. individu 2. individu 3. individu 4. individu 5. individu 6. X 6 2 1 8 X1 4 X2 X3 X4 3

On calcule les moyennes et écart-types; on centre et on réduit. On détermine les tableau de distances. Puis on lance la classification. Ind1 Ind 2 Ind 3 Ind 4 Ind 5 Ind 6 3,57 3,61 2,36 3,58 1,56 0,93 2,40 1,47 3,86 3,04 0,75 4,15 3,31 2,07 4,19