Les classifications hiérarchiques
C’est un ensemble de méthodes qui permettent de classer des individus, des modalités, des variables… en divers groupes que l’on souhaitera homogènes pour les variables que l’on soumet à l’analyse. Chacune de ces méthodes conduit à la réalisation d’un arbre hiérarchique à partir duquel l’analyste décidera du nombre de groupes à constituer. Le processus de classification est itératif. Il est construit d’une part sur les distances entre individus et d’autre part entre groupes d’individus.
La proximité entre individus est donnée par des distances telle que la distance euclidienne, du khi-deux, de Hamming, ou de Jaccard… La proximité entre groupes est une notion plus générale. Elle peut être mesurée par des distances dites ultramétriques dont les principales sont données ci-après.
Groupe 1 de taille N1 xi ° Groupe 2 de taille N2 ° yj d( xi , yj ) d est une distance calculée entre les individus du groupe 1 et les individus du groupe 2. A partir de là on définit une distance ultramétrique que l’on choisie parmi les plus usuelles en fonction du problème que l’on souhaite traiter:
la distance du saut minimal: le diamètre de la réunion:
la distance moyenne; la distance de Ward
Le processus de classification hiérarchique est itératif, et à chaque niveau de la hiérarchie, on cherche les groupes les plus proches que l’on agrège; on calcule les nouvelles distances entre les divers groupes nouvellement constitués. Le processus est terminé lorsqu’étant parti du niveau 0 de la hiérarchie où chaque individu est à lui seul un groupe, on arrive à un seul groupe constitué de tous les individus.
Présentation sur un exemple Présentation sur un exemple. On dispose du tableau des distances suivant, concernant 5 individus. Distances 1 2 3 4 5 7 6 0,5
Niveau 0 = {chaque individu constitue un groupe} Les distances entre groupes sont données. On regroupe les groupes 4 et 5 parce qu’ils sont les plus proches. La calcul des distances ultramétriques du saut minimal est donné dans le tableau suivant: di 1 2 3 {4, 5} 7 4
Au niveau 1 de la hiérarchie, on met ensemble les groupes 2 et {4, 5}, qui sont les plus proches à une distance de 1. On calcule les proximités des groupes nouvellement constitués. di 1 {2, 4, 5} 3 7 2
Au niveau 2 de la hiérarchie, on met ensemble les groupes 3 et {2, 4, 5}, qui sont les plus proches à une distance de 2. On calcule les proximités des groupes nouvellement constitués. di 1 {3, 2, 4, 5} 3 Au niveau 3 de la hiérarchie, on met ensemble les groupes 2 et {2, 3, 4, 5}, qui sont les plus proches à une distance de 3. Tout le monde est affecté.
Le déroulement de la méthode peut être représenté de la manière suivante: Distances ultramétriques 4 5 2 3 1 3 2 1 0,5 Une coupure de l’arbre à 1, 5 permet de constituer 3 groupes: Groupe 1 = {2, 4, 5} Groupe 2 = {3} Groupe 3 = {1}
Si l’on change la distance ultramétrique, on change la classification. 7 4 3 0,5 4 5 1 2 3 Une coupure de l’arbre hièrarchique à 3,5 permet d’identifier trois groupes: Groupe 1 = {4, 5} Groupe 2 = {1, 2} Groupe 3 ={3}
Exercice Le tableau suivant représente les réponses données par des opérateurs logistiques à un questionnaire concernant la qualité. L’évaluation globale est mesurée sur une échelle de valeurs comprises entre 1 et 10 (1 signifie que le service rendu n’est absolument pas de qualité et 10 signifie que le service est jugé de très bonne qualité. ). La variable associée est notée X. Les variables explicatives retenues sont définies par une notation entre 1 et 4 à chacune des affirmations suivantes (1 signifie que l’on n’est pas du tout d’accord avec cette affirmation et 4 que l’on est parfaitement d’accord.) : A : Compréhension rapide des besoins exprimés par le client. B : Bonne qualité des services. C : Gamme de services suffisamment large. D : Service après vente efficace. Notons X1, X2, X3, X4, les variables associées.
Variables individu 1. individu 2. individu 3. individu 4. individu 5. individu 6. X 6 2 1 8 X1 4 X2 X3 X4 3
On calcule les moyennes et écart-types; on centre et on réduit. On détermine les tableau de distances. Puis on lance la classification. Ind1 Ind 2 Ind 3 Ind 4 Ind 5 Ind 6 3,57 3,61 2,36 3,58 1,56 0,93 2,40 1,47 3,86 3,04 0,75 4,15 3,31 2,07 4,19