Technologies de l’intelligence d’affaires Séance 9

Technologies de l’intelligence d’affaires Séance 9
Classification automatique ou segmentation (Cluster Analysis)

Rappel des principales techniques de data mining
Apprentissage dirigé Régression linéaire et généralisation Régression logistique Analyse discriminante Arbres de décision Réseaux de neurones Apprentissage non dirigé Règles d’association Détection de clusters (cluster analysis), classification, segmentation

Classification automatique: quelques références
Hair J.F. et al. (1998) « Multivariate data analysis » Chapitre 9. Han et Kamber, Chapitre 8, sections 8.1 à 8.5.1 Documentation SAS: PROC CLUSTER PROC FASTCLUS « CLUSTERING NODE » de SAS EM

Quelques applications de la classification automatique
Reconaissance de profil (Pattern Recognition) Taxonomie (biologie) Segmentation des marchés (marketing) Geo-segmentation WWW classification des sites classification des “Weblog” pour découvrir des profils d’accès semblables

Quelques caractéristiques de la classification automatique
Analyse descriptive d’un ensemble de données (analyse exploratoire) sans théorie sous-jacente sans inférence statistique, c.-à-d. sans base statistique pour généraliser à l’ensemble de la population à partir d’un échantillon. Les techniques de classification automatique vont toujours créer des groupes (clusters) peu importante l’existence de « vrais » groupes. L’ajout ou la suppression de variables dans l’analyse peut avoir un impact important sur les résultats. Il faut donc bien sélectionner les variables qui serviront à déterminer les groupes.

Comment déterminer une bonne classification?
Un bon algorithme de classification fera en sorte qu’il y aura une petite variabilité intra-groupe (c-à-d petite distance entre les individus d’un même groupe) grande variabilité inter-groupe (c-à-d grande distance entre les individus de groupes différents) La qualité des résultats de la classification dépendra de la mesure de distance utilisée et de l’algorithme choisi pour l’implanter.

Exemple en deux dimensions (Hair et al. 1998, p. 475; fichier cluster
Exemple en deux dimensions (Hair et al. 1998, p. 475; fichier cluster.sas) Variables Individus A B C D E F G V1 3 4 2 6 7 V2 5

Exemple (suite)

Distance euclidienne (X11 , X12) X12 - X22 (X21 , X22) X21 – X11

Matrice des distances Euclidiennes pour l’exemple
Exemple du calcul de la distance Euclidienne entre les points B=(4,5) et C=(4,7): d(B,C)=

Formation des groupes (méthode hiérarchique)
Solution initiale: chaque individu forme un groupe. Première étape: distance minimum= 1,414; les individus E et F sont regroupés. Deuxième étape: distance minimum entre les points de groupes différents= 2,0 entre les points B-C, C-D et E-G. G est regroupé avec E et F. B et C sont regroupés. D est regroupé avec B et C. Nous avons maintenant 3 groupes: (A), (B C D), (E F G). Distance minimum entre les points de groupes différents= 2,236 entre B-E et C-E. Les groupes (B C D) et (E F G) sont regroupés. Nous avons maintenant 2 groupes: (A), (B C D E F G). Distance minimum = 3,162 entre A-B. Étape finale: tous les points sont regroupés en un seul groupe.

Représentation graphique (dendogram)

Structures des données
Matrice des données Matrice de distances

Mesure de la qualité de la classification
Mesure de Dissemblance/Ressemblance: la ressemblance est exprimée par une fonction de distance d(i, j) La définition des fonctions de distance diffère selon le type de variables (intervalle, binaire, nominale, ordinale)

Dissemblance et ressemblance entre objets ou individus
Une fonction de distance est normallement utilisée pour mesurer la ressemblance ou dissemblance entre deux individus Une fonction de distance parmi les plus populaires pour des variables de type intervalle: Minkowski distance: où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux vecteurs de dimension p représentant deux objets et q est un entier positif.

Dissemblance et ressemblance entre objets ou individus (suite)
Si q = 1, d(i,j) est la distance de Manhattan: Si q = 2, d(i,j) est la distance Euclidienne

Dissemblance et ressemblance entre objets ou individus (suite)
Propriétés des mesures de distance d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j) Nous pouvons également utiliser une fonction de distance pondérée, un coefficient de corrélation, ou d’autres mesures de ressemblance.

Exemple avec le coefficient de corrélation comme mesure de ressemblance (Hair et al. 1998, p. 485; fichier cluster.sas)

Fonction de distance pour les variables binaires
Tableau de contingence Fonction de distance: Objet j Objet i

Exemple d(Jack, Mary) = 2 / 7 = 0,29 d(Jack, Jim) = 2 / 7 = 0,29
d(Mary, Jim) = 4 / 7 = 0,57

Généralisation aux variables nominales
Pour chaque variable nominale, créer autant de variables indicatrices (binaires) que de niveaux de la variable nominale. Vous aurez ainsi transformé vos variables nominales en plusieurs variables binaires. Utiliser la mesure de distance précédente pour variables binaires. Notez que nous pouvons également utiliser des mesures d’associations (corrélations) pour des variables binaires, nominales ou ordinales.

Les principales méthodes de classification automatique
Hiérarchique “Single linkage” “Complete linkage” “Average linkage” Ward Centroïde Non hiérarchique (k-means)

Single linkage La distance entre les deux groupes CK et CL est la distance minimum entre une observation du groupe CK et une observation du groupe CL.

Complete linkage La distance entre les deux groupes CK et CL est la distance maximum entre une observation du groupe CK et une observation du groupe CL.

Average linkage La distance entre les deux groupes CK et CL est la moyenne des distances entre toutes les paires d’observations, une dans chaque groupe.

Ward La distance entre les deux groupes CK et CL est défini comme:

Centroïde La distance entre les deux groupes CK et CL est défini comme la distance (au carré) entre les centres des groupes (moyennes):

Non hiérarchique (k-means)
Indiquer le nombre de groupes. Choisir arbitrairement k points comme centre des k groupes. Répéter: Chaque point est assigné à un groupe selon la distance minimum au centre du groupe. Mise à jour du centre des groupes (calcul de la moyenne des points de chaque groupe. Arrêter lorsqu’il n’y a plus de changement c.-à-d. chaque point est dans le groupe pour lequel sa distance avec le centre du groupe est minimale.

Standardisation des variables
Les variables avec de grandes variances ont tendance à avoir un plus grand effet sur les résultats de la classification que les variables avec une petite variance. Si les variables ne sont pas toutes mesurées avec la même unité de mesure, la standardisation des variables est recommandée. Voir exemple dans Hair et al. 1998, p487.

Choix du nombre de groupes
Malheureusement, aucune bonne technique objective et automatique de sélection du nombre de groupes existe. Certaines mesures peuvent servir de guide: Examiner les mesures de distances entre les groupes et à l’intérieur des groupes. SAS a popularisé le « Cubic Clustering Criterion ». Une valeur du CCC plus grande que 2 ou 3 indique un bon regroupement des observations. Considérations pratiques et analyses des profils.

Exemple (tiré de Hair et al. 1998)
Un sondage a été effectué auprès des clients de HATCO. Les données se retrouvent dans le fichier hatco.sav. Trois types d’information ont été recueillis. Le premier type correspond à la perception d’HATCO par rapport a sept caractéristiques principales lors du choix d’un fournisseur. Les répondants, des gestionnaires qui achètent du fournisseur HATCO, ont donné une cote pour chacune de ces caractéristiques. Le second type d’information correspond aux résultats d’achats antérieurs. Le troisième type d’information correspond aux caractéristiques générales de l’entreprise des répondants. Les données qui ont été compilées pour HATCO devraient aider cette dernière a mieux comprendre les caractéristiques de ces clients de même que la relation entre la perception des clients et leurs activités avec HATCO (achats & satisfaction).

Variables sur la perception d’HATCO (exemple suite)
Les répondants ont indiqué leur perception en posant un X sur une ligne de 10 centimètres de longueur, leur appréciation pour chacune des sept caractéristiques mesurés. La distance (en cm) entre le X et le point 0 capture l’information. Les résultats enregistrés varient donc entre 0 a 10. variables: x1: Rapidité de livraison – temps requis pour livrer la marchandise lorsque la commande a été confirmée. x2 : Niveau de prix – niveau perçu des prix demandés par le fournisseur. x3 : Flexibilité du prix – perception de la possibilité de négocier le prix de la marchandise. x4: Image globale projetée par HATCO x5: Service – niveau global du service nécessaire pour maintenir une bonne relation entre le fournisseur et l’acheteur. x6: Perception des représentants des ventes d’HATCO. x7: Qualité des produits – niveau perçu de la qualité des produits 0 = médiocre 10 = excellent

Variables sur les résultats d’achats antérieurs (exemple suite)
Deux mesures spécifiques ont été utilisées pour refléter la relation entre HATCO et ses clients suite aux achats antérieurs de ces derniers: x9: Niveau d’utilisation – Pourcentage total des produits de la compagnie achetés chez HATCO, résultats variant entre 0 et 100%. x10: Niveau de satisfaction – la satisfaction (sur la même échelle de 0 à 10) des clients d’HATCO basée sur leurs achats antérieurs.

Cinq caractéristiques de l’entreprise des répondants ont été mesurés:
Variables sur les caractéristiques générales des entreprises et les achats (exemple suite) Cinq caractéristiques de l’entreprise des répondants ont été mesurés: x8: taille de l’entreprise (1 = grande; 0 = petite). x11: spécification de l’achat (1 = chaque achat est évalué séparément et globalement; 0 = les caractéristiques désirées du produit sont décrites de façon très précise et détaillée). x12: structure des achats (1 = achats centralisés; 0 = achats décentralisés). x13: type d’entreprise (1 = type A; 0 = autres ) x14: type d’achat (1 = nouvel achat; 2 = achat régulier modifié; 3 = achat régulier)

Technologies de l’intelligence d’affaires Séance 9

Présentations similaires

Présentation au sujet: "Technologies de l’intelligence d’affaires Séance 9"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Technologies de l’intelligence d’affaires Séance 9

Présentations similaires

Présentation au sujet: "Technologies de l’intelligence d’affaires Séance 9"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back