Technologies de l’intelligence d’affaires Séance 9

Slides:



Advertisements
Présentations similaires
Commerce électronique Automne  Introduction  Création du panier d’achats  Migration du panier d’achats  Conclusion.
Advertisements

1- Introduction 2ème partie Modèle Conceptuel des Données 2- Entités- Associations 4- Associations plurielles 3- Cardinalités 5- Associations réflexives.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
1. Introduction.
Système d’aide à la décision Business Intelligence
Cours Initiation aux Bases De Données
Initiation à la conception des systèmes d'informations
Suites ordonnées ou mettre de l’ordre
LES DOCUMENTS DE GESTION
Outils de Recherche Opérationnelle en Génie MTH 8414
Module de gestion des tournées de livraison
Analyse, Classification,Indexation des Données ACID
Statistiques descriptives univariées
Emplacement et localisation
1°) Un nombre y est-il associé à 3, et si oui lequel ? 3 → ?
Master Réseaux et Systèmes Distribués (RSD)
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
SPECIALITE MARKETING.
Les bases de données et le modèle relationnel
Précision d'une mesure et chiffres significatifs
Technologies de l’intelligence d’affaires Séance 13
DESSIN TECHNIQUE Té de dessin Collège technique Sousse Collège technique Sousse.
Technologies de l’intelligence d’affaires Séance 10
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
COURS 3: SELECTION ET EVALUATION DES PERFORMANCES DES FOURNISSEURS.
e-Prelude.com Visite guidée - session 1 Les articles
Technologies d’intelligence d’affaires
Plans d’experiences : plans de melanges
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Techniques du Data Mining
Les tableaux.
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
la structure de l’entreprise: Définition : La structure organisationnelle d’une entreprise définie le mode d’organisation entre les différentes unités.
1. Introduction.
La gestion des stocks (Modèle de Wilson).
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Sourcing M1 LSCM EL MAY ACHREF. La définition la plus courante du Sourcing est la suivante : « c’est le processus d’identification des fournisseurs potentiels,
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
Normalisation & Certification M2PQSE Nedra Raouefi 2018/
OPTIMISATION 1ère année ingénieurs
Programme financé par l’Union européenne
Apports de la statistique spatialisée
POL1803: Analyse des techniques quantitatives
Arbres de décision.
2.4 La loi de vitesse d’une réaction chimique
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Présentation 9 : Calcul de précision des estimateurs complexes
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
3. Méthodologie de prospection
Moteurs de recherches Data mining Nizar Jegham.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Algorithmie - Programmation 2
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
PROGRAMMATION SCIENTIFIQUE EN C
INTELLIGENCE ARTIFICIELLE
Tableau de bord d’un système de recommandation
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
La programmation dynamique
Transcription de la présentation:

Technologies de l’intelligence d’affaires Séance 9 Classification automatique ou segmentation (Cluster Analysis)

Rappel des principales techniques de data mining Apprentissage dirigé Régression linéaire et généralisation Régression logistique Analyse discriminante Arbres de décision Réseaux de neurones Apprentissage non dirigé Règles d’association Détection de clusters (cluster analysis), classification, segmentation

Classification automatique: quelques références Hair J.F. et al. (1998) « Multivariate data analysis » Chapitre 9. Han et Kamber, Chapitre 8, sections 8.1 à 8.5.1 Documentation SAS: PROC CLUSTER PROC FASTCLUS « CLUSTERING NODE » de SAS EM

Quelques applications de la classification automatique Reconaissance de profil (Pattern Recognition) Taxonomie (biologie) Segmentation des marchés (marketing) Geo-segmentation WWW classification des sites classification des “Weblog” pour découvrir des profils d’accès semblables

Quelques caractéristiques de la classification automatique Analyse descriptive d’un ensemble de données (analyse exploratoire) sans théorie sous-jacente sans inférence statistique, c.-à-d. sans base statistique pour généraliser à l’ensemble de la population à partir d’un échantillon. Les techniques de classification automatique vont toujours créer des groupes (clusters) peu importante l’existence de « vrais » groupes. L’ajout ou la suppression de variables dans l’analyse peut avoir un impact important sur les résultats. Il faut donc bien sélectionner les variables qui serviront à déterminer les groupes.

Comment déterminer une bonne classification? Un bon algorithme de classification fera en sorte qu’il y aura une petite variabilité intra-groupe (c-à-d petite distance entre les individus d’un même groupe) grande variabilité inter-groupe (c-à-d grande distance entre les individus de groupes différents) La qualité des résultats de la classification dépendra de la mesure de distance utilisée et de l’algorithme choisi pour l’implanter.

Exemple en deux dimensions (Hair et al. 1998, p. 475; fichier cluster Exemple en deux dimensions (Hair et al. 1998, p. 475; fichier cluster.sas) Variables Individus A B C D E F G V1 3 4 2 6 7 V2 5

Exemple (suite)

Distance euclidienne (X11 , X12) X12 - X22 (X21 , X22) X21 – X11

Matrice des distances Euclidiennes pour l’exemple Exemple du calcul de la distance Euclidienne entre les points B=(4,5) et C=(4,7): d(B,C)=

Formation des groupes (méthode hiérarchique) Solution initiale: chaque individu forme un groupe. Première étape: distance minimum= 1,414; les individus E et F sont regroupés. Deuxième étape: distance minimum entre les points de groupes différents= 2,0 entre les points B-C, C-D et E-G. G est regroupé avec E et F. B et C sont regroupés. D est regroupé avec B et C. Nous avons maintenant 3 groupes: (A), (B C D), (E F G). Distance minimum entre les points de groupes différents= 2,236 entre B-E et C-E. Les groupes (B C D) et (E F G) sont regroupés. Nous avons maintenant 2 groupes: (A), (B C D E F G). Distance minimum = 3,162 entre A-B. Étape finale: tous les points sont regroupés en un seul groupe.

Représentation graphique (dendogram)

Structures des données Matrice des données Matrice de distances

Mesure de la qualité de la classification Mesure de Dissemblance/Ressemblance: la ressemblance est exprimée par une fonction de distance d(i, j) La définition des fonctions de distance diffère selon le type de variables (intervalle, binaire, nominale, ordinale)

Dissemblance et ressemblance entre objets ou individus Une fonction de distance est normallement utilisée pour mesurer la ressemblance ou dissemblance entre deux individus Une fonction de distance parmi les plus populaires pour des variables de type intervalle: Minkowski distance: où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux vecteurs de dimension p représentant deux objets et q est un entier positif.

Dissemblance et ressemblance entre objets ou individus (suite) Si q = 1, d(i,j) est la distance de Manhattan: Si q = 2, d(i,j) est la distance Euclidienne

Dissemblance et ressemblance entre objets ou individus (suite) Propriétés des mesures de distance d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j) Nous pouvons également utiliser une fonction de distance pondérée, un coefficient de corrélation, ou d’autres mesures de ressemblance.

Exemple avec le coefficient de corrélation comme mesure de ressemblance (Hair et al. 1998, p. 485; fichier cluster.sas)

Fonction de distance pour les variables binaires Tableau de contingence Fonction de distance: Objet j Objet i

Exemple d(Jack, Mary) = 2 / 7 = 0,29 d(Jack, Jim) = 2 / 7 = 0,29 d(Mary, Jim) = 4 / 7 = 0,57

Généralisation aux variables nominales Pour chaque variable nominale, créer autant de variables indicatrices (binaires) que de niveaux de la variable nominale. Vous aurez ainsi transformé vos variables nominales en plusieurs variables binaires. Utiliser la mesure de distance précédente pour variables binaires. Notez que nous pouvons également utiliser des mesures d’associations (corrélations) pour des variables binaires, nominales ou ordinales.

Les principales méthodes de classification automatique Hiérarchique “Single linkage” “Complete linkage” “Average linkage” Ward Centroïde Non hiérarchique (k-means)

Single linkage La distance entre les deux groupes CK et CL est la distance minimum entre une observation du groupe CK et une observation du groupe CL.

Complete linkage La distance entre les deux groupes CK et CL est la distance maximum entre une observation du groupe CK et une observation du groupe CL.

Average linkage La distance entre les deux groupes CK et CL est la moyenne des distances entre toutes les paires d’observations, une dans chaque groupe.

Ward La distance entre les deux groupes CK et CL est défini comme:

Centroïde La distance entre les deux groupes CK et CL est défini comme la distance (au carré) entre les centres des groupes (moyennes):

Non hiérarchique (k-means) Indiquer le nombre de groupes. Choisir arbitrairement k points comme centre des k groupes. Répéter: Chaque point est assigné à un groupe selon la distance minimum au centre du groupe. Mise à jour du centre des groupes (calcul de la moyenne des points de chaque groupe. Arrêter lorsqu’il n’y a plus de changement c.-à-d. chaque point est dans le groupe pour lequel sa distance avec le centre du groupe est minimale.

Standardisation des variables Les variables avec de grandes variances ont tendance à avoir un plus grand effet sur les résultats de la classification que les variables avec une petite variance. Si les variables ne sont pas toutes mesurées avec la même unité de mesure, la standardisation des variables est recommandée. Voir exemple dans Hair et al. 1998, p487.

Choix du nombre de groupes Malheureusement, aucune bonne technique objective et automatique de sélection du nombre de groupes existe. Certaines mesures peuvent servir de guide: Examiner les mesures de distances entre les groupes et à l’intérieur des groupes. SAS a popularisé le « Cubic Clustering Criterion ». Une valeur du CCC plus grande que 2 ou 3 indique un bon regroupement des observations. Considérations pratiques et analyses des profils.

Exemple (tiré de Hair et al. 1998) Un sondage a été effectué auprès des clients de HATCO. Les données se retrouvent dans le fichier hatco.sav. Trois types d’information ont été recueillis. Le premier type correspond à la perception d’HATCO par rapport a sept caractéristiques principales lors du choix d’un fournisseur. Les répondants, des gestionnaires qui achètent du fournisseur HATCO, ont donné une cote pour chacune de ces caractéristiques. Le second type d’information correspond aux résultats d’achats antérieurs. Le troisième type d’information correspond aux caractéristiques générales de l’entreprise des répondants.   Les données qui ont été compilées pour HATCO devraient aider cette dernière a mieux comprendre les caractéristiques de ces clients de même que la relation entre la perception des clients et leurs activités avec HATCO (achats & satisfaction).  

Variables sur la perception d’HATCO (exemple suite) Les répondants ont indiqué leur perception en posant un X sur une ligne de 10 centimètres de longueur, leur appréciation pour chacune des sept caractéristiques mesurés. La distance (en cm) entre le X et le point 0 capture l’information. Les résultats enregistrés varient donc entre 0 a 10. variables: x1: Rapidité de livraison – temps requis pour livrer la marchandise lorsque la commande a été confirmée. x2 : Niveau de prix – niveau perçu des prix demandés par le fournisseur. x3 : Flexibilité du prix – perception de la possibilité de négocier le prix de la marchandise. x4: Image globale projetée par HATCO x5: Service – niveau global du service nécessaire pour maintenir une bonne relation entre le fournisseur et l’acheteur. x6: Perception des représentants des ventes d’HATCO. x7: Qualité des produits – niveau perçu de la qualité des produits 0 = médiocre 10 = excellent

Variables sur les résultats d’achats antérieurs (exemple suite) Deux mesures spécifiques ont été utilisées pour refléter la relation entre HATCO et ses clients suite aux achats antérieurs de ces derniers: x9: Niveau d’utilisation – Pourcentage total des produits de la compagnie achetés chez HATCO, résultats variant entre 0 et 100%. x10: Niveau de satisfaction – la satisfaction (sur la même échelle de 0 à 10) des clients d’HATCO basée sur leurs achats antérieurs.

Cinq caractéristiques de l’entreprise des répondants ont été mesurés: Variables sur les caractéristiques générales des entreprises et les achats (exemple suite) Cinq caractéristiques de l’entreprise des répondants ont été mesurés: x8: taille de l’entreprise (1 = grande; 0 = petite). x11: spécification de l’achat (1 = chaque achat est évalué séparément et globalement; 0 = les caractéristiques désirées du produit sont décrites de façon très précise et détaillée). x12: structure des achats (1 = achats centralisés; 0 = achats décentralisés). x13: type d’entreprise (1 = type A; 0 = autres ) x14: type d’achat (1 = nouvel achat; 2 = achat régulier modifié; 3 = achat régulier)