La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005.

Présentations similaires


Présentation au sujet: "1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005."— Transcription de la présentation:

1 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire

2 2Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

3 3 Environnement de l'entreprise 4 Accroissement de la concurrence 4 Individualisation des consommateurs 4 Brièveté du cycle de vie des produits Anticiper le marché et pas seulement réagir Cibler au mieux la clientèle pour répondre à ses attentes Connaissance du métier, des schémas de comportement des clients et des fournisseurs

4 4 Un constat 4 La grande distribution a besoin d'apprendre à connaître se clients Créer des relations privilégiées sur le modèle du commerce de quartier O Idéal du "1 à 1" Apprendre à évaluer un client dans la durée O Déterminer lequel fidéliser par des attentions particulières et lequel laisser partir à la concurrence O Déplacement des centres d'intérêt des segments de marché vers les individus 4 Petit commerce : Observe un client, se souvient de ses préférences Apprend des contacts passés comment améliorer le service futur Introduction

5 5Objectif 4 Faire la même chose avec une entreprise de grande taille le client peut ne jamais entrer en contact avec un employé le client voit chaque fois un employé différent Exploiter les nombreuses traces enregistrées lors de l'observation du client (enregistrements transactionnels) Introduction

6 6 Un potentiel 4 A disposition une masse importante de données Explorer ses réservoirs de connaissances Extraction de connaissances 4 Données provenant de nombreuses sources À rassembler et à organiser selon un plan cohérent et exploitable À analyser, comprendre et transformer en informations exploitables Une solution : le datamining

7 7 Intérêt du DM 4 "Trop de données tue linformation" seuls 15% des données stockées sont analysées + 150% dinfo disponibles chaque année 4 Objectif : favoriser la prise de décision en exploitant les tonnes dinformation disponibles modéliser pour prédire faciliter la décision mais ne prend pas de décision améliorer la réactivité dune entreprise / marché 4 Défi : améliorer la productivité / volume exponentiel de données Extrapoler le passé pour prédire lavenir Introduction

8 8 Découverte de connaissances dans les bases de données 4 Intérêt scientifique Processus daide à la décision où les utilisateurs cherchent des modèles dinterprétation dans les données Extraction dinformations auparavant inconnues et potentiellement utiles à partir des données disponibles 4 Intérêt économique Amélioration de la qualité des produits et des services Passage dun marketing de masse à un marketing individualisé Fidélisation des clients Favoriser la différentiation stratégique de lentreprise Introduction

9 9Datamining 4 Ensemble des outils permettant d'accéder et d'analyser les données de l'entreprise moyens destinés à détecter les associations entre des données contenues dans dimportantes bases de données Outil qui facilite la mise en évidence de modèles ou de règles à partir de lobservation des données 4 Démarche ayant pour objet de découvrir des relations et des faits à la fois nouveaux et significatifs sur de grands ensembles de données 4 Un élément de la transformation de données en connaissances Introduction

10 10Datamining 4 Restriction aux outils permettant de générer des infos riches, de découvrir des modèles implicites à partir de données historiques 4 Pertinence et intérêt conditionnées par les enjeux de l'entreprise Idées et techniques provenant des statistiques, de la RO, de l'IA, de l'administration de bases de données, du marketing

11 11 Connaissance versus donnée 4 Données Connaissances 4 Donnée : description dun exemple ou dun événement spécifique dont lexactitude peut être vérifiée par rapport au monde réel ex : les achats dun client sur son ticket de caisse 4 Connaissance : ensemble de relations entre les données Règles, Tendances, Associations, Exceptions, … Décrit une catégorie abstraite pouvant couvrir plusieurs exemples Ex : les bons et les mauvais clients Connaissances synthèse des informations (DM) Introduction

12 12 DM versus autres solutions 4 Outils relationnels et OLAP Initiative à l'utilisateur 4 DM Initiative au système O Pas nécessaire de poser d'hypothèses Interprétation par un expert O Nécessité d'un outil ergonomique rendant transparentes les techniques utilisées

13 13 Datamining et Décisionnel : une solution 4 Archivage de données crée la mémoire d'entreprise 4 Datamining crée l'intelligence de l'entreprise Analyse prédictive de comportement Généralisation prédictive : communauté 4 Automatisation de certaines phases de lanalyse Rendre les utilisateurs moins dépendants des spécialistes de lanalyse de données Intégrer les résultats du DM dans linformatique ou les procédures de lentreprise Introduction

14 14 Etat des lieux 4 Les algorithmes existent (depuis des années voire des décennies) 4 Les données sont produites Nécessité de grands volumes pour l'apprentissage 4 Les données sont archivées 4 La puissance de calcul nécessaire est disponible et financièrement abordable 4 Le contexte est ultra concurrentiels Motivation commerciale 4 Des produits commerciaux pour le DM existent Introduction

15 15 Contexte ultra concurrentiel Renforcement du rôle des informations dans la concurrence 4 Économie de plus en plus tournée vers les services Vente de voitures ou de solutions de transports ? Compagnies aériennes en concurrence par les services offerts 4 Apparition de la personnalisation massive Levi-Strauss et ses jeans personnalisés Peugeot et la voiture à la demande Individual et la revue de presse qui s'améliore avec le temps 4 Importance croissante de l'information comme produit Courtiers en information O IMS O Journal de l'IOWA Introduction

16 16 Domaines d'application 4 Grande distribution, vente par correspondance ou commerce électronique 4 Banques, assurance 4 Transports et voyagistes 4 Télécommunications, eau et énergie 4 Aéronautiques, automobiles, industrie 4 Laboratoires pharmaceutiques Retours sur investissement Introduction

17 17Exemples 4 La police américaine Poseur de bombe d'Oklahoma City (par ex) O DM pour filtrer les milliers de rapports soumis par les agents du FBI 4 Le département du Trésor américain pour traquer les formes suspectes dans les transferts de fonds internationaux 4 Les impôts américains (acheteurs d'outils de DM) 4 Les supermarchés Collecte d'infos par le biais de la carte de fidélité Utilisation de la carte pour payer ou obtenir des "points" déterminer l'agencement des rayons, … Vente aux marques pour les bons de réduction à adresser à 1 client Introduction

18 18Exemples 4 La banque (les premiers) les cartes de crédit Aux USA, prédire les changements de cille (et de banque ?) 4 La vente croisée Assurance USAA Compagnie d'investissement Fidelity O Marketing direct guidé par l'analyse de comportement O Portrait robot du client fidèle 4 Routage des réclamations en période de garantie Fabricant de moteurs diesel 4 Fidélisation des bons clients Compagnie du gaz de Californie du sud à la fin du monopole 4 Eliminer les mauvais clients Introduction

19 19Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

20 20 Exemple d'une grande banque 4 Constat : Perte de clients supérieure aux nouveaux clients Nouveaux clients rapportent moins que les clients partis les meilleurs clients s'en vont 4 Objectif : augmenter la rentabilité globale Garder les parts de marché Trouver de nouveaux clients (à faible coût)

21 21Solutions 4 Relever les taux d'épargne, diminuer les taux d'emprunt, … Inutile pour les clients fidèles Attraction des clients volages solution chère 4 Suppression de services non rentables Mais si ce sont ceux qui fidélisent la clientèle ? 4 Comprendre les clients et appliquer le modèle trouvé Utiliser les données disponibles Les transformer en informations exploitables

22 22 Le problème 4 Départ de clients rentables affecte le résultat financier 4 Comment identifier les clients pouvant partir ? Enquête auprès d'anciens clients O Échantillon représentatif ? Coopératif ? O Réponses honnêtes ? Une ou plusieurs raisons ? Analyse des infos sur les anciens clients et comparaison avec les clients restants O Détermination de clusters O Transformation des résultats de l'analyse en action O Mesure des résultats

23 23 Les grandes étapes 4 Identifier l'opportunité commerciale Ex : planification d'actions marketing, établissement de prix de produits ou de services, définition des cibles marketing, explication de pertes de clientèles,… La longueur d'attente aux caisses est elle une raison probable de la perte de clients ? 4 Transformer les données concrètes en informations permettant des actions collectes Utilisation des techniques du DM 4 Agir 4 Mesurer les résultats

24 24 Les tâches du DM 4 Classification (affectation à une classe prédéfinie) 4 Estimation 4 Prédiction 4 Groupement par similitudes 4 Analyse des clusters (détermination de classes) 4 Description

25 25Classification 4 La classification consiste à examiner des caractéristiques dun élément nouvellement présenté afin de laffecter à une classe dun ensemble prédéfini. [BERRY97] 4 Objectif : affecter des individus à des classes classes discrètes : homme / femme, oui / non,... 4 exemple de techniques appropriées : 4 les arbres de décision

26 26Estimation 4 permet obtenir une variable continue en combinant les données en entrée procéder aux classifications grâce à un "barème" Exemple : estimer le revenu dun ménage selon divers critères O ensuite possible de définir des tranches de revenus pour classifier les individus 4 intérêt pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs facile de mesurer la position dun élément estimé dans sa classe O particulièrement important pour les cas limitrophes 4 exemple de techniques appropriées : les réseaux de neurones

27 27Prédiction 4 ressemble à la classification et à lestimation mais dans une échelle temporelle différente 4 sappuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé 4 meilleure méthode pour mesurer la qualité de la prédiction : attendre ! 4 exemple de techniques appropriées : Lanalyse du panier de la ménagère Les arbres de décision les réseaux de neurones

28 28 Regroupement par similitudes 4 consiste à grouper les éléments qui vont naturellement ensembles 4 exemple de techniques appropriées : Lanalyse du panier de la ménagère

29 29Clusterisation 4 segmenter une population hétérogène en sous- populations homogènes 4 Contrairement à la classification, les sous populations ne sont pas préétablies 4 exemple de techniques appropriées : Les K means

30 30Description 4 décrire les données dune base complexe 4 engendre souvent une exploitation supplémentaire en vue de fournir des explications 4 exemple de techniques appropriées : Lanalyse du panier de la ménagère

31 31 La classification Déterminer le grade en fonction du sexe, de l'âge, l'ancienneté, le salaire et les affectations Déterminer le sexe en fonction de l'âge, l'ancienneté, le salaire et les affectations Lestimation se fait sur des variables continues Estimer l'âge en fonction du grade, sexe, ancienneté et affectations le salaire en fonction de l'âge, sexe, ancienneté et affectations La prédiction quelle sera la prochaine affectation d'un militaire

32 32 Le regroupement par similitudes déterminer des règles de type : le militaire qui est sergent entre 25 et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilité de n %) La segmentation segmenter les militaires en fonction de leurs suivi de la carrière et affectations La description indicateurs statistiques traditionnels : âge moyen, %femmes, salaire moyen

33 33 Deux démarches 4 Test d'hypothèses Générer une idée Déterminer les données permettant de la tester Localiser les données Préparer les données pour l'analyse Construire les modèles informatiques sur la base de données Évaluer les modèles informatiques 4 La découverte de connaissances Dirigée (expliquer une relation) ou non (reconnaître une relation)

34 34Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

35 35 Gestion des connaissances ? Sélection des données Qualification des données Enrichissement des variables Compréhension du domaine Statistiques et datamining Identification de relations Utilisation de la connaissance Données sources Données cibles Données validées Données transformées Information découverte Information exploitée Introduction

36 36 Les étapes du processus Knowledge Discovery 4 Phase 1 : Poser le problème 4 Phase 2 : La recherche des données 4 Phase 3 : La sélection des données pertinentes 4 Phase 4 : Le nettoyage des données 4 Phase 5 : Les actions sur les variables 4 Phase 6 : La recherche du modèle 4 Phase 7 : Lévaluation du résultat 4 Phase 8 : Lintégration de la connaissance extraite Le processus de datamining

37 37 (1) Poser le problème 4 Quel est le problème ? Formulation du problème Recherche des objectifs et recueil de la connaissance existante 4 Typologie du problème : recherche des objectifs Explication dun phénomène précis ? ou approche exploratoire ? Influence sur les modèles ou techniques à utiliser 4 Résultat attendu et moyens mis en œuvre pour le mesurer Exploitation des résultats (impacts sur lorganisation) Individus concernés Le processus de datamining

38 38 (2) Recherche des données 4 Quelles données extraire ? Identifier les variables 4 Rendre le processus de découverte performant et efficace 4 Réduction des dimensions Trop de variables nuit à la capacité de généralisation Ratio : Nombres dexemplaires / Nombre de variables trop peu dexemples - Nbre dexemples + - Nbre de variables + multiplication des apprentissages zone optimale temps de calcul long Le processus de datamining

39 39 (2) Recherche des données 4 Sélection des variables Fournies par les experts (explication dun phénomène précis) Recherche des facteurs déterminants par des techniques danalyse (méthode de régression, réseaux neuronaux...) DM à lintérieur du DM 4 Mise en évidence : des associations triviales entre les données de la sémantique, des regroupements de valeurs des valeurs de seuil des valeurs aberrantes Eliminer les résultats triviaux et améliorer la prédiction Le processus de datamining

40 40 (3) Sélection des données pertinentes 4 Comment extraire ces données ? Réaliser un plan dextraction des données Constituer un fichier à plat Identifier les applications ou systèmes concernés 4 Phase importante + ou - facilitée par lexistence dentrepôts de données Certaines études nécessitent un plan de collecte (étude qualitative, interception de données transitoires) Avenir : flux continu de données depuis les systèmes transactionnels et traitement immédiat du processus de DM Le processus de datamining

41 41 (3) Sélection des données pertinentes 4 Exhaustivité ou non des données ? Echantillon ? Dépend des modèles utilisés 4 Fonction des objectifs de létude (Phase 1) Equilibre entre les différentes classes dindividus à appréhender Stratification si une faible population a des enjeux forts Pondérations des individus Le processus de datamining

42 42 4 La qualité des données extraites ? 4 Identifier les valeurs aberrantes (histogramme, ctrl de cohérence à la saisie des données, outils de visualisation graphique) 4 Quantifier les valeurs manquantes (exclusion des enregistrements incomplets, remplacement par une valeur) les valeurs nulles (4) Nettoyage des données Le processus de datamining

43 43 4 Prévenir de la non-qualité des données Intégration de bruit : équilibrer la proportion des données erronées par rapport à lensemble extrait Utiliser les modèles adaptés en fonction du diagnostic : processus dapprentissage «flous», introduction de probabilité Revoir le processus d'extraction ou la saisie des données dans les systèmes initiaux (4) Nettoyage des données Le processus de datamining

44 44 4 Quelles transformations opérées sur les données ? 4 Transformer les données en fonction de la nature des données extraites et des modèles qui seront utilisés 4 Exemple de transformation mono-variable : Modification de lunité de mesure (normalisation, log()) cas de données numériques Transformation des dates en durée Modification des données géographiques (géocodage) Création de taxonomie de concepts (5) Actions sur les variables Le processus de datamining

45 45 4 Exemple de transformation multi-variables Construction dagrégats de variables Ratios (degré dimplication) Fréquences (mesurer la répétitivité) Tendances (évolution des échanges dans le temps - équations linéaires ou non) Combinaisons linéaires (construction dindicateurs) Combinaisons non linéaires (5) Actions sur les variables Le processus de datamining

46 46 4 Quel modèle découvrir ? 4 Quel type de techniques ? Supervisé (interactivité, connaissance des algorithmes) Non supervisé (automatisé) Fonction des phases précédentes (qualité des données, objectif,…) Algorithme de calcul pouvoir prédictif du modèle Utilisation des méthodes statistiques + nouveaux outils de type inductif, Bayésiens, neuronaux (6) Recherche du modèle Le processus de datamining

47 47 4 Pour la recherche du modèle : 2 bases de travail base dapprentissage (80% de la population) pour la découverte dun modèle base de test (20% de la population) pour évaluer le modèle découvert (6) Recherche du modèle Le processus de datamining

48 48 4 Évaluation qualitative Restitution de la connaissance sous forme graphique ou sous une forme interprétable 4 Évaluation quantitative Notion dintervalle de confiance (indicateurs pour la pertinence des règles, seuil de confiance et intervalle de confiance fonction de la taille de léchantillon) Validation par le test (base de test) matrice de confusion / éclairage métier (7) Évaluation du résultat Le processus de datamining

49 49 4 Évaluation quantitative - Matrice de confusion (7) Évaluation du résultat Achats constatés Achats Prédits OuiNonTotal Oui Non Total Qualité globale du modèle : / 1000 (81%) Forte capacité des non-acheteurs : 540 / 570 (94%) Acheteurs : 270/430 (63%) 160 prospects à contacter Le processus de datamining

50 50 4 Conversion de la connaissance découverte en décision & action Implanter le modèle ou ses résultats dans les systèmes informatiques ou dans le processus de lentreprise Bilan des étapes précédentes : O faible qualité des données collectées revoir le processus dalimentation du data warehouse O détection dune donnée de fort pouvoir prédictif modification de la BD O agrégats construits constituant des dimension intéressantes extension des tableaux de bord O connaissance extraite en contradiction avec la connaissance existante mesure de communication (8) Intégration de la connaissance Le processus de datamining

51 51 4 Rôle primordial des utilisateurs et des experts Sémantique donnée aux données (méta-données) Orientation du processus dextraction Valider ou infirmer les conclusions Logiciels de DM orientés recherche de modèle Une partie du processus Tendance : intégration de fonctions daide à tous les stades du processus 4 Après le processus : la diffusion et lintégration de la connaissance Processus dextraction - Conclusion Le processus de datamining

52 52Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

53 53 Data Mining : Cocktail de techniques 4 Évolution des techniques de statistique + apports des SGBD, de lIA et de lapprentissage automatique 4 Mélange de plusieurs disciplines degré de transformation des données implication de lutilisateur dans le processus performance et lisibilité du modèle SGBD ML Représentation de la Connaissance Les modèles du datamining

54 54 4 Logiciel Presse-Bouton (apprentissage automatique non supervisé) 4 Interaction avec lutilisateur au niveau de lapprentissage (paramètre) ou pendant la recherche du modèle 4 Logiciel basé sur des techniques statistiques : experts requis les outils de DM intègrent des tests statistiques et des algorithmes de choix des meilleures techniques de modélisation en fonction des caractéristiques du cas Data Mining : Utilisateur ou Statisticien Les modèles du datamining

55 55 4 Compromis entre clarté du modèle et pouvoir prédictif Data Mining : Lisibilité ou Puissance - Lisibilités des résultats + + Pouvoir de prédiction - réseaux neuronaux algorithmes génétiques réseaux bayésiens scores régression cluster arbres de décision analyse dassociation RBC - Compétences + Les modèles du datamining

56 56 4 Associations 4 Raisonnement à partir de cas 4 K means 4 Arbres de décision 4 Réseaux neuronaux 4 Algorithmes génétiques 4 Réseaux Bayésiens Quelques techniques Les modèles du datamining

57 57 Recherche d'associations ou analyse du panier de la ménagère 4 processus de découverte de connaissances non dirigée 4 étudier quels articles ont tendance à être achetés ensemble 4 issue du secteur de la distribution applicable dès que plusieurs actions faites par un même individu 4 utilisée pour découvrir des règles d'association but principal descriptif prédictive car résultats éventuellement situés dans le temps souvent départ d'une analyse O règles claires et explicites pour l'utilisateur métier O ensuite mise en œuvre d'un processus de test d'hypothèses ou de découverte dirigée

58 58 4 Construire un modèle basé sur des règles conditionnelles à partir dun fichier de données 4 Le modèle : Règles de la forme : Si prédicat(x) et prédicat(y)… alors prédicat(z) Pondération par une probabilité ou par une métrique de confiance Éventuellement situées dans le temps : "Si action1 ou condition à l'instant t1 alors action2 à l'instant t2" 4 Exemples de règles : Si achat de riz et de vin blanc, alors achat de poisson (84%) Si achat de téléviseur alors achat de magnétoscope dans les 5 ans (45%) Si présence et travail alors réussite à l'examen (99,9%) Les Associations Les modèles du datamining

59 59 4 Les domaines : Analyse des tickets de caisse (mise en relation entre n produits, relation de comportement de produits) Analyse des séquences dachats détection dassociation de ventes pour un même client dimension temporelle et notion dantériorité 4 Les enjeux : optimisation des stocks, merchandising, ventes croisées (bon de réduction, promotion) Les Associations Les modèles du datamining

60 60 4 Principes de construction dune association transaction ticket de caisse O une transaction T contient le détail des articles ou de leur famille O chaque article est une variable binaire une association est une implication de la forme X Y avec : X et Y T et X Y = deux indicateurs pour apprécier une association : niveau de confiance : Card(X Y) / Card(X) niveau de support : Card(X Y) / Card(X ou Y) extraire les associations pertinentes Les Associations Les modèles du datamining

61 61 Les Associations Les modèles du datamining

62 62 Les Associations Les modèles du datamining

63 63 4 Domaines dapplication Analyse dachats dans la grande distribution Analyse des mouvements bancaires, des incidents dans les assurances 4 Limites de lapproche article = code à barres & une famille = 100 références volume de données ( réf. élémentaires) hiérarchie de concepts niveau élémentaire pour confirmer limpact de marque X sur les ventes de Y vérifier les associations sur des concepts de haut niveau Les Associations Les modèles du datamining

64 64 Mise en oeuvre LA TAXINOMIE 4 Un supermarché gère environ références différentes 4 analyse sur tous les articles : tableau de 10 milliards de cellules pour des associations de deux articles ! des espaces disques importants (en téra octets) des temps de traitements en conséquence aujourd'hui pas très raisonnable 4 Solution : la taxinomie regrouper les articles, les généraliser sous un même terme générique, une même rubrique Exemple : le terme chocolat regroupe les chocolats noirs, au lait, de différentes marques, aux noisettes, allégés, …

65 65 Mise en oeuvre LES ARTICLES VIRTUELS 4 fréquent de rajouter des articles virtuels pour améliorer la performance du système pour représenter des informations transversales pour regrouper les articles d'une autre manière que la taxinomie O Exemple : produits allégés, marque que l'on trouve dans plusieurs rubriques pour donner des indications supplémentaires sur la transaction O donnée temporelle (jour de la semaine, heure, mois, saison, …), mode de paiement, météo, … O si possible des données sur le client (satisfaction, type d'habitat, catégorie socioprofessionnelle, âge, statut matrimonial, …) pour fournir des règles du type : "si printemps et jardin alors achat de gants de jardinage"

66 66 Mise en oeuvre LES REGLES DE DISSOCIATION 4 analogue à une règle d'association mais fait apparaître la notion de "non" 4 dans une entreprise, 5 produits (A,B,C,D,E) 4 Si un client prend les produits A,B et D, alors il générera la transaction {A,B,non C,D et non E} 4 Ce procédé génère des règles comme : "si achat du produit A et du produit C alors non achat du produit E". 4 inconvénient majeur : fournit des règles où tout est nié "si non A et non B alors non C" connaissances générées peu exploitables

67 67 Mise en oeuvre Le LES SERIES TEMPORELLES 4 L'analyse du panier de la ménagère Objectif : faire de la description et non de la prévision outil non optimal pour étudier les séries temporelles 4 contrainte : avoir une information de temps et une clé d'identification de l'objet (principalement le client) 4 difficulté : transformer les données en transactions 4 Plusieurs possibilités offertes : Ajouter à chaque article la notion de temps : avant, après, en même temps Créer des fenêtres temporelles : regrouper toutes les transactions effectuées dans un même intervalle de temps par un même individu O permet de dégager des profils, surtout associée à des articles virtuels

68 68 Mise en oeuvre plusieurs indicateurs complémentaires pour évaluer La fréquence 4 règle vraie pour deux clients sur cinq : fréquence 40% Le niveau (ou taux) de confiance 4 mesure de la probabilité dans la sous population concernée par la condition de la règle (fréquence sur une sous population) 4 Ex : règle "si achat de jus d'orange, alors achat d'eau minérale" la population ayant acheté du jus d'orange (ex : 4 individus) le nombre de fois où la règle est respectée (ex : 2) La proportion obtenue (ici 2 sur 4, soit 50 %) : niveau de confiance 4 permet de mesurer la force de l'association Prudence : n'intègre pas la notion d'effectif Ex : Si achat de lait, alors achat de nettoyant vitres O effectif 1 individu : très relatif malgré un très bon taux de confiance !

69 69 LE NIVEAU DE SUPPORT 4 nombre de fois où l'association est respectée, ramenée au nombre de fois où l'un des articles est présent 4 permet de mesurer la fréquence de l'association. Le taux d'amélioration 4 permet de mesurer la pertinence de l'association 4 Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat sans condition ? 4 ex règle : "si achat d'eau minérale, alors achat de jus d'orange" règle vraie pour 2 clients sur 3 qui ont acheté de l'eau taux de confiance pour l'achat du jus d'orange dans ces conditions : de 2/3 Or 4 clients sur 5 achètent du jus d'orange, soit 80% ! règle inintéressante à exploiter car ajout de condition pour un taux moins bon 4 Pour mesurer l'amélioration apportée par la règle, on divise le taux de confiance par la fréquence de l'événement ici : 0.66 / 0.80 = 83 % Si le résultat est supérieur à 1, la règle apporte une amélioration sur le résultat sinon renoncer à l'exploiter

70 70Conclusion 4 points forts de l'analyse du panier de la ménagère : résultats clairs et explicites adaptée à l'exploitation non dirigée des données traite des données de taille variable La technique et les calculs simples à comprendre 4 points faibles de l'analyse du panier de la ménagère : Le volume de calculs croît au carré ou au cube du volume de données prend mal en compte les articles rares difficile de déterminer le bon nombre d'articles les attributs des articles (détails et quantités) souvent ignorés

71 71Conclusion 4 technique s'appliquant aux problèmes d'exploitation des données non dirigée contenant des articles bien définis, qui se regroupent entre eux de manière intéressante 4 souvent analyse préalable car elle génère des règles susceptibles de soulever des interrogations ou des idées débouchera sur d'autres analyses plus fines : test d'hypothèse ou découverte de connaissance dirigée pour expliquer un phénomène révélé

72 72 Le raisonnement à partir de cas 4 technique de découverte de connaissances dirigée utilisée dans un but de classification et de prédiction bien adapté aux bases de données relationnelles mise en œuvre simple 4 équivalence de l'expérience chez l'homme processus : identification des cas similaires puis application de l'information provenant de ces cas au problème actuel principe : on présente un nouvel enregistrement, il trouve les voisins les plus proches et positionne ce nouvel élément O s'applique à tous les types de données. 4 pour estimer des éléments manquants, détecter des fraudes, prédire l'intérêt d'un client pour une offre, classifier les réponses en texte libre

73 73 VéhiculeAgeEnfants VéhiculeAgeEnfants Clio250Clio271 Espace324Megane302 Clio281Laguna390 Megane302Safrane550 Safrane501Clio241 Laguna352Megane332 Espace403Laguna382 Clio301Clio220 Megane342Megane351 Safrane522Laguna392 Laguna381Safrane541 Espace345 ventes de voitures Renault ventilées en fonction de l'âge et du nombre d'enfants de l'acheteur

74 74

75 75 4 La consultation du graphique des zones bien nettes permettant de déterminer, pour un nouveau client dont on connaît l'âge et le nombre d'enfants, le modèle susceptible de l'intéresser. trois nouveaux clients O La notion de distance est la distance métrique O conseil au client 1 une Espace, au 2 une Clio, au 3 une Safrane 1 3 2

76 76 Fonction de distance 4 Pour les données numériques La valeur absolue de la différence : |A-B| Le carré de la différence : (A-B)² La valeur absolue normalisée : |A-B| / (différence maximale) O avantage : se trouve toujours entre 0 et 1, supprime les problèmes d'échelles libre de créer sa propre fonction. 4 Pour les autres types de données à l'utilisateur de définir sa propre fonction de distance Exemple : O pour comparer le sexe d'un individu, valeur 1 s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques O pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, périurbaine, rurale) ou de la région toujours préférable d'avoir le résultat entre 0 et 1

77 77 Fonction de combinaison consiste à combiner les n voisins les plus proches pour obtenir le résultat de la prédiction souhaitée exemple : soit une liste de clients ayant déjà répondu à une offre commerciale (par oui ou non) l'utilisateur métier estime que les critères les plus déterminants sont le sexe, l'âge et le salaire net du dernier semestre

78 78 NuméroAgeSexeSalaireAcheteur A27F19000Non B51M66000Oui C52M105000Non D33F55000Oui E45M45000Oui

79 79 4 soit un nouveau client : une femme de 45 ans ayant un revenu de Francs 4 cette cliente sera-t-elle intéressée par l'offre ? 4 La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes A ce chiffre, on ajoute la distance normalisée du salaire et de l'âge Tableau des distances : Les voisins les plus proches sont dans l'ordre : D C B E A ClientAgeSexeSalaireDistance totale A B C D E

80 80 4 Utilisons maintenant la fonction de combinaison nombre de voisins retenus ? Nombre de voisins retenus Numéro des voisinsDDCDCBDCBEDCBEA Réponses des voisinsOO,NO,N,OO,N,O,OO,N,O,O,N Décompte des réponses Oui 1 Non 0 Oui 1 Non 1 Oui 2 Non 1 Oui 3 Non 1 Oui 3 Non 2 Valeur retenueOui? Evaluation100 %50 %66 %75 %60 % Si 3 voisins, réponse favorable avec une probabilité (plutôt espérance) de 66% possible également de donner un poids à chaque contribution Ex: 1er voisin a un poids de 3, 2ème poids de 2, 3ème un poids de 1 Possible de pondérer chaque variable utilisée dans la fonction de distance

81 81 Quelques remarques 4 Complexité en fonction de la taille de la base de cas 4 Technique d'optimisation ajout d'expertise pour guider la recherche vers les critères les plus pertinents Exemple : utilisation d'un arbre de décision 4 D'où principe : Collecte des données O Nombre d'exemples lié au nombre de variables et de valeurs par variable Recherche des facteurs pertinents O Par mots clés (mc) dist(x,y)=1-(nombre_mc_commun(x,y)/ nombre_mc(x ou y) O Hiérarchisation de concepts Indexation des données (plus proche voisin)

82 82Conclusion 4 Les points forts : produit des résultats explicites s'applique à tout type de données capable de travailler sur de nombreux champs facile à mettre en œuvre et à comprendre 4 Les points faibles : nécessite un grand volume de données pour être performant très dépendant des fonctions de distance et de combinaison

83 83 Détection automatique de clusters 4 méthode de découverte de connaissances non dirigée (ou apprentissage sans supervision) 4 ne nécessite aucun apprentissage 4 principe : regrouper les éléments par similarités successives 4 deux grandes catégories : la méthode des K-moyennes et les méthodes par agglomération. 4 objectif : procéder à une classification du type regroupement par similitude 4 un groupe appelé cluster 4 utilisation classique : clusteriser une population puis étude 4 prévoir une fonction de distance qui mesure l'écart entre deux enregistrements

84 84 K means 4 permet de découper une population en K clusters K défini par l'utilisateur 4 principe de fonctionnement : on positionne les K premiers points (ou noyaux) au hasard Chaque enregistrement est affecté au noyau le plus proche A la fin de la première affectation, calcul de la valeur moyenne de chaque cluster Le noyau prend cette nouvelle valeur répététition jusqu'à stabilisation des clusters

85 85Exemple 4 Personnes d'âge Ex : K=3 4 Les 3 noyaux : les trois premières valeurs 4 distance = différence / (amplitude maximum) = différence / 37) Noyau Noyau Noyau Minimum Affectati on noyau 1 (27) : noyau 2 (51) : noyau 3 (52) :

86 86 4 calcul des centroïdes : moyenne arithmétique du cluster soit 28 pour noyau 1, 45 pour noyau 2 et 54.5 pour noyau 3 Ces valeurs = positions des nouvelles noyaux 4 Recommençons le processus par rapport à ces valeurs Noyau Noyau Noyau Minimum Affectation L'affectation donne la répartition suivante : noyau 1 (28) : Moyenne = 26 noyau 2 (45) : Moyenne = noyau 3 (54.5) : Moyenne = En réitérant le processus, aucune modification des affectations Les clusters sont finalisés : Cluster 1: Jeunes majeurs - Centroïde = 26 Cluster 2: Quadragénaires - Centroïde = Cluster 3: Quinquagénaires - Centroïde = 53.33

87 87 Classification hiérarchique ascendante 4 Calcul des distances 2à 2 4 Agglomération des plus proches vosins (inférieurs à un seuil 4 Calcul des centroïdes 4 On itère..

88 88Exemple

89 89 4 seuil = 10% (0.1) à chaque itération fixé aléatoirement en fonction du niveau de regroupement souhaité par l'utilisateur. 4 ensemble des valeurs ordonné en ordre croissant 4 valeurs ayant un seuil inférieur à 10%, soit : 0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22) Chaque cluster est représenté par son centroïde (ici moyenne)

90 90 4 On recommence avec un seuil de 20 %

91 91Conclusion 4 Les points forts : Les résultats sont clairs plutôt facile à mettre en œuvre Pas grosse consommatrice de ressources application facile. 4 Les points faibles : difficile de trouver une bonne fonction de distance Certains clusters résultants peuvent être difficiles à expliquer

92 92 Les arbres de décision 4 objectif : classification et prédiction 4 fonctionnement basé sur un enchaînement hiérarchique de règles en langage courant 4 composé : Dun nœud racine De questions De réponses qui conditionnent la question suivante De nœuds feuilles correspondant à un classement 4 jeu de questions réponses itératif jusquà ce arrivé à un nœud feuille 4 pour déterminer quelle variable affecter à chaque nœud, application d'un algorithme sur chaque paramètre et conservation du plus représentatif pour un découpage

93 93 4 Le modèle Utiliser la valeur des attributs pour subdiviser lensemble dexemples en sous-ensembles de plus en plus fins Réitérer la démarche jusquà obtenir une classe avec un nombre majoritaire de n-uplets appartenant à la même classe Arbre : nœud racine = exemples Découpage successif par une séquence de décisions Résultat : un ensemble de règles Règle : si X=a et Y=b et… alors Classe 1 Parcours de larbre (liste dattributs dont la valeur détermine une classe dappartenance) Les Arbres de décisions Les modèles du datamining

94 94 4 Algorithme - Quinlan 1979 Fabrication dun arbre minimal en recherchant à chaque niveau le paramètre le plus discriminant pour classifier un exemple chemin optimal pour une classification correcte 1.Sélection de lattribut le + déterminant à chaque nœud Développement des branches pour chacune des valeurs de lattribut 2.si tout élément dune branche appartient à la même classe alors la feuille est étiquetée avec la classe sinon retour en 2. 3.si toutes les feuilles sont étiquetées ou plus dattributs alors fin sinon retour en 1. Les Arbres de décisions Les modèles du datamining

95 95 Amélioration C4.5 4 Utilisation de la notion dentropie pour le choix de lattribut à chaque étape 4 Limiter le développement de larbre (« élagage ») Force => Fréq. Classe / Fréq. Totale > seuil Statistiques pour mesurer lindépendance dun attribut /classe (Chi 2)

96 96 Les Arbres de décisions 4 Traitements des infos bruitées ou corrompues 2 classes mais plus dattributs pour subdiviser : O étiquetage par la classe majoritaire ou probabilité O test statistique : pour mesurer lindépendance entre attribut et classe 4 Traitements des valeurs manquantes Valeur majoritaire (renforce lentropie) Ignorer lexemple Probabilité sur chacune des branches Les modèles du datamining

97 97 Les Arbres de décisions Principes de calculs Algorithme de détermination de variable significative Diminution du désordre apparent dans les données 4 Cas de descripteur qualitatif O Probabilité dappartenance ex : grand-moyen-petit - sur 100 observations 20 ont la valeur « grand » - 20% O Mesure de lincertitude (désordre) : théorème de Shannon = - P i log 2 (P i ) avec P i : % dappartenance à la catégorie O Algorithme issus du Chi 2 qui permet de vérifier la conformité dun phénomène aléatoire à une loi de probabilité posée en hypothèse (algorithme de CHAID) Les modèles du datamining

98 98 Principes de calculs 4 Cas des attributs à valeur (oui, non) métrique de Hamming Hd = Nbre de non coïncidences entre deux attributs pseudo-métrique de Hamming (facteur de la mesure du désordre) Pm = Min ((nbre ex - Hd), Hd) Les Arbres de décisions Les modèles du datamining

99 99 Les Arbres de décisions OuiNon verse la taxe à lécole A eu un stagiaire RDV accepté RDV refuséRDV accepté OuiNon Arbre obtenu après 2 itérations Exemple dapplication de la distance de Hamming Les modèles du datamining

100 100 Principes de calculs 4 Cas de descripteur quantitatif O Méthode de grappe : partition sur la médiane pour deux classes, en déciles pour plusieurs classes pas de garantie pour obtenir un seuil optimal de découpage mais la méthode est rapide O Méthode exhaustive : méthode qui détermine le seuil optimal de découpage de la variable parcours de toutes les valeurs numériques prises par lattribut calcul du pouvoir discriminant pour chaque valeur, la valeur ayant le plus grand pouvoir discriminant devient seuil Les Arbres de décisions Les modèles du datamining

101 101 4 Enjeux La détection de variables importantes (structuration du phénomène étudié et mise en place de solutions correctrices) La construction dun S.I. (repérage des variables déterminantes, amélioration des règles dalimentation dun Data Warehouse, affinement dun processus dhistorisation) Data Mining de masse (formalisme très simple) Les Arbres de décisions Les modèles du datamining

102 102 4 Résoudre 2 types de problèmes : Segmentation dune population Affectation dune classe à un individu 4 Domaines dapplication Etude de marketing (critères prépondérants dans lachat) Marketing direct (isoler les meilleurs critères explicatifs) Ventes (analyse des performances) SAV (détecter les causes de réclamation, les défauts) Contrôle de qualité (identifier les éléments du processus) Domaine médical... Les Arbres de décisions Les modèles du datamining

103 103 4 Avantages et limites Simplicité dutilisation Lisibilité du modèle : règle Si... alors... sinon Pas adapté à un apprentissage incrémental (base de test) Taille de larbre : un arbre « touffu » perd son pouvoir de généralisation et de prédiction importance de lutilisateur métier Perspectives : intégrer ce type doutil à des tableurs ou EIS Les Arbres de décisions Les modèles du datamining

104 104 4 Définition Travaux récent 1975 (J. Holland) Système artificiel qui sappuie sur le principe de sélection de Darwin et les méthodes de combinaison de gènes de Mendel Description de lévolution dune population dindividus en réponse à leur environnement O Sélection : survie du plus adapté O Reproduction O Mutation Les Algorithmes Génétiques Les modèles du datamining

105 105Principe 4 Individus codés comme un ensemble de chromosomes Chaque chromosome a sa vie propre 4 Travail sur une population nombreuse de solutions potentielles toutes différentes 4 Élimination des plus faibles pour reproduire les mieux adaptés Individus les + adaptés ont une + forte chance d'être sélectionnés et dexister à la génération suivante 4 Reproduction par hybridation génétique des plus forts Donne des individus encore plus forts La mutation dun gène permet de conserver une certaine diversité dans la population

106 106 4 La population initiale cherche à peupler l'espace des solutions 4 Succès dans les problèmes doptimisation (proche des techniques de recherche opérationnelle) 4 Lapplication successive du processus de sélection + mutation permet datteindre une solution optimale Remarque Les modèles du datamining

107 107Codage 4 Codage sous forme de 0 et 1 (codage du chromosome) ex :[1]Ancienneté de la cde : 1 si < 6 mois et 0 sinon [2]CA Annuel : 1 si < 1000 $ et 0 sinon variable numérique transformée en entier puis en binaire

108 108 Fonction d'évaluation 4 Dépendante du problème Ex : taux d'impayés constatés 4 Permet de sélectionner le taux de reproduction à la génération suivante Taille de la population constante Tirage au hasard des candidats à la survie O Biaisé : ceux qui ont une fonction d'évaluation importante

109 109 Manipulation génétique 4 Hybridation échange entre 2 chromosomes d'un "morceau" 4 mutation changement de parité 4 inversion inversion de 2 caractères successifs

110 110 4 Principes Les Algorithmes Génétiques Population Initiale Solution acceptable ? Nouvelle génération Solution retenue Tri des solutions sur la fonction dévaluation Sélection des individus à conserver Hybridation Mutation Non Oui Les modèles du datamining

111 111 Exemple : voyageur de commerce LilleReimsDijonLyonAixPauNantesRouen Codage : 8 villes donc 3 bits Ordre donne la succession des villes traversées Fonction d'évaluation Ville non visitée : pénalité de 1000 Km distance entre 2 villes successives

112 112 LilleReimsDijonLyonAixPauNantesRouen chromosomes : F(1) = 5400 F(2) = 4700 F(3) = 2700 Reproduction de 2 (1 fois) et de 3 (3 fois)

113 113 LilleReimsDijonLyonAixPauNantesRouen Hybridation entre les chromosomes 3 et 4 échange d'une portion de chaîne

114 114 LilleReimsDijonLyonAixPauNantesRouen F(1) =2700 F(2) = 4700 F(3) = 3600 F(4) = 3200

115 115 Mutation du 1 : changement de parité au hasard LilleReimsDijonLyonAixPauNantesRouen F(0) = 2200 On conserve 0, 1,4

116 116 LilleReimsDijonLyonAixPauNantesRouen

117 117 4 Domaines dapplication Domaine industriel problème doptimisation ou de contrôle de processus complexes (ex : optimisation de la T° dun four, de la pression dun cylindre) Domaine spatial et géomarketing (ex : optimisation de lemplacement dautomates bancaires, optimisation dune campagne daffichage) Utiliser dautres techniques en complément (RN modifier le poids des liaisons, arbre de décision en isolant les variables qui expliquent un comportement) Les Algorithmes Génétiques Les modèles du datamining

118 118 4 Avantages et limites Capacité à découvrir lespace : N N 3 Limite du codage (formé de 0 et 1) O complexe à mettre en place O pb pour représenter la proximité de valeurs numériques Dosage des mutations : pb des sous-optimums locaux réglage subtil entre le mouvement et la stabilité taux dhybridation recombinaison des chaînes mais risque de détruire de bonnes solutions taux de mutation espace de solutions avec des risques daltération Les Algorithmes Génétiques Les modèles du datamining

119 119 Les Réseaux Neuronaux 4 Définition 1943 McCulloch et Pitts - Perceptron Connexionisme Analogie avec le fonctionnement du cerveau 2 catégories : O supervisé : réponse connue (apprentissage à partir d'exemples) O non supervisé : le réseau ne connaît pas le type de résultat Découvrir la structure sous-jacente des données par une recherche des corrélations des entrées pour les organiser en catégories Réseau non supervisé techniques statistiques (analyse de données) Les modèles du datamining

120 120Structure Les composants : 4 Le neurone formel 4 Une règle dactivation 4 Une organisation en couches 4 Une règle dapprentissage

121 121 Neurone formel 4 calcule la somme pondérée par son poids de chaque entrée transmise par le reste du réseau (Xi * Wi) X1 X2 X3 X4 W1W1 W2W2 W3W3 W4W4 Variables en entrée Poids associés sur chaque connexion Les modèles du datamining

122 122 Règle d'activation 4 Associée à chaque neurone formel 4 Définie avec une fréquence T une fonction généralement sigmoïde, dont le résultat est dactiver ou non le neurone de sortie X1 X2 X3 X4 W1W1 W2W2 W3W3 W4W4 Fonction Sortie

123 123 Les Réseaux Neuronaux 4 Définition Organisation en couches pour résoudre des problèmes de toute complexité La couche dentrée transmet ses résultats à la couche supérieure qui, ayant de nouvelles données et de nouveaux poids retransmet ses données résultantes à la couche suivante et ainsi de suite jusquà la couche de sortie qui fournit le neurone de sortie couches intermédiaires = couches cachées. Matrice des poids pour chaque couche Activation du nœud en sortie X1X2X3X4X5 W1W1 W 15 U1U1 Les modèles du datamining

124 124 4 Auto-apprentissage Capacité du réseau à changer son comportement en fonction de son expérience passée variation des poids de connexion Règle dapprentissage : minimiser lerreur entre la donnée fournie par le réseau et la donnée réelle Renforcement des connexions les plus actives (règle de Hebb) convergence rapide du réseau Possibilité dintégrer des relations complexes entre les données Les Réseaux Neuronaux Les modèles du datamining

125 125 Construction dun réseau de neurones 4 Phase 1 : préparation des données Données en entrée / sortie Constitution de la base dexemples O Représentativité de toutes les classes en sortie => Augmentation du pouvoir de prédiction ex : si 3% refus, proportion (50% refus et 50% accepté) Codage des entrées O Variable discrète = un neurone par type de valeur O Certaines variables continues traitées comme des variables discrètes Optimisation du jeu de données Les Réseaux Neuronaux Les modèles du datamining

126 126 Construction dun réseau de neurones 4 Phase 2 : création des fichiers Base dexemples (80 %) et base de test (20%) Dispatching aléatoire : brassage du fichier 4 Phase 3 : paramètres du réseau Matrice : poids entre les connexions Les logiciels : modes par défaut (mode novice ou expert) Nombreux paramètres : O architecture, fonction de sommation, fonction de transformation (fonction sigmoïde), normalisation de la sortie, transmission de la sortie (sorties actives, rétro-propagation), calcul de lerreur (erreur quadratique, absolue, moyenne…) Les Réseaux Neuronaux Les modèles du datamining

127 127 Construction dun réseau de neurones 4 Phase 4 : apprentissage (mise à jour itérative des poids) calcul de la rétro-propagation 1. Initialisation de la matrice des poids au hasard 2. Choix dun exemple en entrée 3. Propagation du calcul de cette entrée dans le réseau 4. Calcul de la sortie de cette entrée 5. Mesure de lerreur de prédiction ( sortie réelle et sortie prévue) 6. Calcul de la sensibilité dun neurone (contribution à lerreur) 7. Détermination du gradient 8. Correction des poids des neurones 9. Retour à létape 2 4 Phase 5 : performance du réseau Matrice de confusion Les Réseaux Neuronaux Les modèles du datamining

128 128 4 Domaines dapplication RN sont largement diffusés Reconnaissance des formes Traitement du signal O domaine médical, risque cardiovasculaire O domaine bancaire, risque de défaillance ou dutilisation frauduleuse Classification O marketing (identification de segments de clients) O industrie (détection de défauts et de pannes) Prévision O prévision de valeurs boursières, des ventes en marketing… Contrôle adaptatif (robotique) Les Réseaux Neuronaux Les modèles du datamining

129 129 4 Avantages et limites Auto-apprentissage Technologie éprouvée (des réponses aux limites) Faux mythe de la boite noire Risque de trop apprendre Taille de la base d exemple O ex : 256 entrées, une couche intermédiaire à 10 neurones et 3 neurones en sortie = 2590 connexions soit exemples Risque de non optimalité O présence de minima locaux apprentissage sur plusieurs réseaux à partir de plusieurs matrices de poids ou variation du delta au cours de la construction du réseau Temps de calcul Les Réseaux Neuronaux Les modèles du datamining

130 130 Les réseaux Bayésiens 4 Définition Modèle graphique qui encode les probabilités entre les variables plus pertinentes Associer une probabilité dapparition dun événement étant donné la connaissance dautres événements Comprendre certaines relations causales (notion dantériorité ou dimpact) conjonction de certaines variables pour déclencher une action Les modèles du datamining

131 131 Les réseaux Bayésiens 4 Conception des réseaux bayésiens Graphe orienté : Probabilité dapparition dun événement : Force des dépendances entre variable = probabilité conditionnelle Objet Prêt Contentieux Sain Montant Durée P(Sain|Objet, Durée, Montant) = P(Objet) x P(Montant|Objet) x P(Durée|Montant, Objet) x P(Sain|Montant, Durée) Les modèles du datamining

132 132 Les réseaux Bayésiens 4 Conception des réseaux bayésiens Complexité du réseau Variables discontinues autant de nœuds que de valeurs O Variables continues modélisées par la techniques de grappe Limiter le nombre de nœuds et de connexions Ex : 10 objets de prêt, 10 tranches de montant, 10 tranches de durée, 2 résultats en sortie = 32 nœuds Elagage du réseau O Regroupement des valeurs O Limitations des liens : recherche de la couverture minimale Les modèles du datamining

133 133 Les réseaux Bayésiens 4 Domaines dapplication Peu dapplications opérationnelles - technique jeune (modélisation de processus dalertes, prédiction de risques dimpayés pour télécommunications) Peu de logiciels 4 Avantages et limites Bon compromis entre puissance et compréhension Bonne résistance au bruit Limite de la puissance de calcul Ex : 3 var. de 10 modalités et 2 parents = 90 lectures Les modèles du datamining

134 134Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

135 135 exemple : Étude de cas

136 136Exemple 4 Cas très simplifié 4 Identification de profils clients et organisation dune campagne de marketing direct 4 Voyagiste qui organise des circuits touristiques et propose 5 types de prestations (A, B, C, D, E) 4 Politique de fidélisation des clients

137 137 Exemple : 1. Poser le problème 4 Affiner le problème : fidéliser le client vendre aux clients existants de nouvelles prestations transformer les mono-détenteurs en multi-détenteurs 4 1. Problème de structuration Distinguer les mono-détenteurs, qui sont mes clients ? 4 2. Problème daffectation Construire des cibles prioritaires pour la vente croisée de produits, quels sont les clients à contacter ?

138 138 Exemple : 2. Recherche des données 4 Infos disponibles « comportement dun client » informations Client : O Age, Sexe, Situation familiale, Nombre denfants, Catégorie socioprofessionnelle, Nombre dannées dans lemploi informations sur les Produits achetés : O Produit A + date du 1 er achat du produit A O Produit B + date du 1 er achat du produit B O... O Produit E + date du 1 er achat du produit E

139 139 Exemple : 2. Recherche des données 4 Infos disponibles « comportement dun client » informations comptables O Montant des achats, Date du dernier achat, Type de paiement, Statut financier informations collectées par questionnaire O Centres dintérêts informations géographiques O Code commune, taille de la commune, type habitat origine des variables de trois sources : systèmes gestion client, gestion produits et achats, enquêtes et Insee 4 Traitements sur les données « dédoublonnage » des fichiers et traitement des adresses

140 140 Exemple : 3. Sélection des données 4 Données des centres dintérêts données saisies manuellement + données issues de mégabases (Calyx ou ConsoData) 1 client sur 2 répond aux enquêtes + 10% issus des mégabases 55% taux de renseignement extraction sur toute la population (biais) 4 Étude sur le thème (Récence-Fréquence-Monétaire) pas dachats sur les 5 dernières années pour 30% clients 10% clients = 40% du C.A. suppression des 30% dinactifs et sur-pondération des 10% des clients à fort C.A.

141 141 Exemple : 3. Sélection des données 4 Modification du plan dextraction : clients à fort C.A 80% des questionnaires remplis clients intermédiaires : 60% de réponses 4 Procédures dextraction si dernier achat de + de 5 ans : ne pas extraire si achat > 25000F : tirage aléatoire 1 sur 3 (30%) sinon tirage aléatoire : un enregistrement sur 10 (10%) 4 Échantillon non représentatif de la population mais plus représentatif des enjeux de marketing (accroître le C.A.)

142 142 Exemple : 4. Nettoyage des données 4 Taille du fichier O Extraction fichiers de 1500 clients avec qualification de 1410 adresses fichier de 1410 enregistrements O Enrichissement des centres dintérêts : taux de pertinence 94% 4 Valeurs aberrantes O analyse valeurs minimales et maximales ex : exclusion des clients avec C.A.> 35000F erreur de codification clients particuliers et entreprises O analyse de la distribution (homogénéité) ex : distribution des âges, crête forte sur des valeurs rondes 20, 25, 30 O contrôle de cohérence des infos ex : code CSP inexistant classé 99, absence de personnes mariées, dates incohérentes => pb extraction ou suppression des enregistrements

143 143 Exemple : 4. Nettoyage des données 4 Valeurs manquantes nombre denfants : valeur NR ou moyenne nationale 4 Valeurs nulles discrétisation de la valeur O ex : Nb enfants NR = Null, 0 = 0, 1 = 1, 2 = 2, 3 à N = 3 4 Transformation des variables pour introduire des dimensions particulières âge du client au 1 er achat (âge et date au 1 er achat) durée de vie du client (âge au 1 er et au dernier achat) détention des produits (nbre de produits détenus) type habitat et taille de la commune

144 144 Exemple : 6. Recherche du modèle 4 1. Caractériser la population en sous-groupes homogènes: typologie des clients Analyse factorielle met en évidence 3 facteurs principaux O nombre de produits achetés ancienneté des achats O données sur lâge du client ancienneté dans lemploi O C.A. Techniques des nuées dynamiques

145 145 Exemple : 6. Recherche du modèle monodétenteur Âgés jeunes avec C.A. moyen 20 % âgés avec gros C.A. 4 % âgés avec C.A. moyen 21 % jeunes avec petit C.A. 21% âgés avec petit C.A. 7 % S4 S5 S6 S3 S1 S2 S9 S8 S7 multidétenteur Jeunes C.A. élevé C.A. faible jeunes clients avec gros C.A. 3% âge moyen avec C.A. moyen 6 % âge moyen avec C.A. important 5% âge moyen avec petit C.A. 7 % 4 1. Caractériser la population en sous-groupes

146 146 Exemple : 6. Recherche du modèle 4 2. Ventes croisées (modèle de prédiction) Quest ce qui caractérise les gros C.A. parmi les jeunes clients, les middle-aged et les âgés ? Étude sur les jeunes clients Approche neuronale : O distinction des facteurs pertinents O 3 segments : multiacheteurs avec fort C.A. 3%, multiacheteur avec C.A. moyen 20%, monoacheteurs 21% Modèle pour permettre de vendre plus (2 classes : monodétenteur et multidétenteur)

147 147 Exemple : 6. Recherche du modèle 4 Premiers résultats (représentation équilibrée à 50% des deux classes) facteurs pertinents : O CSP, nb dannées dans lemploi, statut familial, nb enfants diminution des variables en entrée du réseau 4 Réseau final modèle appliqué à lensemble de la base probabilité dappartenance des classes ajoutée dans la BD résultat : modèle à 75% Mono observé Multi préditMono prédit Multi observé45% 15%30% 10% erreurs prospects

148 148 Exemple : 6. Recherche du modèle 4 Arbre de décision : isoler les monodétenteurs des multidétenteurs mise en évidence de lâge comme premier facteur explicatif de la monodétention 4 Arbre de décision appliqué sur une population jeune cadre ou profession libérale consommateur de voyages jeune marié avec un voyage longue distance : cible peu propice 4 Approche neuronale et Arbre de décision appliqués sur les populations « middle-aged » et « âgé »

149 149 Exemple : 7. Évaluation du résultat 4 Mesure du taux de classification sur la base test entre base apprentissage et test doit être minimale 4 Validation avec la connaissance des commerciaux et des spécialistes marketing possibilité dinteragir sur larbre de décision en forçant la scission sur une variable supposée pertinente par les experts pour prouver le faible pouvoir discriminant 4 Travail important de communication et de présentation des résultats

150 150 Flexibilité de production/logistique Forte FaibleForte Flexibilité de communication Flexibilité externe One to One Monolithisme Flexibilité externe Exemple : 8. Intégration de la connaissance politique de communication et production orientée client augmenter les informations stockées, personnalisa- tion des courriers personnalisation du catalogue et des tarifs rapport

151 151Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

152 152 Choix dun logiciel de Data Mining 4 Selon son prix 4 Selon son intégration possible 4 Selon le problème à résoudre 4 Selon les compétences des utilisateurs

153 153 Gamme de prix 4 Suites statistiques évolutives ( EUR) SPAD (CISIA) Smart Miner (Grimmer Soft) Knowlbox (Complex Systems) mélange de techniques de gestion de bases de données, doutils statistiques et de techniques de data mining

154 154 Gamme de prix 4 Outils légers, pour PC de bureau (<2500 EUR) Scenario (Cognos) Diamond (SPSS) Previa (ElseWare) technique unique de data mining, algorithme unique, facile dutilisation

155 155 Gamme de prix 4 Outils intermédiaires ( EUR) Légers étendus : O Alice (ISoft) O 4Thought (Cognos) O Knowledge Seeker (Angoss) Concurrents poids lourds : O Clementine (SPSS) O PolyAnalyst (Megaputer) majoritaires, accessibles aux néophytes et aux experts

156 156 Gamme de prix 4 Outils poids lourds ( … EUR) Intelligent Miner (IBM) SAS Entreprise Miner (SAS) Decision Series (NeoVista) Mineset (Silicon Graphics) Tera Miner (NCR) ensembles intégrés (techniques et algorithmes variés), puissants

157 157 Possibilité dintégration ? 4 Connexion aux BD ? Format spécifique ? Fonction de nettoyage ? 4 Interface avec des requêteurs et outils OLAP ? En amont, pour orienter lanalyse En aval, pour évaluer les résultats et simuler les décisions

158 158 Complexité du problème ? 4 Quantité des données traitées si énorme, éviter un outil utilisant Excel… 4 Origine des données traitées 4 Nombre dinter-relations entre variables 4 Nature des relations linéaires ou non 4 Techniques souhaitées pour construire un modèle : Unique : connue à lavance ou choisie par expérimentation Combinées

159 159 Niveau des utilisateurs ? 4 Compétences requises spécialistes des données à traiter interfaces utilisateurs assistants formation proposée 4 Novices : interface conviviale, technicité masquée, interprétation guidée 4 Experts : transformation des données, affinage du modèle, …

160 160 Choix dun logiciel de Data Mining Bref,… lexpérimentation est une bonne solution

161 161 Outils spécialisés 4 Data morphing Amedea (Isoft) 4 Arbres de décisions Scenario, Answer Tree (SPSS), Alice 4 Réseaux de neurones Neuro One (Netral), Saxon (PMSI), Previa (ElseWare), 4Thought 4 Text mining TextAnalyst (Megaputer), NeuroText (Grimmer), Umap (Trivium)

162 162 Outils intégrés 4 Tous les « poids lourds » + Strada (Complex Systems) : AD, AG, RN + Knowledge Seeker : AD, RN

163 163 Pièges à éviter 4 Système dexploitation Windows (en général) Unix (poids lourds + produits peu commerciaux) 4 Matériel Minimum 256Mo RAM pour les poids lourds Lenteur dun réseau 4 Coût Achat ou location ? 4 Dépendances Besoin de « modules » supplémentaires ?

164 164Expérimentations 4 Indispensables pour choisir un outil 4 A lUFR : Alice : version dévaluation, à installer en local (C:\Temp mot de passe : ducksoup) SAS Entreprise Miner : quelques licences louées très cher, disponible (au moins) en salle 213

165 165Plan 4 Introduction 4 1.Généralités 4 2. Le processus de datamining 4 3. Les modèles du datamining 4 4. Exemples 4 5. Critères pour le choix dun logiciel 4 Conclusion et perspectives

166 166 Conclusion et Perspectives 4 Réussite dun bon projet pilote Constituer un enjeu pour lentreprise Impliquer plusieurs directions (application transversale) Avoir des effets mesurables rapidement O typologie client - pas immédiatement opérationnel O + facile optimisation dune cible de marketing Sujet pour lequel il existe une compétence interne O complémentarité avec les experts O découverte de phénomène insoupçonnés (+ du DM) Aboutir à des conclusions pouvant être mises en œuvre Rechercher les problèmes répétitifs de lentreprise

167 167 Conclusion et Perspectives 4 Loutillage de base pour un projet de DM Une BD relationnelle Un requêteur (BO, Impromptu, Bio ou GQL) [+ outil de visualisation graphique] O agrégation complexe et nettoyage des données Logiciel statistique (si composantes non intégrées) Logiciel darbre de décision O (3 catégories : poids lourds, haut de gamme, solution légère) Réseau de neurones O (prévision temporelle, modèles non linéaires) Matériel dépend des outils et du nbre denregistrements

168 168 Conclusion et Perspectives 4 Pièges à éviter Attention à la qualité des données ! Eviter une démarche centrée outils définir le pb avant Le DM ne remplace pas les statistiques complémentarité Intégrer les résultats du DM dans le S.I. Ne pas négliger la communication et la mise en application Anticiper la résistance participation des utilisateurs Démystifier le DM

169 169 Conclusion et Perspectives 4 Perspectives Data Mining et SGBD O intégration des fonctions de DM transparence de lanalyse et flux continu Data Mining et OLAP O intégration des technologies de DM dans les outils dinterrogation et de visualisation O ex : partenariat BO et Isoft produit Alice partenaire Cognos / Angoss produit Scenario proposer à lutilisateur les dimensions à étudier en priorité conseiller lintégration aux outils de navigation

170 170 Conclusion et Perspectives 4 Perspectives Data Mining et Multimédia O text mining, image mining, video mining (ex : interprétation des commentaires libres dans les enquêtes) (ex : similarité entre images médicales aide au diagnostic) (ex : indexation automatique de banques de films) Data Mining et Internet O Internet facilite la collecte dinformation par son coût faible - BD sur le comportement des clients (profil dun client sur le site WEB dun voyagiste) => applications interactives O DM apporte des solutions innovantes pour la navigation Interface internet standardisation des interfaces HTML

171 171 Conclusion et Perspectives 4 Vers une « verticalisation » des outils de DM ? Applications du DM sur des domaines particuliers profiter de la puissance du DM sans investir en compétences spécifiques ex : SLP : outil danalyse de départ de clients dans le domaine des télécommunications VMData : outil prêt à lemploi pour construire des ciblages Le processus de DM est rarement reproductible Solutions restreintes à des domaines très étroits

172 172 Conclusion et Perspectives 4 Droit informatique & liberté et le DM ? Domaine de prédilection du DM : la K du client Exploitation de données pour prédire des comportements individuels Position de la CNIL O conformité des méthodes de ciblage à la loi Info & Liberté O pas de prise en compte de critères raciaux, politiques, ni aboutir à des qualificatifs péjoratifs ou défavorables O Atteinte à la vie privée ? Ex : lexamen des achats par CB ? O Droit de regard sur tout traitement automatisé O « Big Brother »

173 173 Conclusion et Perspectives 4 Évolution plutôt que révolution 4 Ne pas confondre le processus et les outils souvent limité à la phase de recherche du modèle O évolution des outils, intégration dassistants dans le processus 4 Maturité des principales techniques de modélisation 4 Une BD renferme de la connaissance sur lentreprise règle de gestion : contraintes dintégrité, triggers modèle des données (ex : modélisation dune base exprime souvent une classification initiale, le modèle exprime également des liens entre les entités du monde réel)

174 174Bibliographie Le Data Mining R. Lefébure, G.Venturi Eyrolles 1998 Et de nombreux documents trouvés sur le web !

175 175Exemple 4 Plusieurs en quêtes (sources) sur les goûts des gens au cinéma 4 Base de données relationnelle: cinéma Personne(id-personne,nom,sexe,âge) Enquête(id-personne,id-source,id-film,vote) Source(id-source,nom-source) Film(id-film, titre,année)

176 176 Algorithme CART 4 algorithme publié en 1984 par L.Briemen 4 utilisé dans de nombreux outils du marché 4 Processus Trouver la première "bifurcation" Développer larbre complet Mesurer le taux derreur à chaque nœud Calculer le taux derreur de larbre entier Elaguer Identifier les sous-arbres Evaluer les sous-arbres Evaluer le meilleur sous-arbre

177 177Principe 4 première "bifurcation" : celle qui divise le mieux les enregistrements en groupes 4 pour déterminer le critère qui effectuera le meilleur partage entre les éléments Calcul d'un indice de diversité Max(diversité(avant division) – (diversité fils gauche + diversité fils droit)) 4 différents modes de calcul pour lindice de diversité : Min (Probabilité(c1), Probabilité(c2)) (Probabilité(c1)logProbabilité(c1))+ (Probabilité(c2)logProbabilité(c2))

178 178Principe 4 Une fois la première bifurcation établie : le nœud racine se sépare en 2 4 étape suivante : développer larbre complet en divisant de la même façon les nouveaux nœuds crées ainsi de suite tant que le résultat de la division a une valeur significative dernier nœud : nœud feuille donnant le classement final dun enregistrement

179 179Principe 4 Larbre résultant nest pas obligatoirement le meilleur 4 prochaine étape : calcul du taux derreur pour chaque nœud Si 11 enregistrements sur 15 sont classés correctement daprès lensemble dapprentissage, la probabilité pour ce nœud est de 11/15 soit 0,7333 Le taux derreur attribué est de 1 – 0,7333 = 0, possible de calculer le taux derreur de larbre entier soit : t : taux derreur dun nœud P : probabilité daller au nœud Taux derreur de larbre = (t * P) Soit dans lexemple, avec un taux derreur de (15/17) pour le nœud Masculin ((11/15) * 0,80) + ((15/17) * 0,20) = 0,763

180 180Principe 4 à lissue du premier passage certains nœuds feuilles ne contiennent pas suffisamment denregistrements pour être significatifs élaguer le plus complexe étant de trouver la bonne limite à appliquer 4 choix des branches à supprimer : par taux derreur ajusté dun arbre Calculé, sur chaque sous arbre possible : Soit le compte des feuilles Taux derreur ajusté = taux derreur + compte des feuilles 4 Un premier sous arbre est candidat lorsque son taux derreur ajusté devient plus petit ou égal au taux derreur ajusté de tout larbre 4 Toutes les branches, qui nen font pas partie, sont élaguées 4 le processus recommence ainsi de suite jusquau nœud racine

181 181Principe 4 maintenant choisir parmi tous les sous arbres candidats 4 chaque sous arbre va être exécuté avec un ensemble de test celui qui aura le plus petit taux derreur sera le meilleur 4 pour contrôler lefficacité du sous arbre sélectionné un ensemble dévaluation va lui être soumis Son taux derreur obtenu donnera une estimation des performances de larbre

182 182 Différence avec CART 4 Nombre de sorties dun nœud variable CART génère des sorties binaires C4.5 accepte plusieurs valeurs à lissue dun nœud Méthode de détermination de lordre des bifurcations CART utilise lindice de diversité comme méthode daffectation des bifurcations C4.5 utilise le gain informationnel total Elagage C4.5 nutilise pas densemble de test il élague son arbre à partir des données dapprentissage en considérant que le taux derreur réel sera sensiblement pire parfois, lorsque les nœuds comportent peu denregistrements, suppression de sous-arbres complets Ensemble de règles C4.5 déduit de larbre de décision un ensemble de règles, O facilite son interprétation

183 183 Exemple : le logiciel Classpad

184 184 Déduction Orientée Attribut 4 DBLearn [Han et al. 92] Généraliser une table ou une requête en utilisant la connaissance du domaine Utilisation des tables relationnelles comme structure tuple = formule logique Langage dapprentissage basé sur SQL Pré-sélection des données par des requêtes Connaissance extraite exprimée sous la forme de règles Connaissance du domaine exprimée : O hiérarchie « is-a » de concept O hiérarchie de concepts discrets pour les attributs numériques

185 185 Déduction Orientée Attribut 4 Principes Pour chaque attribut Ai dans RG (relation obtenue après létape de sélection) Tant que nb-valeurs(Ai) > seuil faire substituer Ai avec le concept général fusionner les tuples obtenus (calculer le vote) Tant que nb-tuples(RG) > seuil faire choisir les attributs généralisés fusionner les tuples Fusion de la relation initiale en n relations pour lapprentissage de règles discriminantes (autant de relations que de classes)

186 186 Déduction Orientée Attribut 4 Exemple

187 187 Déduction Orientée Attribut Etudiants en relation apprentissage de la règle caractéristique pour Status = « Graduate » en fonction de Name, Major, Birth place, GPA

188 188 Déduction Orientée Attribut Règle caractéristique x, graduate(x) (Birth Place(x) Canada GPA(x) excellent) [75%] (Major(x) Science Birth Place(x) Foreign GPA(x) good) [25%]

189 189 Déduction Orientée Attribut Règle discriminante

190 190 Déduction Orientée Attribut Règle discriminante (2b) x, graduate(x) (Major(x) Science Birth Place(x) Foreign GPA(x) good) [100%] (Major(x) Science Birth Place(x) Canada GPA(x) excellent) [44,44%] (Major(x) Art Birth Place(x) Canada GPA(x) excellent) [63,64%] (2a) x, graduate(x) (Major(x) Science Birth Place(x) Foreign GPA(x) good)


Télécharger ppt "1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005."

Présentations similaires


Annonces Google