Étude bibliographique Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)
Le Data Mining (fouille de données) Stockage de données toujours plus importants Extraire de l’information de bases de données ou de fichiers Idée : automatisation de la prise de décision à partir des données brutes Enjeu du Data Mining : maîtriser l’information pour prendre de bonnes décisions
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Méthodologie générale Poser le problème Préparer les données Collecter les données Nettoyer les données Analyser les données Méthodes du Data Mining Interpréter les résultats
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Données utilisées Les tableaux de donnés Compte de clients Variables X1 X2 … Xj … Xn 1 i n Xij Individus clients Dépôt dans chaque compte
Données utilisées Les tableaux de donnés Les variables variables chronologiques variables logiques variables qualitatives à réponses multiples variables de classement variables de préférence Les tableaux de données textuelles
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Découverte des règles Découverte de relations entre les données achat de riz et achat de vin blanc achat de poisson Indice de confiance indiquant le pouvoir prédictif de la règle Indice valable uniquement si la règle est vérifiée par un certain nombre de données
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Arbres de décision Principe : Arbre construit en recherchant les meilleurs critères informatifs pour permettre un découpage successif des bases de données Mise en évidence des variables les plus pertinentes Utilisation d’algorithmes de construction de l’arbre Utilisation : classification et prédiction
Exemples : Tirage de boules rayon Possibilité de plusieurs critères pour la construction d’un arbre poids
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Réseaux bayésiens Graphe orienté : nœuds : variables arcs : dépendance entre les variables Association d’une probabilité d’apparition d’un événement étant donné la connaissance de certains autres évènements
maladie Cet exemple est issu des travaux de Lauritzen et Spiegelhalter.
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Réseaux de neurones Principe : Reproduire la capacité du raisonnement logique humain découverte de propriétés intelligences Découverte des relations entre les variables d'une population étudiée Utilisation de mécanismes d'apprentissage
Réseaux de neurones Apprentissage modification du comportement du réseau jusqu'à l'obtention du comportement désiré échantillon de la population pour lequel les résultats sont connus Les règles découvertes appliquées sur les données entières prédiction des résultats Application au Data Mining : Estimation ou classification
PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Algorithme génétique mécanisme de la sélection naturelle de Darwin : Reproduction Mutation Évolution d’une population d’individus au cours de générations successives Concrètement : élimination des éléments les plus faibles pour favoriser les individus les plus « performants »
Les algorithmes génétiques sont différents des autres techniques de Data Mining : manipulation de bits sans se soucier des valeurs représentées par les bits simple à mettre en œuvre Avantages : facilement utilisable une fois que le problème est formalisé Difficultés : formalisation des données
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Techniques heuristiques Algorithmes d’apprentissage CART [Briemen,1984] ID3 [Quinlan,1986] CN2 [Clark & Niblett,1989] C4.5 [Quinlan,1993] AQ15 [Michalski]
Ces 3 opérateurs diffèrent selon les méthodes Techniques heuristiques Algorithmes d’apprentissage par arbres de décision : ID3, C4.5, CART Ces 3 opérateurs diffèrent selon les méthodes Initialiser l’arbre courant à l’arbre vide Répéter si le nœud courant est terminal alors affecter une classe sinon sélectionner un critère et créer le sous-arbre Finsi Passer au nœud suivant non exploré s’il en existe Jusqu’à obtenir un arbre de décision
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Méthode dérivées Data Warehouse (entreposage de données) : Rôle : stocker des données en vue de les exploiter Accessible par toutes les applications d’aide à la décision Text Mining : Techniques précédentes ne traitent que des données numériques ou qualitatives Extraire de l’information à partir de données textuelles
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Étude de cas Phase 1 : Poser le problème Phase 2 : La recherche de données Phase 3 : La sélection des données Phase 4 : Le nettoyage des données Phase 5 : l’action sur les variables Phase 6 : la recherche du modèle Phase 7 : l’évaluation des résultats
Phase 1 POSER LE PROBLEME Présentation de l’entreprise : Voyagiste organisant des circuits touristiques Objectifs : Mise en place d’une politique de fidélisation chez un voyagiste Buts : Vendre aux clients existants de nouvelles prestations
Phase 2 RECHERCHE DE DONNEES Informations sur le client : age, sexe, catégories socio-professionnelle, nombre d’enfants à charge. Informations sur le type de produits achetés : produits avec la date de premier achat
Phase 2 RECHERCHE DE DONNEES Informations comptables : montants des achats, date du dernier achat, type de paiement, statut financier du client.
Phase 2 RECHERCHE DE DONNEES Informations collectées par questionnaire et enquête : centres d’intérêts Informations géographiques : code commune, taille de la commune, type d’habitat
Phase 3 SELECTION DES DONNEES Problèmes liés à la récupération des données : Données saisies manuellement et enrichies à partir de mégabases Un client sur deux remplit le questionnaire Échantillon non représentatif de la base Étude ne peut être réalisée sur les seuls clients répondant aux questionnaires. Modification du plan d’extraction
Phase 4 NETTOYAGE DES DONNEES Contrôle manuel difficilement envisageable Valeurs aberrantes recherchées : analyse des valeurs minimales et maximales contrôle de cohérence de certaines informations Valeurs manquantes : Distinction des valeurs renseignées des valeurs manquantes
ACTIONS SUR LES VARIABLES Phase 5 ACTIONS SUR LES VARIABLES Croisement des variables : age du client au moment du premier achat durée de vie du client dans la compagnie de voyages style d’habitat (croisement des variables type d’habitat et taille de la commune)
Phase 6 RECHERCHE DU MODELE Recherche des facteurs pertinents Facteurs de différenciation des clients : mono-acheteurs et multi-acheteurs de voyages clients âgés et clients jeunes petits et gros acheteurs Quels sont les facteurs comportementaux qui permettent de caractériser les gros chiffres d’affaires parmi les clients jeunes ?
Phase 6 RECHERCHE DU MODELE Préparation des réseaux de neurones Le fichier des jeunes se décompose en trois segments : les multi-acheteurs avec un fort chiffre d’affaires (3%) les multi-acheteurs avec un petit chiffre d’affaires (20%) les mono-acheteurs (22%) Probabilité d’appartenance à chacune des classes : mono ou multi est ajoutée à notre base d’analyse.
Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)
Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) part importante des mono-acheteurs classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)
Phase 6 RECHERCHE DU MODELE Formalisation de la connaissance par arbre de décision Utilisation de la connaissance acquise par les réseaux de neurones pour extraire l’arbre de décision 1er niveau de développement de l’arbre : mise en évidence de l’âge comme premier facteur explicatif du mono-achat
Phase 6 RECHERCHE DU MODELE Développement de la sous population des « jeunes » : permet de constater que les célibataires cadres ou exerçant une profession libérale consomment régulièrement des voyages en revanche, les jeunes mariés, ayant entrepris un voyage « longue distance » se révèlent une cible peu propice au renouvellement
Phase 6 RECHERCHE DU MODELE Synthèse Engagement d’une phase de communication avec les experts marketing Modification du questionnaire d’évaluation Date de mariage Motivation du voyage Actifs jeunes Type de voyage pris en compte
EVALUATION DES RESULTATS Phase 7 EVALUATION DES RESULTATS Phase de validation : Croisement des renseignements recueillis avec le data mining avec les experts marketing et les commerciaux
PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen
Les libertés du citoyen C.N.I.L. : Commission Nationale de l’Informatique et Libertés « L’informatique ne doit porter atteinte : ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques. » Data Mining entreposage de données Position de la C.N.I.L. : le Data Mining est autorisée mais toutes les opérations doivent être déclarées.
Conclusion Techniques du data mining ne sont pas des outils miraculeux donnant automatiquement à l’utilisateur des informations pertinentes Insertion dans un processus complexe : Préparation de données Data mining Exploitation des résultats obtenus Plusieurs méthodes doivent être proposées pour choisir le bon modèle. Nouvelles « disciplines » : Text mining Image mining
Étude bibliographique Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)