La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Étude bibliographique

Présentations similaires


Présentation au sujet: "Étude bibliographique"— Transcription de la présentation:

1 Étude bibliographique
Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)

2 Le Data Mining (fouille de données)
Stockage de données toujours plus importants Extraire de l’information de bases de données ou de fichiers Idée : automatisation de la prise de décision à partir des données brutes Enjeu du Data Mining : maîtriser l’information pour prendre de bonnes décisions

3 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

4 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

5 Méthodologie générale
Poser le problème Préparer les données Collecter les données Nettoyer les données Analyser les données Méthodes du Data Mining Interpréter les résultats

6 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

7 Données utilisées Les tableaux de donnés Compte de clients Variables
X1 X2 … Xj … Xn 1 i n Xij Individus clients Dépôt dans chaque compte

8 Données utilisées Les tableaux de donnés Les variables
variables chronologiques variables logiques variables qualitatives à réponses multiples variables de classement variables de préférence Les tableaux de données textuelles

9 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

10 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

11  Découverte des règles Découverte de relations entre les données
achat de riz et achat de vin blanc achat de poisson Indice de confiance indiquant le pouvoir prédictif de la règle  Indice valable uniquement si la règle est vérifiée par un certain nombre de données

12 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

13 Arbres de décision Principe : Arbre construit en recherchant les meilleurs critères informatifs pour permettre un découpage successif des bases de données Mise en évidence des variables les plus pertinentes  Utilisation d’algorithmes de construction de l’arbre Utilisation : classification et prédiction

14 Exemples : Tirage de boules
rayon  Possibilité de plusieurs critères pour la construction d’un arbre poids

15 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

16 Réseaux bayésiens Graphe orienté : nœuds : variables
arcs : dépendance entre les variables Association d’une probabilité d’apparition d’un événement étant donné la connaissance de certains autres évènements

17 maladie Cet exemple est issu des travaux de Lauritzen et Spiegelhalter.

18 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

19 Réseaux de neurones Principe :
Reproduire la capacité du raisonnement logique humain  découverte de propriétés intelligences Découverte des relations entre les variables d'une population étudiée  Utilisation de mécanismes d'apprentissage

20 Réseaux de neurones Apprentissage
modification du comportement du réseau jusqu'à l'obtention du comportement désiré échantillon de la population pour lequel les résultats sont connus Les règles découvertes appliquées sur les données entières  prédiction des résultats Application au Data Mining : Estimation ou classification

21 PLAN Méthodologie générale Données utilisées Techniques utilisées
Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

22 Algorithme génétique mécanisme de la sélection naturelle de Darwin :
Reproduction Mutation Évolution d’une population d’individus au cours de générations successives  Concrètement : élimination des éléments les plus faibles pour favoriser les individus les plus « performants »

23 Les algorithmes génétiques sont différents des autres techniques
de Data Mining : manipulation de bits sans se soucier des valeurs représentées par les bits simple à mettre en œuvre Avantages : facilement utilisable une fois que le problème est formalisé Difficultés : formalisation des données

24 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

25 Techniques heuristiques
Algorithmes d’apprentissage CART [Briemen,1984] ID3 [Quinlan,1986] CN2 [Clark & Niblett,1989] C [Quinlan,1993] AQ15 [Michalski]

26 Ces 3 opérateurs diffèrent selon les méthodes
Techniques heuristiques Algorithmes d’apprentissage par arbres de décision : ID3, C4.5, CART Ces 3 opérateurs diffèrent selon les méthodes Initialiser l’arbre courant à l’arbre vide Répéter si le nœud courant est terminal alors affecter une classe sinon sélectionner un critère et créer le sous-arbre Finsi Passer au nœud suivant non exploré s’il en existe Jusqu’à obtenir un arbre de décision

27 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

28 Méthode dérivées Data Warehouse (entreposage de données) :
Rôle : stocker des données en vue de les exploiter Accessible par toutes les applications d’aide à la décision Text Mining : Techniques précédentes ne traitent que des données numériques ou qualitatives Extraire de l’information à partir de données textuelles

29 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

30 Étude de cas Phase 1 : Poser le problème
Phase 2 : La recherche de données Phase 3 : La sélection des données Phase 4 : Le nettoyage des données Phase 5 : l’action sur les variables Phase 6 : la recherche du modèle Phase 7 : l’évaluation des résultats

31 Phase 1 POSER LE PROBLEME Présentation de l’entreprise : Voyagiste organisant des circuits touristiques Objectifs : Mise en place d’une politique de fidélisation chez un voyagiste Buts : Vendre aux clients existants de nouvelles prestations

32 Phase 2 RECHERCHE DE DONNEES Informations sur le client : age, sexe, catégories socio-professionnelle, nombre d’enfants à charge. Informations sur le type de produits achetés : produits avec la date de premier achat

33 Phase 2 RECHERCHE DE DONNEES Informations comptables : montants des achats, date du dernier achat, type de paiement, statut financier du client.

34 Phase 2 RECHERCHE DE DONNEES Informations collectées par questionnaire et enquête : centres d’intérêts Informations géographiques : code commune, taille de la commune, type d’habitat

35 Phase 3 SELECTION DES DONNEES Problèmes liés à la récupération des données : Données saisies manuellement et enrichies à partir de mégabases Un client sur deux remplit le questionnaire Échantillon non représentatif de la base Étude ne peut être réalisée sur les seuls clients répondant aux questionnaires.  Modification du plan d’extraction

36 Phase 4 NETTOYAGE DES DONNEES Contrôle manuel difficilement envisageable Valeurs aberrantes recherchées : analyse des valeurs minimales et maximales contrôle de cohérence de certaines informations Valeurs manquantes : Distinction des valeurs renseignées des valeurs manquantes

37 ACTIONS SUR LES VARIABLES
Phase 5 ACTIONS SUR LES VARIABLES Croisement des variables : age du client au moment du premier achat durée de vie du client dans la compagnie de voyages style d’habitat (croisement des variables type d’habitat et taille de la commune)

38 Phase 6 RECHERCHE DU MODELE Recherche des facteurs pertinents Facteurs de différenciation des clients : mono-acheteurs et multi-acheteurs de voyages clients âgés et clients jeunes petits et gros acheteurs  Quels sont les facteurs comportementaux qui permettent de caractériser les gros chiffres d’affaires parmi les clients jeunes ?

39 Phase 6 RECHERCHE DU MODELE Préparation des réseaux de neurones Le fichier des jeunes se décompose en trois segments : les multi-acheteurs avec un fort chiffre d’affaires (3%) les multi-acheteurs avec un petit chiffre d’affaires (20%) les mono-acheteurs (22%) Probabilité d’appartenance à chacune des classes : mono ou multi est ajoutée à notre base d’analyse.

40 Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)

41 Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) part importante des mono-acheteurs classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)

42 Phase 6 RECHERCHE DU MODELE Formalisation de la connaissance par arbre de décision Utilisation de la connaissance acquise par les réseaux de neurones pour extraire l’arbre de décision 1er niveau de développement de l’arbre : mise en évidence de l’âge comme premier facteur explicatif du mono-achat

43 Phase 6 RECHERCHE DU MODELE Développement de la sous population des « jeunes » : permet de constater que les célibataires cadres ou exerçant une profession libérale consomment régulièrement des voyages en revanche, les jeunes mariés, ayant entrepris un voyage « longue distance » se révèlent une cible peu propice au renouvellement

44 Phase 6 RECHERCHE DU MODELE Synthèse Engagement d’une phase de communication avec les experts marketing Modification du questionnaire d’évaluation Date de mariage  Motivation du voyage Actifs jeunes  Type de voyage pris en compte

45 EVALUATION DES RESULTATS
Phase 7 EVALUATION DES RESULTATS Phase de validation : Croisement des renseignements recueillis avec le data mining avec les experts marketing et les commerciaux

46 PLAN Méthodologie générale Données utilisées Techniques utilisées
Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

47 Les libertés du citoyen
C.N.I.L. : Commission Nationale de l’Informatique et Libertés « L’informatique ne doit porter atteinte : ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques. » Data Mining  entreposage de données Position de la C.N.I.L. : le Data Mining est autorisée mais toutes les opérations doivent être déclarées.

48 Conclusion Techniques du data mining ne sont pas des outils miraculeux donnant automatiquement à l’utilisateur des informations pertinentes Insertion dans un processus complexe : Préparation de données Data mining Exploitation des résultats obtenus Plusieurs méthodes doivent être proposées pour choisir le bon modèle. Nouvelles « disciplines » : Text mining Image mining

49 Étude bibliographique
Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)


Télécharger ppt "Étude bibliographique"

Présentations similaires


Annonces Google