Étude bibliographique

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
Chapitre 3: Clientèle et zone d'implantation de l'UC
Le projet de développement de l’unité commerciale
GROUPES D'INNOVATION.
LE BAROMÈTRE DES INSATISFACTIONS
Objet et définition de la comptabilité de gestion
Classification et prédiction
Présentation des programmes de terminale STG Juin 2006.
Sciences et technologies de gestion
ENRICHIR SA BASE DE DONNEES
De lanalyse des données … … au Datamining Aide à la prise de décision.
LE QUESTIONNAIRE D’ENQUETE
Introduction Pour concrétiser l’enseignement assisté par ordinateur
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Recherche-Action-Formation Quelles questions se poser ? Bernadette Charlier BIE 14 juin
INTRODUCTION Grande quantité de données
Application de réseaux bayésiens à la détection de fumées polluantes
Dr DEVILLE Emmanuelle J D V 12/07/2006
HORAIRES HEBDOMADAIRES PROPOSES Spécialité Gestion 3 heures en classe entière 2 heures en demi - groupe Soit 5 heures - élève Spécialité Communication.
LES BASES DU MARKETING IUT SRC, SEMESTRES 1 & 2
Conception de l’évaluation
Pédagogie par Objectifs
L ’enseignement de la construction en BEP industriel
TPE Les élèves mènent à bien une production originale, concrète et choisie par eux Ils développent des compétences individuelles à travers un travail de.
Marketing Engineering
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
L’ETUDE DE MARCHE Par M.NAFII CNAM.
Méthode des k plus proches voisins
DataLab® Toute la connaissance client en quelques minutes
La segmentation ° I – Définition ° II – Intérêts ° III – Les critères
Comprendre le monde de l’entreprise
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Les Arbres de décision ou régression
Technologie au cycle central
Optimisation par les algorithmes génétiques
Arbres binaires et tables de hachage
Le système informatique et le système d’information
Les Techniques d’enquête quantitative
LA DEMARCHE DE RECHERCHE
Initiation à la conception des systèmes d'informations
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
ORGANISATION DU SYSTÈME D’INFORMATION COMPTABLE ET DE GESTION
TIPE Les dames chinoises
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
1 Réunion Noisy le Grand Mercredi 3 mai 2006 LE LIVRET SCOLAIRE STG BO n° 24 du 16 juin 2005 Application session 2007 Élèves de seconde et de première.
STMG Sciences et Technologies du Management et de la Gestion
Localisation et identification des interactions neutrinos dans le détecteur OPERA. Carole HERITIER Journées Jeunes Chercheurs 2003 Directeurs de thèse.
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
Le marketing : comprendre le client
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Les différentes méthodologies d’évaluation en IPM Cours Ergonomie des Interactions Personne-Machine 7 novembre 2007 Mireille Bétrancourt - TECFA - FPSE.
Le Marketing Prédictif
Le marketing : comprendre le client
Thème: Essai d’analyse comportementale du consommateur Algérois par rapport au yaourt et produits similaires. Cas d’étude: Yaourt Soummam Réalisé par.
BACCALAUREAT PROFESSIONNEL 3 ANS MICROTECHNIQUES Quelques points clés.
ETUDE DE PRIX.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
La qualification de la clientèle
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
Être en relation avec les clients
Le contrôle en cours de formation (CCF) en BTS tourisme.
La mesure et l’évaluation des performances commerciales et financières
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Les partenaires Les objectifs du réseau InnovaXion MC  Prendre conscience de l’importance de l’innovation et se situer par rapport à la compétitivité.
SOCLE COMMUN Enseigner par compétences Cathia BATIOT.
Transcription de la présentation:

Étude bibliographique Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)

Le Data Mining (fouille de données) Stockage de données toujours plus importants Extraire de l’information de bases de données ou de fichiers Idée : automatisation de la prise de décision à partir des données brutes Enjeu du Data Mining : maîtriser l’information pour prendre de bonnes décisions

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Méthodologie générale Poser le problème Préparer les données Collecter les données Nettoyer les données Analyser les données Méthodes du Data Mining Interpréter les résultats

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Données utilisées Les tableaux de donnés Compte de clients Variables X1 X2 … Xj … Xn 1 i n Xij Individus clients Dépôt dans chaque compte

Données utilisées Les tableaux de donnés Les variables variables chronologiques variables logiques variables qualitatives à réponses multiples variables de classement variables de préférence Les tableaux de données textuelles

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

 Découverte des règles Découverte de relations entre les données achat de riz et achat de vin blanc  achat de poisson Indice de confiance indiquant le pouvoir prédictif de la règle  Indice valable uniquement si la règle est vérifiée par un certain nombre de données

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Arbres de décision Principe : Arbre construit en recherchant les meilleurs critères informatifs pour permettre un découpage successif des bases de données Mise en évidence des variables les plus pertinentes  Utilisation d’algorithmes de construction de l’arbre Utilisation : classification et prédiction

Exemples : Tirage de boules rayon  Possibilité de plusieurs critères pour la construction d’un arbre poids

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Réseaux bayésiens Graphe orienté : nœuds : variables arcs : dépendance entre les variables Association d’une probabilité d’apparition d’un événement étant donné la connaissance de certains autres évènements

maladie Cet exemple est issu des travaux de Lauritzen et Spiegelhalter.

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Réseaux de neurones Principe : Reproduire la capacité du raisonnement logique humain  découverte de propriétés intelligences Découverte des relations entre les variables d'une population étudiée  Utilisation de mécanismes d'apprentissage

Réseaux de neurones Apprentissage modification du comportement du réseau jusqu'à l'obtention du comportement désiré échantillon de la population pour lequel les résultats sont connus Les règles découvertes appliquées sur les données entières  prédiction des résultats Application au Data Mining : Estimation ou classification

PLAN Méthodologie générale Données utilisées Techniques utilisées Découverte de règles Réseaux de neurones Arbres de décision Algorithme génétique Réseaux bayésiens Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Algorithme génétique mécanisme de la sélection naturelle de Darwin : Reproduction Mutation Évolution d’une population d’individus au cours de générations successives  Concrètement : élimination des éléments les plus faibles pour favoriser les individus les plus « performants »

Les algorithmes génétiques sont différents des autres techniques de Data Mining : manipulation de bits sans se soucier des valeurs représentées par les bits simple à mettre en œuvre Avantages : facilement utilisable une fois que le problème est formalisé Difficultés : formalisation des données

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Techniques heuristiques Algorithmes d’apprentissage CART [Briemen,1984] ID3 [Quinlan,1986] CN2 [Clark & Niblett,1989] C4.5 [Quinlan,1993] AQ15 [Michalski]

Ces 3 opérateurs diffèrent selon les méthodes Techniques heuristiques Algorithmes d’apprentissage par arbres de décision : ID3, C4.5, CART Ces 3 opérateurs diffèrent selon les méthodes Initialiser l’arbre courant à l’arbre vide Répéter si le nœud courant est terminal alors affecter une classe sinon sélectionner un critère et créer le sous-arbre Finsi Passer au nœud suivant non exploré s’il en existe Jusqu’à obtenir un arbre de décision

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Méthode dérivées Data Warehouse (entreposage de données) : Rôle : stocker des données en vue de les exploiter Accessible par toutes les applications d’aide à la décision Text Mining : Techniques précédentes ne traitent que des données numériques ou qualitatives Extraire de l’information à partir de données textuelles

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Étude de cas Phase 1 : Poser le problème Phase 2 : La recherche de données Phase 3 : La sélection des données Phase 4 : Le nettoyage des données Phase 5 : l’action sur les variables Phase 6 : la recherche du modèle Phase 7 : l’évaluation des résultats

Phase 1 POSER LE PROBLEME Présentation de l’entreprise : Voyagiste organisant des circuits touristiques Objectifs : Mise en place d’une politique de fidélisation chez un voyagiste Buts : Vendre aux clients existants de nouvelles prestations

Phase 2 RECHERCHE DE DONNEES Informations sur le client : age, sexe, catégories socio-professionnelle, nombre d’enfants à charge. Informations sur le type de produits achetés : produits avec la date de premier achat

Phase 2 RECHERCHE DE DONNEES Informations comptables : montants des achats, date du dernier achat, type de paiement, statut financier du client.

Phase 2 RECHERCHE DE DONNEES Informations collectées par questionnaire et enquête : centres d’intérêts Informations géographiques : code commune, taille de la commune, type d’habitat

Phase 3 SELECTION DES DONNEES Problèmes liés à la récupération des données : Données saisies manuellement et enrichies à partir de mégabases Un client sur deux remplit le questionnaire Échantillon non représentatif de la base Étude ne peut être réalisée sur les seuls clients répondant aux questionnaires.  Modification du plan d’extraction

Phase 4 NETTOYAGE DES DONNEES Contrôle manuel difficilement envisageable Valeurs aberrantes recherchées : analyse des valeurs minimales et maximales contrôle de cohérence de certaines informations Valeurs manquantes : Distinction des valeurs renseignées des valeurs manquantes

ACTIONS SUR LES VARIABLES Phase 5 ACTIONS SUR LES VARIABLES Croisement des variables : age du client au moment du premier achat durée de vie du client dans la compagnie de voyages style d’habitat (croisement des variables type d’habitat et taille de la commune)

Phase 6 RECHERCHE DU MODELE Recherche des facteurs pertinents Facteurs de différenciation des clients : mono-acheteurs et multi-acheteurs de voyages clients âgés et clients jeunes petits et gros acheteurs  Quels sont les facteurs comportementaux qui permettent de caractériser les gros chiffres d’affaires parmi les clients jeunes ?

Phase 6 RECHERCHE DU MODELE Préparation des réseaux de neurones Le fichier des jeunes se décompose en trois segments : les multi-acheteurs avec un fort chiffre d’affaires (3%) les multi-acheteurs avec un petit chiffre d’affaires (20%) les mono-acheteurs (22%) Probabilité d’appartenance à chacune des classes : mono ou multi est ajoutée à notre base d’analyse.

Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)

Phase 6 RECHERCHE DU MODELE classe des multi : les multi-acheteurs prédits multi-acheteurs (45%) classe des mono : les mono-acheteurs prédits mono-acheteurs (30%) classe des prospects : les mono-acheteurs prédits multi-acheteurs par le réseau de neurones (15%) part importante des mono-acheteurs classe des erreurs : les multi-acheteurs prédits mono-acheteurs par le réseau de neurone (10%)

Phase 6 RECHERCHE DU MODELE Formalisation de la connaissance par arbre de décision Utilisation de la connaissance acquise par les réseaux de neurones pour extraire l’arbre de décision 1er niveau de développement de l’arbre : mise en évidence de l’âge comme premier facteur explicatif du mono-achat

Phase 6 RECHERCHE DU MODELE Développement de la sous population des « jeunes » : permet de constater que les célibataires cadres ou exerçant une profession libérale consomment régulièrement des voyages en revanche, les jeunes mariés, ayant entrepris un voyage « longue distance » se révèlent une cible peu propice au renouvellement

Phase 6 RECHERCHE DU MODELE Synthèse Engagement d’une phase de communication avec les experts marketing Modification du questionnaire d’évaluation Date de mariage  Motivation du voyage Actifs jeunes  Type de voyage pris en compte

EVALUATION DES RESULTATS Phase 7 EVALUATION DES RESULTATS Phase de validation : Croisement des renseignements recueillis avec le data mining avec les experts marketing et les commerciaux

PLAN Méthodologie générale Données utilisées Techniques utilisées Techniques heuristiques Méthodes dérivées Étude de cas Les libertés du citoyen

Les libertés du citoyen C.N.I.L. : Commission Nationale de l’Informatique et Libertés « L’informatique ne doit porter atteinte : ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques. » Data Mining  entreposage de données Position de la C.N.I.L. : le Data Mining est autorisée mais toutes les opérations doivent être déclarées.

Conclusion Techniques du data mining ne sont pas des outils miraculeux donnant automatiquement à l’utilisateur des informations pertinentes Insertion dans un processus complexe : Préparation de données Data mining Exploitation des résultats obtenus Plusieurs méthodes doivent être proposées pour choisir le bon modèle. Nouvelles « disciplines » : Text mining Image mining

Étude bibliographique Travail d’Étude et de Recherche (encadré par le Professeur Jin-Kao Hao) Étude bibliographique Data Mining Estelle FILMON & Yohann HUBERT Maîtrise Informatique (2001 / 2002)