Le forage de données ou data mining

Slides:



Advertisements
Présentations similaires
Module Systèmes d’exploitation
Advertisements

QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Chapitre 4: Le comportement des clients de l'UC
Modèle Générique Business Plan
Comment faire un e-Catalogue ?
"Développement d'une cellule d'audit et d'analyse de parc"
Collecte de données F. Kohler.
INTRODUCTION Grande quantité de données
Méthodes statistiques. Ajustements et corrélation
Les Enchères inversées
Démarche de Projet D’après la norme X50-106, un projet est une démarche spécifique qui permet de structurer méthodiquement et progressivement une réalité.
Qu’est ce qu’une Entreprise?
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
Data Mining: Définition
Pourquoi et comment développer la relation client ?
Initiation au système d’information et aux bases de données
Initiation au système d’information et aux bases de données
DECOUVREZ LA NOUVELLE LIGNE 30 WINDOWS V9
Alain Bourdelle Michèle Nouaille
MRP, MRP II, ERP : Finalités et particularités de chacun.
DEFINITION DE LA NOTION DE SERVICE
Gestion des parcs de véhicules
Introduction to Information Systems
Parcours de formation SIN-7
par Bernard Maudhuit Anne-Marie Droit
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Master 1 : Commerce Électronique Cours : Business Management Solutions CRM : Customer Relationship Management.
DataLab® Toute la connaissance client en quelques minutes
Comprendre le monde de l’entreprise
Test et débogage Tests unitaires. Gestion d’erreurs. Notion d’état, de pré-condition et de post-condition. Assertion. Traces de programme. Débogueur et.
Les systèmes multiplateformes
Marketing Electronique Cours 2
RECHERCHE COMMERCIALE
Les Arbres de décision ou régression
Les analyses multivariées
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Réalité virtuelle et Représentation de Données Complexes
Chap4- Le mix marketing III- La politique de distribution
Analyse des Algorithmes
Recherche de solutions Leçon 3 0. Modules 3.1 Résumé de la semaine dernière 3.2 Recherche de solutions 3.3 Développement de la clientèle 3.4 Taille du.
Définir le bon prix pour un produit en 3 clics. Les sociétés qui vendent des produits spéciaux ont beaucoup de difficultés à se créer un catalogue sur.
Gérer efficacement ma nouvelle entreprise Programme court en entrepreneuriat Mieux connaître ma clientèle cible.
Présentation du marché obligataire
Le système informatique et le système d’information
Initiation à la conception des systèmes d'informations
Concept Marketing Interactif Forum Marketing 2000 La promotion d’un site Internet Québec 12 avril 2000 Présentation: Allain Lagadic Concept Marketing Interactif.
Présentation février 2002 Relations Visiblement Meilleures.
Notions de coûts et prise de décision
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Knowledge discovery in Databases (KDD)
Resource-Limited Genetic Programming : Replacing Tree Depth Limit.
Le Marketing Prédictif
Logiciel pour la résolution des programmes linéaires : « LINDO »
Contrôle des coûts.
Animer une réunion Les fondamentaux
Études de Marché MBA Hiver 2006 SÉANCE 3: LES DONNÉES PRIMAIRES: MÉTHODES QUALITATIVES.
Par Serge Gagné 4 types de contrôle 1) Contrôle physique des équipements (voir contrôle interne) 2) Contrôle du traitement de l ’information (voir contrôle.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
INTRODUCTION AUX BASES DE DONNEES
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
La création d’un nouveau produit
TSTC développement de clientèles 1 Le système d'information mercatique (SIM)
131, rue de Créqui, Lyon 6ème « L’organisation est une machine à maximiser les forces humaines» - Peter Drucker (économiste )
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Technologies de l’intelligence d’affaires
Transcription de la présentation:

Le forage de données ou data mining Customer information Time Customers

Définition de l’exploitation des données (data mining) L’exploration et l’analyse de grandes quantités de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatiques ou semi-automatiques.

Le data mining est utilisé par plusieurs entreprises pour mieux connaître leur clientèle et accroître les profits: Quel client restera fidèle et qui partira? Quels produits proposés à quels clients? Qu’est-ce qui détermine si une personne répondra à une offre donnée? Quel est le prochain produit ou service qu’un client particulier désirera? pour mieux gérer: la distribution la production les ressources humaines

L’exploitation des données devenue une réalité industrielle Les techniques d’exploitation des données existent depuis des années. L’utilisation de ces techniques dans l’industrie est cependant beaucoup plus récente parce que: Les données sont produites, Les données sont archivées, La puissance de calcul nécessaire est abordable, Le contexte est ultra-concurrentiel, Des produits commerciaux pour l’exploitation des données sont devenus disponibles.

Entreprises courtiers en informations (données = $$$) IMS AC Nielson Equifax Info Canada Statistique Canada ICOM

Data Mining: nouveauté ou marketing? Modèles prédictifs: Analyse discriminante Régression logistique Autres méthodes de régression Arbres de régression (CHAID,CART,…) Réseaux Neuronneaux (Neural networks) Segmentation traditionnelle Domaines de recherche 2

Principales méthodes multivariées utilisées pour la modélisation Technique Date 1- Régression multiple 1888 2- Analyse discriminante 1936 3- Régression logistique 1944,1955 4- Modèles log-lineaires 1968 5- CHAID (arbres de rég.) 1980

Data Mining: nouveauté ou marketing? Nouveauté: logiciels informatiques. 2 méthodes ont moins de dix ans: Réseaux neuronneaux M.A.R.S. Les deux principales méthodes utilisées dans la majorité des industries existent depuis plus de vingt ans. 3

Première étape: accès et qualité de l’information disponible Avant de pouvoir parler de data mining, on doit avoir une base de données structurée. Accès à l’information données manquantes données aberrantes

Accès à l’information Il existe plusieurs types de structure de bases de données: `flat file` Toute l’information du client est contenue dans un même ficher qui peut être de longueur variable Relationelle L’information du client est contenu dans plusieurs fichiers unis par une ‘clé’ commune, par exemple le numéro du client

Données manquantes Certaines information qui sont nécessaire pour comprendre la clientèle sont manquantes. Ex: âge Que faire ?

Données manquantes: solutions possibles Remplacement par la moyenne Calculer la moyenne de la variable qui nous intéresse parmis les enregistrements qui ont une valeur. Cette valeur sera ensuite attribuée à tous les enregistrements où la valeur est manquante Avantages: rapide et facile d’exécution Désavantages: imprécis et perte de la variabilité dans les données

Données manquantes: solutions possibles Remplacement aléatoire Pour chacune des valeurs manquantes, ont attribuera au hasard une des valeurs parmis l’ensemble des valeurs des enregistrements non-manquants Avantages: Permet de garder la variabilité dans les données et la moyenne de la population Désavantages: plus complexe à implanter et la valeur imputée pour chacun des clients n’est pas plus précise que le remplacement par la moyenne.

Données manquantes: solutions possibles Utilisation de la régression On utilise la régression pour obtenir un estimé de la valeur possible en utilisant les données des enregistrement complets et de toutes l’information disponible. Avantages: méthode la plus précise (meilleure) Désavantages: pas toujours possible (variables explicatives) et la plus complexe à implanter.