Data Mining.

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

La recherche documentaire
ETUDES IN VIVO.
LE BAROMÈTRE DES INSATISFACTIONS
Objet et définition de la comptabilité de gestion
Data Mining.
Apprentissage relationnel Apprentissage Data Mining ILP.
ENRICHIR SA BASE DE DONNEES
Datamining de la Connaissance Client orienté Objectif
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Appariement Pres. 7.
RISCD Vue densemble des principaux changements Alain GAUGRIS Division de statistique des Nations unies Atelier régional pour les pays africains.
Nairobi, Kenya, Septembre 2010
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
Vue d’ensemble du Data warehousing et de la technologie OLAP
Analyse du système d’information
Les différents types de Marketing
LES BASES DU MARKETING IUT SRC, SEMESTRES 1 & 2
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Christelle Scharff IFI Juin 2004
L’ETUDE DE MARCHE L'étude de marché permet d'évaluer les capacités de votre produit ou de votre service à se développer commercialement.
Prévisions des ventes :
Pourquoi et comment développer la relation client ?
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
DECOUVREZ LA NOUVELLE LIGNE 30 WINDOWS V9
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
L ’approche par processus
L’ETUDE DE MARCHE Par M.NAFII CNAM.
IMD Achats Logiciel de gestion des Achats
Le paiement multicanal par Maroc Telecommerce
Les structures de marché
Le Travail Collaboratif ...
L’importance de connaître son marché potentiel
DataLab® Toute la connaissance client en quelques minutes
Comprendre le monde de l’entreprise
La gestion par activités (ABM)
Les systèmes internes d’information de marché : fichiers-clients
L’impact des TI sur la chaîne d’approvisionnement
Marketing Electronique Cours 2
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Cours de création d’entreprise assuré par : Mariem Ben Abid
Détecter linnovant sur le web par des techniques non booléennes : méthode, outils, application Eric Boutin, USTV, Gabriel Gallezot,
PHP & My SQL.
CRM/400. Pour qui Sur iséries (AS/400) V5R2 et + Connexion au ERP ou Logiciel maison Pourquoi Prêt à utiliser Robuste et éprouvé Productivité rapide Simplicité.
2009 -Présentation CRM: Sautaux Claudine : 2 EE bil.
Production & Approvisionnement Sam Hendrickx Nr: 7.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
La vente en gros et ses particularités Document préparé par Monique Vaillancourt en introduction du cours de Commercialisation de la mode au gros MV.
© all-in-web janvier 2014.
ASKIT v2.0 Gestion de l’ASCII DAUVERGNE Sébastien DEZE Simon Master 1 Informatique.
L ’évaluation et le choix des logiciels de comptabilité financière
LE DATA WAREHOUSE.
Présentation février 2002 Relations Visiblement Meilleures.
La recherche au service du communicateur: Cours 2 La données secondaire publique –Les répertoires d’articles et de rapports –Les bases de données Le fil.
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Knowledge discovery in Databases (KDD)
Le marketing : comprendre le client
Data Mining: Concepts et Techniques
Le Marketing Prédictif
Le marketing : comprendre le client
SANS TRAITEMENT STATISTIQUE, UN SIMPLE
Sous-épreuve E11 : Action de promotion-animation en unité commerciale
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Cours 11 Entrepôts de données
L’entreprise et sa gestion
Technologies de l’intelligence d’affaires Séance 10
Transcription de la présentation:

Data Mining

Pourquoi le data mining ? Disponibilité croissante de quantité énorme de données Données sur les clients Numérisation de textes, images, vidéo, voix, etc. World Wide Web et catalogue en ligne Données en trop grandes quantités pour être traitées manuellement ou par des algo. classiques Nombre d’enregistrements en million ou milliard Donnee de grande dimension (trop de champs/attributs/caractéristiques) Souvent trop clairsemée Sources de données hétérogènes Nécessité économique e-commerce Haut degré de concurrence personalisation, fidélisation de la clientèle, market segmentation

Pourquoi le data mining ? Qu’est-ce qui a conduit à l’explosion des données ? La technologie est disponible pour aider à collecter les données : code barre, scanners, satellites, logs des serveurs, etc. La technologie est disponible (et bon marché) pour aider à stocker : base de données, data warehouses, bibliothèques nulériques, www Gavés de données mais en manque de connaissances “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden) De quoi a-t-on besoin ? Extraire des connaissances intéressantes et utiles à partir des données Règles, régularités, irrégularités, motifs, contraintes

Sources de données Business Transactions Données Scientifiques Large utilisation des codes barre => stockage de millions de transactions quotidiennes (Walmart : 2000 magasins => 20M transactions par jour) Le problème le plus important : utilisation efficace des données en un temps raisonnable pour des prises de décision compétitives e-commerce Données Scientifiques Données engendrées par une multitude d’expériences et d’observations Exemples : données géologiques, images satellitaires, bio-puces Données Financières company information economic data (GNP, price indexes, etc.) stock markets

Sources de données Données personnelles / statistiques recensement Dossier médical Profil de client Données démographiques Données et statistiques dans le sport World Wide Web et Répertoires Online email, news Web documents, images, video, etc. link structure of the hypertext from millions of Web sites Web usage data (from server logs, network traffic, and user registrations) online databases, and digital libraries dynamically generated data difficulties primarily emanate from the unstructured, unstable, heterogeneous characteristics of data (such as Web data)

Qu’est-ce que le data mining ? La définition de [Frawley et al., 1991] "Knowledge Discovery in Databases (KDD) is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from data." La définition de [Fayyad et al., 1996b] "..., KDD refers to the overall process of discovering useful knowledge from data, and Data Mining (DM) refers to a particular step in this process. DM is the application of specific algorithms for extracting patterns from data." L’extraction non triviale de connaissance implicite, potentiellement utile et inconnue jusqu’alors à partir de données issues de grands entrepôts de données. Non triviale : sinon la K n’est pas utile Implicite : la K cachée est difficile à observer Inconnue jusqu’alors : découverte de K Potentiellement utile : utilisable, compréhensible

Quels types de données ? Base de données structurées relationnelles, orientées objet, etc. SQL peut être utilisée pour exécuter des étapes du processus Ex, SELECT count(*) FROM Items WHERE type=video GROUP BY category

Quels types de données ? Gros fichiers Source de données la plus commune Peut être du texte (ou du HTML) ou du binaire Base de données Transactionnelles Ensemble d’enregistrements chacun ayant un id, un temps et un ensemble d’items Un fichier de description peut être associé aux items Source de données typique utilisé dans l’analyse du panier (market basket analysis)

Quels types de données ? Autres types de données World Wide Web Données légales Bd multimedia Bd spatiales (cartes, images satellitaires, …) Séries temporelles World Wide Web

Quels types de données ? Data Warehouses Un data warehouse est entrepôt de données collectées de sources multiples souvent hétérogènes Les données sont enregistrées, nettoyées, transformées et intégrées Habituellement modélisé par une structure de donnée multi- dimensionnel (cube) L’agrégation de valeurs peut être stocké suivant plusieurs dimensions chaque dimension du cube contient une hierarchie de valeurs pour un attribut les cubes sont bien adaptés aux requêtes rapides et à l’analyse des données : On-Line Analytical Processing (OLAP) OLAP permet la navigation à différents niveaux d’abstraction, tels que drill-down, roll-up, slice, dice, etc.

Le processus d’extraction de connaissances

Etapes du processus de KDD Comprendre le domaine d’application Sélection d’un ensemble de données Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) Choix des fonctionnalités du data mining classification, consolidation, régression, association, clustering. Choix de(s) l’algorithme(s) d’extraction Datamining : Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation visualisation, transformation, suppression des patterns redondants, etc. Utilisation de la connaissance extraite

Que peut faire un système de data mining ? Découverte de K supervisée But : expliquer une valeur en fonction des autres Méthode : algo. permettant de prédire ou classer une nouvelle instance Découverte de K non-supervisée But : trouver des motifs dans les données qui sont intéressants Méthode : clustering

Quelques tâches du data mining Classification Estimation Prédiction Caractérisation Discrimination Association (groupement par affinités) Clustering Analyse de séries temporelles

Classification et estimation Data mining « supervisé » : la cible est connue Classification : prévision d’une variable discrète Estimation : prévision d’une variable continue Exemple : activité concernée : traitement des sinistres détection des déclarations de sinistre frauduleuses activité concernée : envoi d’un mailing : limiter le nombre de destinataires du mailing en déterminant les destinataires susceptibles de répondre à notre proposition activité concernée : gestion de la clientèle : détecter les clients susceptibles de quitter une banque

Groupement par affinités Supermarché : activités concernées : diverses techniques de vente (agencement des rayons, vente groupée de produits, publicité, …) cerner les habitudes des clients : quels produits achètent-ils simultanément ?

Est-ce que tous les motifs découverts sont utiles? Un système de data mining peut générer des milliers de motifs. Quels sont ceux qui sont intéressants ? Mesure d’intérêt : Un motif est intéressant si il est facilement compréhensible par l’utilisateur, il est valide avec un certain degré de certitude sur une nouvelle donnée ou sur des données-test il est nouveau ou peut servir à valider (ou invalider) une hypothèse utilisateur Mesure Objective vs. Subjective : Objective : basée sur des mesures statistiques : support, confiance, etc. Subjective : basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.

Applications vous concernant (?) Dans le secteur bancaire Nature du problème : Définition des comportements des titulaires de compte rattachés à une ou plusieurs agences bancaires au sein de Directions Régionales. Objectif : Proposer le bon produit d'épargne parmi tous les produits de la gamme au moment le plus favorable pour l'acceptation de la souscription. Paramètres pris en compte : Caractéristiques personnelles du client (âge, sexe, situation de famille, CSP, salaire, divers indicateurs liés aux comptes bancaires du client, à l'historique des événements, aux produits déjà souscrits. Type d'habitat : Zone rurale, urbaine, sub-urbaine. Saisonnalité : En secteur bancaire comme ailleurs, le comportement est évidemment largement influencé par la succession des événements réguliers ou exceptionnels qui se succèdent au cours d'une année (fêtes, tiers provisionnels, congés, événements liés à l'actualité..) Source des données : Bases de données internes historisées (calendrier de toutes les opérations réalisées), coupons-réponses, mailings.

Applications vous concernant (?) Dans le secteur des assurances de personnes Nature du problème : Identification des profils des prospects répartis sur l'ensemble d'un territoire pour le compte de Compagnies d'Assurances à vocation nationale recourant à une force de vente hiérarchisée. Objectif : Fixer le montant optimal de la prime d'épargne proposée au nouveau souscripteur. Fixer la périodicité (mensuelle, trimestrielle ou annuelle). Le but est d'accroître le volume de production d'affaires nouvelles, tout en s'assurant de leur bonne tenue dans le temps. Problème épineux à prendre en compte et à résoudre : La fidélisation à court et long terme. Paramètres pris en compte : Caractéristiques personnelles du client (âge, sexe, situation de famille, CSP, salaire, montant des crédits en cours.) Données socio-démographiques : Base INSEE (IRIS) Données typologiques : Base INSEE Source des données : Base prospects sur gros système, reconstituée à partir des informations transmises par les commerciaux équipés d'ordinateurs portables et centralisées.

Applications vous concernant (?) Dans le secteur de la distribution Nature du problème : Identification de comportement du consommateur en épicerie de luxe. Analyse de tickets de caisse - Vente croisée. Objectif : Découvrir les règles d'association d'achat. Optimiser l'organisation des rayons. Améliorer la planification des offres spéciales et des promotions. Anticiper les attentes des consommateurs de la chaîne. Paramètres pris en compte : Tickets de caisse, nature des offres spéciales du jour, données météo, période de l'année. Source des données : tickets de caisse, enquêtes consommateurs.

Applications vous concernant (?) Autre cas Nature du problème : Interprétation de questionnaires de satisfaction utilisateurs. Objectif : Identifier les facteurs déterminant la satisfaction ou l'insatisfaction d'utilisateurs produits Paramètres pris en compte : Superficie plantée, nature de la prédiction, historique d'utilisation, avantages et inconvénients perçus, etc. (20 questions). Source des données : Questionnaires utilisateurs fournis par le fabricant du produit.

Applications vous concernant (?) Approvisionnement de points de vente Nature du problème : Optimisation d'approvisionnement de points de vente (250) répartis sur un territoire national. La réalisation portait sur les 30 titres les plus vendus. Objectif : Prédire au plus près le nombre d'exemplaires vendus. Réduire au maximum les invendus. Paramètres pris en compte : Saisonnalité (jour, mois, semaine, vacances scolaires) # Données météo. # Evénementiel (matchs de foot, catastrophe locale, nationale, planétaire, décès d'une personnalité, élections, etc.) # Localisation du point de vente (quartier, zone de transit, lieu de passage). Source des données : Base historisée.

Préparation des données Exemple: Moviegoer Database

Moviegoer Database SELECT moviegoers.name, moviegoers.sex, moviegoers.age, sources.source, movies.name FROM movies, sources, moviegoers WHERE sources.source_ID = moviegoers.source_ID AND movies.movie_ID = moviegoers.movie_ID ORDER BY moviegoers.name; moviegoers.name sex age source movies.name Amy f 27 Oberlin Independence Day Andrew m 25 Oberlin 12 Monkeys Andy m 34 Oberlin The Birdcage Anne f 30 Oberlin Trainspotting Ansje f 25 Oberlin I Shot Andy Warhol Beth f 30 Oberlin Chain Reaction Bob m 51 Pinewoods Schindler's List Brian m 23 Oberlin Super Cop Candy f 29 Oberlin Eddie Cara f 25 Oberlin Phenomenon Cathy f 39 Mt. Auburn The Birdcage Charles m 25 Oberlin Kingpin Curt m 30 MRJ T2 Judgment Day David m 40 MRJ Independence Day Erica f 23 Mt. Auburn Trainspotting

Moviegoer Database Classification Estimation Clustering Déterminer le sexe connaissant l’âge, la source, et les films vus Déterminer la source connaissant le sexe, l’âge, et les films vus Déterminer le film le plus récent connaissant les films passés, l’âge, le sexe et la source. Estimation Estimater l’âge comme une fonction de la source, du sexe, et des films passés Clustering Trouver les groupes de films qui sont souvent vus par les mêmes personnes Trouver les groupes de personnes qui regardent les mêmes films

Moviegoer Database Groupement par affinités market basket analysis: quels sont les films qui vont ensemble ? Besoin de créer des transactions pour chaque cinéphile contenant les films qu’il a vu : Règles d’association possibles : {“Phenomenon”, “The Birdcage”} ==> {“Trainspotting”} {“Trainspotting”, “The Birdcage”} ==> {sex = “f”} name TID Transaction Amy 001 {Independence Day, Trainspotting} Andrew 002 {12 Monkeys, The Birdcage, Trainspotting, Phenomenon} Andy 003 {Super Cop, Independence Day, Kingpin} Anne 004 {Trainspotting, Schindler's List} … … ...