Le Data Mining: Méthodologie

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
GESTION DE PORTEFEUILLE chapitre n° 7
Data Mining.
Classification et prédiction
Apprentissage relationnel Apprentissage Data Mining ILP.
Datamining de la Connaissance Client orienté Objectif
De lanalyse des données … … au Datamining Aide à la prise de décision.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
DEME - La méthode d’enquête – introduction
Les TESTS STATISTIQUES
Scoring Séance II.
Yann Chevaleyre et Jean-Daniel Zucker
Dr DEVILLE Emmanuelle J D V 12/07/2006
Régression -corrélation
Programmes du cycle terminal
Data Mining: Définition
Traitement de données socio-économiques et techniques d’analyse :
Prévision de la Demande
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Méthode des k plus proches voisins
DataLab® Toute la connaissance client en quelques minutes
Séminaire d’Analyses comparatives et enquête sociologique
Le comportement des coûts Chapitre 3
Le forage de données ou data mining
Les analyses multivariées
Réalité virtuelle et Représentation de Données Complexes
GPA750 – Gestion de Projets
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Probabilités et Statistiques
Méthodologie expérimentale : l’analyse des données
DATA WAREHOUSE - DATA MINING
ANALYSE DE DONNEES TESTS D’ASSOCIATION
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
LES DEMARCHES PEDAGOGIQUES
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Sériation et traitement de données archéologiques
Initiation à la conception des systèmes d'informations
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Étude bibliographique
Les réseaux de neurones à réservoir en traitement d’images
TIPE Les dames chinoises
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
Le Marketing Prédictif
Mais quel est donc le taux d’inflation actuel ? J.C. Lambelet et D. Nilles Catherine Roux Alvaro Aparicio Gregor Banzer Daniel Cavallaro.
Analyse Technique : application "semi-linéaire"
Le Data Mining: Méthodologie
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Cours 11 Entrepôts de données
ETUDES PRONOSTIQUES Pr Ganry.
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
1 Les bases de données Séance 6 L ’extraction de données Le SELECT.
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM Exemples de fonctionnement

1. Emergence du domaine Workshops International Conf. on KDD and DM 1991, 1993, 1994 International Conf. on KDD and DM 1995, 1996, 1997, 1998, 1999 Data Mining and Knowledge Discovery Journal (1997) Special Interest Group Knowledge Discovery in Databases (1999) de l’Association for Computing Machinery (ACM)

Métaphore Par analogie à la recherche des pépites d ’or dans un gisement, la fouille de données vise : à extraire des informations cachées par analyse globale à découvrir des modèles (“patterns”) difficiles à percevoir car: le volume de données est très grand le nombre de variables à considérer est important ces “patterns” sont imprévisibles (même à titre d ’hypothèse à vérifier)

Définition Data mining ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l ’utilisateur averti pour examen Données entrepôt Connaissances Data mining Découverte de modèles Compréhension Prédiction 32

Découverte de modèles x1 c Confiance x2 Entrées y x3 Sortie x1 x2 x3 y MODELE x1 x2 x3 y 1 10 100 alpha 2 20 200 beta

Découverte et Exploitation Training Data Mining Model Data to Predict DM Engine DM Engine Mining Model Mining Model Predicted Data

Connaissances Knowledge Discovery in Databases (KDD) Exemples Processus complet d’Extraction de Connaissance des Données (ECD) Comprend plusieurs phases dont le data mining Exemples analyses (distribution du trafic en fonction de l ’heure) scores (fidélité d ’un client), classes (mauvais payeurs) règles (si facture > 10000 et mécontent > 0.5 alors départ à 70%)

Le processus de KDD

Etapes du processus 1. Compréhension du domaine d’application 2. Création du fichier cible (target data set) 3. Traitement des données brutes (data cleaning and preprocessing) 4. Réduction des données (data reduction and projection) 5. Définition des tâches de fouille de données 6. Choix des algorithmes appropriés de fouille de données 7. Fouille de données (data mining) 8. Interprétation des formes extraites (mined patterns) 9. Validation des connaissances extraites (source : Fayyat et al., 1996, p. 1-34)

Mécanismes de base Déduction : base des systèmes experts schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles Induction : base du data mining méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération 34

2. Domaines d'application De plus en plus de domaines explosion des données historisées puissance des machines support nombreux datawarehouses OLAP limité nécessité de mieux comprendre rapports sophistiqués, prédictions aide efficace aux managers

Quelques domaines réputés Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité

Exemples Targeted ads Cross sells Fraud detection Churn analysis “What banner should I display to this visitor?” Cross sells “What other products is this customer likely to buy? Fraud detection “Is this insurance claim a fraud?” Churn analysis “Who are those customers likely to churn?” Risk Management “Should I approve the loan to this customer?”

Churn Analysis Application de télécom Bases de données des clients et des appels Fichiers des réclamations Qui sont les clients le plus susceptibles de partir ? Application de techniques de DM Fichiers de 1000 clients les plus risqués 600 ont quittés dans les 3 mois

Trading Advisor Application boursière Données de base conseil en achat / vente d'actions Données de base historique des cours portefeuille client Analyse du risque Analyse technique du signal Conseils d'achat – vente Mise à disposition sur portail Web

3. Méthodologie -1 1. Identifier le problème 2. Préparer les données cerner les objectifs trouver les sources définir les cibles vérifier les besoins 2. Préparer les données préciser les sources collecter les données nettoyer les données transformer les données intégrer les données

Méthodologie - 2 5. Suivre le modèle 3. Explorer des modèles choisir une technique échantillonner sur un groupe valider sur le reste (5% à 1/3) calculer le  d ’erreurs 4. Utiliser le modèle observer la réalité recommander des actions 5. Suivre le modèle bâtir des estimateurs corriger et affiner le modèle

Explorer des modèles : SEMMA Sampling = Échantillonner tirer un échantillon significatif pour extraire les modèles Exploration = Explorer devenir familier avec les données (patterns) Manipulation = Manipuler ajouter des informations, coder, grouper des attributs Modelling = Modéliser construire des modèles (statistiques, réseaux de neuronnes, arbres de décisions, règles associatives, …) Assessment = Valider comprendre, valider, expliquer, répondre aux questions

Validation d’un modèle Matrice de confusion comparaison des cas observés par rapport aux prédictions exemple : prédiction de factures impayées Validité du modèle nombre exacte (diagonale) / nombre totale = 120/150 = 0.80 Prédit Observé Payé Retardé Impayé Total Payé 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 Total 86 34 30 150

Définition de Mesures précision rappel Soient Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés. En anglais precision. rappel Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. En anglais recall. Soient S l'ensemble des objets qu'un processus considère comme ayant une propriété recherchée, V l'ensemble des objets qui possèdent effectivement cette propriété, P et R respectivement la précision et le rappel du système : P = | S ∩ V | / | S | R = | S ∩ V | / | V |

Mesures Précision (Precision) Bruit (Noise) Rappel (Recall) F-mesure = NbTrouvésCorrects/(1+NbTotal) Bruit (Noise) = NbTrouvésIncorrects/(1+NbTotal) = 1- Précision Rappel (Recall) = NbTrouvésCorrects/(1+NbValide) F-mesure = 2*(précision*rappel)/(précision+rappel)

Principales Techniques Dérivées des statistiques (e.g., réseaux bayésiens) de l'analyse de données (e.g., analyse en composantes) de l'intelligence artificielle (e.g., arbres de décision, réseaux de neurones) des bases de données (e.g., règles associatives) Appliquées aux grandes bases de données Difficultés : passage à l'échelle et performance fonctionnement avec échantillon > qq milliers présentation et validation des résultats

4. Quelques produits Oracle 10g ODM SQL Server DM DB2 V8 Intelligent Miner d'IBM modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre SAS de SAS Statistiques, groupage, arbres de décision, réseaux de neurones, associations, ... SPSS de SPSS statistiques, classification, réseaux de neurones Oracle 10g ODM SQL Server DM DB2 V8 38

SAS

INPUT Choix des variables

SAMPLING Choix du type d'échantillon

INSIGHT Analyse des données en 4D

TRANSFORM Transformation pour préparer

PARTITION Création de partition d'exploration parallèle

REGRESSION Sélection de la méthode de régression

DECISION TREE Construction d'un arbre par 2

NEURONES Spécification d'un réseau de neurones

ASSESSMENT Validation des résultats

Approches De multiples approches: Statistiques Classification Clustering Règles associatives …

Méthodes d'analyse Points dans Rp Points dans Rn

Familles de méthodes Nuage de points Regroupement Visualisation dans dans tout l'espace Visualisation dans Le meilleur espace réduit METHODES STATISTIQUES ET FACTORIELLES METHODES DE CLASSIFICATION, SUPERVISEE OU NON …

5. Méthodes statistiques Quelques techniques de base A la limite du DM Calculs d'information sophistiqués

Fonctions Statistiques Espérance permet de calculer la moyenne pondérée d'une colonne pi = 1/N par défaut Variance traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Variable centrée réduite Permet d'éliminer le facteur dimension

Diagrammes en bâtons Comptage de fréquence COUNT Extension aux calculs d'agrégats AVG, MIN, MAX, … Possibilité d'étendre au 3D Apporte une vision synthétique

Tableaux croisés (Vision 2D du Datacube) Effectif théorique = calculé par une loi de distribution (uniforme)

Corrélation Covariance Coefficient de corrélation La covariance peut être vue comme le moment centré conjoint d'ordre 1 de deux v.a. Si les deux v.a. sont indépendantes, alors leur covariance est nulle (mais la réciproque n'est pas vraie en général). Coefficient de corrélation Elimine le facteur dimension mesure la qualité de la relation linéaire entre deux variables aléatoires

Droite de régression Y = a X + b

Test du 2 Détermine l'existence d'une dépendance entre deux variables Exemple : salaire d'embauche, niveau d'étude Compare la distribution des variables par rapport à une courbe théorique supposant l'indépendance

De nombreuses fonctions Test t sur moyenne ANOVA Analyses de variance sophistiquées Corrélation partielle Régresion logistique Séries chronologiques Lissage exponentiel, Moyenne mobile, … Comparaison …

Calculs en SQL Introduction de fonctions d'agrégats Exemple AVG = moyenne MAVG = moyenne mobile STDDEV = écart type VARIANCE = variance COVARIANCE = covariance … Exemple SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB) FROM EMPLOYEE WHERE GRADE = "ingénieur" GROUP BY SEXE

Statistiques: Conclusion Calculs statistiques sur variables Mono ou bi-variées Résumé des données Observation de dépendances Peu de modèles prédictifs ... La plupart sont faisables avec SQL OLAP Extensions cube et rollup Extensions avec fonctions d'agrégats

6. Conclusion Le data mining vise à découvrir des modèles à partir de grandes bases de faits connus (datawarehouse) Le processus de construction de modèles est complexe préparer les données modéliser 1/3 de la base valider sur 2/3 expérimenter plusieurs modèles Questions ? Quoi de nouveau par rapport à l'IA et aux statistiques ?

DM, Stat., IA