Introduction au datamining

Slides:



Advertisements
Présentations similaires
Du positionnement épistémologique à la méthodologie de recherche
Advertisements

Classification et prédiction
Classification et prédiction
Champs de Markov en Vision par Ordinateur
Apprentissage relationnel Apprentissage Data Mining ILP.
RECONNAISSANCE DE FORMES
Datamining de la Connaissance Client orienté Objectif
De lanalyse des données … … au Datamining Aide à la prise de décision.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Les TESTS STATISTIQUES
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
Entre construction théorique et mise en œuvre opérationnelle
Les TESTS STATISTIQUES
Scoring Séance II.
Dr DEVILLE Emmanuelle J D V 12/07/2006
LES BASES DU MARKETING IUT SRC, SEMESTRES 1 & 2
16ème Conférence Nationale des Présidents de Commissions locales dinformation Autorité de Sûreté Nucléaire Paris, 8 décembre 2004 Perception et Gestion.
Modélisation des systèmes non linéaires par des SIFs
Data Mining: Définition
Traitement de données socio-économiques et techniques d’analyse :
Monique THONNAT et Nathanaël ROTA Projet ORION
Behavioral economics Economie comportementale Claudia Senik Université Paris-4 Sorbonne Paris School of Economics
Initiation à la conception de systèmes d'information
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
RÉSOLUTION DE PROBLÈMES
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
La segmentation
Diagnostic des Systèmes à Evénements Discrets
DEA Perception et Traitement de l’Information
La gestion de la relation client
DataLab® Toute la connaissance client en quelques minutes
SCIENCES DE L ’INGENIEUR
Lergonomie des IPM : pourquoi, comment ? 30 Septembre 2009 Mireille Bétrancourt - Cours Ergonomie des IPM TECFA Technologies pour la Formation et lApprentissage.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Les prévisions et la gestion de la demande
Marketing Electronique Cours 2
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Les Arbres de décision ou régression
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Hum?? Les statistiques… Qu’est-ce que c’est au juste?
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Classification : objectifs
Institut de sciences et technologies Département d’informatique
Sériation et traitement de données archéologiques
Initiation à la conception des systèmes d'informations
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Les réseaux de neurones à réservoir en traitement d’images
TIPE Les dames chinoises
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Modelisation/ Analyse - Equations differentielles
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Décision incertaine et logistique : Grille typologique
Knowledge discovery in Databases (KDD)
Data Mining: Concepts et Techniques
Le Marketing Prédictif
Études de Marché MBA Hiver 2006 SÉANCE 3: LES DONNÉES PRIMAIRES: MÉTHODES QUALITATIVES.
Principes d'économétrie
Introduction à la recherche en science politique
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Démarche d’enseignement de l’APL : analyser
LES AGENTS INTELLIGENTS
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
L’entreprise et sa gestion
Techniques d’évaluation de la performance d’un système de distribution
TSTC développement de clientèles 1 Le système d'information mercatique (SIM)
Transcription de la présentation:

Introduction au datamining Patrick Naïm janvier 2006

Définition

Définition Historique Quelle est la définition du datamining ? Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie Quelle est la définition du datamining ? Procédons de façon inductive …

Définitions du datamining « Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l’aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes. » (Gartner Group) « Ensemble de techniques permettant d’extraire des modèles d’une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d’un procédé. » (Georges Gardarin, PRISM) « Le datamining est l’extraction d’informations de grandes bases de données. Il s’agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l’humain joue un rôle essentiel car lui seul peut décider de l’intérêt d’une règle pour l’entreprise » (IBM) « Le datamining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent » (Michel Jambu , CNET, France Telecom) « [Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables » [1](Fayyad, Piatetsky-Shapiro & Smyth ,KDD) [1] “[Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”

Exemples d’applications Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

Segmentation Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d’achat « types »

Association Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

Classification Expliquer ou prévoir une caractéristique (qualitative) à partir d’autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+

Estimation Expliquer ou prévoir une caractéristique (quantitative) à partir d’autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d’un client

Représentation des données Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites Moyenne des consommations par mois Opérations mathématiques implicites Analyse en composantes principales Visualisation 2D, 3D, réalité virtuelle

Caractérisation des applications Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Modélisation descriptive Modélisation prédictive

Les problèmes traités par le datamining

La démarche du datamining La connaissance est dans les données … C’est la démarche de la science expérimentale : modélisation empirique Cette démarche suppose la stabilité des phénomènes : existence de lois Les problèmes portent le plus souvent sur des données issues d’usages humains : les comportements sont instables Le besoin existe surtout dans les phases d’instabilité !!

Pourquoi utilise-t-on le datamining ? En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB) La qualité de la décision est évaluée a posteriori

Qualité d’une décision

Notre définition du datamining Dans le cadre d’une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c’est-à-dire celles dont la rentabilité sera probablement la meilleure.

Motivations

Secteurs et applications Télécommunications Banque, Finance, Assurances Grande distribution, VPC, eCommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

Pourquoi le datamining aujourd’hui ? Environnement technique Plus de données disponibles (puissance des ordinateurs) Développement de l’internet Environnement économique Concurrence croissante (dérèglementation des télécommunications) Personnalisation : développement du marketing 1-to-1

Cadre théorique

La démarche scientifique Deux cadres mathématiques principaux Géométrie Probabilités Ces deux cadres théoriques sont communs avec l’analyse de données …

Cadre géométrique Principe Modélisation descriptive Les données sont représentées dans un espace muni d’une métrique Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l’observateur, sous sa responsabilité Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus proches Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d’autres espaces)

Cadre probabiliste Principe Modélisation descriptive Les données sont supposées issues d’une distribution jointe non observée La distribution est estimée à partir des données Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et indépendances) Modélisation prédictive Les conséquences de nouvelles situations sont estimées en probabilité (P(Y|…)) Outils mathématiques Probabilités Théorie de l’estimation

Cadre théorique du datamining

Les techniques utilisées

Techniques utilisées en datamining Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l’information Intelligence artificielle Base de données Visualisation

Techniques utilisées AD Intelligence artificielle Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique Intelligence artificielle Réseaux neuronaux, réseaux bayésiens Probabilités, théorie de l’information Arbres de décision, réseaux bayésiens Autres Règles d’association Filtrage collaboratif

Techniques d’analyse des données Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de segmentation et/ou classification Analyse discriminante Utilisée comme technique de classification

Réseaux neuronaux Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l’apprentissage En pratique Technique de régression non linéaire Apprentissage = Minimisation d’erreur

Réseaux bayésiens Gestion de l’incertitude dans les systèmes experts (diagnostic médical) Couplage Théorie des graphes Théorie des probabilités (Bayes) Utilisation Classification = Inférence P(Y|X) Modélisation descriptive = Apprentissage P(M|D)

Arbres de décision La technique la plus classique du datamining Basée sur la théorie de l’information Minimisation itérative de l’entropie d’un ensemble de données Avantages Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 Très utile en marketing

Filtrage collaboratif

Pratique du datamining

Etapes du processus de datamining Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

1 - Collecte des données Avec la suivante, l’étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité La valeur ajoutée est dans l’exhaustivité exemple : réclamations clients

2 – Nettoyage des données Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

3- Représentation des données Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable Difficultés Variables Agrégation (exemple : nombreux produits) Données temporelles Sélection Individus Représentativité

4- Modélisation Segmentation des bases Choix de la technique Apprentissage, Test, Validation Choix de la technique Fabrication du modèle En général 20% seulement du temps total

5 - Evaluation du modèle Performances Précision (base d’apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases) Comparaison avec un modèle de référence

6 - Suivi et mesure de la dérive Sources d’erreur Les modèles réalisés ne sont pas parfaits (univers incomplets) Les relations changent dans le temps Comment décider d’où vient l’erreur ? Définition de critères objectifs pour réviser le modèle

Plan des séances suivantes S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance S3 : Segmentation K-means, CAH, Cartes topologiques S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens S5 : Classification Arbres de décision, réseaux bayésiens S6 : Estimation Réseaux neuronaux

Contact Cours (ppt et pdf) www.elseware.fr/univevry Email patrick.naim@elseware.fr