La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction au datamining Patrick Naïm janvier 2006.

Présentations similaires


Présentation au sujet: "Introduction au datamining Patrick Naïm janvier 2006."— Transcription de la présentation:

1 Introduction au datamining Patrick Naïm janvier 2006

2 Définition

3 Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie Quelle est la définition du datamining ? Procédons de façon inductive …

4 Définitions du datamining « Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à laide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes. » (Gartner Group) « Ensemble de techniques permettant dextraire des modèles dune base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur dun procédé. » (Georges Gardarin, PRISM) « Le datamining est lextraction dinformations de grandes bases de données. Il sagit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici lhumain joue un rôle essentiel car lui seul peut décider de lintérêt dune règle pour lentreprise » (IBM) « Le datamining est un processus danalyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers dactivités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans lintérêt de lactivité dont ils ont la charge et de lentreprise pour laquelle ils travaillent » (Michel Jambu, CNET, France Telecom) « [Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables » [1](Fayyad, Piatetsky-Shapiro & Smyth,KDD)[1] [1] [Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data

5 Exemples dapplications Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

6 Segmentation Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements dachat « types »

7 Association Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

8 Classification Expliquer ou prévoir une caractéristique (qualitative) à partir dautres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+

9 Estimation Expliquer ou prévoir une caractéristique (quantitative) à partir dautres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation dun client

10 Représentation des données Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites Moyenne des consommations par mois Opérations mathématiques implicites Analyse en composantes principales Visualisation 2D, 3D, réalité virtuelle

11 Caractérisation des applications Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Modélisation descriptiveModélisation prédictive

12 Les problèmes traités par le datamining

13 La démarche du datamining La connaissance est dans les données … Cest la démarche de la science expérimentale : modélisation empirique Cette démarche suppose la stabilité des phénomènes : existence de lois Les problèmes portent le plus souvent sur des données issues dusages humains : les comportements sont instables Le besoin existe surtout dans les phases dinstabilité !!

14 Pourquoi utilise-t-on le datamining ? En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB) La qualité de la décision est évaluée a posteriori

15 Qualité dune décision

16 Notre définition du datamining Dans le cadre dune mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, cest-à-dire celles dont la rentabilité sera probablement la meilleure.

17 Motivations

18 Secteurs et applications Télécommunications Banque, Finance, Assurances Grande distribution, VPC, eCommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

19 Pourquoi le datamining aujourdhui ? Environnement technique Plus de données disponibles (puissance des ordinateurs) Développement de linternet Environnement économique Concurrence croissante (dérèglementation des télécommunications) Personnalisation : développement du marketing 1-to-1

20 Cadre théorique

21 La démarche scientifique Deux cadres mathématiques principaux Géométrie Probabilités Ces deux cadres théoriques sont communs avec lanalyse de données …

22 Cadre géométrique Principe Les données sont représentées dans un espace muni dune métrique Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par lobservateur, sous sa responsabilité Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus proches Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans dautres espaces)

23 Cadre probabiliste Principe Les données sont supposées issues dune distribution jointe non observée La distribution est estimée à partir des données Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et indépendances) Modélisation prédictive Les conséquences de nouvelles situations sont estimées en probabilité (P(Y|…)) Outils mathématiques Probabilités Théorie de lestimation

24 Cadre théorique du datamining

25 Les techniques utilisées

26 Techniques utilisées en datamining Plusieurs sources Analyse de données Probabilités / statistiques Théorie de linformation Intelligence artificielle Base de données Visualisation

27 Techniques utilisées AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique Intelligence artificielle Réseaux neuronaux, réseaux bayésiens Probabilités, théorie de linformation Arbres de décision, réseaux bayésiens Autres Règles dassociation Filtrage collaboratif

28 Techniques danalyse des données Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de segmentation et/ou classification Analyse discriminante Utilisée pour le prétraitement des données Utilisée comme technique de classification

29 Réseaux neuronaux Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de lapprentissage En pratique Technique de régression non linéaire Apprentissage = Minimisation derreur

30 Réseaux bayésiens Gestion de lincertitude dans les systèmes experts (diagnostic médical) Couplage Théorie des graphes Théorie des probabilités (Bayes) Utilisation Classification = Inférence P(Y|X) Modélisation descriptive = Apprentissage P(M|D)

31 Arbres de décision La technique la plus classique du datamining Basée sur la théorie de linformation Minimisation itérative de lentropie dun ensemble de données Avantages Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 Très utile en marketing

32 Filtrage collaboratif

33 Pratique du datamining

34 Etapes du processus de datamining Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

35 1 - Collecte des données Avec la suivante, létape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité La valeur ajoutée est dans lexhaustivité exemple : réclamations clients

36 2 – Nettoyage des données Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

37 3- Représentation des données Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable Difficultés Variables Agrégation (exemple : nombreux produits) Données temporelles Sélection Individus Représentativité

38 4- Modélisation Segmentation des bases Apprentissage, Test, Validation Choix de la technique Fabrication du modèle En général 20% seulement du temps total

39 5 - Evaluation du modèle Performances Précision (base dapprentissage) Stabilité (base de validation) Critère économique (sur les deux bases) Comparaison avec un modèle de référence

40 6 - Suivi et mesure de la dérive Sources derreur Les modèles réalisés ne sont pas parfaits (univers incomplets) Les relations changent dans le temps Comment décider doù vient lerreur ? Définition de critères objectifs pour réviser le modèle

41 Plan des séances suivantes S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance S3 : Segmentation K-means, CAH, Cartes topologiques S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens S5 : Classification Arbres de décision, réseaux bayésiens S6 : Estimation Réseaux neuronaux

42 Contact Cours (ppt et pdf)


Télécharger ppt "Introduction au datamining Patrick Naïm janvier 2006."

Présentations similaires


Annonces Google