Introduction Data Mining Année universitaire 2017/2018 Introduction Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab FBR.2017-2018.ISG Tunis. FBR.2016-2017.ISG Tunis.
Information présentée sous forme conventionnelle, Introduction Données Information présentée sous forme conventionnelle, en vue d'être traitée Informations Une information est une donnée à laquelle un sens et une interprétation ont été donnés Connaissances Règles utilisant les informations et les données pour en déduire d'autres FBR.2016-2017.ISG Tunis.
Introduction FBR.2016-2017.ISG Tunis.
Motivation: Pourquoi le Data mining? Ce qu’est le Data mining? Plan Motivation: Pourquoi le Data mining? Ce qu’est le Data mining? Data Mining: Sur quels types de données? Fonctionnalités du Data mining Intérêt des motifs (patterns) Classification des systèmes de Data mining Problèmes rencontrés FBR.2016-2017.ISG Tunis.
Motivation Problème de l’explosion de données Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché). « Les volumes de données vont augmenter d’un facteur trente d’ici à 2025 pour atteindre 35 zettaoctets (1021) au niveau mondial », affirme Sébastien Verger FBR.2016-2017.ISG Tunis.
Motivation: Le besoin crée l’invention Beaucoup de données mais peu de connaissances ! Solution: Data warehousing et data mining Data warehousing et OLAP (On Line Analytical Processing) Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données FBR.2016-2017.ISG Tunis.
Qu’est-ce que le data mining ? Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc … FBR.2016-2017.ISG Tunis.
Qu’est-ce que le data mining ? Le data mining est l’ensemble des méthodes scientifiques destinées à l’exploration et l’analyse de (souvent) grandes bases de données informatiques en vue de détecter dans ces données des profils-type, des comportements récurrents, des règles, des liens, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide a la décision Selon le MIT, le data mining est l’une des 10 technologies emergentes qui ≪ changeront le monde ≫ au XXIe siecle FBR.2016-2017.ISG Tunis.
Qu’est-ce que le data mining ? Le data mining est l’extraction des informations cachées dans des bases de données volumineuses. Comment ? Utilisant des techniques d’analyse et d’apprentissage automatique et des logiciels spécialisés. FBR.2016-2017.ISG Tunis.
Qu’est-ce que le data mining ? Les 2 types de méthodes de data mining Les méthodes descriptives (recherche de ≪ patterns ≫) : visent a mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse) réduisent, résument, synthétisent les données. il n’y a pas de variable a expliquer Les méthodes prédictives (modélisation) : visent a extrapoler de nouvelles informations a partir des informations présentes. expliquent les données il y a une variable a expliquer FBR.2016-2017.ISG Tunis.
Analyse de données et aide à la décision Analyse de marché Pourquoi faire ? Analyse de données et aide à la décision Analyse de marché Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché Analyse de risque Détection de fraudes Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes FBR.2016-2017.ISG Tunis.
Analyse de marché et management Exemple Data mining Analyse de marché et management Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité, sondages Marketing ciblé Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations FBR.2016-2017.ISG Tunis.
Applications Exemple Data mining L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients : réorganiser les rayons Ajuster les promotions L’analyse de données médicales : Support pour la recherche L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients) FBR.2016-2017.ISG Tunis.
Applications Exemple Data mining Détection de fraudes Approche en santé, services de cartes de crédit, télécommunications, etc. Approche Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires Exemples Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network) FBR.2016-2017.ISG Tunis.
Applications Exemple Data mining Demande de crédit bancaire: Célibataire ou marié? En retraite? Intervalle de salaire? FBR.2016-2017.ISG Tunis.
Exemple Data mining FBR.2016-2017.ISG Tunis.
Processus général du ECD Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases • Graphes d'Induction • Réseaux de neurones • Analyse discriminante • Régression logistique • Echantillonnage • Préparation des données • Visualisation des données • Tests statistiques • Re-échantillonnage FBR.2016-2017.ISG Tunis.
Connaissance Processus du ECD Data mining: étape clé dans l’extraction de connaissances Evaluation de patterns Data Mining Données intéressantes Sélection Data Warehouse Nettoyage de données Intégration Bases de données ou fichiers FBR.2016-2017.ISG Tunis.
Etapes du Processus ECD Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) Choix des fonctionnalités du data mining classification, consolidation, régression, association, clustering. Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation visualisation, transformation, suppression des patterns redondants, etc. Utilisation de la connaissance extraite FBR.2016-2017.ISG Tunis.
Architecture typique d’un système de Data Mining Interface graphique Evaluation des motifs Module Data mining Base de connaissances BD ou Datawarehouse Nettoyage & intégration Filtrage Data Warehouse BD’s FBR.2016-2017.ISG Tunis.
Data Mining: sur quels types de données BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW FBR.2016-2017.ISG Tunis.
Data Mining: Confluence de plusieurs Disciplines Statistique Technologie BD Informatique Data Mining Apprentissage Visualisation Théorie de l’information Autres Disciplines
Classification des systèmes Fonctionnalité générale Data mining descriptif Data mining prédictif Différentes vues, différentes classifications Types de BD’s à fouiller Types de connaissances à découvrir Types de techniques utilisées Application ciblée
Classification des systèmes BD fouillée Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc. Connaissance recherchée Association, classification, clustering, tendance, analyse de déviation, etc. Multiples fonctions aux différents niveaux Techniques utilisées BD, data warehouse (OLAP), apprentissage, clustering, statistiques, visualisation, réseaux de neurones, arbre de décision, SVM etc. Applications télécommunication, banque, analyse de fraude, ADN, finance, Web, …
Méthodologie et interaction Problématiques Méthodologie et interaction Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales Diversité des types de données Relationnels, objets complexes, texte, …
Résumé Data Mining: Découverte de motifs intéressants à partir de grandes quantités de données Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance La fouille peut se faire sur différents types d’entrepôts de données Fonctionnalités: discrimination, association, classification, Clustering, analyse de tendances, etc. Classification de SDM Problématiques du data Mining