Introduction Data Mining

Slides:



Advertisements
Présentations similaires
Data Mining: Concepts et Techniques
Advertisements

Informatique en L2-L3 Thèmes du niveau « Expert » G.
Pour comprendre comment la créativité et l’innovation sont les moteurs de l’évolution technologique La commande par la pensée ? La commande par le mouvement.
Présentation LabPlus v3. Solution novatrice en Technologies de l’information Solution novatrice en Technologies de l’information Application pour la Gestion.
Intégration et usages innovants de la vidéo dans les pratiques pédagogiques en Economie et Gestion. Réunion du 11 mars 2016 – Usages numériques et TRAAM.
Séminaire GSBF, 22 et 23 octobre Paris 2.2 – Présentation des travaux du Comité de Bâle dans le domaine des IFRS Lundi 22 octobre 2007 L’adaptation de.
1 Module de formation « ERP » Sommaire Master Spécialisé en Management des Technologies de l’Information EPITA M. Patrick SZYCHTER Mai 2006.
Présenté par M. Anis DIALLO
Thèmes du niveau « Expert »
LOG2420 – Automne 2016 Chargé de cours : Mathieu Laprise
Atelier chaîne de valeur
Spécificités du Data Mining
Recherche des contradictions techniques
Présenté par: Salhi Amina
Les Bases de données Définition Architecture d’un SGBD
MOT Éditeur de modèles de connaissances par objets typés
Contribution: Revue des études, enquêtes et systèmes d’informations disponibles au niveau de l’INS, pour alimenter la méthode d’analyse et la cartographie.
Evaluation de la qualité en formation
Présentation générale de la réforme
FENIX Aperçu GLOBALE DU Système
DEFINITION DU CONCEPT DE MODÈLE DE PERFORMANCE
Système d’aide à la décision Business Intelligence
corpus spéciale et spécialisée
INRODUCTION a la comptabilité générale
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
Techniques du Data Mining
Offres Viveris Systèmes
INTELLIGENCE ARTIFICIELLE
Études post-bac et mathématiques
Épreuve E5 Diagnostic opérationnel et proposition de solutions
Notion De Gestion De Bases De Données
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Regroupement contextuel de cimes dans les images aéroportées
Année universitaire 2017 / 2018 Data Mining
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Réseaux de neurones appliqués à la reconnaissance de caractères
Exploiter le Web Etape 2.
Nouveaux programmes de sciences et de technologie : comment décliner l’enseignement au cours du cycle 3 ? Après les programmes, leur contenu… leur déclinaison…
Techniques du Data Mining
Integrated Business intelligence
Diagrammes UML 420-KE2-LG.
EDITEUR:HIGH SYSTEM INFO
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
Document d'accompagnement
Les fondamentaux de la Data Science Théorie
Thèmes de convergence 10/11/2018.
5 Analyse avec Designer d'Oracle
Programme financé par l’Union européenne
CountrySTAT / FENIX Aperçu globale des Objectifs de formation
Modélisation objet avec UML
Professeur LISA Galina PhD. en Economie
Présenté par M. Anis DIALLO
FORMATION POWERPOINT 2007/2010
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Reconnaissance de formes: lettres/chiffres
Conduite d’une autoévaluation
Traitement automatique de la parole
Daniel Leduc Lise Pouliot Sylvain Bourdeau
ENSEIGNER L’ALGORITHMIQUE ET LA PROGRAMMATION AU COLLÈGE
Pr Christian Pradier Département de Santé Publique
Réforme du Lycée
Enseignement de spécialité
Panorama of Recommender Systems to Support Learning
Design, innovation et créativité
Indexation automatique par assignation de mots-clés
MOT Éditeur de modèles de connaissances par objets typés
Deux nouveaux programmes en « Techniques de l’informatique »
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Introduction Data Mining Année universitaire 2017/2018 Introduction Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab FBR.2017-2018.ISG Tunis. FBR.2016-2017.ISG Tunis.

Information présentée sous forme conventionnelle, Introduction Données Information présentée sous forme conventionnelle, en vue d'être traitée Informations Une information est une donnée à laquelle un sens et une interprétation ont été donnés Connaissances Règles utilisant les informations et les données pour en déduire d'autres FBR.2016-2017.ISG Tunis.

Introduction FBR.2016-2017.ISG Tunis.

Motivation: Pourquoi le Data mining? Ce qu’est le Data mining? Plan Motivation: Pourquoi le Data mining? Ce qu’est le Data mining? Data Mining: Sur quels types de données? Fonctionnalités du Data mining Intérêt des motifs (patterns) Classification des systèmes de Data mining Problèmes rencontrés FBR.2016-2017.ISG Tunis.

Motivation Problème de l’explosion de données Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché). « Les volumes de données vont augmenter d’un facteur trente d’ici à 2025 pour atteindre 35 zettaoctets (1021) au niveau mondial », affirme Sébastien Verger FBR.2016-2017.ISG Tunis.

Motivation: Le besoin crée l’invention Beaucoup de données mais peu de connaissances ! Solution: Data warehousing et data mining Data warehousing et OLAP (On Line Analytical Processing) Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données FBR.2016-2017.ISG Tunis.

Qu’est-ce que le data mining ? Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc … FBR.2016-2017.ISG Tunis.

Qu’est-ce que le data mining ? Le data mining est l’ensemble des méthodes scientifiques destinées à l’exploration et l’analyse de (souvent) grandes bases de données informatiques en vue de détecter dans ces données des profils-type, des comportements récurrents, des règles, des liens, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide a la décision Selon le MIT, le data mining est l’une des 10 technologies emergentes qui ≪ changeront le monde ≫ au XXIe siecle FBR.2016-2017.ISG Tunis.

Qu’est-ce que le data mining ? Le data mining est l’extraction des informations cachées dans des bases de données volumineuses. Comment ? Utilisant des techniques d’analyse et d’apprentissage automatique et des logiciels spécialisés. FBR.2016-2017.ISG Tunis.

Qu’est-ce que le data mining ? Les 2 types de méthodes de data mining Les méthodes descriptives (recherche de ≪ patterns ≫) : visent a mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse) réduisent, résument, synthétisent les données. il n’y a pas de variable a expliquer Les méthodes prédictives (modélisation) : visent a extrapoler de nouvelles informations a partir des informations présentes. expliquent les données il y a une variable a expliquer FBR.2016-2017.ISG Tunis.

Analyse de données et aide à la décision Analyse de marché Pourquoi faire ? Analyse de données et aide à la décision Analyse de marché Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché Analyse de risque Détection de fraudes Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes FBR.2016-2017.ISG Tunis.

Analyse de marché et management Exemple Data mining Analyse de marché et management Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité, sondages Marketing ciblé Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations FBR.2016-2017.ISG Tunis.

Applications Exemple Data mining L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients : réorganiser les rayons Ajuster les promotions L’analyse de données médicales : Support pour la recherche L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients) FBR.2016-2017.ISG Tunis.

Applications Exemple Data mining Détection de fraudes Approche en santé, services de cartes de crédit, télécommunications, etc. Approche Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires Exemples Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network) FBR.2016-2017.ISG Tunis.

Applications Exemple Data mining Demande de crédit bancaire: Célibataire ou marié? En retraite? Intervalle de salaire? FBR.2016-2017.ISG Tunis.

Exemple Data mining FBR.2016-2017.ISG Tunis.

Processus général du ECD Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases • Graphes d'Induction • Réseaux de neurones • Analyse discriminante • Régression logistique • Echantillonnage • Préparation des données • Visualisation des données • Tests statistiques • Re-échantillonnage FBR.2016-2017.ISG Tunis.

Connaissance Processus du ECD Data mining: étape clé dans l’extraction de connaissances Evaluation de patterns Data Mining Données intéressantes Sélection Data Warehouse Nettoyage de données Intégration Bases de données ou fichiers FBR.2016-2017.ISG Tunis.

Etapes du Processus ECD Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) Choix des fonctionnalités du data mining classification, consolidation, régression, association, clustering. Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation visualisation, transformation, suppression des patterns redondants, etc. Utilisation de la connaissance extraite FBR.2016-2017.ISG Tunis.

Architecture typique d’un système de Data Mining Interface graphique Evaluation des motifs Module Data mining Base de connaissances BD ou Datawarehouse Nettoyage & intégration Filtrage Data Warehouse BD’s FBR.2016-2017.ISG Tunis.

Data Mining: sur quels types de données BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW FBR.2016-2017.ISG Tunis.

Data Mining: Confluence de plusieurs Disciplines Statistique Technologie BD Informatique Data Mining Apprentissage Visualisation Théorie de l’information Autres Disciplines

Classification des systèmes Fonctionnalité générale Data mining descriptif Data mining prédictif Différentes vues, différentes classifications Types de BD’s à fouiller Types de connaissances à découvrir Types de techniques utilisées Application ciblée

Classification des systèmes BD fouillée Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc. Connaissance recherchée Association, classification, clustering, tendance, analyse de déviation, etc. Multiples fonctions aux différents niveaux Techniques utilisées BD, data warehouse (OLAP), apprentissage, clustering, statistiques, visualisation, réseaux de neurones, arbre de décision, SVM etc. Applications télécommunication, banque, analyse de fraude, ADN, finance, Web, …

Méthodologie et interaction Problématiques Méthodologie et interaction Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales Diversité des types de données Relationnels, objets complexes, texte, …

Résumé Data Mining: Découverte de motifs intéressants à partir de grandes quantités de données Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance La fouille peut se faire sur différents types d’entrepôts de données Fonctionnalités: discrimination, association, classification, Clustering, analyse de tendances, etc. Classification de SDM Problématiques du data Mining