Data Mining: Concepts et Techniques

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Data Mining.
Classification et prédiction
Sciences et technologies de gestion
Datamining de la Connaissance Client orienté Objectif
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Excel 2007 et les services Excel. Pourquoi Excel ? Outil privilégié danalyse des données issues des bases multidimensionnelles Ergonomie connue des outils.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
Mise en œuvre de l’informatique décisionnelle
Vue d’ensemble du Data warehousing et de la technologie OLAP
CH18 LES SYSTEMES DECISIONNELS
LES BASES DU MARKETING IUT SRC, SEMESTRES 1 & 2
Christelle Scharff IFI Juin 2004
Business Intelligence CLSO – 24 février Jean-Pierre Riehl
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Data Mining: Définition
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
1. Spécialisation de GeoConcept
Initiation à la conception de systèmes d'information
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Introduction au datamining
Construction de modèles visuels
DataLab® Toute la connaissance client en quelques minutes
Développement d’un réseau social professionnel
MOT Éditeur de modèles de connaissances par objets typés
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Modèle d’entrepôt de données à base de règles
La gestion par activités (ABM)
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Les Arbres de décision ou régression
LES SUPPORTS INDIVIDUELS D AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B.
Page 1 / Titre / Auteur / Date / Confidentiel D? LA DEMARCHE COLLEGES METIER.
Réalité virtuelle et Représentation de Données Complexes
Portée, arrimages et intervenants Évolution des méthodes
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
DATA WAREHOUSE - DATA MINING
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Introduction au Génie Logiciel
Progiciels de Gestion Intégrés
OLAP Par Myriam Corrales Yaqueline Corrales INF7115 – Base de données
ASKIT v2.0 Gestion de l’ASCII DAUVERGNE Sébastien DEZE Simon Master 1 Informatique.
Initiation à la conception des systèmes d'informations
Recherche d’information
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Management de la qualité
Nicolas Rageul, Yvan Bédard, Jacynthe Pouliot, Michel Fortin
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Module 1 : Vue d'ensemble de Microsoft SQL Server
Knowledge discovery in Databases (KDD)
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Stage à Ontomantics Master Pro TILDE
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Analyse, élaboration et exploitation d’une Base de Données
Cours 11 Entrepôts de données
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Transcription de la présentation:

Data Mining: Concepts et Techniques

Plan du Cours Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique)

Chapitre 1. Introduction Motivation: Pourquoi le Data mining? Ce qu’est le Data mining? Data Mining: Sur quels types de données? Fonctionnalités du Data mining Intérêt des motifs (patterns) Classification des systèmes de Data mining Problèmes rencontrés

Motivation: Le besoin crée l’invention Problème de l’explosion de données Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché) Beaucoup de données mais peu de connaissances ! Solution: Data warehousing et data mining Data warehousing et OLAP (On Line Analytical Processing) Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données

Evolution des Bases de Données Collecte des données, création des BD’s, IMS et le modèle réseau 1970s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP 1980s: Modèles de données et SGBD’s avancés (relationnel étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.) 1990s—2000s: Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB

Ce qu’est le Data Mining Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc …

Pourquoi faire ? Applications potentielles Analyse de données et aide à la décision Analyse de marché Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché Analyse de risque Détection de fraudes Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes

Analyse de marché et management (1) Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité, sondages Marketing ciblé Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations

Applications L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients : réorganiser les rayons Ajuster les promotions En VPC, regrouper les clients selon certains critères : Cibler les « mailings » L’analyse de données médicales : Support pour la recherche L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients)

Applications Détection de fraudes Approche Exemples en santé, services de cartes de crédit, télécommunications, etc. Approche Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires Exemples Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network)

Applications Astronomie Web Le laboratoire JPL a découvert 22 quasars en utilisant les techniques de datamining Web IBM a appliqué des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation. Améliorer le WEB marketing

Datamining: Un processus dans l’ECD Connaissance Evaluation de patterns Data mining: étape clé dans l’extraction de connaissances Data Mining Données intéressantes Sélection Data Warehouse Nettoyage de données Intégration Bases de données ou fichiers

Etapes du processus d’ECD Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) Choix des fonctionnalités du data mining classification, consolidation, régression, association, clustering. Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation visualisation, transformation, suppression des patterns redondants, etc. Utilisation de la connaissance extraite

Architecture typique d’un système de Data mining Interface graphique Evaluation des motifs Module Data mining Base de connaissances BD ou Datawarehouse Nettoyage & intégration Filtrage Data Warehouse BD’s

Datamining: sur quels types de données BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW

Fonctionnalités du Data Mining On distingue deux grandes familles de tâches réalisées en datamining Description : consiste à trouver les caractéristiques générales relatives aux données fouillées Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions futures

Quels types de motifs extraire ? (1) Description de concepts: Caractérisation et discrimination Caractérisation : Il s’agit de trouver des descriptions concises et précises de certains concepts. Ex: On a une table décrivant les clients d’une entreprise. Contraster (régions sèches vs humides)

Quels types de motifs extraire ? (2) Association (corrélation et causalité) age(X, “20..29”) & revenu(X, “200..300KF”) à achète(X, “PC”) [support = 2%, confiance = 60%] contient(T, “ordinateur”) à contient(T, “logiciel”) [1%, 75%]

Quels types de motifs extraire ? (3) Classification et Prédiction Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions Ex : classifier les pays en se basant sur leurs climats, les voitures selon leurs carburants Présentation: Arbres de décision, règles de classification, réseaux neuronaux Prédiction: Prédire des valeurs inconnues Démarche: On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière

Quels types de motifs extraire ? (4) Analyse de groupes (clusters) Appelée aussi classification non supervisée Le regroupement est basé sur le principe: maximiser la similarité intra-groupe et la minimiser entre groupes distincts Le nom de chaque groupe est inconnu

Quels types de motifs extraire ? (5) Analyse d’exceptions Les objets non conformes à la tendance générale Une exception peut être considérée comme du bruit mais aussi comme indice de fraude Analyse de tendances Tendance et déviation: analyse de régression Extraction de séquences séquentiels, analyse de périodicités

Est-ce que tous les motifs découverts sont utiles? Un système de data mining peut générer des milliers de motifs pas tous intéressants. C’est quoi un motif intéressant ? Mesure d’intérêt : Un motif est intéressant s’il est facilement compréhensible, a un degré de certitude, nouveau, peut servir à valider (ou invalider) une hypothèse utilisateur Mesure Objective vs. Subjective : Objective: basée sur des mesures statistiques : support, confiance, etc. Subjective: basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.

Peut-on trouver tous et que les motifs intéressants? Trouver tous les patterns intéressants: Complétude Association vs. classification vs. regroupement Trouver que les patterns intéressants: Optimisation Approches D’abord les trouver tous puis filtrer Ne générer que les motifs intéressants

Data Mining: Confluence de plusieurs Disciplines Statistique Technologie BD Data Mining Apprentissage Visualisation Théorie de l’information Autres Disciplines

Classification des systèmes (1) Fonctionnalité générale Data mining descriptif Data mining prédictif Différentes vues, différentes classifications Types de BD’s à fouiller Types de connaissances à découvrir Types de techniques utilisées Application ciblée

Classification des systèmes (2) BD fouillée Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc. Connaissance recherchée Association, classification, clustering, tendance, analyse de déviation, etc. Multiples fonctions aux différents niveaux Techniques utilisées BD, data warehouse (OLAP), apprentissage, statistiques, visualisation, réseaux de neurones, etc. Applications télécommunication, banque, analyse de fraude, ADN, finance, Web, …

Problématiques Méthodologie et interaction Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales Diversité des types de données Relationnels, objets complexes, texte, …

Résumé Data mining: Découverte de motifs intéressants à partir de grandes quantités de données Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance La fouille peut se faire sur différents types d’entrepôts de données Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc. Classification de SDM Problématiques du data mining

Quelques systèmes Intelligent miner d’IBM (couplé avec le SGBD DB2) Classification, association, régression, analyse de séquences, regroupement Entreprise miner de SAS Multiples outils d’analyse statistique, classification, … Mine set de Silicon graphics. Classification, association et divers outils statistiques. Très puissant en terme de visualisation Clémentine de SPSS En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes DBMiner de DBMiner technologie. Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP

Bibliographie Titre: Datamining : Concepts and techniques. Auteurs : Jiawei Han & Micheline Kamber Editeur : Morgan Kaufmann 2000