DATA WAREHOUSE - DATA MINING

Slides:



Advertisements
Présentations similaires
Chap. 4 Recherche en Table
Advertisements

Data Mining.
De lanalyse des données … … au Datamining Aide à la prise de décision.
INTRODUCTION Grande quantité de données
Simulation de management Principes d’une simulation de gestion
Fonctionnalités des SGBD
Le Modèle Logique de Données
Vue d’ensemble du Data warehousing et de la technologie OLAP
Alain Casali, Rosine Cicchetti, Lotfi Lakhal
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Optimisation de Requêtes
SGBDR : LA GESTION DES VUES
Christelle Scharff IFI Juin 2004
07/24/09 1.
Sélection automatique d’index et de vues matérialisées
Data Mining: Définition
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Monique THONNAT et Nathanaël ROTA Projet ORION
Contrôles d'accès aux données
Introduction to Information Systems
Application des algorithmes génétiques
Etude sur les Pratiques et comportements l’Achat en Ligne au Maroc Présentation des résultats de l’étude 30 mai 2012.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 3 : Laide à la décision Laide.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 2 : Les applications fonctionnelles.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
BPM & BPMS.
Modélisation E/R des Données
Introduction à la conception de Bases de Données Relationnelles
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Méthode des k plus proches voisins
DataLab® Toute la connaissance client en quelques minutes
Novembre 2009 Segmentation Communication. NOUS PROPOSONS AUX EXPERTS COMPTABLES UNE EQUIPE DEDIEE UNE DEMARCHE DES OUTILS DES PARTENARIATS.
SYSTEMES D’INFORMATION
SCIENCES DE L ’INGENIEUR
Réseaux de neurones.
1.1 LES VECTEURS GÉOMÉTRIQUES
Universté de la Manouba
La gestion par activités (ABM)
Le forage de données ou data mining
La mise en œuvre par la structure et les systèmes
SUJET D’ENTRAINEMENT n°4
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Bases de données phénotypique et ontologie
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
SUJET D’ENTRAINEMENT n°1
Introduction.
Votre espace Web Entreprises Article 39 Démonstration.
Projet de stage d’année IIR4 sous le thème:
Règles Associatives Définition et introduction
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Optimisation de requêtes
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
1 G. Gardarin Optimisation de Requêtes  1. Introduction  2. Arbres relationnels  3. Restructuration algébrique  4. Modèle de coût  5. Choix du meilleur.
LE DATA WAREHOUSE.
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
1 J. PHILIPP d'après G. Gardarin SGBDR : la gestion des vues l 1. Contexte l 2. Vues externes l 3. Interrogation des vues l 4. Mises à jour des vues l.
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Knowledge discovery in Databases (KDD)
Data Mining: Concepts et Techniques
Le Data Mining: Méthodologie
Data warehouse Motivations et architecture Conception de la BD support
Le Marketing Prédictif
Intégration des Tableaux Multidimensionnels en Pig pour
Le Data Mining: Méthodologie
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Cours 11 Entrepôts de données
Transcription de la présentation:

DATA WAREHOUSE - DATA MINING Motivations et architecture Le multidimensionnel Le data mining La recherche de règles associatives Conclusion

1. OLTP versus OLAP 3 1

Explosion de l ’OLAP Facteurs économiques & technologiques 5 10 15 5 10 15 1994 1995 1996 1997 1998 1999 Milliards de $ Années 3

Motivations des entreprises Besoin des entreprises accéder à toutes les données de l’entreprise regrouper les informations disséminées dans les bases analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing Grande distribution : marketing, maintenance, ... produits à succès, modes, habitudes d’achat préférences par secteurs géographiques Télécommunications : pannes, fraudes, mobiles, ... classification des clients, détection fraudes, fuites de clients, etc. Médecine, Pharmacie, Bourse, Production, … 2

L'approche entrepôt de données Datawarehouse Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. Trois fonctions essentiels : collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision 8

Architecture type Datawarehouse Présentation Analyse Client décisionnel Exploration Client décisionnel BD Entrepôt Médiateur Transformation, Fusion Extraction, Filtrage Moniteur/Adapteur Moniteur/Adapteur Source Moniteur/Adapteur BD Source Données opérationnelles BD source Données externes BD légataires 11

Datamart (Magasin de données) sous-ensemble de données extrait du datawarehouse et ciblé sur un sujet unique Bases multidimensionnelles Data Warehouse Bases de production Data Marts SGBD relationnel Outils d’alimentation Outils d ’extraction Bases relationnelles Bases externes

Bilan Entrepôt Le datawarehouse regroupe, historise, résume les données de l ’entreprise Le concepteur définit schéma exportés et intégrés des choix fondamentaux ! Ciblage essentiel ! Le datamart c’est plus ciblé et plus petit. Questions ? Peut-on ajouter des données au niveau de l ’entrepôt ?

2. Modélisation multidimensionnelle Dimensions: Temps Géographie Produits Clients Canaux de ventes..... Indicateurs: Nombre d’unités vendues CA Coût Marge..... 16

Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région - ville) Variables analysées: Nb unités, CA, marge... Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analysées: indicateurs Axe d'analyse: Le temps (Année, trimestre, mois, semaine) 6 20

La granularité des dimensions Années Temps Jours Mois Trimestres Géographie Villes Régions Pays Produits Numéros Types Gammes Marques

La navigation multidimensionnelle Projection en 2 dimensions Coupe d ’un cube Produits Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension France Sud Marseille Nice Lyon Est Ouest Zoom selon une dimension Produits CA Temps en mois 13 30

Les vues d'un cube Partant d'un cube 3D, il est possible d'agréger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) NumPro, NumFou, Date NumPro, Date NumPro, NumFou NumFou, Date NumPro NumFou Date

ROLAP versus MROLAP SGBD ROLAP SGBD MROLAP SQL+Cube SQL+Cube SQL Opérateurs décisionnels Cache Cube Analyseur Optimiseur SQL Analyseur Optimiseur Opérateurs décisionnels Opérateurs relationnels Opérateurs relationnels Cache SGBD Cache SGBD SGBD ROLAP SGBD MROLAP

Bilan OLAP La modélisation multidimensionnelle est adaptée à l ’analyse de données Le datacube est au centre du processus décisionnel transformation et visualisation 3D une algèbre du cube : Slice, Dice, Rollup, Drilldown Questions ? Combien de datacubes à partir de N variables ?

3. Qu ’est-ce-que le data mining ? ensembles de techniques d'exploration de données afin d'en tirer des connaissances (la substantifique moelle) sous forme de modèles présentées à l ’utilisateur averti pour examen Connaissances analyses (distribution du trafic en fonction de l ’heure) scores (fidélité d ’un client), classes (mauvais payeurs) règles (si facture > 10000 alors départ à 70%) Données entrepôt Connaissances Data mining Découverte de modèles Compréhension Prédiction 32

Domaines d'utilisation De plus en plus de domaines explosion des données historisées puissance des machines support Quelques domaines réputés Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité

Mécanismes de base Déduction : base des systèmes experts schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles Induction : base du data mining méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération 34

Découverte de modèles Description ou prédiction Confiance Entrées Apprentissage sur la base Utilisation pour prédire le futur Exemple : régression linéaire Y = a X + B Confiance Entrées Sortie

Méthode SEMMA (SAS) Sampling = Échantillonner Exploration = Explorer tirer un échantillon significatif pour extraire les modèles Exploration = Explorer devenir familier avec les données (patterns) Manipulation = Manipuler ajouter des informations, coder, grouper des attributs Modelling = Modéliser construire des modèles (statistiques, réseaux de neuronnes, arbres de décisions, règles associatives, …) Assessment = Valider comprendre, valider, expliquer, répondre aux questions

Principales Techniques Analyse statistique régression linéaire régression logistique réseaux baysiens Découverte de modèles fonctionnels fonctions probabilistes réseaux de neurones Segmentation K-moyennes Raisonnement à base de cas Classification arbres de décision réseaux d'agents

Règles associatives La découverte de règles découverte de relations plus fines entre données du style si X alors Y si Achat(Vin) alors Achat(Boursin) (10%, 15%) su Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%) Support : probabilité absolue P(XY) |XY|/ |BD| = % de transactions vérifiant la règle Confiance : probabilité conditionnelle P(Y/X) |XY|/|X| = % de transactions vérifiant l'implication = sup(XY) / sup(X) Comment extraire les règles intéressantes ? exemple : Supp.> 0.1 et Conf.> 0.7 comment optimiser les calculs d'indicateurs sur des VLDB?

Recherche des règles intéressantes Nécessité de calculer les supports de tous les produits => 1-ensemble fréquent de tous les ensembles suceptibles d ’être fréquents La confiance se déduit du support conf (X-->Y) = suup(X) / sup(XY) Un ensemble de taille k est appelé un k-ensemble. Un ensemble de support plus grand que minsup est fréquent. Tout k-ensemble fréquent est composé de (k-1)-ensembles fréquents en effet, un ensemble ne peut être fréquent si ses sous-ensembles ne le sont pas

Comment évaluer efficacement ? Réduire le nombre de passes (I/O) Réduire le temps CPU Nombreux algorithmes Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei] ...

Des règles plus générales Les règles multi-attributs : associent des valeurs d'attributs distincts telephone : Source = "New-York" => Cible ="Paris" (5%,30%) Les règles à attributs numériques : règles de la forme A[x,y] => C ou A est un attribut numérique et C une condition : il faut trouver x et y. exemple Age [x,y] => Salaire > 300 KF (5%,30%) x? y? Les règles négatives et/ou disjonctives : Expr(Ci) => Expr(Cj) avec ET, OU, NOT Les règles avec généralisation associée à une taxonomie

Les règles cycliques Les règles cycliques : Les patterns séquentiels : règles vérifiées périodiquement ex : tout les matins, café => sucre, gâteaux X=>Ycycle (l,o) signifie que X=>Y tous les l unités de temps en commençant au temps o. Les patterns séquentiels : séquence d’items similaire aux règles associatives mais l’ordre est important exemple : achat de chaussures, puis de pantalons, puis de chemises

5. Conclusion De nombreuses techniques d'exploration Les problèmes : La plupart ne passe pas à l'échelle limitées à quelques milliers d ’objets échantillonner puis valider Un bon outil doit proposer plusieurs techniques ! Les problèmes : Comment explorer de volumineuses bases de données ? L’index bitmap est intéressant pour les règles associatives Trouver d ’autres structures d ’indexation Maintenance incrémental des règles ? Exploration de types de données complexes ? Parallélisation des algorithmes ?

Quelques produits DataMind de Datamind SA Knowledge Seeker d'Angoss classification, modèles fonctionnels (agents), statistiques Knowledge Seeker d'Angoss statistiques, classification, arbres de décision SPSS Chaid et Neural Connection de SPSS statistiques, classification, réseaux de neurones MineSet de Silicon Graphics classification, visualisation de règles SAS de SAS Statistiques, arbres de décision, réseaux de neurones Intelligent Miner d'IBM, Clementine de Integral Solutions... 38

Les Data Trucs Database Datawarehouse Datamart Data mining Datacube entrepôt des données historisées de l'entreprise Datamart magasin de données ciblé sur un ou plusieurs sujets Data mining exploration des données afin de découvrir des connaissances Datacube cube de présentation d'unités selon 3 dimensions Datawebhouse entrepôt des données collectées sur le web 42

Le semi-treillis des ensembles Génération des règles Il suffit de retrouver les plus grands ensembles de support > MinSup puis d'en extraire les règles de confiance > MinConf ayant une condition maximale S'il n'y en a pas on descend le semi-treillis des ensembles fréquents et on itère. Possibilité de s'intéresser à un item particulier et d'explorer ses ancètres sur demande : ex : A=>{AB,AC}=>{ABC} 0,3% ABC AB AC BC BD A B C D  0,4% 0,6% 0,5% 0,7% 1% 2% 2% 1% Le semi-treillis des ensembles fréquents