Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Marius Fieschi Faculté de Médecine de Marseille
Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Ce cours est très proche du cours diffusé sur le net par Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada Qu’ils en soient remerciés
Février 2006 M. Fieschi Data mining Master EISIS Rappel: qu’est-ce que le Data Warehouse? Une base de données d’aide à la décision qui est entretenue de manière séparée de la base de données opérationnelle de l’organisation Aide au traitement de l’information en fournissant une plateforme de données historiques consolidées pour l’analyse. Data warehousing: Le processus de construction et d’utilisation du data warehouse
Février 2006 M. Fieschi Data mining Master EISIS L’approche “Subject-Oriented” de l’entrepôt Organisé autour des sujets majeurs, tels que personne, client,… Sujet = Faits + Dimensions Centré sur la modélisation et l’analyse de données pour les décideurs, non pour des opérations quotidiennes Fournit une vue simple, concise sur des sujets particuliers en excluant des données inutiles dans le processus d’aide à la décision Construit par intégration de sources de données multiples et hétérogènes
Février 2006 M. Fieschi Data mining Master EISIS Le schéma en étoile Une table de faits encadrées par N tables de dimensions Exemple IDper année trimestre mois jour Périodes IDmag nom ville département pays Magasins Table de faits “ventes” produit magasin unités_vendues montant_ventes taxes_ventes IDprod description couleur taille fournisseur Produits période
Février 2006 M. Fieschi Data mining Master EISIS Entrepôt de données La consolidation des données Application de techniques de « data cleaning » et de «data intégration » La cohérence des données doit être assurée Nommer les règles de codage, les mesures, les attributs,… pour les différentes sources de données La conversion des données intégrées au data warehouse L’importance du « temps » pour le data warehouse Toutes les structures « clés » dans le data warehouse contiennent un élément de temps, explicitement ou implicitement
Février 2006 M. Fieschi Data mining Master EISIS Entrepôt de données La mise à jour de données opérationnelles n’est pas réalisée dans l’entrepôt Ne demande pas de transactionnel et mécanismes de contrôle d’accès concurrentiels Demande uniquement deux opérations en accès aux données: Chargement initial de données et accès aux données. Intégration traditionnelle de bases de données (bdd) hétérogènes: Construction de wrappers/médiateurs au dessus des bdd hétérogènes
Février 2006 M. Fieschi Data mining Master EISIS Pourquoi séparer le Data Warehouse? Haute performance pour les deux systèmes DBMS: performance pour OLTP méthodes d’accès, index, accès concurrentiels, restauration Warehouse: performance pour OLAP requêtes complexes, vue multidimensionnelle, consolidation Différente fonctions et différentes données Données manquantes: Aide à la décision (AAD) demande des données historiques. Les Bdd opérationnelles ne les gèrent pas toujours Consolidation de données: l’AAD demande la consolidation (agrégation, résumé) de données issues de sources hétérogènes Qualité des données: habituellement différentes sources utilisent des représentations de données non cohérentes, des codes et des formats à «réconcilier»
Février 2006 M. Fieschi Data mining Master EISIS Les cubes de données Un data warehouse est basé sur un modèle de données multidimensionnel qui « voit » les données sous forme de «data cube » Un « data cube », comme par exemple les ventes, permet de modéliser et de voir les données relatives aux ventes en de multiples dimensions
Février 2006 M. Fieschi Data mining Master EISIS Cube: Un treillis de structures cuboïdes Tous tempsitemlieuagent temps,item temps,lieu temps,agent item,lieu item,agent lieu,agent temps,item,lieu temps,item,agent temps,lieu,agent item,lieu,agent temps, item, lieu, agent 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid
Février 2006 M. Fieschi Data mining Master EISIS Les primitives du langage de requêtes du Data Mining (DMQL) Cube Definition (Fact Table) define cube [ ]: Dimension Definition ( Dimension Table ) define dimension as ( ) Special Case (Shared Dimension Tables) First time as “cube definition” define dimension as in cube
Février 2006 M. Fieschi Data mining Master EISIS Catégories de mesures Distributive: Si le résultat obtenu est identique que l’on applique la fonction à n valeurs agrégées que l’on applique la fonction sur toutes les données (sans partitionnement). Ex: count(), somme(), min(), max(). Algébrique: Si le résultat peut être calculé par une fonction algébrique à M arguments, chacun pouvant être obtenu en appliquant une fonction distributive. Ex: moyenne(), standard_déviation().
Février 2006 M. Fieschi Data mining Master EISIS Une hiérarchie de concepts: Dimension (lieu) Tous Timone Nord obstétrique cardiologie neurochirurgie hospitalisation... Tous hôpital service H d J consultation UF
Février 2006 M. Fieschi Data mining Master EISIS Données multidimensionnelles Volume des factures, une fonction de l’activité, mois, et de l’hôpital Dimensions: Activité, Lieu, Temps Synthèses hiérarchiques MCO Hôpital Année Chir. Service Trimestre Actes UF Mois Semaine Jour Activité Hôpital Mois
Février 2006 M. Fieschi Data mining Master EISIS Un exemple de cube de données Total annuel activité de chir. à Timone Date Activité Etablissement somme Chir. Obst. Méd. 1trim 2trim 3trim 4trim Timone Conception Nord somme
Février 2006 M. Fieschi Data mining Master EISIS Quelques opérations OLAP Roll up (drill-up): synthèse de données En remontant la hiérarchie ou en réduisant la dimension Drill down (roll down): reverse of roll-up Du niveau le plus haut au niveau inférieur, vers des données plus détaillées ou en introduisant de nouvelles dimensions Slice and dice: Projection et sélection Pivot (rotate): Réorientation du cube, visualisation, 3D à des séries de plans 2D.
Février 2006 M. Fieschi Data mining Master EISIS Design d’un Data Warehouse: Un plan d’analyse Quatre vues pour le design d’un data warehouse (DW) Vue top-down Permet la sélection des informations pertinentes nécessaires au data warehouse Vue source de données Donne les informations qui peuvent être saisies, stockées, et gérées par les systèmes opérationnels Vue data warehouse Il s’agit de tables de faits et de tables de dimensions Vue « requête métier » Voir les données du DW dans la perspective de l’utilisateur final
Février 2006 M. Fieschi Data mining Master EISIS Processus de conception d’un Data Warehouse Approches Top-down, bottom-up ou une combinaison des deux Top-down: Démarre avec une vue d’ensemble (maturité) Bottom-up: Démarre par des expérimentations et des prototypes (rapide) D’un point de vue génie logiciel La « chute d’eau »: analyse structurée et systématique à chaque pas avant de passer au suivant La spirale: prototypage rapide, amélioration des fonctions, aller/retour rapide Processus de conception Choisir un processus métier à modéliser, ex: facturation, etc. Choisir le grain (niveau de donnée atomique) du processus métier Choisir les dimensions qui seront appliquées à chaque fait dans la table Choisir la mesure pour chaque fait enregistré
Février 2006 M. Fieschi Data mining Master EISIS ArchitectureArchitecture Data Warehouse Extraction Transform. Chargement Rafraich. Moteur OLAP Analyse Requêtes Rapports Data mining Integrateur Metadonnées Données sources Outil interface Service Data Marts Bdd opérationnelles autres sources Stock. de données Serveur OLAP
Février 2006 M. Fieschi Data mining Master EISIS Trois modèles de Data Warehouse Warehouse d’entreprise Collecte toutes les informations sur tous les sujets pour l’entreprise Data Mart Un sous ensemble de données intéressant un groupe d’utilisateurs particulier. Son objectif est confiné à des groupes sélectionnés spécifiques Warehouse virtuel Un ensemble de vues sur des bases de données opérationnelles Seules certaines vues sont possibles
Février 2006 M. Fieschi Data mining Master EISIS Développement d’un Data Warehouse Définir un modèle de données de l’entreprise de haut niveau Data Mart Data Marts distribués Data Warehouse Raffinement du modèle
Février 2006 M. Fieschi Data mining Master EISIS Base de métadonnées Les meta données définissent les objets du warehouse. Il s’agit: De la description de la structure du warehouse Schéma, vue, dimensions, hiérarchies, définition des données “dérivées”, contenu du data mart Meta-data opérationnelles Histoire des données migrées et des transformations, statut des données (actives, archivées), rapports d’erreurs,… Les algorithmes utilisés pour résumer les données Le mapping des bases opérationnelles au data warehouse Données “métier” Termes et définitions du métier, propriété des données, …
Février 2006 M. Fieschi Data mining Master EISIS Outils pour le Warehouse Extraction des données: Prendre des données dans des sources externes multiples et hétérogènes Data cleaning: Détection des erreurs et rectification quand c’est possible Transformation des données: Convertir les données au format warehouse Trier, résumer, consolider, calculer les vues, vérifier l’intégrité, réaliser les indices et les partitions Rafraîchissement des données Propager les mises à jour depuis les sources de données vers le warehouse