Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Marius.

Slides:



Advertisements
Présentations similaires
Apprentissage et Fouille de Données
Advertisements

1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
Vue d’ensemble du Data warehousing et de la technologie OLAP
Les situations d enseignement Les m é thodes d enseignement L entr é e en formation Les ouvrages - supports d enseignement Un enseignement diff é renci.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
– Les entrepôts de données et lanalyse en ligne – Versaille, le 19 Juin 2006.
FORUM REGIONAL DE NORMALISATION DE L'UIT POUR L'AFRIQUE (Dakar, Sénégal, mars 2015) Outils et méthodes pour tester la qualité de services (QoS) de.
LE DATA WAREHOUSE.
Data warehouse Motivations et architecture Conception de la BD support
L A C OMPRESSION DE DONNÉES Par Bettaver Stéphane et Guérandel Quentin Février 2013.
Projet Ours. Sommaire Présentation du périmètre fonctionnel Architecture générale HBase Client Workers Exploitation.
L’Online Executive Master in Management Organisé par Proposé en partenariat par.
Cours 11 Entrepôts de données
M. Fieschi Mater EISIS - LERTIM Faculté de Médecine Marseille Janvier 2008 L’organisation hospitalière, les instances participatives Marius Fieschi Faculté.
Systèmes d ’ information Méthodologie et modélisation Marius Fieschi Faculté de Médecine de Marseille Octobre 2010.
Code UEIntituléVH CTDTPPRJ UE000Vision par ordinateur42H UE001Gestion des données massives Multimédia42H UE010Technologies géo-spatiales &
RÉNOVATION BTS Comptabilité et Gestion 2015 Atelier situations professionnelles & PGI Cas Jupiter Média Chantal Bricard Jean-Marie Duplan.
1 Comment préparer un plan Document No. 2.1 Gestion des activités conjointes de lutte contre la tuberculose et le VIH: cours de formation pour responsables.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
Question de gestion 13 : Le document peut-il être vecteur de coopération ? Le document : - Dématérialisation des documents - Partage, mutualisation, sécurisation.
Séminaire SoSySec 25 mars 2016page 1 Processus de développement de système contraint par des préconisations de sécurité d'un SI urbanisé Jacques Simonin.
Présentation de Warehouse Un logiciel distribué exclusivement par Brain2tech SARL.
DRH Groupe CONFIDENTIEL Plénière du 12 février 2016 Négociation sur le dialogue social et le droit syndical.
1 TECHNOLOGIE EN SEGPA Objets techniques instrumentés, didactisés et maquettisés que préconisent les nouveaux programmes Stage 10SEGDES2 du 14 et 15 décembre.
Roger Boll, avril 2006 Equipe de Biologie des Populations en Interaction Institut National de la Recherche Agronomique UMR 1112 : Réponses des Organismes.
Présentation PGI (Progiciels de Gestion Intégrée) VEGNI Cyril, Enseignant l’Université d’Angers, Directeur de Projet GUERY Sébastien, Enseignant à l’Université.
1) Qu’est-ce que BCDI? BCDI est un logiciel informatique de recherche documentaire : C’est le catalogue informatique du CDI. Au collège on travaille principalement.
Mediator 9 - Un outil de développement multimédia 3AC Techno/Informatique.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 5 Support de cours rédigé par Bernard COFFIN Université.
Janvier 2014 Guy CLYNCK LIE Coordinateur qualité CHWAPI Coordinateur IC.
Présentation Embarquer une librairie de ressource indexée dans Moodle.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
Efficacité Commerciale Grille de compétences cible.
Présentation de la série STMG  Spécialisation progressive  Classe de première unique  Choix d’orientation repoussé en terminale Formation terminale.
Tutoriel n°4 : Administration Technique Formation : profil Administrateur.
Vers la gestion globale des risques au travers de l’ISO : 2009 CLUSEL Sophie OMNES Air France – KLM Novembre 2011.
Génie Electrique 3 ème année 2007/ Soutenance de projet Convoi de robots mobiles par vision, localisation de robots mobiles Clients :M Lounis ADOUANE.
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
Fondement et intérêt de la démarche technologique en STHR Grenoble - 29 avril 2015 Baccalauréat technologique – série STHR (Sciences et Technologies de.
G. Botti Service de l ’Information Médicale Pr M. Fieschi Hôpital Timone-adultesMarseille le 13 novembre 2000 Problématique du codage Langage, communication,
Présentation du sujet 0 - DJFCExpert. Sujet 0 - DJFCExpert Structure du sujet 1. Présentation du cabinet comptable : DJFCExpert1 page 2. Présentation.
1 Les entrepôts de données. 2 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 6 Support de cours rédigé par Bernard COFFIN Université.
La création des données d’exemplaire pour un exemplarisateur Sudoc.
Management  Définitions  Catégories  Compétences  Étapes  Évaluation de la performance  9 Responsabilités  Habiletés personnelles  Pyramide - organigramme.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
RÉNOVATION BTS Comptabilité et Gestion 2015 CB2C : un exemple de situation professionnelle Christine Forest Stéphane Bessière Daniel Perrin Toinin.
1 Adaptation Structurelle de Composants Logiciels Stage de DEA informatique effectué à L’ENSM-Douai Encadré par Mr. Abdelhak SERIAI & Mr. Mourad OUSSALAH.
Introduction à la Programmation Orientée Objet H.GATI.
Activités de recherches de la composante SIG – Entrepôts de données 7 Novembre 2005 IRIT/UT1.
ANALYSE SUJETS BAC COMMUNICATION ET GRH PARTIE PRATIQUE L’ETUDE.
Nouveaux programmes de mathématiques cycles 3 et 4
Master sciences et techniques de géomatique environnementale
Les limites de l’UML Présenté par : Samah Dekhil 1.
© 2006 ERPI – Reproduction autoriséeJacques Lavallée et Danielle Perras, Université de Sherbrooke 44 ChapitreChapitre Vers une meilleure prise de décisions.
Quel est l’intérêt d’un moteur de recherche de CV pour le recrutement ? Master MIAGE Tuteur : Michel Plasse Danicel Alexandre Entreprise de stage Maitre.
La spécialité mathématique en TS. Les mathématiques sont une science qui se construit elle-même grâce à la démonstration. Axiomes et définitions Théorèmes.
Prochaine évolution de nos modèles bibliographiques : FRBR-LRM Pat Riva Présidente, FRBR Consolidation Editorial Group Séminaire.
Présenté par  Samira BELHORMA  Imane ZEHHAF. Introduction I. Définitions II. Quand et comment évaluer une compétence? III. Le contexte d’évaluation.
Avancées et des premiers résultats obtenus pour le suivi PC BENIN ATELIER REGIONAL DE VALIDATION ET CLOTURE DU PROGRAMME : ETAT DES PECHERIES ARTISANALES.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
MEN-DGESCO Bureau des usages et des services numériques/ENT Espaces Numériques de Travail – Panorama 30 novembre 2010 Réunion des IANTE EPS.
Universit é Mohamed Kheider de Biskra Facult é de science et technologie D é partement de g é nie é lectrique Sp é cialit é : t é l é communication Le.
Dr. Guetarni. N 16/05/2012 Faculté de médecine d’Oran Département de chirurgie dentaire Enseignement gradué 1année de médecine dentaire Année universitaire.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Un projet pour tous, un engagement pour chacun Cette épreuve de « compte est bon » permet à tous les élèves, quel que soit leur compétence, de participer.
Baromètre 2011 “Quel regard portent les voyageurs sur leurs déplacements professionnels”
M. Fieschi Master EISIS Marseille 2005 Présentation Générale Systèmes d’informations et décisions en santé Marius Fieschi Université de la Méditerranée.
Technologies d’intelligence d’affaires
Daniel Leduc Lise Pouliot Sylvain Bourdeau
Transcription de la présentation:

Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Marius Fieschi Faculté de Médecine de Marseille

Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Ce cours est très proche du cours diffusé sur le net par Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada Qu’ils en soient remerciés

Février 2006 M. Fieschi Data mining Master EISIS Rappel: qu’est-ce que le Data Warehouse? Une base de données d’aide à la décision qui est entretenue de manière séparée de la base de données opérationnelle de l’organisation Aide au traitement de l’information en fournissant une plateforme de données historiques consolidées pour l’analyse. Data warehousing: Le processus de construction et d’utilisation du data warehouse

Février 2006 M. Fieschi Data mining Master EISIS L’approche “Subject-Oriented” de l’entrepôt Organisé autour des sujets majeurs, tels que personne, client,… Sujet = Faits + Dimensions Centré sur la modélisation et l’analyse de données pour les décideurs, non pour des opérations quotidiennes Fournit une vue simple, concise sur des sujets particuliers en excluant des données inutiles dans le processus d’aide à la décision Construit par intégration de sources de données multiples et hétérogènes

Février 2006 M. Fieschi Data mining Master EISIS Le schéma en étoile Une table de faits encadrées par N tables de dimensions Exemple IDper année trimestre mois jour Périodes IDmag nom ville département pays Magasins Table de faits “ventes” produit magasin unités_vendues montant_ventes taxes_ventes IDprod description couleur taille fournisseur Produits période

Février 2006 M. Fieschi Data mining Master EISIS Entrepôt de données La consolidation des données Application de techniques de « data cleaning » et de «data intégration » La cohérence des données doit être assurée Nommer les règles de codage, les mesures, les attributs,… pour les différentes sources de données La conversion des données intégrées au data warehouse L’importance du « temps » pour le data warehouse Toutes les structures « clés » dans le data warehouse contiennent un élément de temps, explicitement ou implicitement

Février 2006 M. Fieschi Data mining Master EISIS Entrepôt de données La mise à jour de données opérationnelles n’est pas réalisée dans l’entrepôt Ne demande pas de transactionnel et mécanismes de contrôle d’accès concurrentiels Demande uniquement deux opérations en accès aux données: Chargement initial de données et accès aux données. Intégration traditionnelle de bases de données (bdd) hétérogènes: Construction de wrappers/médiateurs au dessus des bdd hétérogènes

Février 2006 M. Fieschi Data mining Master EISIS Pourquoi séparer le Data Warehouse? Haute performance pour les deux systèmes DBMS: performance pour OLTP méthodes d’accès, index, accès concurrentiels, restauration Warehouse: performance pour OLAP requêtes complexes, vue multidimensionnelle, consolidation Différente fonctions et différentes données Données manquantes: Aide à la décision (AAD) demande des données historiques. Les Bdd opérationnelles ne les gèrent pas toujours Consolidation de données: l’AAD demande la consolidation (agrégation, résumé) de données issues de sources hétérogènes Qualité des données: habituellement différentes sources utilisent des représentations de données non cohérentes, des codes et des formats à «réconcilier»

Février 2006 M. Fieschi Data mining Master EISIS Les cubes de données Un data warehouse est basé sur un modèle de données multidimensionnel qui « voit » les données sous forme de «data cube » Un « data cube », comme par exemple les ventes, permet de modéliser et de voir les données relatives aux ventes en de multiples dimensions

Février 2006 M. Fieschi Data mining Master EISIS Cube: Un treillis de structures cuboïdes Tous tempsitemlieuagent temps,item temps,lieu temps,agent item,lieu item,agent lieu,agent temps,item,lieu temps,item,agent temps,lieu,agent item,lieu,agent temps, item, lieu, agent 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid

Février 2006 M. Fieschi Data mining Master EISIS Les primitives du langage de requêtes du Data Mining (DMQL) Cube Definition (Fact Table) define cube [ ]: Dimension Definition ( Dimension Table ) define dimension as ( ) Special Case (Shared Dimension Tables) First time as “cube definition” define dimension as in cube

Février 2006 M. Fieschi Data mining Master EISIS Catégories de mesures Distributive:  Si le résultat obtenu est identique que l’on applique la fonction à n valeurs agrégées que l’on applique la fonction sur toutes les données (sans partitionnement). Ex: count(), somme(), min(), max(). Algébrique:  Si le résultat peut être calculé par une fonction algébrique à M arguments, chacun pouvant être obtenu en appliquant une fonction distributive. Ex: moyenne(), standard_déviation().

Février 2006 M. Fieschi Data mining Master EISIS Une hiérarchie de concepts: Dimension (lieu) Tous Timone Nord obstétrique cardiologie neurochirurgie hospitalisation... Tous hôpital service H d J consultation UF

Février 2006 M. Fieschi Data mining Master EISIS Données multidimensionnelles Volume des factures, une fonction de l’activité, mois, et de l’hôpital Dimensions: Activité, Lieu, Temps Synthèses hiérarchiques MCO Hôpital Année Chir. Service Trimestre Actes UF Mois Semaine Jour Activité Hôpital Mois

Février 2006 M. Fieschi Data mining Master EISIS Un exemple de cube de données Total annuel activité de chir. à Timone Date Activité Etablissement somme Chir. Obst. Méd. 1trim 2trim 3trim 4trim Timone Conception Nord somme

Février 2006 M. Fieschi Data mining Master EISIS Quelques opérations OLAP Roll up (drill-up): synthèse de données En remontant la hiérarchie ou en réduisant la dimension Drill down (roll down): reverse of roll-up Du niveau le plus haut au niveau inférieur, vers des données plus détaillées ou en introduisant de nouvelles dimensions Slice and dice: Projection et sélection Pivot (rotate): Réorientation du cube, visualisation, 3D à des séries de plans 2D.

Février 2006 M. Fieschi Data mining Master EISIS Design d’un Data Warehouse: Un plan d’analyse Quatre vues pour le design d’un data warehouse (DW) Vue top-down Permet la sélection des informations pertinentes nécessaires au data warehouse Vue source de données Donne les informations qui peuvent être saisies, stockées, et gérées par les systèmes opérationnels Vue data warehouse Il s’agit de tables de faits et de tables de dimensions Vue « requête métier » Voir les données du DW dans la perspective de l’utilisateur final

Février 2006 M. Fieschi Data mining Master EISIS Processus de conception d’un Data Warehouse Approches Top-down, bottom-up ou une combinaison des deux Top-down: Démarre avec une vue d’ensemble (maturité) Bottom-up: Démarre par des expérimentations et des prototypes (rapide) D’un point de vue génie logiciel La « chute d’eau »: analyse structurée et systématique à chaque pas avant de passer au suivant La spirale: prototypage rapide, amélioration des fonctions, aller/retour rapide Processus de conception Choisir un processus métier à modéliser, ex: facturation, etc. Choisir le grain (niveau de donnée atomique) du processus métier Choisir les dimensions qui seront appliquées à chaque fait dans la table Choisir la mesure pour chaque fait enregistré

Février 2006 M. Fieschi Data mining Master EISIS ArchitectureArchitecture Data Warehouse Extraction Transform. Chargement Rafraich. Moteur OLAP Analyse Requêtes Rapports Data mining Integrateur Metadonnées Données sources Outil interface Service Data Marts Bdd opérationnelles autres sources Stock. de données Serveur OLAP

Février 2006 M. Fieschi Data mining Master EISIS Trois modèles de Data Warehouse Warehouse d’entreprise Collecte toutes les informations sur tous les sujets pour l’entreprise Data Mart Un sous ensemble de données intéressant un groupe d’utilisateurs particulier. Son objectif est confiné à des groupes sélectionnés spécifiques Warehouse virtuel Un ensemble de vues sur des bases de données opérationnelles Seules certaines vues sont possibles

Février 2006 M. Fieschi Data mining Master EISIS Développement d’un Data Warehouse Définir un modèle de données de l’entreprise de haut niveau Data Mart Data Marts distribués Data Warehouse Raffinement du modèle

Février 2006 M. Fieschi Data mining Master EISIS Base de métadonnées Les meta données définissent les objets du warehouse. Il s’agit: De la description de la structure du warehouse Schéma, vue, dimensions, hiérarchies, définition des données “dérivées”, contenu du data mart Meta-data opérationnelles Histoire des données migrées et des transformations, statut des données (actives, archivées), rapports d’erreurs,… Les algorithmes utilisés pour résumer les données Le mapping des bases opérationnelles au data warehouse Données “métier” Termes et définitions du métier, propriété des données, …

Février 2006 M. Fieschi Data mining Master EISIS Outils pour le Warehouse Extraction des données: Prendre des données dans des sources externes multiples et hétérogènes Data cleaning: Détection des erreurs et rectification quand c’est possible Transformation des données: Convertir les données au format warehouse Trier, résumer, consolider, calculer les vues, vérifier l’intégrité, réaliser les indices et les partitions Rafraîchissement des données Propager les mises à jour depuis les sources de données vers le warehouse