La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

DATA WAREHOUSES Cours pour les Master I. Bibliographie Le Data Warehouse; Ladjel BELLATRECHE; LISI/ENSMA – Poitiers. Entrepôt de Données, Jean-François.

Présentations similaires


Présentation au sujet: "DATA WAREHOUSES Cours pour les Master I. Bibliographie Le Data Warehouse; Ladjel BELLATRECHE; LISI/ENSMA – Poitiers. Entrepôt de Données, Jean-François."— Transcription de la présentation:

1 DATA WAREHOUSES Cours pour les Master I

2 Bibliographie Le Data Warehouse; Ladjel BELLATRECHE; LISI/ENSMA – Poitiers. Entrepôt de Données, Jean-François Desnos, Université de Grenoble. Les entrepôts de données, Lydie Soler, Université Claude Bernard Lyon 1 Systèmes dinformation décisionnels (Data Warehouse / Data Mining), D. DONSEZ, Université Joseph Fourier; E. GRISLIN-LE STRUGEON, Université de Valenciennes 2

3 Motivation 3

4 Introduction (1) Pourquoi un entrepôt de données? Pourquoi un entrepôt de données? Améliorer les performances décisionnelles de lentreprise Comment? Comment? En répondant aux demandes danalyse des décideurs Exemples Exemples Clientèle: Qui sont mes clients? Pourquoi sont-ils mes clients? Comment les conserver ou les faire revenir (préférence dachat, habitudes, …)? Ces clients sont-ils vraiment intéressants pour moi? Marketing, actions commerciales : où placer ce produit dans les rayons? Comment cibler plus précisément le mailing concernant ce produit? …. 4

5 Introduction (2) Raisons dêtre dun entrepôt de données Raisons dêtre dun entrepôt de données Rassembler les données de lentreprise dans un même lieu sans surcharger les BD (systèmes opérationnels) Permettre un accès universel à diverses sources de données et assurer la qualité des données Permettre un accès universel à diverses sources de données et assurer la qualité des données Extraire, filtrer, et intégrer les informations pertinentes, à lavance, pour des requêtes ultérieures Extraire, filtrer, et intégrer les informations pertinentes, à lavance, pour des requêtes ultérieures Dégager des connaissances et faire un apprentissage sur lentreprise, le marché et lenvironnement Dégager des connaissances et faire un apprentissage sur lentreprise, le marché et lenvironnement 5

6 Cest quoi un entrepôt de données? Industrie (Inmon 1992) Industrie (Inmon 1992) Collection de données orientées sujets Consolidées dans une base de données unique Non volatiles et historisées variante dans le temps organisées pour le support d'un processus d'aide à la décision Recherche (Stanford 1995) Recherche (Stanford 1995) Dispositif de stockage dinformations intégrées de sources distribuées, autonomes, hétérogènes 6

7 Donnés orientées sujets (1) Données sont organisées par thème (sujets majeurs, métiers), vs vs systèmes de production : processus fonctionnels. Ce qui permet une analyses structurelles, fonctionnelles et organisationnelles de l'entreprise. 7

8 Données orientées sujets (2) 8

9 Les données sont intégrées Elles proviennent de systèmes sources hétérogènes Cohérence, normalisation, maîtrise de la sémantique, prise en compte des contraintes référentielles et des règles de gestion 9

10 Les données sont historisées et non volatiles Historisation suivre dans le temps l'évolution des différentes valeurs des indicateurs. Historisation : suivre dans le temps l'évolution des différentes valeurs des indicateurs. couches de données Non volatiles Non volatiles : traçabilité non suppression 10

11 Intérêts de lentrepôt de données Vision transversale de lentreprise Vision transversale de lentreprise Intégration des différents bases ( orienté sujets ) Intégration des différents bases ( orienté sujets ) Données non volatiles (pas de suppression) Données non volatiles (pas de suppression) Historisation Historisation Organisation vers prise de décision Organisation vers prise de décision 11

12 Architecture dun entrepôt de données (1) 12 Approche virtuelle (ou le non-entrepôt) Approche virtuelle (ou le non-entrepôt) Inconvénients Pas de réelle intégration des données Pas de réelle intégration des données Différentes vues non-réconciliées Différentes vues non-réconciliées Pas de vues dans le temps Pas de vues dans le temps Les requêtes peuvent facilement bloquer les transactions en cours Les requêtes peuvent facilement bloquer les transactions en cours Outils danalyse …

13 Architecture dun entrepôt de données (2) 13 Extraire Transformer Nettoyer Intégrer Rafraichir Entrepôt de données Data Marts Serveur OLAP* Phase IntégrationPhase Traitement & Analyse Relationnelles Objet Réseaux * On-Line Analytical Processing

14 Alimentation (ETL) dun entrepôt de données Extraction Extraction Transformation Transformation filtrer filtrer trier trier homogénéiser homogénéiser nettoyer nettoyer … Chargement(Loading) Chargement(Loading) 14 Extraire Transformer Nettoyer Intégrer Rafraichir Entrepôt de données

15 DATAMART Sous-ensemble dun entrepôt de données Sous-ensemble dun entrepôt de données Destiné à répondre aux besoins dun secteur ou dune fonction particulière de lentreprise Destiné à répondre aux besoins dun secteur ou dune fonction particulière de lentreprise Point de vue spécifique selon des critères métiers Point de vue spécifique selon des critères métiers 15 ED Datamarts du service Marketing Datamart du service Ressources Humaines DW de lentreprise

16 Intérêts des DATAMART Nouvel environnement structuré et formaté en fonction des besoins dun métier ou dun usage particulier Nouvel environnement structuré et formaté en fonction des besoins dun métier ou dun usage particulier Moins de données que DW Moins de données que DW Plus facile à comprendre, à manipuler Plus facile à comprendre, à manipuler Amélioration des temps de réponse Amélioration des temps de réponse Utilisateurs plus ciblés: DM plus facile à définir Utilisateurs plus ciblés: DM plus facile à définir 16

17 Exploitation de lentrepôt Business Intelligence Business Intelligence Possibilité de visualiser et dexploiter une masse importante de données complexes Possibilité de visualiser et dexploiter une masse importante de données complexes Trois principaux outils Trois principaux outils OLAP : O n- L ine A nalytical P rocessing OLAP : O n- L ine A nalytical P rocessing Data mining: fouille de données Data mining: fouille de données Formulation de requêtes et visualisation des résultats Formulation de requêtes et visualisation des résultats 17

18 Domaines dapplications Banque, Assurance Banque, Assurance Détermination des profils client (prêt, …) Détermination des profils client (prêt, …) Commerce Commerce Ciblage de clientèle Ciblage de clientèle Compagnies de grande production Compagnies de grande production Aménagement des rayons (2 produits en corrélation) Aménagement des rayons (2 produits en corrélation) Compagnies téléphoniques Compagnies téléphoniques Santé Santé 18

19 Base de données vs. Entrepôt de données Pourquoi dissocier une BD dun ED? Pourquoi dissocier une BD dun ED? Les objectifs de performances dans les BD ne sont pas les mêmes que ceux dans les Eds BD : requêtes simples, méthodes daccès et dindexation BD : requêtes simples, méthodes daccès et dindexation ED : requêtes OLAP souvent complexes !!! ED : requêtes OLAP souvent complexes !!! La nécessité de combiner des données provenant de diverses sources, deffectuer des agrégations dans un ED et doffrir des vues multidimensionnelles Les données dun ED sont souvent non volatiles et ont donc une plus longue durée de vie que celles dune BD 19

20 Modélisation classique - OLTP Le modèle relationnel Le modèle relationnel Table, attributs, tuples, vues, … Normalisation ( redondance ) Requêtes simples ( sélection, projection, jointure, …) Analyse difficile de lactivité Le critère temps Le critère temps Représentation du passé Représentation du passé Un fardeau pour les systèmes OLTP Un fardeau pour les systèmes OLTP 20

21 Exemple Table historique Table historique Compte(NC, DateOp, Solde) Questions (ou Requêtes) Questions (ou Requêtes) 525 Quel est le solde courant du client 525 ? % critère temps SELECT Solde FROM Compte WHERE NC = 525 AND DateOp = ( SELECT MAX (DateOp) FROM Compte WHERE NC = 525) Quels sont les soldes courants de mes clients? Quels sont les soldes courants de mes clients? 21

22 Requêtes décisionnelles plus complexes !! Exemples Exemples Combien de clients âgés entre 20 et 30 ans et résidant à Alger ont-ils acheté une caméra vidéo au cours des 5 dernières années ? Quelle est la répartition des ventes par produit, ville et par mois au cours de la présente année ? Quelles sont les composantes des machines de production ayant eu le plus grand nombre dincidents imprévisibles au cours de la période ? 22 Critère temps est la base de lanalyse décisionnelle

23 Récapitulatif 23 CaractéristiquesBases de donnéesEntrepôts de données OpérationGestion couranteSupport à la décision ModèleSurtout entité-relationÉtoile, flocon de neige NormalisationPlus fréquenteRare DonnéesActuelles, brutesHistoriques, agrégées Mise à jourImmédiatePlutôt différée ConsolidationTrès faibleTrès élevée PerceptionBidimensionnelleMultidimensionnelle OpérationsLecture et écritureLecture et rafraîchissement TailleDes giga-octetsPlutôt des téra-octets

24 OLAP (On-Line Analytical Processing) Exemples Exemples Traitement analytique interactif ( Codd ) typique dans les systèmes informationnels Catégorie de traitements dédiés à laide à la décision Analyses diverses (multidimensionnelles) surtout dérivée et sommaire Information : surtout dérivée et sommaire Aide à la prise de décision 24

25 Modélisation Multidimensionnelle Dimension Dimension Présente le point de vue selon lequel on veut voir les données décrites par un ensemble dattributs Présente le point de vue selon lequel on veut voir les données décrites par un ensemble dattributs Axe de lanalyse. Exemple: Commandes, achats, réclamations, produits, clients,... Exemple: Commandes, achats, réclamations, produits, clients,... Mesures / faits Mesures / faits Fonction numérique qui peut être évaluée en tout point du data cube en agrégeant les données correspondant à ce point Fonction numérique qui peut être évaluée en tout point du data cube en agrégeant les données correspondant à ce point mesure dactivité (critère danalyse) 25

26 Exemples des Faits Chiffre daffaire, nombre de ventes, gain, … Chiffre daffaire, nombre de ventes, gain, … le fait de vente le fait de vente Chaque enregistrement de fait représente le total des ventes dun produit dans un magasin dans une journée 26

27 représentation des données sous forme multidimensionnelle (1) DW-OLAP DW-OLAP représentation des données sous forme multidimensionnelle : « Cube » [ Hyper-Cube ] représentation des données sous forme multidimensionnelle : « Cube » [ Hyper-Cube ] 27

28 représentation des données sous forme multidimensionnelle (2) 28

29 Table des faits (1) Table principale du modèle dimensionnel ) Contient les données observables (les faits) sur le sujet étudié selon divers axes danalyse (les dimensions) 29 Table de faits des ventes Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes Clés étrangères vers les dimensions Faits

30 Table des faits (2) Faits: Ce que lon souhaite mesurer Ce que lon souhaite mesurer Quantités vendues, montant des ventes… Quantités vendues, montant des ventes… Contient les clés étrangères des axes danalyse (dimension) Contient les clés étrangères des axes danalyse (dimension) Date, produit, magasin Date, produit, magasin Trois types de faits: Trois types de faits: Additif Additif Semi additif Semi additif Non additif Non additif 30

31 Table des faits (3) - Typologie des faits Additif: additionnable suivant toutes les dimensions Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre daffaire Peut être le résultat dun calcul: Bénéfice = montant vente - coût Semi additif: additionnable suivant certaines dimensions Semi additif: additionnable suivant certaines dimensions Solde dun compte bancaire: Pas de sens dadditionner sur les dates car cela représente des instantanés dun niveau Σ sur les comptes: on connaît ce que nous possédons en banque Non additif: fait non additionnable quelque soit la dimension Non additif: fait non additionnable quelque soit la dimension Prix unitaire Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dépourvu de sens 31

32 Table des faits (4) - Granularité de la table des faits Répondre à la question : Répondre à la question : Que représente un enregistrement de la table de faits? La granularité définit le niveau de détails de la table de faits: La granularité définit le niveau de détails de la table de faits: Exemple: une ligne de commande par produit, par client et par jour 32 Précision des analyses Taille de lentrepôt - + Finesse

33 Table de dimension (1) Axe danalyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits 33 Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits (Marque) Emballage Poids Attributs de la dimension Clé de substitution

34 Table de dimension (2) Dimension = axe danalyse Client, produit, période de temps… Contient souvent un grand nombre de colonnes Lensemble des informations descriptives des faits Contient en général beaucoup moins denregistrements quune table de faits 34

35 La dimension Temps Commune à lensemble des DW Reliée à toute table de faits 35 Dimension Temps Clé temps (CP) Jour Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année Attributs de la dimension Clé de substitution

36 Granularité dune dimension Une dimension contient des membres organisés en hiérarchie : Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Granularité dune dimension nombre de niveaux hiérarchiques Temps : Temps : année – semestre – trimestre - mois 36

37 Hyper cube OLAP (1) Objectifs Obtenir des informations déjà agrégées selon les besoins des utilisateurs. Obtenir des informations déjà agrégées selon les besoins des utilisateurs. Représentation de linformation dans un hyper cube à Représentation de linformation dans un hyper cube à N dimensions. Opérations OLAP Fonctionnalités qui servent à faciliter lanalyse multidimensionnelles: Fonctionnalités qui servent à faciliter lanalyse multidimensionnelles: « opérations réalisables sur lhyper cube » 37

38 Hyper cube OLAP (2) - Exemple 38 Pays France Espagne Allemagne pommes poires oranges janvier février avril Temps Produits Vente de pommes en Allemagne en avril

39 Comment stocker le cube de données ? ROLAP: Relational On-Line Analytical Processing The data cube is stored as relational table(s): a fact table with dimension tables. The data cube is stored as relational table(s): a fact table with dimension tables. MOLAP: Multidimensional On-Line Analytical Processing The data cube is stored as multi-dimensional array(s). The data cube is stored as multi-dimensional array(s). HOLAP: Hybrid On-Line Analytical Processing Is a combination of ROLAP and MOLAP 39

40 Modèle ROLAP ROLAP: Relational On-Line Analytical Processing Exploiter lexpérience des modèles relationnels (un grand succès!!) Il faut des modèles bien adaptés aux ED! Schéma en étoile (star schema) Schéma en étoile (star schema) Schéma en flocon de neige (snowflake schema) Schéma en flocon de neige (snowflake schema) 40

41 Modèle en étoile Autant de tables de dimension quil existe de dimensions. Exemple Temps, Produit, Client… Temps, Produit, Client… Une table de faits contenant la clé de chaque dimension et des mesures Exemple montant en dollars, nombre dunités vendues montant en dollars, nombre dunités vendues 41

42 Schéma en étoile 42 TEMPS Code temps Date Année Mois Jour CLIENT Code client Sexe Etat Ville Age PRODUIT Code produit Nom produit Prix unitaire Taille Poids gamme Type_paquet VENTES Code temps Code produit Code client Quantité vendue Coût_dollars Coût_unitaire Table de dimensions Table des faits n-uplets n-uplets n-uplets 1094 n-uplets

43 Une Requête type SELECT P.brand, sum(dollars_sold), sum(units_sold) FROM SALES S, PRODUCT P, TIME T WHERE S.PID = P.PID (Jointure) AND S.TID = T.TID (Jointure) AND T.Quarter = 1 Q 97 (Sélection) GROUP BY P.brand ORDER BY P.brand 43 Schéma en étoile Requêtes de jointure en étoile Plusieurs jointures Suivies par des sélections

44 Avantages & Inconvénients Avantages Simple Le plus utilisé !!! Le plus utilisé !!! Inconvénients Possibilité de redondance car les tables de dimension ne sont pas nécessairement normalisées. Possibilité de redondance car les tables de dimension ne sont pas nécessairement normalisées. Taille de dimensions plus grosse Taille de dimensions plus grosse 44

45 Modèle en flocon de neige Variante du modèle en étoile. Les tables de dimensions sont normalisées Réduction de la redondance mais exécution parfois plus lente des requêtes (jointure de tables). Modèle adopté par Oracle!! Modèle mixte Seules certaines tables sont normalisées 45

46 Exemple dun modèle en flocon de neige 46

47 Modèle MOLAP MOLAP: Multidimensional On-Line Analytical Processing Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes). Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes). aux données dans le cube. Accès direct aux données dans le cube. Plus difficile à mettre en place Formats souvent propriétaires Conçu exclusivement pour lanalyse multidimensionnelle. Exemples de moteurs MOLAP: Microsoft Analysis Services Microsoft Analysis Services Hyperion Hyperion 47

48 Manipulation des données multidimensionnelles - [1] Opération agissant sur la structure Rotation ( rotate ): présenter une autre face du cube Rotation ( rotate ): présenter une autre face du cube Œuf Viande Idf Ain

49 Manipulation des données multidimensionnelles - [2] Opération agissant sur la structure Tranchage ( slicing ): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeur Tranchage ( slicing ): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeur ŒufIdf Ain ViandeIdf Ain ŒufIdf265 Ain245 ViandeIdf152 Ain174

50 Manipulation des données multidimensionnelles - [3] Opération agissant sur la structure Extraction dun bloc de données ( dicing ): ne travailler que sous un sous-cube Extraction dun bloc de données ( dicing ): ne travailler que sous un sous-cube ŒufIdf Ain ViandeIdf Ain ŒufIdf Ain

51 Manipulation des données multidimensionnelles - [4] Opérations agissantes sur la granularité Forage vers le haut ( roll-up ): « dézoomer » Obtenir un niveau de granularité supérieur Obtenir un niveau de granularité supérieur Utilisation de fonctions dagrégation Utilisation de fonctions dagrégation Forage vers le bas ( drill-down ): « zoomer » Obtenir un niveau de granularité inférieur Obtenir un niveau de granularité inférieur Données plus détaillées Données plus détaillées 51

52 Manipulation des données multidimensionnelles - [4] Fruits623 Viande648 1S052S051S062S061S07 Fruits Viande Fruits Viande Pomme ………… Boeuf Alim Roll up Drill down Dimension Produit Dimension Temps Drill down Roll up Roll-up, Drill-down

53 Quelques solutions commerciales 53

54 Quelques solutions open source 54 ETLEntrepôt de données OLAPReportingData Mining Octopus Kettle CloverETL Talend MySql Postgresql Postgresql Greenplum/Biz gres Mondrian Palo Birt Open Report Jasper Report JFreeReport Weka R-Project Orange Xelopes Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI


Télécharger ppt "DATA WAREHOUSES Cours pour les Master I. Bibliographie Le Data Warehouse; Ladjel BELLATRECHE; LISI/ENSMA – Poitiers. Entrepôt de Données, Jean-François."

Présentations similaires


Annonces Google