Chapitre 1 : Le Système d’information décisionnel : SID.

Chapitre 1 : Le Système d’information décisionnel : SID

Enjeux des entreprises
Objectifs stratégiques Améliorer les performances décisionnelles de l’entreprise. Identifier les tendances du marché. Connaître le passé pour anticiper sur le futur. Simuler des situations. Augmenter le rendement des actions commerciales. Augmenter les services fournis. Fidéliser sa clientèle. Transformer les données du si en informations cohérentes et de qualités. Meilleure connaissance de son activité. Disposer d’un pilotage fiable. Réaliser des analyses. Présenter des statistiques. Forer les informations.

Comment ? En répondant aux demandes d’analyse des décideurs. Réponses correctes et rapides Exemple : Clientèle : Qui sont mes clients ? Comment les conserver , les fidéliser ou les faire revenir ? Qui sont mes meilleurs clients depuis 5 ans. Marketing : comment améliorer le ciblage de mes actions commerciales ? Ou placer ce produit dans les rayons. Simuler les risques

Défi : Transformer leur système d’information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure: Évoluer d’un SI production à un SI production + un SI décisionnel. ( Si = système d’information ).

Problématique Une grande masse de donnée : Pour une utilisation par :
Éparpillées Volatiles Incohérentes Pas ou peu de données externes. Pour une utilisation par : Décideur Pilotage par agrégats , investigations, analyses transversales Gestionnaire Préparation de décision, simulation… Opérationnel Accès à l’information élémentaires, requêtes adhoc = utilisation par des NON INFORMATICIENS

Problématique Utilisation par des NON INFORMATICIENS :
Informations fiables et documentées. Accès à l’information via des outils conviviaux et intuitifs. Des temps de réponses acceptables.

Métiers du décisionnel
SPM : Strategic performance management. Déterminer et controler les indicateurs clé de la performance de l’entreprise. FI : Finance intelligence. Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques. CRM : Customer relationship management. Améliorer la connaissance client. Identifier et prévoir la rentabilité client. Accroître l’efficacité du marketing client. SRM : Supplier relationship management. Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

la solution : Le sid L’ information courante et passée devient vitale pour l’ entreprise. Toutes les données utiles , qu’ elles proviennent du système de production de l’entreprise ou qu’elles soient achetées vont devoir être : Organisées dans un ensemble cohérent. Intégrées. Stockées.  Pour constituer la mémoire de l’entreprise. Modèle d’intégration  Pour donner à l’utilisateur une vue intégrée et orientée métier de ces informations.

la solution : le data warehouse
Le système d’information décisionnel : est un système d’information dédié aux applications décisionnelles : En aval des bases de production ( des bases opérationnelles ) En amont des prises de décision  sid = data warehouse

chapitre 2 : Définitions et objectifs du data warehouse.

L’entrepot de données : data warehouse
Définition de Bill Inmon (1996) : Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. Définition utilisateur : Un ensemble de données organisées spécifiquement et utilisées pour l’aide à la décision. Une transformation et une représentation intelligente des données en informations. Un pole d’informations détaillées, fiables,historisées et facilement accessible et compréhensible.

L’entrepot de données : data warehouse
Des données aux informations : Exemple : Le profil client à partir des données : - Emprunts - Épargne - Carte de crédit

Les notions fondamentales :
Les données du data warehouse sont : Orientées sujet. Intégrées. Non volatiles. Agrégées en fonction du temps. Documentées.  Mémoire de l’entreprise

orientées sujets Disposer de l’ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise. Le data warehouse est organisé autour des sujets majeurs de l’entreprise. Client ; contrat ; contrôle de gestion ; salariés ..ect Structuration par thème. A noter : les données des différents sujets seront intégrées dans un modèle de données unique.

Données intégrées Divers sources de données.
A noter : possibilité de source externe. Il faut les collecter. Elles ne sont pas structurées à l’identique. Il faut les filtrer, les transformer,les contrôler,les synchroniser. Chaque donnée doit avoir : une seule définition. Un seul codage. Pas de redondance dans le modèle de donnée : un attribut unique  Afin de garantir : Qualité de la donnée. Cohérence des résultats.

Données non volatiles il faudra choisir les données à historiser.
Ne pas supprimer les données du DW. Les données sont datées. Pas d’annule et remplace. Historique : On conserve les données détaillées avec un historique de plusieurs années Objectif : analyser les tendances. La nouvelle valeur d’une donnée fait passer l’ancienne en historique Objectif : analyser à périmètre fonctionnel stable. il faudra choisir les données à historiser.

données agrégées en fonction du temps
Les données sont historisées pour suivre leurs évolutions. Les données récentes : sont disponibles en ligne. Sont détaillées au niveau le plus fin. Concernent des utilisateurs experts et peu nombreux. Les données anciennes : Ne sont plus disponibles en ligne au niveau détail le plus fin, mais néanmoins archivées. Sont disponibles en lignes consolidées, agrégées. Concernent la plupart des utilisateurs.

données documentées : les metadonnées
Les métadonnées ou dictionnaire des données : Description technique des processus. Collecte : source et transformation des données. Description technique des données. Description utilisateurs des données. Sémantique des données. Règle de gestion. Localisation. Les métadonnées sont mises à disposition dans un ou des référentiels.

données documentées : les metadonnées
Pour chaque colonne de chaque table : L’origine ( en production ). L’évolution : processus de transformation. L’historique : date des changements. La signification. Ce référentiel sert : Aux processus d’alimentation. Aux utilisateurs.

Sio / sid : des objectifs différents
SIOpérationnel SIDécisionnel Activité au quotidien Analyse et aide à la décision Orienté mise à jour Lecture uniquement Requêtes simples Requêtes évoluées Faible volume manipulé (par transaction ) Gros volume manipulé ( par requêtes ) Consommation maîtrisée Consommation aléatoire Temps de réponse en seconde Temps de réponse en minutes ou heures Critique stratégique

Chapitre 3 : Architecture du data warehouse

Systèmes intermédiaires
L’ exploitation informationnelle des données de production est antérieure à l’apparition du sid. Mise a disposition des décideurs, de données assimilées à des informations de pilotage via des systèmes intermédiaires : Tableaux de bord opérationnels à partir du sio. Outils de requêtes sur les données du sio. Outils de requêtes sur des données dédiées et copiées à partir du sio. Outils de requêtes sur des données dédiées, organisées à partir des données du sio  ne sont pas un sid.

Tableaux de bord opérationnels à partir du sio. L’ application de production ne dispose que de ses propres données et n’ offre pas de vision informationnelle adaptée au périmètre du domaine d’analyse. Toute nouvelle requête informationnelle : Maintenance difficile, voir sur la structure des données. Délai d’attente prohibitifs.

outils de requêtes sur les données du sio. Données hétérogènes et incohérentes. Données non préparées à l’analyse décisionnelle. Dépendance aux contraintes de la production. Temps de réponse élevés.  correspond à un outil de présentation adossé aux données de production.

Outils de requêtes sur des données dédiées et copiées à partir du sio. Avantage: Données séparées entre les bases de production et les bases d’analyse. Inconvénients : Données hétérogènes et incohérentes. Données non intégrées , non unifiées, non documentées Difficulté d’écriture des requêtes.  correspond à une organisation de type infocentre.

Outils de requêtes sur des données dédiées et partiellement organisées. Avantages: Données séparées entre les bases de production et les bases d’analyse. Bribes de modèle de données unifiées et organisées pour une analyse métier. Inconvénients : Pas de modèle de donnée complet. Pas ou peu de transformation des données. Pas ou peu de documentation. Difficulté d’écriture des requêtes.  correspond à une organisation de type infocentre évolué.

architecture de référence du sid
Nécessite deux dispositifs distincts : Entrepôt ou data warehouse : Stockage des informations en un point unique. Magasin de données ou Datamart : Stockage des données nécessaires à l’analyse d’un thème (sujet ). Un entrepôt unique. N Datamart suivant les thèmes à analyser.

Données de production sci Entrepôt de données sdp datamart datamart …… datamart Outils de présentation Utilisateurs finaux

Deux dispositifs distincts : 1. Le système de collecte et d’intégration : La Fonction de collecte assure l’ approvisionnement des données du sid à partir des données de production. La Fonction d’intégration des données assure la cohérence globale et le stockage en un point unique.  stocke les données dans l’entrepôt de données.

Deux dispositifs distincts : 2. Le système de diffusion et de présentation : La Fonction de diffusion met à disposition des applications décisionnelles les données sous une forme dimensionnelle.  stocke les données orientées sujet dans un magasin de données. La Fonction de présentation gère l’accès de l’utilisateur final aux données stockées sous forme dimensionnelle.  puise les données dans les magasins de données ( datamart ). Fonction assurée par les outils de présentation.

l’entrepôt de données Mémoire de l’entreprise.
Stockage des données en un point unique. Données unifiées et documentées. Modèle conceptuel de données classique : Type entité/association. Normalisé en 3éme forme normale.

l’entrepôt de données Partie la plus complexe et difficile du sid.
En autres : Capture des données sans impacter le sio. Mode d’alimentation globale. Mode d’alimentation incrémentale. Modèle conceptuel évolutif. (gestion du temps) Volumétrie très importantes. Charge de recette importantes. Contrôle qualité des données avant chargement. Temps de chargement. Documentation Procédure de reprise des données ….

datamart Base de données thématique :
Stocke les données nécessaires à l’analyse du sujet. Modéliser l’activité que l’on souhaite analyser. Modélisation sous forme multidimensionnelle. Modèle en étoile. Modèle en Flocon. Cube multidimensionnel. Orienté utilisateur finale : Compréhensible par l’utilisateur. Temps de réponse acceptable.

Architecture du sid Dans un sid : Un entrepôt de données unique.
Un ensemble de datamart par sujet à traiter.

Chapitre 4 : Construction du data warehouse

le système de Collecte et d’intégration : le sci
Objectif : alimenter le socle sur lequel repose le sid : Socle = entrepôt de données. L’ entrepôt de données est la base de données unique pour toutes les applications du système de diffusion et de présentation. Le système sci : La partie du sid la plus complexe. Nombre de traitement important et lourd. Prototypage de la solution finale difficile. Ne doit pas perturber le système de production. Architecture propre à chaque entreprise.

le système de Collecte et d’intégration : le sci
Fonctions : Extrait, transforme, unifie et charge les données à partir des sites de production. Génération des niveaux d’agrégation. Génération des règles de correspondance des méta données. Génération des fichiers d’audit. Technologie utilisée : Code manuel. Outils d’ extraction automatique : ETL Etl = extract transformation loading

le système de Collecte et d’intégration : sci
Conception : Pour chaque table de l ’entrepôt : Création de l’identifiant : Les identifiants sont propres à l’entrepôt. Pour chaque donnée de la table : Recherche de la ou les données source dans le sio. Définition des règles de transformation. Définition des règles d’agrégation. Définition de la périodicité de rafraîchissement. Définition des règles et mode de contrôle des données avant intégration dans l’entrepôt de données.

Architecture technique : Choix du mode de capture des données. Localisation des traitements : Machine sio et/ou machine sid Procédure de contrôle des données. Procédure de réfection des données.

Solution de collecte via un ods: Ods : opérationnel data store : Les applications de production « déversent « les données nécessaires au data warehouse dans un ensemble de fichiers normalisés. L’ods sera la source de l’alimentation de l’entrepôt de données.  permet une indépendance entre le monde de la production et le monde du décisionnel.  simplifie la synchronisation des données entre les applications de production.

le système de présentation
Le sdp est un ensemble d’applications destiné à répondre aux demandes d’information des utilisateurs : États prédéfinis. Requêtes paramétrables. Requêtes adhoc ( non connues à l’avance). Manipulation main libre. Simulation. Recherche de connaissance (corrélation des données; data mining) Alertes. Applications verticales.

la modélisation dimensionnelle
Les Datamarts se modélisent sous forme multidimensionnelle : Contient les informations destinées à répondre aux requêtes des utilisateurs. objectifs datamart : Accessibilité des informations : Facile à comprendre, donc facile à utiliser. Informations cohérentes : Une seule réponse possible.(un seul chemin sql) Incomplétude signalée. Temps de réponse acceptable.

la modélisation dimensionnelle
Différentes formes de modélisation. Modèle en étoile. Modèle en flocon. Cube multidimensionnelle : olap

Modèle en étoile Datamart analyse des frais de déplacement des commerciaux par région et véhicule : Dimension employé Dimension véhicule Clé_employé Nom Prénom fonction Clé_véhicule Immatricula Puissance Marque Table de Faits 0,N Clé_employé Clé_région Clé_véhicule Clé_mois Frai_deplac Kilométrage 0,N Dimension région Dimension mois 0,N Clé_région Région pays Clé_mois Mois Trimestre Semestre annéé 0,N

Modèle en étoile Une association unique et des entités.
La Table de fait = Association unique. Contient les faits ( mesure , indicateur ). Une information déterminée par la combinaison de deux ou plusieurs entités. Les Tables entités = les Dimensions. Contiennent les conditions : caractéristique d’ une entité susceptible d’intervenir comme critère de définition d’une requête.

Modèle en étoile Les questions :
Quels ont été les frais de déplacement et le kilométrage des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv en juillet 1996. La liste des noms des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv avec, pour chacun, les frais de déplacement, le kilométrage, et la marque de véhicule pour juillet 1996. La liste des régions avec, pour chacune, les frais de déplacements de l’année en cours. La liste des véhicules ayant parcouru plus de km cette année.

Modèle en étoile hiérarchies: Exemple : Département,région,pays
Représente pour l’utilisateur des chemins de consolidations d’indicateurs. Sont stockées dans les dimensions. Résister à une normalisation sous forme entité association. Modèle en flocon. Une dimension peut comporter plusieurs hiérarchies.

Modèle en étoile le grain :
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension. Le grain d’un datamart est le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions.

Modèle en étoile Propriété d’ additivité des faits : Fait additif.
Additionnable suivant toutes les dimensions. Fait semi-additif. Additionnable seulement suivant certaines dimensions. Fait non additif. Non additionnable quelque soit la dimension.

Modèle en étoile Les règles de base :
Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes. Règle 2 : Tous les faits doit etre définis d’une maniére cohérente pour toutes les combinaisons dimensionnelles. Règle 3 : Tous les faits doivent etre définis pour le grain. Règle 4 : le graphe de chaque dimension doit être acyclique.

Modèle en flocon Datamart analyse des frais de déplacement des commerciaux par région et véhicule : Dimension employé fonction Dimension véhicule marque Clé_fonction Grade sal_min Sal_max Clé_employé Nom Prénom Fonction # Clé_véhicule Immatricula Puissance Marque # Clé_marque Constructeur Pays_contruc …. Table de Faits 0,N 0,N Clé_employé Clé_région Clé_véhicule Clé_mois Frai_deplac Kilométrage Dimension région semestre Année Dimension mois pays trimestre Clé_ mois Mois Trimestre # Clé_ trimestre Lib_trim Semestre # Clé_ semestre Lib_sem Année # Clé_ Année Typ_année Clé_pays Pays Continent Devise Clé_région Région Pays # 0,N 0,N

Modèle en flocon Modèle en flocon = modèle en étoile + normalisation des dimensions Lorsque les tables sont trop volumineuses. Avantages : Réduction du volume Inconvénients : Nombreuses jointures. Performances dégradées. Règles : Préférer le modèle en étoile au modèle en flocon.

les faits Faits dynamiques et faits statiques.
Un fait dynamique représente un flux affectant le système observé. Ex : montant d’un dépôt, d’un retrait Sont généralement additif. Peuvent se produire un nombre quelconque de fois au cours d’une période. Un fait statique est un élément descriptif de l’état du système à un instant donné. Ex : solde d’un compte courant. Sont généralement semi-additif ( excepté sur la dimension temps )

Les faits. Faits dynamiques et faits statiques.
En théorie : un fait statique peut être reconstitué à partir de l’histoire d’un fait dynamique. Ne nécessite pas de stockage. En pratique : le stockage des faits statiques peut apporter une valeur ajoutée : Pas de nécessité de stocker l’ensemble des faits dynamiques. L’utilisateur peut s’intéresser uniquement aux faits statiques.

Les faits. Faits dynamiques et faits statiques.
 coexistence de faits statiques et dynamiques dans le datamart. Implique des comportements différents des faits dans les hiérarchies. Implique présentation des méthodes de consolidation des faits aux utilisateurs. Les méthodes de consolidation des faits doivent faire partie intégrante des méta-données.

Les formes dimensionnelles complexes.
Dérives dimensionnelles : Dérive de contenu. Dérive de périmètre. Les indicateurs qualifiés. Dimension douteuse. Dimension dégénérée. Dimension causale. Dimension temps. Inégalité temporelle. Les grandes dimensions. Les entités hétérogènes. Table de faits sans fait. Les agrégats.

Dérive de contenu Modification des attributs des dimensions :
L’ écoulement du temps : Ajoute de nouveaux faits. Modifie les attributs des dimensions : changement de situation de famille changement de condition de log Ces dérives dimensionnelles doivent être prises en compte dés la conception du modèle dimensionnel.

Dérive de contenu Dimensions à évolution lente :
Dimension presque constante mais dont certains attributs changent de valeurs dans le temps. Solutions : 1 type : Perdre les valeurs anciennes. 2 type : Créer un nouveau enregistrement. 3 type : Créer des champs actuels et historiques à l’intérieur de l’enregistrement d’origine. Ne pas tout mettre dans la table de faits.

Dimension à évolution lente du 2 éme type
Créer un nouveau enregistrement. Nécessite une extension de la clé primaire. Clé étendue = Clé primaire + suffixe de version Clé étendue gérée par l’équipe de l’entrepôt. Deux possibilités : Attributs permanents et mouvants dans la table de dimension. (modèle en étoile ) Création d’une table avec uniquement les attributs changeants. ( modèle en flocon )

Dimension à évolution lente du 2 éme type
Partitionne l’historique : la table de faits assurera la relation à l’enregistrement actuel ou historique de la dimension à évolution lente. Pas de nécessité de gérer des dates d’effet dans la dimension à évolution lente. Ne permet pas le what if sur l’histoire. (ce que l’histoire aurait été si la situation avait été celle-là depuis le début). Tous les changements sont conservés.

Dimension à évolution du 3éme type
Créer des champs actuels et historiques à l’intérieur de l’enregistrement d’origine. Attribut actuel et attribut d’origine + date effet de l’attribut actuel. Pas de partitionnement de l’historique dans la table de fait. Nécessite d’utiliser la date effet pour partitionner l’historique. Les valeurs intermédiaires sont perdues.  Permet de suivre à la fois l’ancienne et la nouvelle valeur.

Dérive de périmètre Les dérives de périmètre sont des changements de dimension liés généralement à des mutations que traversent les entreprises ( fusions, cessions, réorganisations internes). Elles sont parfois assimilables à des dérives de contenu et peuvent être traitées selon cette méthode.

Dérive de périmètre exemple
Changement de périmètre d’une région commerciale : Ajout du département de la Loire atlantique. Les analyses peuvent s’intéresser au périmètre de la région tel qu’il était au début de la période analysée,ou tel qu’il est aujourd’hui. Si ce besoin d’analyse à périmètre variable est vérifié alors nécessité de représenter cette dérive dans le datamart.  Autre Solution possible : la méthode des indicateurs qualifiés

Les indicateurs qualifiés
Plusieurs indicateurs d’un domaine d’analyse peuvent correspondre en réalité à plusieurs façons de représenter un même indicateur fonctionnel. Un même montant peut ainsi être exprimé : hors taxes et taxes incluses. en euros, en dollars. selon plusieurs unité de mesure. Ce sont des faits différemment qualifiés,différemment représentés ou encore exprimés selon des métriques différents. Ne spécifier comme faits que les indicateurs véritablement distincts.

Les indicateurs qualifiés
Implémentation : Le fait qualifié ( fondamental ) est présent une seule fois en tant que fait dans la table des faits. Toutes ses qualifications possibles sont définies par des dimensions supplémentaires d’un type particulier, pouvant se combiner avec les autres dimensions. Ce sont des dimensions qualificatives. Exemple : avoir plusieurs indicateurs correspondants chacun à un certain découpage régional passé ou actuel.

Dimension douteuse Dimension contenant :
De nombreux doublons. Des informations douteuses. Exemple : une dimension client dans laquelle la même personne peut apparaître de nombreuses fois, éventuellement avec des orthographes de nom légèrement différentes, et d’autres attributs. Liée à une qualité médiocre des informations en production. Si dimension douteuse alors étudier la possibilité de nettoyer les données de production. La qualité d’un sid repose sur la qualité des données en production. « Le sid ne doit pas masquer les problèmes de production. »

Dimension dégénérée Une clé de dimension, tel qu’un numéro de facture, un numéro de ticket qui n’a pas d’ attribut, et donc n’a pas de table de dimension. Exemple : un modèle dimensionnel avec une table de fait contenant la clé date et sans table de dimension temps.

Dimension Causale Dimension qui provoque le fait.
Ex : Dans une analyse des ventes liée au suivi des promotions d’un magasin, la dimension promotion est supposée avoir provoquée le fait.

Dimension temps Commune à tout datamart. (sauf exception)
2 choix d’implantation : Type sql date sans dimension temps. Jour,mois,trimestre calculés à partir de la clé date de la table de fait. Dimension temps. Jours fériés, vacances, période fiscale…. Événement ( match de finale de coupe du monde)

Inégalité du temps Forte inégalité du grain temporel invoqué par les utilisateurs. Fréquemment, les utilisateurs analysent : Les données journalières du mois en cours. Les données agrégées sur les mois de l’année en cours. (ou la photo des données à fin de mois) Les données agrégées sur l’année des années précédentes. (ou la photo des données au 31/12). Ces fortes différences temporelles d’analyse seront à traiter dans l’ analyse des agrégats.

Les grandes dimensions
Les minidimensions : Objectifs : Améliorer les temps de réponse. Dans une dimension : Bon nombre de champs ne sont presque jamais la source de contraintes. Souvent, les champs source de contraintes sont parfaitement connus. Exemple : soit une dimension client : les champs fortement utilisés sont les champs démographiques, tels que l’age, le sexe, le nombre d’enfants, le niveau de ressources, le niveau d’éducation et des mesures de comportement en matière d’achat et de crédits.

Les grandes dimensions
Solution : créer des minidimensions En regroupant dans une minidimension des attributs choisis pour ne comporter qu’un nombre limité de combinaison de valeurs. Les attributs type age seront des fourchettes de valeurs. Soit directement liée à la table de fait, soit liée à la table de dimension « mère « . A noter : possible d’ intégrer la clé primaire de la minidimension dans la table mère. Conseil : moins de combinaisons distinctes des attributs choisis.

Les entités hétérogènes
Dans un contexte d’analyse ou les attributs des dimensions et des faits sont hétérogènes Il est recommandé de : Créer une table de faits réduite et une table de dimension réduite permettant aux requêtes de naviguer dans les types disparates. Créer une table de fait particularisée et une table de dimension particularisée pour faire des requêtes en profondeur sur chaque type particulier. Exemple : dans une banque : - table de faits et dimensions réduites de tous les comptes. - table de faits et dimension particularisée des comptes de chèques - table de faits et diemension particularisée des comptes épargne - …ect

Table de faits réduites et particularisées.
Application avec des produits hétérogènes Des attributs et faits commun. De nombreux Attributs et faits valables pour un seul produit. Compte de chèque, compte d’ épargne, compte titre… Police et sinistre automobile, habitation… Objectifs : Permettre une analyse globale. Permettre une analyse détaillée. En veillant : Compréhension du datamart Économie de place.

Table de faits réduites et particularisées.
Solution: Créer un datamart générique avec : Table de fait réduite Table de dimension réduite. Créer des datamarts spécialisés métiers : Table de fait particularisé. Table de dimension particularisé. A noter : tous les faits du datamart générique sont présents dans la table de fait particularisée.

Table de faits sans fait
Table de faits composée uniquement de clés sur les dimensions. Absence de faits mesurés. Deux principales variétés de table de fait sans fait : Tables de suivi d’événement Tables de couverture

Tables de suivi d’événement Exemple : Analyse de la fréquentation journalière dans une université. Dimension Cours , Étudiant, heure/date, professeur, salle de cours. Table de fait : Clé cours,clé étudiant, clé heure/date, clé professeur, clé salle de cours.

Tables de couverture : des tables d’événement qui n’ont pas eu lieu. Exemple : quels articles étaient en promotion et ne se sont pas vendus : Dimension Temps, magasin, produit, promotion. Table de couverture : indique quels produits étaient ou sont en promotion.

Les agrégats Gestion des agrégats dans le système de collecte et d’intégration. Objectifs : Réduire le volume de l’entrepôt et simplifier sa structure. Comment : Éliminer les données opérationnelles détaillées et les remplacer par des données plus synthétiques. Les valeurs détaillées ne sont pas enregistrées dans l’entrepôt ( attention au reprise ! ). Seules les valeurs synthétiques sont stockées dans l’entrepôt. Remarques : N’introduit pas de dénormalisation. A effectuer le plus en amont des traitements.

Les agrégats Gestion des agrégats dans le système de diffusion et de présentation. ( au niveau datamart ) Objectifs : Améliorer de façon significative les temps de réponse. Réduire le volume des données. Comment : Créer des datamarts agrégés dans lesquels seront pré calculer les informations très utilisées par les utilisateurs à partir des données élémentaires. Conserver les données élémentaires. Remarques : Introduit de la redondance des données. Les données élémentaires sont toujours disponibles.

Les agrégats Gestion des agrégats dans le système de diffusion et de présentation. ( au niveau datamart ) Exemples : Cumul des ventes par mois et vendeur à partir des données journalières. Cumul des ventes par année et vendeur à partir des données journalières. Les données ventes journalières sont disponibles sur trois mois glissants. Détention contrat d’un foyer à partir des détentions contrats des membres du foyer.

olap Objectifs : Permettre à l’utilisateur une navigation main libre dans les données. Manipulation libres et intuitives. Pas de nécessité d’ écrire ou de lancer une requête pour continuer l’analyse. Temps de réponse très courts. Les agrégats sont pré-calculés. S’appuie sur un stockage des données sous forme d’hypercube. ( structure matricielle ).

olap Contraintes : Temps de construction du cube.
Temps de calcul des combinaisons dimensionnelles. Base de stockage est « souvent « propriétaire. La pré agrégation génère des volumes de données totales importantes. Ajout d’axes peut s’avérer difficile. Temps de chargement prohibitifs. Maintenance peut s’avérer difficile. Le périmètre d’analyse est figé.

olap Quand utiliser l’ olap :
Intéressant lorsque les angles d’analyse sont parfaitement connus. Généralement, correspond à des applications mises à disposition d’utilisateur presse bouton devant naviguer facilement et rapidement dans un ensemble de données importants : Navigation main libre : Drill down : zoom sur les données Slice and dice : changement d’axe d’analyse

olap : les architectures
Deux architectures : se distinguent sur le mode de stockage des données. Molap : Multidimensionnel Olap Logiciel de manipulation des données adossé à une base de donnée matricielle de type propriétaire. Hypercube local ou partagé. Coût élevé des licences en général. Rolap : Relationnel Olap Logiciel de manipulation des données adossé à une base de données relationnelles Présentation multidimensionnelle.(hypercube virtuelle). Peut autoriser l’utilisateur à passer « à travers « l’hypercube pour exécuter des requêtes directes.

Chapitre 5 : La démarche

La démarche Comment procéder : deux étapes fondamentales. 1ére étape :
Définition des objectifs stratégiques du sid. Priorisation des objectifs stratégiques. Choix de l’architecture technique globale.

La démarche 2éme étape : Pour chaque projet : L’étude préalable.
Réalisation entrepôt : Alimentation de l’entrepôt. Dictionnaire des données. Recette données entrepôt. Réalisation datamart : Création des datamarts. Recette données datamart. Mise en œuvre outil de restitution. Dictionnaire utilisateur. Recette utilisateurs finaux. Déploiement. Formation.

Définition des objectifs stratégiques du sid.
Identifier la stratégie globale du sid : Synergie entre les objectifs du datawarehouse et la stratégie de l’entreprise. Projet d’entreprise validé par la direction générale, construit par itération. Identifier le sponsor : Fonctionnel, surtout pas technique. Mandaté par le management. Connaissance de l’entreprise. Chargé de mettre en place une équipe motivée,écoutée et connaissant le métier à modéliser Gestionnaire du projet globale. Définir les objectifs fondamentaux. Estimer Budget et calendrier de réalisation.

Priorisation des objectifs
La démarche de mise en œuvre est : Itérative Incrémentale « Fonctionner par lot « Un data warehouse réussi n’est jamais terminé. Il faut prioriser les objectifs.

Choix de l’architecture technique globale
Objectifs : Avant le démarrage du premier projet, choisir l’architecture globale de votre datawarehouse. En particulier : Règles de capture et transformation des données. Règle d’impact sur la production Modèle conceptuel de votre entrepôt. Le modèle devra être évolutif. Vision des outils nécessaires à la diffusion et présentation des données. Machines.

l’étude préalable Mise en place du groupe d’utilisateurs pilotes.
Expressions des besoins. Réunions difficiles à organiser. Recherche des données sources. Choix des datamarts. Etude de faisabilité Coût et délai

Facteur de succès : Un projet d’entreprise.
Une équipe pluri-disciplinaire. La direction générale. Le sponsor du projet (connaissance métier) Le chef de projet La direction informatique (étude et exploitation) Les spécialistes technique Choisir le bon sponsor utilisateur. Choisir un « premier « projet visible et utile. Procéder par étapes. Documenter les données en amont (informatique) et en aval (utilisateur ). Communiquer.

Éviter les écueils : Choisir un chef de projet technologique.
Faire trop de promesses au début. Raisonner données et non informations Faire l’impasse sur les métadonnées. Surcharger l’entrepôt d’informations. Privilégier l’approche pharaonique.

Référentiel Le dictionnaire ou référentiel de données est l’ensemble des méta-données. Renferme des informations : Technique : Modèle de l’entrepôt. Règles d’alimentation et de transformation des données Utilisateurs : Définition des datamarts. Définition des données. Règles d’ utilisation des données.

Chapitre 6 : Les outils

les outils Rappel : l’important est de disposer d’une architecture, une base décisionnelle autour de laquelle greffer les outils les mieux adaptés à chaque besoin. Envisageable de disposer de plusieurs outils.(la suite décisionnelle). L’ architecture doit être indépendante du choix de ces outils. L’ approbation de l’outil par les utilisateurs est cependant un prérequis.

panorama des outils Les outils d’infocentre ( les Requeteurs )
Business Objects : Cognos : impromptu Ibf information builders : focus Sas : Enterprise reporter Oracle : discoverer

panorama des outils Les outils multidimensionnels (Analyse main libre ) Cognos : Powerplay Oracle : Express Hyperion : Essbase Discoverer Microstrategy : Dss server Sas : sas mddb Microsoft plato

panorama des outils Les outils datamining : Recherche de tendances ou corrélations entre les données. Ibm : intelligent miner Sas : Enterprise Miner. Isoft : Alice Neural connection :Spss

Chapitre 7 : Divers

Critères de choix du sgbr/r
Mécanisme de fragmentation des tables. Partitionnement d’une table. Chargement et indexation rapides des données. Compression des tables et des indexs. Exécution des requêtes en mode parallèle. Réplication des données. Technique d’index adaptée aux requêtes décisionnelles. Index bit map Technique de chemin d’accès adaptée aux requêtes décisionnelles. Arrêt automatique des requêtes.

vocabulaire : Drill down : aller vers les données détaillées ( forer vers le bas ) Drill up : aller du détail vers le global. Drill across : changer de dimension d’analyse Slice and dice : couper en tranches et couper en dés. vocable regroupant drill down, drill accross. Eis : executive information system : Système d’information des décideurs sous forme de tableau de bord automatisé. Siad : système interactif d’aide à la décision : Outil de représentation interactive des données permettant une navigation libre dans les données.

Chapitre 1 : Le Système d’information décisionnel : SID.

Présentations similaires

Présentation au sujet: "Chapitre 1 : Le Système d’information décisionnel : SID."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Chapitre 1 : Le Système d’information décisionnel : SID.

Présentations similaires

Présentation au sujet: "Chapitre 1 : Le Système d’information décisionnel : SID."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back