Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie 10 Juin 2005 Article présentée par : Ahlem SOUSSI Ingénieur en informatique & Étudiante en 2ème année mastère F.S.T. Tunisie Approche semi-automatisée de conception de schémas multidimensionnels valides Directeurs de Mastère M.A. Jamel FEKI M.C. Faiez GARGOURI Cet exposé résumé les travaux de thèse que nous avons mené dans le domaine de condensation automatique et qui nous ont permis de développer une nouvelle méthode de production d’extraits de documents basée sur des critères statistiques et discursives Laboratoire
Plan Introduction État de l’art Approche proposée Architecture fonctionnelle Modules Conclusion et perspectives Afin de présenter cette méthode j’ai planifié les parties suivantes : Je vais commencer par une introduction sur les systèmes décisionnels Je vais ensuite classer les principales méthodes de conception des ED et MD Nous présentions ensuite l’architecture fonctionnelle de la méthode proposée ainsi que ses modules Enfin nous présentons quelques perspectives de notre travail
Systèmes décisionnels Systèmes transactionnels => production Système décisionnel => pilotage MD SOURCES DE DONNEES ED MD Deux espaces de stockage : l’entrepôt de données (ED) les magasins de données (MD) Les entreprises passent à l’ère de l’information : leur défi est de compléter leur système d’information transactionnel OLTP à vocation de production, par un système d’information décisionnel à vocation de pilotage. La majorité des systèmes décisionnels comportent deux espaces de stockage : l’ED et les MDs
Modèles Multidimensionnels Ce schéma représente un exemple de sch en étoile modélisant le fait enseign % au dimenssion …
Plan État de l’art Approche proposée Architecture fonctionnelle Introduction État de l’art Approche proposée Architecture fonctionnelle Modules Conclusion et perspectives nous passons mnt en revue les principales méthodes de conception des MDs
requêtes décisionnels Golfarelli, Cabibbo, Moody, Hüsemann Etat de l’art Types d’approche Guidée par les besoins la source Mixte Basée sur requêtes décisionnels Source de données requêtes et source Participation des utilisateurs dans la conception de l’ED forte limitée Structuration de l’approche non oui Automatisation manuelle semi-automatique Adopté par Kimball Golfarelli, Cabibbo, Moody, Hüsemann Bonifati, Phipps Propriété Ces méthodes peuvent être classées en 3 types : Des approches guidées par les besoins c à d qui partent des requêtes décisionnels des décideurs pour construire des modèles en étoile. Le 2ème type d’approche est guidée par la source, ces approche limitent la participation des décideurs dans la conception des MD Puisque ils se basent sur les sources de données de l’entreprise. Et des approches mixtes qui sont quidée à la fois par les requêtes et les sources.
Plan État de l’art Approche proposée Architecture fonctionnelle Introduction État de l’art Approche proposée Architecture fonctionnelle Modules Conclusion et perspectives
Approche proposée Limite des approche mixtes : Générer et gérer un grand nombre de schémas candidats inutiles Approche proposée : Mixte Privilégie les besoins OLAP / aux besoins offerts par les sources Les approches mixtes existantes Nous proposons une approches mixte qui part
Architecture fonctionnelle Acquisition graphique des besoins OLAP Génération de schémas de MD Génération d’un schéma d’ED Besoins OLAP semi-structurés Schéma de l’ED Besoins OLAP exprimés BD de spécification des besoins décisionnels Schémas valides des MD Génération de schémas de MD Génération de schémas en constellation Génération de schémas en étoile Correspondance et validation des schémas en étoile Dictionnaire Schémas des Sources de Données Schémas en étoile idéaux des MD Schémas en étoile valides des MD
Structure des besoins OLAP
Génération des étoiles Enrichissement des tableaux de besoins Tableaux spécifiés => Tableaux enrichis Construction des étoiles Tableaux enrichis ===> schémas en étoiles GEN E T O I L DOM 1 DOM 2 f1 f2 DOM 3 f3
Exemple T1 T2 Sch1 : Schéma en étoile résultant de l’ajout de T2 à Sch Sch : Schéma en étoile équivalent au tableau T1
Correspondance étoiles/Source Correspondance étoile idéale / source (E/R) Validation des correspondances effectuées Correspondance des : Faits, Mesures, Dimensions, Hiérarchies Deux étapes : Extraction des termes potentiels sources Correspondance
Exemple d’une source E/R
Correspondance du fait faits potentiels ? Entités ou associations n-aires contenant au moins un attribut numérique non-clé. DIM 1 DIM 2 fait mesures Identifiant H1_DIM1 H2_DIM1 Param 1 Param N Enseignement
Correspondance des mesures Mesures potentielles d’1 fait F ? Si F-ass est une association n-aire : Les attributs numériques non-clés appartenant au(x) : Fait F-ass Associations parallèles à F-ass Entités directement liées par F-ass Si F-ass est une entité : F-ass Entités ou association porteuse de données (Ent ou Apd) liées à F-ass par un lien (1,1) Entités liées à F-ass par un lien (1,n) DIM 1 DIM 2 Identifiant H1_DIM1 H2_DIM1 Param 1 Param N fait mesures Nbre_ groupe_ enseignés, … Enseignement
Correspondance des dimensions (1) identifiants potentiels de dimensions ? Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la fermeture transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n)) Identifiant H1_DIM1 H2_DIM1 DIM 2 DIM 1 Param 1 Param N fait mesures Nbre_ groupe_ enseignés, … Enseignement MATIERE Code_Matière
Correspondance des dimensions (2) Attributs faibles potentiels de l’dentifiant d’une dimension ? Les attributs appartenant au(x) : Fait F-ass Ent ou Apd liées à F-ass par un lien (1,1) Identifiant H1_Matière DIM 2 DIM 1 Cycle fait mesures Nbre_ groupe_ enseignés, … Enseignement MATIERE Code_Matière Code_Auditoire Attributs_faibles Libellé_Matière
Correspondance des hiérarchies (1) identifiants potentiels de dimensions ? Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la fermeture transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n)) Libellé_Section Code Section Matière Auditoire Libellé Matière Volume horaire MATIERE Libellé_Auditoire H1_Matière
Correspondance des hiérarchies (2) Extraction des attributs faibles potentiels de P ? Les attributs non-clés appartenant à : L’élément E contenant P-ass Ent ou Apd liées à E par un lien (1,1) Matière Libellé_Auditoire Code_Auditoire Code_Matière Code_Section Libellé_Matière Volume_horaire
Validation des correspondances Ajustement des correspondances effectuées corriger/supprimer les correspondances incorrectes Compléter les correspondance manquantes Choix de la correspondance la plus appropriée Amélioration de la correspondance retenue éliminer les éléments sans correspondant ajouter des mesures calculables valides ajouter des dimensions et des attributs supplémentaires
Cas de plusieurs solutions de correspondance Métrique des : Mesures Dimensions Hiérarchies Paramètres Calculés pour chaque solution de correspondance Comptent le nombre de mesures, dimensions, hiérarchies et paramètres (d’un schéma en étoile) ayant un correspondant dans la source Fp1 : Fpi Fpn Soln Soli Sol1 Corresp. des mesures Corresp. des dimensions Corresp. des hiérarchies Comparer les n solutions de corresp Solj choisie fait F Faits potentiels associés à F Fait Fpj associé à F
Génération des constellations Entrée : des étoiles valides Sortie : des étoiles + des constellations Idée de base : similitude entre schémas multidimensionnels Soient : . Si et Sj deux schémas . Card(Dim(Si)) = n . Card(Dim(Sj)) = m . p = Card(Dim(Si) ∩ Dim(Sj)) Critère Sim(Si,Sj) si p=0 si p=n=m 1 si p=1 1/5 si p=n et n<m 3/4 si p=n/2 et n=m 1/2 si p>=m/2 et n<m 2/3 si n/2<=p<m/2 1/3 si p<n/2 et n<=m 1/4 Ordre de constellation ?
Génération des constellations (2) Algorithme de principe : Calculer MS et son maximum Max Consteller les schémas les plus similaires Mettre à jour la matrice MS Réitérer MS S1 . . Si Sk - ? : Arrêt : - Taille(MS) =1, - valeurs de similitude faibles - sur demande.
Plan Conclusion et perspectives Introduction État de l’art Approche proposée Architecture fonctionnelle Modules Conclusion et perspectives
Conclusion et perspectives Approche de construction de MD en 3 étapes : Génération des étoiles Correspondance et validation des étoiles Génération des constellations Perspectives Implémentation de la méthode de correspondance avec des sources de données relationnelles. Intégration des schémas de MD schéma de l’ED.
Merci de votre attention
Modèles Multidimensionnels Fait : activité analysé Dimension : axe d’analyse Modèle en étoile 1 fait central dimensions La modélisation conceptuel donne naissance se base sur les concepts defait et de dimension : le fait est l’activité analysé , par exemple les ventes, les achat,… il est souvent décrit par des mesures La dimension est l’axe d’analyse comme par exempklele produit, le client, le temps,.. Elle décrit par une ou ++ paramètres organisés selon des hiérarchies. À partir du fait et des dimensions on peut construire des schémas en étoile ou des schémas en constellation Une étoile comporte un seul fait modélisé selon plusieurs dimensions, alors que une constellation analyse ++ faits selon ++ dimensions : elle peut etre vu comme une fusion de ++ étoiles paratageat des dimensions. Modèle en constellation ++ faits ayant des dimensions communes Fusion de ++ schémas en étoile
ED & MD Entrepôt de données ("data warehouse") lieu de stockage centralisé d'un extrait des sources pertinent pour les décideurs, daté, historisé organisé selon un modèle informatique facilitant la gestion des données. Magasin de données ("data mart") extrait de l'entrepôt adapté à une classe de décideurs (ou à un usage particulier) organisé selon un modèle approprié aux outils d'analyse.