Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Les systèmes d’aide à la décision (DSS) Contexte SourcesEntrepôtMagasinAnalyseUtilisateur Environnement de stockage Exploration / Manipulation (OLAP) Requêtes Visualisation
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre L’environnement de Stockage Contexte EntrepôtMagasin Vision uniforme Des données Structuration pour l’analyse (bases multidimensionnelles) Cube = vision simpliste du magasin
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Données décisionnelles 20 % numériques Provenance : système d’information local 80 % autres Rapports Pages Web Notes de travail … => Intégration de documents Format de plus en plus utilisé : XML Contexte Données hors du système d’aide À la prise de décision
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Deux types de documents XML Orienté données Ordre des éléments importe peu Contexte =>
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Deux types de documents XML Orienté données Ordre des éléments importe peu Orienté document Ordre des éléments important Contexte =>
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Documents XML => Interopérabilité Intégration de documents SourcesEntrepôtMagasinAnalyse Documents XML Orientés données XML
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Documents XML => Intégration Intégration de documents SourcesEntrepôtMagasinAnalyse Documents XML Orientés données XML
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Documents XML = l’entrepôt Entrepôts de données XML SourcesEntrepôtMagasinAnalyse Documents XML Orientés données XML XML multidimensionnel Similaire aux Bases de données relationnelles
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Documents XML textuels Entrepôts de documents XML SourcesEntrepôtMagasin Documents XML Orientés documents X
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Documents XML textuels Entrepôts de documents XML SourcesEntrepôt Requêtes Documents XML Orientés documents Pas d’analyse mais de la recherche d’information Fragments de Documents Stockage dans un environnement uniforme
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Et l’analyse ?? => « Contextualisation » Entrepôts de documents XML SourcesEntrepôt Requêtes Fragments de Documents
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre L’environnement Idéal OLAP et XML SourcesEntrepôtMagasinAnalyseUtilisateur Environnement de stockage Exploration / Manipulation (OLAP) Requêtes Visualisation
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : l’agrégation Analyse multidimensionnelle
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : l’agrégation Analyse multidimensionnelle
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : Problématique Actuellement OLAP ne gère pas Données textuelles Structure Contenu Comment analyser données textuelles ? But : Analyser 100% des données d’un SI Données transactionnelles Documents XML
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML XML: exemple de document Contenu… … …
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Sujet des publications Nombre de publications par auteur InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK 21- ICEIS 13- CAiSE -12 InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes - CAiSE - Entrepôts de données Modèle conceptuel, Fouille de données Sujets des 2 publications
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Principe d’agrégation Exemple de somme
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Problématique Agréger des données textuelles Règle d’agrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Exemple d’ontologie (SI)
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Exemple d’agrégation LCA (Design, Processing) = OLAP D=3 D=1 Distance (Design, Processing) = 3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3)
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3) OLAP et XML : fonction d’agrégation
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Adaptation au décisionnel Changement de la notion de collections (RI) Analyse des 2 principaux termes d’articles scientifiques En fonction de l’auteur et de la date de publication 4 collections à raison d’une par cellule
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Fonction d’agrégation Retourne les k termes les plus « représentatifs » Liste ordonnées des termes selon leur poids Liste des termes d’une cellule
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre OLAP et XML : fonction d’agrégation Analyse des 2 principaux termes d’articles scientifiques En fonction de l’auteur et de la date de publication
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Exemple Détails de l’agrégation d’une cellule Pondération des termes TOP_KW 2
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Exemple SOMME
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Exemple
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Implantation : architecture Restitution / analyse
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Plan Introduction Intégration de documents Entrepôts de données Entrepôts de documents OLAP et XML Conclusion
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Tour d’horizon Intégration de documents XML Entrepôts de données XML Entrepôts de documents (de contenu) OLAP et XML (l’analyse) Problématique d’indicateur textuels Agrégation de données textuelles Perspectives Alternatives aux fonctions de pondération Conclusion et perspectives
IRIT, SIG/ED Les entrepôts de donnés et les documents XML Ronan Tournier Novembre Merci Ronan Tournier, SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université de Toulouse (UT1C, UTM, UPS).