Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste
Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Contexte (1/6) Les systèmes d’aide à la décision XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Particularité des travaux de thèse: Ajouter au système la gestion de documents XML Extraire et analyser Appliquer les techniques OLAP Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Contexte (2/6) Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles Détailler: Données transactionnelles Rigidité des systèmes OLAP (par rapport aux données peu structurées des documents) Le pourquoi du langage XML (langage populaire, ressources sans cesse en augmentation, devenu un standard de facto) Documents orientés données, documents orientés documents (principalement constitués de texte) Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Contexte (5/6) XML: exemple de document <These> <Contenu> <Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1"> <Paragraphe>Contenu…</Paragraphe> <Paragraphe>Contenu …</Paragraphe> </Section> <Section Titre="Titre de la section 1.2"> … </Chapitre> <Chapitre Titre="Titre du chapitre 2"> </Contenu> </These> Analyse en ligne (OLAP) de documents Décembre 2007
Analyse multidimensionnelle Contexte (6/6) Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 2 publications Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données d’un SI Données transactionnelles Documents XML Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents État de l’art (1/3) Les systèmes d’aide à la décision XML XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents État de l’art (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas d’intégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents État de l’art (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents État de l’art (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents État de l’art (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (4/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (5/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (6/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances Exemple d’instance d’auteur Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Modèle conceptuel (7/7) Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Exemple Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (1/6) AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (2/6) Principe d’agrégation Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (3/6) Problématique Agréger des données textuelles Reconstituer une règle d’agrégation Règle d’agrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (4/6) Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (5/6) Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (6/6) Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (1/6) Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (2/6) But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (3/6) Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (4/6) Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (4/6) Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (5/6) Changement du niveau de détail: Rotation Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (6/6) Exploitation des liens R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER 3 2 1 SSDBM - DaWaK Nombre de fois qu’un auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ? Context of the citations R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle - DaWaK Fouille de données Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (1/5) Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (2/5) Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (3/5) Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (4/5) Étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (1/3) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (2/3) Spécification des besoins Identification des attributs Spécification d’une matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (3/3) Analyse des sources Identifier Contenu Structure du contenu Méta données Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Confrontation (1/2) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Confrontation (2/2) Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007
Enrichissement et chargement Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Architecture (1/3) 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Architecture (2/3) Magasin de données Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Architecture (3/3) Restitution / analyse Analyse en ligne (OLAP) de documents Décembre 2007
Outil et restitution d’analyses (1/2) Spécification d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
Outil et restitution d’analyses (2/2) Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception d’une galaxie Intégration de documents XML Analyse en ligne (OLAP) de documents Décembre 2007
Analyse en ligne (OLAP) de documents Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions d’agrégation : environnement d’intégration Analyse en ligne (OLAP) de documents Décembre 2007
MERCI - Soutenance de thèse en informatique Décembre 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. Analyse en ligne (OLAP) de documents Décembre 2007