Télécharger la présentation
1
Analyse en ligne (OLAP) de documents
Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste
2
Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
3
Analyse en ligne (OLAP) de documents
Contexte (1/6) Les systèmes d’aide à la décision XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Particularité des travaux de thèse: Ajouter au système la gestion de documents XML Extraire et analyser Appliquer les techniques OLAP Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007
4
Analyse en ligne (OLAP) de documents
Contexte (2/6) Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007
5
Analyse en ligne (OLAP) de documents
Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles Détailler: Données transactionnelles Rigidité des systèmes OLAP (par rapport aux données peu structurées des documents) Le pourquoi du langage XML (langage populaire, ressources sans cesse en augmentation, devenu un standard de facto) Documents orientés données, documents orientés documents (principalement constitués de texte) Analyse en ligne (OLAP) de documents Décembre 2007
6
Analyse en ligne (OLAP) de documents
Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007
7
Analyse en ligne (OLAP) de documents
Contexte (5/6) XML: exemple de document <These> <Contenu> <Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1"> <Paragraphe>Contenu…</Paragraphe> <Paragraphe>Contenu …</Paragraphe> </Section> <Section Titre="Titre de la section 1.2"> … </Chapitre> <Chapitre Titre="Titre du chapitre 2"> </Contenu> </These> Analyse en ligne (OLAP) de documents Décembre 2007
8
Analyse multidimensionnelle
Contexte (6/6) Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 2 publications Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007
9
Analyse en ligne (OLAP) de documents
Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données d’un SI Données transactionnelles Documents XML Analyse en ligne (OLAP) de documents Décembre 2007
10
Analyse en ligne (OLAP) de documents
État de l’art (1/3) Les systèmes d’aide à la décision XML XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Analyse en ligne (OLAP) de documents Décembre 2007
11
Analyse en ligne (OLAP) de documents
État de l’art (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas d’intégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007
12
Analyse en ligne (OLAP) de documents
État de l’art (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007
13
Analyse en ligne (OLAP) de documents
État de l’art (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007
14
Analyse en ligne (OLAP) de documents
État de l’art (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007
15
Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
16
Analyse en ligne (OLAP) de documents
Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007
17
Analyse en ligne (OLAP) de documents
Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
18
Analyse en ligne (OLAP) de documents
Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
19
Analyse en ligne (OLAP) de documents
Modèle conceptuel (4/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007
20
Analyse en ligne (OLAP) de documents
Modèle conceptuel (5/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
21
Analyse en ligne (OLAP) de documents
Modèle conceptuel (6/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances Exemple d’instance d’auteur Analyse en ligne (OLAP) de documents Décembre 2007
22
Analyse en ligne (OLAP) de documents
Modèle conceptuel (7/7) Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007
23
Analyse en ligne (OLAP) de documents
Exemple Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007
24
Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
25
Fonction d’agrégation (1/6)
AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007
26
Fonction d’agrégation (2/6)
Principe d’agrégation Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007
27
Fonction d’agrégation (3/6)
Problématique Agréger des données textuelles Reconstituer une règle d’agrégation Règle d’agrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007
28
Fonction d’agrégation (4/6)
Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007
29
Fonction d’agrégation (5/6)
Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007
30
Fonction d’agrégation (6/6)
Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007
31
Opérations de manipulation (1/6)
Analyse en ligne (OLAP) de documents Décembre 2007
32
Opérations de manipulation (2/6)
But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007
33
Opérations de manipulation (3/6)
Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation Analyse en ligne (OLAP) de documents Décembre 2007
34
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
35
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
36
Opérations de manipulation (5/6)
Changement du niveau de détail: Rotation Analyse en ligne (OLAP) de documents Décembre 2007
37
Opérations de manipulation (6/6)
Exploitation des liens R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER 3 2 1 SSDBM - DaWaK Nombre de fois qu’un auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ? Context of the citations R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle - DaWaK Fouille de données Analyse en ligne (OLAP) de documents Décembre 2007
38
Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
39
Démarche d’intégration (1/5)
Analyse en ligne (OLAP) de documents Décembre 2007
40
Démarche d’intégration (2/5)
Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007
41
Démarche d’intégration (3/5)
Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007
42
Démarche d’intégration (4/5)
Étapes Analyse en ligne (OLAP) de documents Décembre 2007
43
Analyses concurrentes (1/3)
Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
44
Analyses concurrentes (2/3)
Spécification des besoins Identification des attributs Spécification d’une matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007
45
Analyses concurrentes (3/3)
Analyse des sources Identifier Contenu Structure du contenu Méta données Analyse en ligne (OLAP) de documents Décembre 2007
46
Analyse en ligne (OLAP) de documents
Confrontation (1/2) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
47
Analyse en ligne (OLAP) de documents
Confrontation (2/2) Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007
48
Enrichissement et chargement
Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
49
Analyse en ligne (OLAP) de documents
Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
50
Analyse en ligne (OLAP) de documents
Architecture (1/3) 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007
51
Analyse en ligne (OLAP) de documents
Architecture (2/3) Magasin de données Analyse en ligne (OLAP) de documents Décembre 2007
52
Analyse en ligne (OLAP) de documents
Architecture (3/3) Restitution / analyse Analyse en ligne (OLAP) de documents Décembre 2007
53
Outil et restitution d’analyses (1/2)
Spécification d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
54
Outil et restitution d’analyses (2/2)
Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
55
Analyse en ligne (OLAP) de documents
Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
56
Analyse en ligne (OLAP) de documents
Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents Analyse en ligne (OLAP) de documents Décembre 2007
57
Analyse en ligne (OLAP) de documents
Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007
58
Analyse en ligne (OLAP) de documents
Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception d’une galaxie Intégration de documents XML Analyse en ligne (OLAP) de documents Décembre 2007
59
Analyse en ligne (OLAP) de documents
Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions d’agrégation : environnement d’intégration Analyse en ligne (OLAP) de documents Décembre 2007
60
MERCI - Soutenance de thèse en informatique
Décembre 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. Analyse en ligne (OLAP) de documents Décembre 2007
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.