La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par.

Présentations similaires


Présentation au sujet: "Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par."— Transcription de la présentation:

1 Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

2 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 2 Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

3 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 3 Contexte (1/6) Les systèmes daide à la décision Cadre de la thèse XML

4 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 4 Contexte (2/6) Analyse multidimensionnelle

5 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 5 Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données dun système dinformation [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles

6 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 6 Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure

7 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 7 Contexte (5/6) XML: exemple de document Contenu… … …

8 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 8 Contexte (6/6) Analyse multidimensionnelle De lanalyse numérique… Vers lanalyse non numérique Sujet des publications Nombre de publications par auteur InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK 21- ICEIS 13- CAiSE -12 InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes - CAiSE - Entrepôts de données Modèle conceptuel, Fouille de données Sujets des 2 publications

9 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 9 Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données dun SI Données transactionnelles Documents XML

10 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 10 État de lart (1/3) Les systèmes daide à la décision XML

11 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 11 État de lart (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas dintégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à lanalyse XML

12 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 12 État de lart (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML

13 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 13 État de lart (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas danalyse du contenu Pas dexploitation de la structure Pas de synthèse des informations textuelles XML

14 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 14 État de lart (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents

15 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 15 Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

16 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 16 Modèle conceptuel (1/7)

17 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 17 Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet danalyse

18 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 18 Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe danalyse Une dimension = un sujet potentiel danalyse

19 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 19 Modèle conceptuel (4/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies I Di = ensemble dinstances IStar Di = fonctions associant les instances ensemble

20 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 20 Attribut Faible = complément sémantique dun paramètre Modèle conceptuel (5/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies Hiérarchies H i =(Param Hi, Weak Hi ) Param Hi = liste ordonnée de paramètres Weak Hi = association des attributs faibles Paramètre = niveau de granularité danalyse

21 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 21 Modèle conceptuel (6/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies I Di = ensemble dinstances IStar Di = fonctions dassociation des instances Exemple dinstance dauteur

22 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 22 Modèle conceptuel (7/7) Galaxie G=(D G, Star G, Lk G ) D G = ensemble de dimensions Star G = fonction associant les dimensions Lk G = ensemble de fonctions représentant les liens intra ou inter documents

23 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 23 Exemple Analyse darticles scientifiques et de projets

24 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 24 Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

25 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 25 Fonction dagrégation (1/6) AGREGATION

26 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 26 Fonction dagrégation (2/6) Principe dagrégation Exemple de somme

27 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 27 Fonction dagrégation (3/6) Problématique Agréger des données textuelles Reconstituer une règle dagrégation Règle dagrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine

28 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 28 Fonction dagrégation (4/6) Exemple dontologie (SI)

29 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 29 Fonction dagrégation (5/6) Exemple dagrégation LCA (Design, Processing) = OLAP D=3 D=1 Distance (Design, Processing) = 3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3)

30 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 30 Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus dagrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter lagrégation (distance heuristique = 3) Fonction dagrégation (6/6)

31 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 31 Opérations de manipulation (1/6) MANIPULATION

32 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 32 Opérations de manipulation (2/6) But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données

33 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 33 Opérations de manipulation (3/6) Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation

34 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 34 Opérations de manipulation (4/6) Spécification dune analyse: FOCUS Sélectionner : principaux mot-clefs des section darticles par auteur, par année

35 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 35 Opérations de manipulation (4/6) Spécification dune analyse: FOCUS Sélectionner : principaux mot-clefs des section darticles par auteur, par année

36 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 36 Changement du niveau de détail: Rotation Opérations de manipulation (5/6)

37 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 37 Opérations de manipulation (6/6) Exploitation des liens R.InstitutInst1 R.AuteurA1A2A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle -- DaWaK Fouille de données Fouille de données, Clustering R.InstitutInst1 R.AuteurA1A2A3 Conférence ER 321 SSDBM 2-- DaWaK 112 Context of the citations Nombre de fois quun auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ?

38 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 38 Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

39 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 39 Démarche dintégration (1/5)

40 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 40 Démarche dintégration (2/5) Architecture: positionnement Comment passer des documents à une galaxie?

41 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 41 Démarche dintégration (3/5) Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]…

42 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 42 Démarche dintégration (4/5) Étapes

43 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 43 Analyses concurrentes (1/3) Détails des étapes

44 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 44 Analyses concurrentes (2/3) Spécification des besoins Identification des attributs Spécification dune matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions

45 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 45 Analyses concurrentes (3/3) Analyse des sources Identifier Contenu Structure du contenu Méta données

46 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 46 Confrontation (1/2) Détails des étapes

47 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 47 Confrontation (2/2) Phase dassociation Incompatibilités

48 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 48 Enrichissement et chargement Détails des étapes

49 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 49 Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

50 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 50 Architecture (1/3) 4 niveaux

51 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 51 Architecture (2/3) Magasin de données

52 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 52 Architecture (3/3) Restitution / analyse

53 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 53 Outil et restitution danalyses (1/2) Spécification danalyses

54 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 54 Outil et restitution danalyses (2/2) Manipulation danalyses

55 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 55 Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

56 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 56 Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents

57 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 57 Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification danalyses Manipulation danalyses

58 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 58 Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception dune galaxie Intégration de documents XML

59 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 59 Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions dagrégation : environnement dintégration

60 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre 2007 60 - MERCI Soutenance de thèse en informatique Décembre 2007, Ronan Tournier SIG/ED : Systèmes dInformations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III.


Télécharger ppt "Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par."

Présentations similaires


Annonces Google