La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par.

Présentations similaires


Présentation au sujet: "Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par."— Transcription de la présentation:

1 Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

2 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

3 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (1/6) Les systèmes daide à la décision Cadre de la thèse XML

4 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (2/6) Analyse multidimensionnelle

5 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données dun système dinformation [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles

6 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure

7 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (5/6) XML: exemple de document Contenu… … …

8 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Contexte (6/6) Analyse multidimensionnelle De lanalyse numérique… Vers lanalyse non numérique Sujet des publications Nombre de publications par auteur InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK 21- ICEIS 13- CAiSE -12 InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes - CAiSE - Entrepôts de données Modèle conceptuel, Fouille de données Sujets des 2 publications

9 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données dun SI Données transactionnelles Documents XML

10 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre État de lart (1/3) Les systèmes daide à la décision XML

11 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre État de lart (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas dintégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à lanalyse XML

12 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre État de lart (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML

13 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre État de lart (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas danalyse du contenu Pas dexploitation de la structure Pas de synthèse des informations textuelles XML

14 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre État de lart (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents

15 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

16 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (1/7)

17 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet danalyse

18 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe danalyse Une dimension = un sujet potentiel danalyse

19 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (4/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies I Di = ensemble dinstances IStar Di = fonctions associant les instances ensemble

20 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Attribut Faible = complément sémantique dun paramètre Modèle conceptuel (5/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies Hiérarchies H i =(Param Hi, Weak Hi ) Param Hi = liste ordonnée de paramètres Weak Hi = association des attributs faibles Paramètre = niveau de granularité danalyse

21 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (6/7) Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble dattributs H Di = ensemble de hiérarchies I Di = ensemble dinstances IStar Di = fonctions dassociation des instances Exemple dinstance dauteur

22 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Modèle conceptuel (7/7) Galaxie G=(D G, Star G, Lk G ) D G = ensemble de dimensions Star G = fonction associant les dimensions Lk G = ensemble de fonctions représentant les liens intra ou inter documents

23 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Exemple Analyse darticles scientifiques et de projets

24 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

25 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Fonction dagrégation (1/6) AGREGATION

26 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Fonction dagrégation (2/6) Principe dagrégation Exemple de somme

27 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Fonction dagrégation (3/6) Problématique Agréger des données textuelles Reconstituer une règle dagrégation Règle dagrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine

28 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Fonction dagrégation (4/6) Exemple dontologie (SI)

29 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Fonction dagrégation (5/6) Exemple dagrégation LCA (Design, Processing) = OLAP D=3 D=1 Distance (Design, Processing) = 3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3)

30 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus dagrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter lagrégation (distance heuristique = 3) Fonction dagrégation (6/6)

31 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (1/6) MANIPULATION

32 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (2/6) But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données

33 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (3/6) Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation

34 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (4/6) Spécification dune analyse: FOCUS Sélectionner : principaux mot-clefs des section darticles par auteur, par année

35 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (4/6) Spécification dune analyse: FOCUS Sélectionner : principaux mot-clefs des section darticles par auteur, par année

36 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Changement du niveau de détail: Rotation Opérations de manipulation (5/6)

37 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Opérations de manipulation (6/6) Exploitation des liens R.InstitutInst1 R.AuteurA1A2A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle -- DaWaK Fouille de données Fouille de données, Clustering R.InstitutInst1 R.AuteurA1A2A3 Conférence ER 321 SSDBM 2-- DaWaK 112 Context of the citations Nombre de fois quun auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ?

38 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

39 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Démarche dintégration (1/5)

40 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Démarche dintégration (2/5) Architecture: positionnement Comment passer des documents à une galaxie?

41 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Démarche dintégration (3/5) Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]…

42 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Démarche dintégration (4/5) Étapes

43 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Analyses concurrentes (1/3) Détails des étapes

44 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Analyses concurrentes (2/3) Spécification des besoins Identification des attributs Spécification dune matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions

45 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Analyses concurrentes (3/3) Analyse des sources Identifier Contenu Structure du contenu Méta données

46 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Confrontation (1/2) Détails des étapes

47 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Confrontation (2/2) Phase dassociation Incompatibilités

48 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Enrichissement et chargement Détails des étapes

49 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

50 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Architecture (1/3) 4 niveaux

51 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Architecture (2/3) Magasin de données

52 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Architecture (3/3) Restitution / analyse

53 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Outil et restitution danalyses (1/2) Spécification danalyses

54 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Outil et restitution danalyses (2/2) Manipulation danalyses

55 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives

56 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents

57 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification danalyses Manipulation danalyses

58 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception dune galaxie Intégration de documents XML

59 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions dagrégation : environnement dintégration

60 IRIT, SIG/ED Analyse en ligne (OLAP) de documents Décembre MERCI Soutenance de thèse en informatique Décembre 2007, Ronan Tournier SIG/ED : Systèmes dInformations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III.


Télécharger ppt "Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par."

Présentations similaires


Annonces Google