La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse en ligne (OLAP) de documents

Présentations similaires


Présentation au sujet: "Analyse en ligne (OLAP) de documents"— Transcription de la présentation:

1 Analyse en ligne (OLAP) de documents
Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

2 Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

3 Analyse en ligne (OLAP) de documents
Contexte (1/6) Les systèmes d’aide à la décision XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Particularité des travaux de thèse: Ajouter au système la gestion de documents XML Extraire et analyser Appliquer les techniques OLAP Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007

4 Analyse en ligne (OLAP) de documents
Contexte (2/6) Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007

5 Analyse en ligne (OLAP) de documents
Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles Détailler: Données transactionnelles Rigidité des systèmes OLAP (par rapport aux données peu structurées des documents) Le pourquoi du langage XML (langage populaire, ressources sans cesse en augmentation, devenu un standard de facto) Documents orientés données, documents orientés documents (principalement constitués de texte) Analyse en ligne (OLAP) de documents Décembre 2007

6 Analyse en ligne (OLAP) de documents
Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007

7 Analyse en ligne (OLAP) de documents
Contexte (5/6) XML: exemple de document <These> <Contenu> <Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1"> <Paragraphe>Contenu…</Paragraphe> <Paragraphe>Contenu …</Paragraphe> </Section> <Section Titre="Titre de la section 1.2"> </Chapitre> <Chapitre Titre="Titre du chapitre 2"> </Contenu> </These> Analyse en ligne (OLAP) de documents Décembre 2007

8 Analyse multidimensionnelle
Contexte (6/6) Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 2 publications Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007

9 Analyse en ligne (OLAP) de documents
Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données d’un SI Données transactionnelles Documents XML Analyse en ligne (OLAP) de documents Décembre 2007

10 Analyse en ligne (OLAP) de documents
État de l’art (1/3) Les systèmes d’aide à la décision XML XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Analyse en ligne (OLAP) de documents Décembre 2007

11 Analyse en ligne (OLAP) de documents
État de l’art (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas d’intégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007

12 Analyse en ligne (OLAP) de documents
État de l’art (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007

13 Analyse en ligne (OLAP) de documents
État de l’art (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007

14 Analyse en ligne (OLAP) de documents
État de l’art (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007

15 Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

16 Analyse en ligne (OLAP) de documents
Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007

17 Analyse en ligne (OLAP) de documents
Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

18 Analyse en ligne (OLAP) de documents
Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

19 Analyse en ligne (OLAP) de documents
Modèle conceptuel (4/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007

20 Analyse en ligne (OLAP) de documents
Modèle conceptuel (5/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

21 Analyse en ligne (OLAP) de documents
Modèle conceptuel (6/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances Exemple d’instance d’auteur Analyse en ligne (OLAP) de documents Décembre 2007

22 Analyse en ligne (OLAP) de documents
Modèle conceptuel (7/7) Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007

23 Analyse en ligne (OLAP) de documents
Exemple Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007

24 Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

25 Fonction d’agrégation (1/6)
AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007

26 Fonction d’agrégation (2/6)
Principe d’agrégation Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007

27 Fonction d’agrégation (3/6)
Problématique Agréger des données textuelles Reconstituer une règle d’agrégation Règle d’agrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007

28 Fonction d’agrégation (4/6)
Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007

29 Fonction d’agrégation (5/6)
Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007

30 Fonction d’agrégation (6/6)
Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007

31 Opérations de manipulation (1/6)
Analyse en ligne (OLAP) de documents Décembre 2007

32 Opérations de manipulation (2/6)
But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007

33 Opérations de manipulation (3/6)
Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation Analyse en ligne (OLAP) de documents Décembre 2007

34 Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

35 Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

36 Opérations de manipulation (5/6)
Changement du niveau de détail: Rotation Analyse en ligne (OLAP) de documents Décembre 2007

37 Opérations de manipulation (6/6)
Exploitation des liens R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER 3 2 1 SSDBM - DaWaK Nombre de fois qu’un auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ? Context of the citations R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle - DaWaK Fouille de données Analyse en ligne (OLAP) de documents Décembre 2007

38 Analyse en ligne (OLAP) de documents
Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

39 Démarche d’intégration (1/5)
Analyse en ligne (OLAP) de documents Décembre 2007

40 Démarche d’intégration (2/5)
Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007

41 Démarche d’intégration (3/5)
Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007

42 Démarche d’intégration (4/5)
Étapes Analyse en ligne (OLAP) de documents Décembre 2007

43 Analyses concurrentes (1/3)
Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

44 Analyses concurrentes (2/3)
Spécification des besoins Identification des attributs Spécification d’une matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007

45 Analyses concurrentes (3/3)
Analyse des sources Identifier Contenu Structure du contenu Méta données Analyse en ligne (OLAP) de documents Décembre 2007

46 Analyse en ligne (OLAP) de documents
Confrontation (1/2) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

47 Analyse en ligne (OLAP) de documents
Confrontation (2/2) Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007

48 Enrichissement et chargement
Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

49 Analyse en ligne (OLAP) de documents
Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

50 Analyse en ligne (OLAP) de documents
Architecture (1/3) 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007

51 Analyse en ligne (OLAP) de documents
Architecture (2/3) Magasin de données Analyse en ligne (OLAP) de documents Décembre 2007

52 Analyse en ligne (OLAP) de documents
Architecture (3/3) Restitution / analyse Analyse en ligne (OLAP) de documents Décembre 2007

53 Outil et restitution d’analyses (1/2)
Spécification d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

54 Outil et restitution d’analyses (2/2)
Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

55 Analyse en ligne (OLAP) de documents
Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

56 Analyse en ligne (OLAP) de documents
Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents Analyse en ligne (OLAP) de documents Décembre 2007

57 Analyse en ligne (OLAP) de documents
Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

58 Analyse en ligne (OLAP) de documents
Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception d’une galaxie Intégration de documents XML Analyse en ligne (OLAP) de documents Décembre 2007

59 Analyse en ligne (OLAP) de documents
Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions d’agrégation : environnement d’intégration Analyse en ligne (OLAP) de documents Décembre 2007

60 MERCI - Soutenance de thèse en informatique
Décembre 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. Analyse en ligne (OLAP) de documents Décembre 2007


Télécharger ppt "Analyse en ligne (OLAP) de documents"

Présentations similaires


Annonces Google