La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier.

Présentations similaires


Présentation au sujet: "Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier."— Transcription de la présentation:

1 Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse.

2 IRIT, SIG/ED EDA Plan Introduction : Cadre d’étude Contexte Exemple Problématique Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives

3 IRIT, SIG/ED EDA Contexte Analyse en ligne (OLAP) Contexte de ces travaux

4 IRIT, SIG/ED EDA Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI (système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents) Limite: environnement rigide Evolution : XML, format prometteur Envisager les documents dans le système Ajout de documents dans l’analyse en ligne 2 Types de documents XML [Fuhr-01] Contexte

5 IRIT, SIG/ED EDA [1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures… De nombreux travaux de recherche Alimentation : intégration de données XML [Golfarelli-01]… Modélisation : XML multidimensionnel [Boussaid-06]… Manipulation : opérateur cube pour XML [Wiwatwattana-07]… Contexte

6 IRIT, SIG/ED EDA [2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages… Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]… Basé sur des analyses numériques Contexte

7 IRIT, SIG/ED EDA Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Sujet des publications Nombre de publications par auteur Exemple InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK 21- ICEIS 13- CAiSE -12 InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes - CAiSE - Entrepôts de données Modèle conceptuel, Fouille de données Sujets des 3 publications

8 IRIT, SIG/ED EDA Problématique Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles numériques Conçus pour l’analyse de données transactionnelles Spécification d’analyse peu flexible Comment analyser un indicateur textuel ?

9 IRIT, SIG/ED EDA Limites de la modélisation  Mesures textuelles non gérées  Structure documentaire non exploitée  Spécification d’analyses peu flexible Analyse de documents… Remise en cause de la manipulation (basée sur les données numériques) La navigation s’appuie sur la structure hiérarchique du document Conséquence : la manipulation s’en trouve changée Pourquoi un nouveau modèle ? Problématique

10 IRIT, SIG/ED EDA MODELE Introduction :cadre de l’étude Modèle conceptuel Concept : Dimensions regroupées en Galaxie Application Manipulations multidimensionnelles Conclusion et perspectives

11 IRIT, SIG/ED EDA Modèle Caractéristiques Un seul concept : Dimension Pas de fait => simplification de la modélisation avec un unique concept Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents Cadre applicatif Analyse de publications scientifiques

12 IRIT, SIG/ED EDA Concepts Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble d’attributs H Di = ensemble de hiérarchies I Di = ensemble d’instances IStar Di = fonction d’association des instances

13 IRIT, SIG/ED EDA Concepts Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble d’attributs H Di = ensemble de hiérarchies Hiérarchies H i =(Param Hi, Weak Hi ) Param Hi = liste ordonnée de paramètres Weak Hi = association des attributs faibles Paramètre = niveau de granularité d’analyse (attribut) Attribut Faible = complément sémantique d’un paramètre

14 IRIT, SIG/ED EDA Concepts Dimension D i =(A Di, H Di, I Di, IStar Di ) A Di = ensemble d’attributs H Di = ensemble de hiérarchies I Di = ensemble d’instances IStar Di = fonction d’association des instances {article 1, article 2,…} article 1 temp 3 auteur 6 conference 2

15 IRIT, SIG/ED EDA Concepts Galaxie G=(D G, Star G, Lk G ) D G = ensemble de dimensions Star G = fonction d’association entre dimensions Lk G = ensemble de fonctions liant des instances entre elles (liens récursifs) {Articles, Temps, Auteurs, Conference…} {Temps, Auteurs, Conference } appartiennent à Star G (Articles) article 1.reference 3 article 12

16 IRIT, SIG/ED EDA Application Exemple: analyse de publications et de projets

17 IRIT, SIG/ED EDA MANIPULATION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Opérations de manipulation Exploitation des liens Conclusion et perspectives

18 IRIT, SIG/ED EDA Manipulation Manipulations multidimensionnelles Opérations revisitées Sélection du sujet d’analyse Sélection d’une dimension Restriction de la portée de l’analyse Forage dans les données analysées Forage classique et forage sur le sujet Réorientation de l’analyse Réorientation classique et sur le sujet

19 IRIT, SIG/ED EDA Opérations Spécification d’une analyse Sélectionner les principaux mot-clefs par section d’articles par auteur, par année

20 IRIT, SIG/ED EDA Changement du niveau de détail Réorientation Opérations

21 IRIT, SIG/ED EDA Exploitation des liens Exemple d’emploi des liens Focus ( Count( ARTICLES.HS.Article), ((ARTICLES.Reference.AUTEURS.HA, ), (CONFERENCES.HConf, ) ) ) R.InstitutInst1 R.AuteurAu1Au2Au3 Conference DaWaK XML, Documents XML, Entrepôts de données Fouille de données, Clustering DEXA XML, BD temporelles -- CAiSE Fouille de données Fouilles de données, Clustering R.InstitutInst1 R.AuteurAu1Au2Au3 Conference DaWaK 321 DEXA 2-- CAiSE 112 Contexte des citations Citations d’auteur 3 citations dans une conférence Portée des travaux : Comment analyser le contexte de ces citations ? InstitutInst1 AuteurAu1Au2Au3 Conference DaWaK 21- ICEIS 13- CAiSE -12

22 IRIT, SIG/ED EDA CONCLUSION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives Bilan Perspectives

23 IRIT, SIG/ED EDA Conclusion et Perspectives Conclusion Modèle conceptuel pour l’analyse multidimensionnelle de documents orientés documents Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant l’analyse multidimensionnelle Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique

24 IRIT, SIG/ED EDA MERCI EDA 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III.


Télécharger ppt "Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier."

Présentations similaires


Annonces Google