La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS

Présentations similaires


Présentation au sujet: "MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS"— Transcription de la présentation:

1 MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. Spécifier un titre plus général qui parle des opérations de manipulation Ronan Tournier

2 Introduction : Cadre d’étude
Plan Introduction : Cadre d’étude Contexte Exemple Problématique Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives 3 parties principales. - - - Impact des concepts sur les opérations de manipulation multidimensionnelle EDA 2007

3 Analyse en ligne (OLAP)
Contexte Analyse en ligne (OLAP) Architecture du cadre de nos travaux… Contexte de ces travaux EDA 2007

4 Pourquoi se soucier des documents ?
Contexte Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI (système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents) Limite: environnement rigide Evolution : XML, format prometteur Envisager les documents dans le système Ajout de documents dans l’analyse en ligne 2 Types de documents XML [Fuhr-01] Limite = pourquoi les documents n’ont pas encore été intégrés Evolution = ce que promet XML EDA 2007

5 [1] Documents orientés données
Contexte [1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures… De nombreux travaux de recherche Alimentation : intégration de données XML [Golfarelli-01]… Modélisation : XML multidimensionnel [Boussaid-06]… Manipulation : opérateur cube pour XML [Wiwatwattana-07]… EDA 2007

6 [2] Documents orientés documents
Contexte [2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages… Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]… Basé sur des analyses numériques EDA 2007

7 Analyse multidimensionnelle
Exemple Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 3 publications Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse multidimensionnelle de document ; analyse de citations de publications scientifiques ; nécessité de fonctions d’agrégation adaptées. EDA 2007

8 Comment analyser un indicateur textuel ?
Problématique Comment analyser un indicateur textuel ? Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles numériques Conçus pour l’analyse de données transactionnelles Spécification d’analyse peu flexible EDA 2007

9 Pourquoi un nouveau modèle ?
Problématique Pourquoi un nouveau modèle ? Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible Analyse de documents… Remise en cause de la manipulation (basée sur les données numériques) La navigation s’appuie sur la structure hiérarchique du document Conséquence : la manipulation s’en trouve changée EDA 2007

10 Introduction :cadre de l’étude Modèle conceptuel
MODELE Introduction :cadre de l’étude Modèle conceptuel Concept : Dimensions regroupées en Galaxie Application Manipulations multidimensionnelles Conclusion et perspectives EDA 2007

11 Un seul concept : Dimension
Modèle Caractéristiques Un seul concept : Dimension Pas de fait => simplification de la modélisation avec un unique concept Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents Cadre applicatif Analyse de publications scientifiques EDA 2007

12 Dimension Di=(ADi, HDi, IDi, IStarDi)
Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances EDA 2007

13 Dimension Di=(ADi, HDi, IDi, IStarDi)
Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse (attribut) EDA 2007

14 Dimension Di=(ADi, HDi, IDi, IStarDi)
Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances {article1, article2,…} article1 temp3 auteur6 conference2 EDA 2007

15 Galaxie G=(DG, StarG, LkG)
Concepts Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances entre elles (liens récursifs) article1.reference3 article12 {Temps, Auteurs, Conference } appartiennent à StarG(Articles) {Articles, Temps, Auteurs, Conference…} EDA 2007

16 Exemple: analyse de publications et de projets
Application Exemple: analyse de publications et de projets Les nœuds centraux représentent l’ensemble des interactions possibles entre les dimensions, chacune pouvant être un sujet d’analyse analysé selon les autres. EDA 2007

17 Introduction : cadre de l’étude Modèle conceptuel
MANIPULATION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Opérations de manipulation Exploitation des liens Conclusion et perspectives EDA 2007

18 Manipulations multidimensionnelles Opérations revisitées
Sélection du sujet d’analyse Sélection d’une dimension Restriction de la portée de l’analyse Forage dans les données analysées Forage classique et forage sur le sujet Réorientation de l’analyse Réorientation classique et sur le sujet Positionnement des opérations par rapport à OLAP traditionnel EDA 2007

19 Spécification d’une analyse
Opérations Spécification d’une analyse Sélectionner les principaux mot-clefs par section d’articles par auteur, par année EDA 2007

20 Changement du niveau de détail
Opérations Changement du niveau de détail Réorientation Comment exploiter la hiérarchisation des « mesures » EDA 2007

21 Exploitation des liens
Exemple d’emploi des liens Focus ( Count( ARTICLES.HS.Article), ((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>), (CONFERENCES.HConf, <Nom>) )  ) R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK 3 2 1 DEXA - CAiSE Citations d’auteur Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE 3 citations dans une conférence Portée des travaux : Comment analyser le contexte de ces citations ? Contexte des citations R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK XML, Documents XML, Entrepôts de données Fouille de données, Clustering DEXA XML, BD temporelles - CAiSE Fouille de données Fouilles de données, Clustering EDA 2007

22 Introduction : cadre de l’étude Modèle conceptuel
CONCLUSION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives Bilan Perspectives EDA 2007

23 Conclusion et Perspectives
Modèle conceptuel pour l’analyse multidimensionnelle de documents orientés documents Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant l’analyse multidimensionnelle Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique EDA 2007

24 MERCI - EDA 2007, Ronan Tournier
SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. EDA 2007


Télécharger ppt "MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS"

Présentations similaires


Annonces Google