MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. tournier@irit.fr Spécifier un titre plus général qui parle des opérations de manipulation Ronan Tournier
Introduction : Cadre d’étude Plan Introduction : Cadre d’étude Contexte Exemple Problématique Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives 3 parties principales. - - - Impact des concepts sur les opérations de manipulation multidimensionnelle EDA 2007
Analyse en ligne (OLAP) Contexte Analyse en ligne (OLAP) Architecture du cadre de nos travaux… Contexte de ces travaux EDA 2007
Pourquoi se soucier des documents ? Contexte Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI (système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents) Limite: environnement rigide Evolution : XML, format prometteur Envisager les documents dans le système Ajout de documents dans l’analyse en ligne 2 Types de documents XML [Fuhr-01] Limite = pourquoi les documents n’ont pas encore été intégrés Evolution = ce que promet XML EDA 2007
[1] Documents orientés données Contexte [1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures… De nombreux travaux de recherche Alimentation : intégration de données XML [Golfarelli-01]… Modélisation : XML multidimensionnel [Boussaid-06]… Manipulation : opérateur cube pour XML [Wiwatwattana-07]… EDA 2007
[2] Documents orientés documents Contexte [2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages… Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]… Basé sur des analyses numériques EDA 2007
Analyse multidimensionnelle Exemple Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 3 publications Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse multidimensionnelle de document ; analyse de citations de publications scientifiques ; nécessité de fonctions d’agrégation adaptées. EDA 2007
Comment analyser un indicateur textuel ? Problématique Comment analyser un indicateur textuel ? Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles numériques Conçus pour l’analyse de données transactionnelles Spécification d’analyse peu flexible EDA 2007
Pourquoi un nouveau modèle ? Problématique Pourquoi un nouveau modèle ? Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible Analyse de documents… Remise en cause de la manipulation (basée sur les données numériques) La navigation s’appuie sur la structure hiérarchique du document Conséquence : la manipulation s’en trouve changée EDA 2007
Introduction :cadre de l’étude Modèle conceptuel MODELE Introduction :cadre de l’étude Modèle conceptuel Concept : Dimensions regroupées en Galaxie Application Manipulations multidimensionnelles Conclusion et perspectives EDA 2007
Un seul concept : Dimension Modèle Caractéristiques Un seul concept : Dimension Pas de fait => simplification de la modélisation avec un unique concept Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents Cadre applicatif Analyse de publications scientifiques EDA 2007
Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances EDA 2007
Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse (attribut) EDA 2007
Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances {article1, article2,…} article1 temp3 auteur6 conference2 EDA 2007
Galaxie G=(DG, StarG, LkG) Concepts Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances entre elles (liens récursifs) article1.reference3 article12 {Temps, Auteurs, Conference } appartiennent à StarG(Articles) {Articles, Temps, Auteurs, Conference…} EDA 2007
Exemple: analyse de publications et de projets Application Exemple: analyse de publications et de projets Les nœuds centraux représentent l’ensemble des interactions possibles entre les dimensions, chacune pouvant être un sujet d’analyse analysé selon les autres. EDA 2007
Introduction : cadre de l’étude Modèle conceptuel MANIPULATION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Opérations de manipulation Exploitation des liens Conclusion et perspectives EDA 2007
Manipulations multidimensionnelles Opérations revisitées Sélection du sujet d’analyse Sélection d’une dimension Restriction de la portée de l’analyse Forage dans les données analysées Forage classique et forage sur le sujet Réorientation de l’analyse Réorientation classique et sur le sujet Positionnement des opérations par rapport à OLAP traditionnel EDA 2007
Spécification d’une analyse Opérations Spécification d’une analyse Sélectionner les principaux mot-clefs par section d’articles par auteur, par année EDA 2007
Changement du niveau de détail Opérations Changement du niveau de détail Réorientation Comment exploiter la hiérarchisation des « mesures » EDA 2007
Exploitation des liens Exemple d’emploi des liens Focus ( Count( ARTICLES.HS.Article), ((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>), (CONFERENCES.HConf, <Nom>) ) ) R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK 3 2 1 DEXA - CAiSE Citations d’auteur Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE 3 citations dans une conférence Portée des travaux : Comment analyser le contexte de ces citations ? Contexte des citations R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK XML, Documents XML, Entrepôts de données Fouille de données, Clustering DEXA XML, BD temporelles - CAiSE Fouille de données Fouilles de données, Clustering EDA 2007
Introduction : cadre de l’étude Modèle conceptuel CONCLUSION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives Bilan Perspectives EDA 2007
Conclusion et Perspectives Modèle conceptuel pour l’analyse multidimensionnelle de documents orientés documents Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant l’analyse multidimensionnelle Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique EDA 2007
MERCI - EDA 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. EDA 2007