MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS

Slides:



Advertisements
Présentations similaires
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Advertisements

Approche graphique du nombre dérivé
Analyse en ligne (OLAP) de documents
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
ACTIVITES Le calcul littéral (3).
JXDVDTEK – Une DVDthèque en Java et XML
Amélioration des techniques d'optimisation combinatoire par utilisation d'un mécanisme de retour d'expérience : Application à la sélection de scénarios.
ACCESS Découverte.
Enter Title of Presentation Here
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Manipulation d’XML avec XSL
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Titre conférence lundi 27 mars 2017
Conception d’une application de gestion de fiches études
Expertise et formation du lméca ESIA / Université de Savoie
Interface Homme Machine IHM Pro
Sélection automatique d’index et de vues matérialisées
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Université Mouloud Mammeri de Tizi-Ouzou
Université Paul Sabatier - Toulouse 3 - Département de GMP Enquête Insertion Professionnelle – Promotion
Construire une base de données bibliographiques Elaborer un site web
Des RRA à la diagnosticabilité
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
Bouchra SOUKKARIEH Florence SEDES SIG - Université de Paul Sabatier
OLAP : Un pas vers la navigation
SYSTEMES D’INFORMATION
Test bilan de calcul mental N°1 :
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Cours de Base de Données & Langage SQL
Ecaterina Giacomini Pacurar
Travaux de thèse de Julien FRANCOIS
Conception des Réalisé par : Nassim TIGUENITINE.
1 Couplage dun langage de contrôle de formatage avec un système de formatage existant DEA ISC : 1 avril 2003 Fateh Boulmaiz
Couplage d'un langage de contrôle un système de formatage existant
Méthode de modélisation multidimensionnelle
Université du Québec à Montréal
Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Soutenance finale 12 mars 2004 Présenté par : Alban HERMET
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
École de bibliothéconomie et des sciences de l’information 1 Gestion de l’information électronique (GIE) Maîtrise en sciences de l’information EBSI Université.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
Introduction.
Conférence du groupe X- Environnement, 24 avril 2013 L’impact écologique des infrastructures numériques Cédric Gossart Institut Mines-Télécom Télécom Ecole.
CALENDRIER-PLAYBOY 2020.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Outil de gestion des cartes grises
1 Lionel Bargeot, ENESAD,13 Décembre 2006 IGCS et l'interopérabilité Colloque du 13 décembre 2006 Lionel Bargeot responsable régional du programme IGCS.
Projet de stage d’année IIR4 sous le thème:
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Serveur WEB TAGC SPIP 1.9.2d [11132] est un logiciel libre distribué sous licence GPL. Pour plus d'informations, voir le site
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
France Bilodeau et Catherine Lamy 17 octobre 2014 La recherche dans les bases de données Repère, Cairn, Érudit et Google Scholar.
Prédiction de Jeu dans un Assemblage - Application au Calage
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
PRESTO Programme d’étude de séries temporelles Projet 4 ème année Jean-Frédéric Berthelot Paul-Alain Bugnard Camille Capelle Sébastien Castiel.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
LE DATA WAREHOUSE.
Réunion GafoDonnées: Equipe SIG/IRIT 24/25 janvier 2002
Faiza GHOZZI, Olivier TESTE, Gilles ZURFLUH
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
Activités de recherches de la composante SIG – Entrepôts de données 7 Novembre 2005 IRIT/UT1.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. tournier@irit.fr Spécifier un titre plus général qui parle des opérations de manipulation Ronan Tournier

Introduction : Cadre d’étude Plan Introduction : Cadre d’étude Contexte Exemple Problématique Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives 3 parties principales. - - - Impact des concepts sur les opérations de manipulation multidimensionnelle EDA 2007

Analyse en ligne (OLAP) Contexte Analyse en ligne (OLAP) Architecture du cadre de nos travaux… Contexte de ces travaux EDA 2007

Pourquoi se soucier des documents ? Contexte Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI (système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents) Limite: environnement rigide Evolution : XML, format prometteur Envisager les documents dans le système Ajout de documents dans l’analyse en ligne 2 Types de documents XML [Fuhr-01] Limite = pourquoi les documents n’ont pas encore été intégrés Evolution = ce que promet XML EDA 2007

[1] Documents orientés données Contexte [1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures… De nombreux travaux de recherche Alimentation : intégration de données XML [Golfarelli-01]… Modélisation : XML multidimensionnel [Boussaid-06]… Manipulation : opérateur cube pour XML [Wiwatwattana-07]… EDA 2007

[2] Documents orientés documents Contexte [2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages… Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]… Basé sur des analyses numériques EDA 2007

Analyse multidimensionnelle Exemple Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique   Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 3 publications   Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse multidimensionnelle de document ; analyse de citations de publications scientifiques ; nécessité de fonctions d’agrégation adaptées. EDA 2007

Comment analyser un indicateur textuel ? Problématique Comment analyser un indicateur textuel ? Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles numériques Conçus pour l’analyse de données transactionnelles Spécification d’analyse peu flexible EDA 2007

Pourquoi un nouveau modèle ? Problématique Pourquoi un nouveau modèle ? Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible Analyse de documents… Remise en cause de la manipulation (basée sur les données numériques) La navigation s’appuie sur la structure hiérarchique du document Conséquence : la manipulation s’en trouve changée EDA 2007

Introduction :cadre de l’étude Modèle conceptuel MODELE Introduction :cadre de l’étude Modèle conceptuel Concept : Dimensions regroupées en Galaxie Application Manipulations multidimensionnelles Conclusion et perspectives EDA 2007

Un seul concept : Dimension Modèle Caractéristiques Un seul concept : Dimension Pas de fait => simplification de la modélisation avec un unique concept Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents Cadre applicatif Analyse de publications scientifiques EDA 2007

Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances EDA 2007

Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse (attribut) EDA 2007

Dimension Di=(ADi, HDi, IDi, IStarDi) Concepts Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances {article1, article2,…} article1 temp3 auteur6 conference2 EDA 2007

Galaxie G=(DG, StarG, LkG) Concepts Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances entre elles (liens récursifs) article1.reference3 article12 {Temps, Auteurs, Conference } appartiennent à StarG(Articles) {Articles, Temps, Auteurs, Conference…} EDA 2007

Exemple: analyse de publications et de projets Application Exemple: analyse de publications et de projets Les nœuds centraux représentent l’ensemble des interactions possibles entre les dimensions, chacune pouvant être un sujet d’analyse analysé selon les autres. EDA 2007

Introduction : cadre de l’étude Modèle conceptuel MANIPULATION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Opérations de manipulation Exploitation des liens Conclusion et perspectives EDA 2007

Manipulations multidimensionnelles Opérations revisitées Sélection du sujet d’analyse Sélection d’une dimension Restriction de la portée de l’analyse Forage dans les données analysées Forage classique et forage sur le sujet Réorientation de l’analyse Réorientation classique et sur le sujet Positionnement des opérations par rapport à OLAP traditionnel EDA 2007

Spécification d’une analyse Opérations Spécification d’une analyse Sélectionner les principaux mot-clefs par section d’articles par auteur, par année EDA 2007

Changement du niveau de détail Opérations Changement du niveau de détail Réorientation Comment exploiter la hiérarchisation des « mesures » EDA 2007

Exploitation des liens Exemple d’emploi des liens Focus ( Count( ARTICLES.HS.Article), ((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>), (CONFERENCES.HConf, <Nom>) )  )   R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK 3 2 1 DEXA - CAiSE Citations d’auteur   Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE 3 citations dans une conférence Portée des travaux : Comment analyser le contexte de ces citations ? Contexte des citations   R.Institut Inst1 R.Auteur Au1 Au2 Au3 Conference DaWaK XML, Documents XML, Entrepôts de données Fouille de données, Clustering DEXA XML, BD temporelles - CAiSE Fouille de données Fouilles de données, Clustering EDA 2007

Introduction : cadre de l’étude Modèle conceptuel CONCLUSION Introduction : cadre de l’étude Modèle conceptuel Manipulations multidimensionnelles Conclusion et perspectives Bilan Perspectives EDA 2007

Conclusion et Perspectives Modèle conceptuel pour l’analyse multidimensionnelle de documents orientés documents Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant l’analyse multidimensionnelle Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique EDA 2007

MERCI - EDA 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. EDA 2007