Analyse en ligne (OLAP) de documents

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Réseau ATB du CClin Paris-Nord – résultats 2011 LL, 22/11/ Réseau antibiotiques du CClin Paris-Nord : Résultats 2011 Coordination: Dr François LHÉRITEAU.
Les numéros 70 –
Les numéros
Les identités remarquables
Sirop de Liège « industriel »
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Le Concours de Conaissance II Francais I decembre 2012.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Le Concours de Conaissance III Francais I fevrier 2013.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
S ervice A cadémique de l I nspection de l A pprentissage dOrléans-Tours Nombre de CFA par académie 1 CFA académique avec 25 UFA 1 CFA académique avec.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1 INETOP
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
RACINES CARREES Définition Développer avec la distributivité Produit 1
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Formation des commissaires sportifs
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Faiza GHOZZI, Olivier TESTE, Gilles ZURFLUH
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Contexte (1/6) Les systèmes d’aide à la décision XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Particularité des travaux de thèse: Ajouter au système la gestion de documents XML Extraire et analyser Appliquer les techniques OLAP Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Contexte (2/6) Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Contexte (3/6) Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée Mais Systèmes OLAP: données numériques Documents = données textuelles Détailler: Données transactionnelles Rigidité des systèmes OLAP (par rapport aux données peu structurées des documents) Le pourquoi du langage XML (langage populaire, ressources sans cesse en augmentation, devenu un standard de facto) Documents orientés données, documents orientés documents (principalement constitués de texte) Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Contexte (4/6) XML: permet de structurer des documents Extended Markup Language Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Contexte (5/6) XML: exemple de document <These> <Contenu> <Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1"> <Paragraphe>Contenu…</Paragraphe> <Paragraphe>Contenu …</Paragraphe> </Section> <Section Titre="Titre de la section 1.2"> … </Chapitre> <Chapitre Titre="Titre du chapitre 2"> </Contenu> </These> Analyse en ligne (OLAP) de documents Décembre 2007

Analyse multidimensionnelle Contexte (6/6) Analyse multidimensionnelle De l’analyse numérique… Vers l’analyse non numérique   Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK 2 1 - ICEIS 3 CAiSE Nombre de publications par auteur Sujets des 2 publications   Institut Inst1 Auteur Au1 Au2 Au3 Conference DaWaK XML, Temporel Entrepôts de données - ICEIS XML, BD temporelles XML, Fouille, Contraintes CAiSE Modèle conceptuel, Fouille de données Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Problématique Mais Comment analyser données textuelles ? Comment représenter les structures ? Comment alimenter ces structures ? But : Analyser 100% des données d’un SI Données transactionnelles Documents XML Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents État de l’art (1/3) Les systèmes d’aide à la décision XML XML XML Architecture à quatre niveaux que nous considérons au sein de notre équipe Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents État de l’art (2/3) Entrepôts et XML Entrepôts de données XML [Oracle]… Pas d’intégration de documents Entrepôts de documents XML [Xylème]… Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents État de l’art (2/3) Magasins et XML Intégration de données XML [Golfarelli-01]… Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]… Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents État de l’art (3/3) Analyse et XML Analyse de documents [McCabe-00]… Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents État de l’art (3/3) Actuellement OLAP ne gère pas Données textuelles Structure Contenu Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (2/7) Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (3/7) Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (4/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (5/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles Attribut Faible = complément sémantique d’un paramètre Paramètre = niveau de granularité d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (6/7) Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances Exemple d’instance d’auteur Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Modèle conceptuel (7/7) Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Exemple Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (1/6) AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (2/6) Principe d’agrégation Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (3/6) Problématique Agréger des données textuelles Reconstituer une règle d’agrégation Règle d’agrégation: ontologie Ontologie légère [Lassila-01] Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (4/6) Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (5/6) Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007

Fonction d’agrégation (6/6) Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (1/6) Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (2/6) But: « Manipuler une galaxie » Opérations OLAP Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (3/6) Opérations OLAP [Ravat-07e] revisitées Focalisation Restriction Forage Rotation Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (4/6) Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (4/6) Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (5/6) Changement du niveau de détail: Rotation Analyse en ligne (OLAP) de documents Décembre 2007

Opérations de manipulation (6/6) Exploitation des liens   R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER 3 2 1 SSDBM - DaWaK Nombre de fois qu’un auteur est cité Auteur cité 3 fois dans une conférence Portée des travaux : Comment analyser le contexte des citations ? Context of the citations   R.Institut Inst1 R.Auteur A1 A2 A3 Conférence ER XML, Documents XML, Entrepôt de données Fouille de données, Clustering SSDBM XML, BD Temporelle - DaWaK Fouille de données Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Plan Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Démarche d’intégration (1/5) Analyse en ligne (OLAP) de documents Décembre 2007

Démarche d’intégration (2/5) Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007

Démarche d’intégration (3/5) Conceptions de BDM Démarches ascendantes [Golfarelli-98]… Démarches descendantes [Kimball-96]… Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007

Démarche d’intégration (4/5) Étapes Analyse en ligne (OLAP) de documents Décembre 2007

Analyses concurrentes (1/3) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

Analyses concurrentes (2/3) Spécification des besoins Identification des attributs Spécification d’une matrice des besoins Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007

Analyses concurrentes (3/3) Analyse des sources Identifier Contenu Structure du contenu Méta données Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Confrontation (1/2) Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Confrontation (2/2) Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007

Enrichissement et chargement Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Validation Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Architecture (1/3) 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Architecture (2/3) Magasin de données Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Architecture (3/3) Restitution / analyse Analyse en ligne (OLAP) de documents Décembre 2007

Outil et restitution d’analyses (1/2) Spécification d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

Outil et restitution d’analyses (2/2) Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Conclusion Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Bilan général (1/3) Analyse en ligne de documents Modèle en galaxie Généralisation Concept unique Spécificité des documents Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Bilan général (2/3) Analyse en ligne de documents Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Bilan général (3/3) Analyse en ligne de documents Démarche Processus mixte Conception d’une galaxie Intégration de documents XML Analyse en ligne (OLAP) de documents Décembre 2007

Analyse en ligne (OLAP) de documents Perspectives Données semi-structurées Gestion de versions Evaluation de performances Visualisation adaptée Fonctions d’agrégation : environnement d’intégration Analyse en ligne (OLAP) de documents Décembre 2007

MERCI - Soutenance de thèse en informatique Décembre 2007, Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université Paul Sabatier, Toulouse III. Analyse en ligne (OLAP) de documents Décembre 2007