Représenter le texte sous forme graphique

Slides:



Advertisements
Présentations similaires
Création de la base du SI Idée de départ : créer plusieurs couches de données avec chacune un intérêt propre et indépendante. Chaque couche doit pouvoir.
Advertisements

De linformation à la gestion des connaissances Introduction J. LINK-PEZET Dess SIAD Janvier 2001.
Utilisation ou copie interdites sans citation Rémi Bachelet – Ecole Centrale de Lille 1 CentraleWiki : fonctionnement Image : SourceSource École Centrale.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T.
Atelier Wiki 1.Introduction 2.Définition 3.Fonctionnement 4.Ecrire sur un wiki 5.En pratique 6.Glossaire 7.Ressources.
Support.ebsco.com Liste de résultats EBSCOhost Didacticiel.
Excel 2007 et les services Excel. Pourquoi Excel ? Outil privilégié danalyse des données issues des bases multidimensionnelles Ergonomie connue des outils.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Comment choisir une solution technologique de veille sur le marché ?
Nairobi, Kenya, Septembre 2010
! 1 CREATION D'UNE MAQUETTE EXPORT / IMPORT
12 novembre 2012 Grégory Petit
Concevoir un site Web de A à Z Ce cours permet à létudiant de réaliser de façon professionnelle un site internet de A à Z.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Laboratoire Sciences Pour l’Environnement
Construire une base de données bibliographiques Elaborer un site web
Social Computing est spécialisé dans les domaines de laccès à linformation, des réseaux sociaux et de lintelligence collective
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
Traitement de texte ++.
Ing. Informaticien dipl. EPFL
Décembre 2008Évaluation des acquis des élèves de primaire 1 Évaluation Application locale Application web académique Guide destiné aux formateurs académiques.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
IMD Achats Logiciel de gestion des Achats
Administration de bases de données spatiales avec SavGIS
Développement d’IHM* et d’applicatifs spécifiques
Le Travail Collaboratif ...
28 novembre 2012 Grégory Petit
FICHIERS : Définition : Algorithme général:
Module 8 : Maintenance des logiciels à l'aide des services SUS
Module 2 : Préparation de l'analyse des performances du serveur
SCHEMAS ANIMES Avec Cabri-Géomètre et REGRESSI Yves Cortial
La veille numérique : un outil pour s'informer intelligemment &
Visualisation de graphes avec Qt
Réaliser et diffuser un projet intégrant les TIC
CONSTRUIRE SON DIAPORAMA
Arbre GénéalogiqueDiagramme de Classes Comment la visualisation d’une hiérarchie de classes facilitera le travail de notre client ?
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Progiciels de Gestion Intégrés
L’ergonomie des IHM : pourquoi, comment ?
Heg Haute école de gestion de Neuchâtel 24/11/00Cahier théorique 02 V1-01 Prise en main (2) Création et gestion d'une association.
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
4/13/2017 3:41 PM Intégration Visio SharePoint 2010 Application à la création de Workflows Genève -15 Avril 2010 Michel LAPLANE MVP Visio - WGroupe.
TEXT MINING Fouille de textes
P. Pitre, É. Robitaille et P. Herjean Agents de recherche
Introduction à SVG Scalable Vector Graphic. Informations ● Plus d'informations ici (draft, tutoriaux, outils... ): –
Nassim Bouaziz Mariève Bureau
Savoir-être : Fréquenter le CDI
Technologies de communication en éducation Recherche d'informations et ressources numériques Perspectives de recherche G-L Baron 13/09/09.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Tutoriel V_Stage Cliquez pour continuer.
Dreamweaver Séance 1.
Diane Le Hénaff, Equipe ProdInra 5 janvier 2015 Politique de dépôt et de services dans ProdInra.
Nous allons maintenant sélectionner le bouton pour le format MEDLINE et retenir les options 20 résultats par page et Sort by Most Recent (tri par plus.
Elise Pierrot, GSU04 ImageReady, traitement d’image pour le WEB Présentation SI28.
1Boulogne Informatic Club PRESENTATION DE WINDOWS 10.
La bibliométrie Notoriété Visibilité Création du corpus Les outils bibliométriques du WOK Signature Collaborations.
PFEG Principes Fondamentaux de l’Economie et de la Gestion.
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
Bibliothèque cantonale et universitaire de Fribourg Compétences documentaires pour étudiants – lundi 30 mai 2016 Recherche documentaire.
Bibliothèque Centrale de l’École Polytechnique La Recherche Documentaire Economie - HSS Session pratique Ressources Documentaires en Economie-Gestion Vanessa.
1 Master Data Management au SANDRE. GPA 17/10/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
1 Master Data Management au SANDRE. ADD 27/11/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Journée d’étude GRCDI-ESPE Caen-Rouen "L’EMI en questions : enjeux, prescriptions, contenus, apprentissages" Caen, 18 mars 2016 L’EMI sur le web : cartographie.
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
1 Philippe TRIGANO - Université de Technologie de Compiègne - FRANCE Philippe TRIGANO INGÉNIERIE MULTIMÉDIA PÉDAGOGIQUE.
Transcription de la présentation:

Représenter le texte sous forme graphique Transformation des données documentaires Atelier 5 Représenter le texte sous forme graphique Passer des mots à l’image

Quelques représentations graphiques Ecole technique 14, 15 et 16 mars 2011

Intellixir – principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011

Intellixir – TreeMap des principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011

Intellixir – Répartition des principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011

Intellixir – principaux auteurs du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011

Sphinx – Présence des centres INRA (sauf Antilles-Guyane) dans le corpus climat ProdINRA Ecole technique 14, 15 et 16 mars 2011

Sphinx + Gephi– Auteurs dans le corpus climat ProdINRA Ecole technique 14, 15 et 16 mars 2011

Ne pas reproduire Gephi– Cartographie du Web of Science - Projet EDWoS – Inist-CNRS Ecole technique 14, 15 et 16 mars 2011

Définition Cartographies/espace de représentation (dimensions des données, réduction, projection/spatialisation) Elles éclairent la forme(s) des données présentes dans un système d’information, l’état d’un corpus, l’organisation sous-jacente d’une architecture documentaire / participent de la prospection, de l’évaluation et de la décision F. Ghitalla Ecole technique 14, 15 et 16 mars 2011

Pourquoi la visualisation graphique? Ecole technique 14, 15 et 16 mars 2011

Enjeux Pourquoi les cartes? Explorer de grandes masses de données Comprendre rapidement des systèmes complexes Considérer l’espace et la temporalité des données (personnes, thématiques, etc.) Répondre à des questions transdisciplinaires S’arrêter et prendre le temps d’analyser le système par une radio/cartographie (à intervalle régulier) Ecole technique 14, 15 et 16 mars 2011

Pourquoi les cartes? Objectifs Observer Modéliser Intervenir Les propriétés statistiques des corpus Les relations entre les objets Modéliser Des structures informationnelles Des phénomènes de flux et/ou d’évolution temporelle Intervenir En accompagnant l’évolution du système (repositionnement, mutation, etc.) En favorisant les nouvelles connexions Ecole technique 14, 15 et 16 mars 2011

Votre contexte métier Vos besoins Pourquoi les cartes? Votre contexte métier Vos besoins (échanges) Ecole technique 14, 15 et 16 mars 2011

Production des cartographies Ecole technique 14, 15 et 16 mars 2011

Cycle de production des cartographies Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Ecole technique 14, 15 et 16 mars 2011

Cycle de production des cartographies Corpus commun ProdINRA Réchauffement climatique Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Expériences nuage de mots avec Wordle Construction d’un réseau de copublication avec Gephi Ecole technique 14, 15 et 16 mars 2011

Cycle de production des cartographies Quelles données pour quel message? Noms de personnes Collaborations Affiliations Relations Dates Evolution temporelle Références bibliographiques Personnes/groupes d’autorité Localisations Compétences Mots-clés, titres, résumés Thématiques URL Répartition géographique … Ecole technique 14, 15 et 16 mars 2011

Cycle de production des cartographies Qualité des données Homogénéité des intitulés (INRA/Institut National de la Recherche Agronomique/Inra/…) Nettoyage manuel ou assisté des entités nommées (fusion, correction) Cohérence des niveaux de l’information (ex: région vs. pays, année vs. mois) Homogénéisation des champs, surtout en cas de sources hétérogènes Exhaustivité des informations pour tous les items considérés Qualification manuelle des données manquantes Normalisation typographique, linguistique, lexicale Application de règles de transformation, d’outils de TAL (lemmatisation, synonymie, suppression des « mots vides » ou « mots outils »,… ) Ecole technique 14, 15 et 16 mars 2011

Exemple sur un nuage de mots Manip’ Qualité des données Exemple sur un nuage de mots Ecole technique 14, 15 et 16 mars 2011

Manip’ qualité des données Outil Wordle est un logiciel qui génère des nuages de mots à partir d’un texte librement soumis par un utilisateur. Les termes les plus utilisés apparaissent dans une taille de caractère plus importante. http://www.wordle.net/ Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\wordle\ Fichiers: Wordle1-titresWos-bruts.txt; Wordle2-titresWos-comptages.txt Ecole technique 14, 15 et 16 mars 2011

Wordle: accéder à l’outil http://www.wordle.net/ Ecole technique 14, 15 et 16 mars 2011

Wordle: entrer le corpus http://www.wordle.net/create Fichier: Wordle1-titresWos-bruts.txt Ecole technique 14, 15 et 16 mars 2011

Wordle: mettre en forme Ecole technique 14, 15 et 16 mars 2011

Wordle: paramétrage par défaut Ecole technique 14, 15 et 16 mars 2011

Wordle: paramétrage par défaut Sauvegarde Sauvegarde publique Ecole technique 14, 15 et 16 mars 2011

Wordle: options linguistiques Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011

Wordle: options linguistiques Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011

Wordle: sans prétraitement linguistique Ecole technique 14, 15 et 16 mars 2011

Wordle: sans prétraitement linguistique Sauvegarde Ecole technique 14, 15 et 16 mars 2011

Wordle: travail avancé sur les données Contrôle des pondérations Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011

Wordle: travail avancé sur les données Contrôle des pondérations Fichier: Wordle2-titresWos-comptages.txt Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011

Wordle: avec contrôle des occurrences + fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Ecole technique 14, 15 et 16 mars 2011

Wordle: avec contrôle des occurrences + fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Sauvegarde Ecole technique 14, 15 et 16 mars 2011

Exemple d’un réseau de collaboration avec Gephi Manip’ Construire une carte Exemple d’un réseau de collaboration avec Gephi Ecole technique 14, 15 et 16 mars 2011

La spatialisation des données La spatialisation est l'étape permettant d'associer des coordonnées spatiales aux nœuds d'un graphe en vue de produire une visualisation. Elle s'effectue via un "algorithme de spatialisation", généralement un "force vector" appliquant des principes physiques d'attraction et de répulsion des nœuds en fonction de leurs liens. Source: web-mining.fr Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

Des algorithmes de spatialisation Ils sont basés sur les forces d’attraction et de répulsion OpenOrd: adapté aux très grands graphes non dirigés, utile pour distinguer des clusters, rapide, jusqu’à plus d’1 million de nœuds Fruchterman-Reingold: adapté aux très grands graphes non dirigés, un classique Yifan Hu: met en lumière les hiérarchies ForceAtlas: meilleure qualité pour l’interprétation, « explorer des données réelles dans une perspective scientifique », mettre en valeur les « authorities » Ecole technique 14, 15 et 16 mars 2011

Manip’ construire une carte Outil est un logiciel Open Source pour visualiser et analyser graphiquement les réseaux. Il utilise un moteur de rendu en 3D qui permet la diffusion de graphiques en temps réel. Utilisez Gephi pour explorer, analyser, spatialiser, filtrer, clustériser et exporter tous types de graphiques. http://gephi.org/ Technologie Java NetBeans: modulable, évolutif, mises à jour auto Ecole technique 14, 15 et 16 mars 2011

Manip’ construire une carte (2) Formats d’import * GEXF * GDF * GML * GraphML * Pajek NET * GraphViz DOT * CSV * UCINET DL * Tulip TPL * XGMML Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\gephi\ Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011

Gephi: les vues : manipuler le graphe : visualisation des données en tables : travail graphique du graphe avant export Ecole technique 14, 15 et 16 mars 2011

Gephi: charger des données 1 3 2 Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011

Gephi: fonctionnalités 2. Ordonnancement 1.Statistiques 3. Agencement Ecole technique 14, 15 et 16 mars 2011

Gephi: mesures statistiques Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Taille des nœuds Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Taille des nœuds En fonction de leur connectivité Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Taille des nœuds En fonction de leur connectivité Paramètres Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Couleur des nœuds Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Couleur des nœuds En fonction de leur rôle Ecole technique 14, 15 et 16 mars 2011

Gephi: ordonnancement Couleur des nœuds En fonction de leur rôle Paramètres Voir les données Ecole technique 14, 15 et 16 mars 2011

Gephi: agencement 3. Agencement Ecole technique 14, 15 et 16 mars 2011

Gephi: agencement v Choix de l’algo de spatialisation Force Atlas Ecole technique 14, 15 et 16 mars 2011

Gephi: agencement Paramètres: Repulsion = 50 000.0 v Choix de l’algo de spatialisation Force Atlas 3. Agencement Ecole technique 14, 15 et 16 mars 2011

Gephi: mise en forme Afficher les étiquettes Ajuster leur taille Ecole technique 14, 15 et 16 mars 2011

Gephi: vue sur les données Ecole technique 14, 15 et 16 mars 2011

Gephi: travail graphique du graphe Ecole technique 14, 15 et 16 mars 2011

Gephi: sauvegarder le projet Ecole technique 14, 15 et 16 mars 2011

Gephi: enregistrer la carte Graph file: graphe + mise en forme vers Gephi (.gexf) et d’autres outils SVG/PDF file: l’image du graphe SVG permet de retravailler dans un outils de dessin vectoriel (Inkscape, GIMP,…) Seadragon Web: export du graphe sous sa forme dynamique pour l’exposer sur le web Ecole technique 14, 15 et 16 mars 2011

Prêt à publier! Ecole technique 14, 15 et 16 mars 2011

Autour de Gephi sur le web Introduction à Gephi 0.7: http://www.web-mining.fr/20100314/introduction-de-gephi-07-en-vid%C3%A9o Présentation à JavaOne: http://vimeo.com/14899695 Le wiki: http://gephi.org Des jeux de données à manipuler: http://wiki.gephi.org/index.php?title=Datasets Des cartes créées avec Gephi: http://ateliercartographie.com/ Le consortium: http://consortium.gephi.org/ Une entreprise de services: http://fr.linkfluence.net/ Des communautés: LinkedIn, Facebook, etc. Ecole technique 14, 15 et 16 mars 2011

Des bonus avec Gephi Flem (Firefox Links Explorer Module) est une extension modeste mais utile pour les explorateurs web se servant de fichiers textes pour stocker leurs listes d'urls. Excel bien sûr, mais aussi d'autres logiciels également capables de sortir des listes d'urls sous formes de fichiers TXT ou CSV. https://addons.mozilla.org/fr/firefox/search/?q=flem&cat=all&x=0&y=0 Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigué, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. https://addons.mozilla.org/fr/firefox/addon/navicrawler/ Ecole technique 14, 15 et 16 mars 2011

Des outils de cartographies Réseaux de mots: Newzingo, WordMapper Des outils de visualisation: UCINET, Pajek, NodeXL, GraphViz, Cytoscape, R, Tulip... + Une analyse comparative des outils d’analyse de réseaux sociaux sur Wikipedia: http://en.wikipedia.org/wiki/Social_network_analysis_software Des plateformes d’analyse : Intellixir (testé par le Pôle Biblio), Sphinx, SPSS Clementine, SPSS Text Mining Builder (quelques licences INRA), Matheo Analyzer, ReseauLu Ecole technique 14, 15 et 16 mars 2011

Des idées, des demandes, des projets? Ecole technique 14, 15 et 16 mars 2011