Représenter le texte sous forme graphique Transformation des données documentaires Atelier 5 Représenter le texte sous forme graphique Passer des mots à l’image
Quelques représentations graphiques Ecole technique 14, 15 et 16 mars 2011
Intellixir – principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011
Intellixir – TreeMap des principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011
Intellixir – Répartition des principaux concepts du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011
Intellixir – principaux auteurs du corpus climat WOS Ecole technique 14, 15 et 16 mars 2011
Sphinx – Présence des centres INRA (sauf Antilles-Guyane) dans le corpus climat ProdINRA Ecole technique 14, 15 et 16 mars 2011
Sphinx + Gephi– Auteurs dans le corpus climat ProdINRA Ecole technique 14, 15 et 16 mars 2011
Ne pas reproduire Gephi– Cartographie du Web of Science - Projet EDWoS – Inist-CNRS Ecole technique 14, 15 et 16 mars 2011
Définition Cartographies/espace de représentation (dimensions des données, réduction, projection/spatialisation) Elles éclairent la forme(s) des données présentes dans un système d’information, l’état d’un corpus, l’organisation sous-jacente d’une architecture documentaire / participent de la prospection, de l’évaluation et de la décision F. Ghitalla Ecole technique 14, 15 et 16 mars 2011
Pourquoi la visualisation graphique? Ecole technique 14, 15 et 16 mars 2011
Enjeux Pourquoi les cartes? Explorer de grandes masses de données Comprendre rapidement des systèmes complexes Considérer l’espace et la temporalité des données (personnes, thématiques, etc.) Répondre à des questions transdisciplinaires S’arrêter et prendre le temps d’analyser le système par une radio/cartographie (à intervalle régulier) Ecole technique 14, 15 et 16 mars 2011
Pourquoi les cartes? Objectifs Observer Modéliser Intervenir Les propriétés statistiques des corpus Les relations entre les objets Modéliser Des structures informationnelles Des phénomènes de flux et/ou d’évolution temporelle Intervenir En accompagnant l’évolution du système (repositionnement, mutation, etc.) En favorisant les nouvelles connexions Ecole technique 14, 15 et 16 mars 2011
Votre contexte métier Vos besoins Pourquoi les cartes? Votre contexte métier Vos besoins (échanges) Ecole technique 14, 15 et 16 mars 2011
Production des cartographies Ecole technique 14, 15 et 16 mars 2011
Cycle de production des cartographies Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Ecole technique 14, 15 et 16 mars 2011
Cycle de production des cartographies Corpus commun ProdINRA Réchauffement climatique Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Expériences nuage de mots avec Wordle Construction d’un réseau de copublication avec Gephi Ecole technique 14, 15 et 16 mars 2011
Cycle de production des cartographies Quelles données pour quel message? Noms de personnes Collaborations Affiliations Relations Dates Evolution temporelle Références bibliographiques Personnes/groupes d’autorité Localisations Compétences Mots-clés, titres, résumés Thématiques URL Répartition géographique … Ecole technique 14, 15 et 16 mars 2011
Cycle de production des cartographies Qualité des données Homogénéité des intitulés (INRA/Institut National de la Recherche Agronomique/Inra/…) Nettoyage manuel ou assisté des entités nommées (fusion, correction) Cohérence des niveaux de l’information (ex: région vs. pays, année vs. mois) Homogénéisation des champs, surtout en cas de sources hétérogènes Exhaustivité des informations pour tous les items considérés Qualification manuelle des données manquantes Normalisation typographique, linguistique, lexicale Application de règles de transformation, d’outils de TAL (lemmatisation, synonymie, suppression des « mots vides » ou « mots outils »,… ) Ecole technique 14, 15 et 16 mars 2011
Exemple sur un nuage de mots Manip’ Qualité des données Exemple sur un nuage de mots Ecole technique 14, 15 et 16 mars 2011
Manip’ qualité des données Outil Wordle est un logiciel qui génère des nuages de mots à partir d’un texte librement soumis par un utilisateur. Les termes les plus utilisés apparaissent dans une taille de caractère plus importante. http://www.wordle.net/ Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\wordle\ Fichiers: Wordle1-titresWos-bruts.txt; Wordle2-titresWos-comptages.txt Ecole technique 14, 15 et 16 mars 2011
Wordle: accéder à l’outil http://www.wordle.net/ Ecole technique 14, 15 et 16 mars 2011
Wordle: entrer le corpus http://www.wordle.net/create Fichier: Wordle1-titresWos-bruts.txt Ecole technique 14, 15 et 16 mars 2011
Wordle: mettre en forme Ecole technique 14, 15 et 16 mars 2011
Wordle: paramétrage par défaut Ecole technique 14, 15 et 16 mars 2011
Wordle: paramétrage par défaut Sauvegarde Sauvegarde publique Ecole technique 14, 15 et 16 mars 2011
Wordle: options linguistiques Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011
Wordle: options linguistiques Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011
Wordle: sans prétraitement linguistique Ecole technique 14, 15 et 16 mars 2011
Wordle: sans prétraitement linguistique Sauvegarde Ecole technique 14, 15 et 16 mars 2011
Wordle: travail avancé sur les données Contrôle des pondérations Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011
Wordle: travail avancé sur les données Contrôle des pondérations Fichier: Wordle2-titresWos-comptages.txt Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011
Wordle: avec contrôle des occurrences + fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Ecole technique 14, 15 et 16 mars 2011
Wordle: avec contrôle des occurrences + fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Sauvegarde Ecole technique 14, 15 et 16 mars 2011
Exemple d’un réseau de collaboration avec Gephi Manip’ Construire une carte Exemple d’un réseau de collaboration avec Gephi Ecole technique 14, 15 et 16 mars 2011
La spatialisation des données La spatialisation est l'étape permettant d'associer des coordonnées spatiales aux nœuds d'un graphe en vue de produire une visualisation. Elle s'effectue via un "algorithme de spatialisation", généralement un "force vector" appliquant des principes physiques d'attraction et de répulsion des nœuds en fonction de leurs liens. Source: web-mining.fr Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (1) Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
Des indicateurs et mesures de connectivité (2) Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
Des algorithmes de spatialisation Ils sont basés sur les forces d’attraction et de répulsion OpenOrd: adapté aux très grands graphes non dirigés, utile pour distinguer des clusters, rapide, jusqu’à plus d’1 million de nœuds Fruchterman-Reingold: adapté aux très grands graphes non dirigés, un classique Yifan Hu: met en lumière les hiérarchies ForceAtlas: meilleure qualité pour l’interprétation, « explorer des données réelles dans une perspective scientifique », mettre en valeur les « authorities » Ecole technique 14, 15 et 16 mars 2011
Manip’ construire une carte Outil est un logiciel Open Source pour visualiser et analyser graphiquement les réseaux. Il utilise un moteur de rendu en 3D qui permet la diffusion de graphiques en temps réel. Utilisez Gephi pour explorer, analyser, spatialiser, filtrer, clustériser et exporter tous types de graphiques. http://gephi.org/ Technologie Java NetBeans: modulable, évolutif, mises à jour auto Ecole technique 14, 15 et 16 mars 2011
Manip’ construire une carte (2) Formats d’import * GEXF * GDF * GML * GraphML * Pajek NET * GraphViz DOT * CSV * UCINET DL * Tulip TPL * XGMML Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\gephi\ Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011
Gephi: les vues : manipuler le graphe : visualisation des données en tables : travail graphique du graphe avant export Ecole technique 14, 15 et 16 mars 2011
Gephi: charger des données 1 3 2 Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011
Gephi: fonctionnalités 2. Ordonnancement 1.Statistiques 3. Agencement Ecole technique 14, 15 et 16 mars 2011
Gephi: mesures statistiques Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Taille des nœuds Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Taille des nœuds En fonction de leur connectivité Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Taille des nœuds En fonction de leur connectivité Paramètres Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Couleur des nœuds Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Couleur des nœuds En fonction de leur rôle Ecole technique 14, 15 et 16 mars 2011
Gephi: ordonnancement Couleur des nœuds En fonction de leur rôle Paramètres Voir les données Ecole technique 14, 15 et 16 mars 2011
Gephi: agencement 3. Agencement Ecole technique 14, 15 et 16 mars 2011
Gephi: agencement v Choix de l’algo de spatialisation Force Atlas Ecole technique 14, 15 et 16 mars 2011
Gephi: agencement Paramètres: Repulsion = 50 000.0 v Choix de l’algo de spatialisation Force Atlas 3. Agencement Ecole technique 14, 15 et 16 mars 2011
Gephi: mise en forme Afficher les étiquettes Ajuster leur taille Ecole technique 14, 15 et 16 mars 2011
Gephi: vue sur les données Ecole technique 14, 15 et 16 mars 2011
Gephi: travail graphique du graphe Ecole technique 14, 15 et 16 mars 2011
Gephi: sauvegarder le projet Ecole technique 14, 15 et 16 mars 2011
Gephi: enregistrer la carte Graph file: graphe + mise en forme vers Gephi (.gexf) et d’autres outils SVG/PDF file: l’image du graphe SVG permet de retravailler dans un outils de dessin vectoriel (Inkscape, GIMP,…) Seadragon Web: export du graphe sous sa forme dynamique pour l’exposer sur le web Ecole technique 14, 15 et 16 mars 2011
Prêt à publier! Ecole technique 14, 15 et 16 mars 2011
Autour de Gephi sur le web Introduction à Gephi 0.7: http://www.web-mining.fr/20100314/introduction-de-gephi-07-en-vid%C3%A9o Présentation à JavaOne: http://vimeo.com/14899695 Le wiki: http://gephi.org Des jeux de données à manipuler: http://wiki.gephi.org/index.php?title=Datasets Des cartes créées avec Gephi: http://ateliercartographie.com/ Le consortium: http://consortium.gephi.org/ Une entreprise de services: http://fr.linkfluence.net/ Des communautés: LinkedIn, Facebook, etc. Ecole technique 14, 15 et 16 mars 2011
Des bonus avec Gephi Flem (Firefox Links Explorer Module) est une extension modeste mais utile pour les explorateurs web se servant de fichiers textes pour stocker leurs listes d'urls. Excel bien sûr, mais aussi d'autres logiciels également capables de sortir des listes d'urls sous formes de fichiers TXT ou CSV. https://addons.mozilla.org/fr/firefox/search/?q=flem&cat=all&x=0&y=0 Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigué, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. https://addons.mozilla.org/fr/firefox/addon/navicrawler/ Ecole technique 14, 15 et 16 mars 2011
Des outils de cartographies Réseaux de mots: Newzingo, WordMapper Des outils de visualisation: UCINET, Pajek, NodeXL, GraphViz, Cytoscape, R, Tulip... + Une analyse comparative des outils d’analyse de réseaux sociaux sur Wikipedia: http://en.wikipedia.org/wiki/Social_network_analysis_software Des plateformes d’analyse : Intellixir (testé par le Pôle Biblio), Sphinx, SPSS Clementine, SPSS Text Mining Builder (quelques licences INRA), Matheo Analyzer, ReseauLu Ecole technique 14, 15 et 16 mars 2011
Des idées, des demandes, des projets? Ecole technique 14, 15 et 16 mars 2011