Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parClaudine Paquette Modifié depuis plus de 9 années
1
Représenter le texte sous forme graphique
Transformation des données documentaires Atelier 5 Représenter le texte sous forme graphique Passer des mots à l’image
2
Quelques représentations graphiques
Ecole technique 14, 15 et 16 mars 2011
3
Intellixir – principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011
4
Intellixir – TreeMap des principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011
5
Intellixir – Répartition des principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011
6
Intellixir – principaux auteurs du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011
7
Sphinx – Présence des centres INRA (sauf Antilles-Guyane) dans le corpus climat ProdINRA
Ecole technique 14, 15 et 16 mars 2011
8
Sphinx + Gephi– Auteurs dans le corpus climat ProdINRA
Ecole technique 14, 15 et 16 mars 2011
9
Ne pas reproduire Gephi– Cartographie du Web of Science - Projet EDWoS – Inist-CNRS Ecole technique 14, 15 et 16 mars 2011
10
Définition Cartographies/espace de représentation (dimensions des données, réduction, projection/spatialisation) Elles éclairent la forme(s) des données présentes dans un système d’information, l’état d’un corpus, l’organisation sous-jacente d’une architecture documentaire / participent de la prospection, de l’évaluation et de la décision F. Ghitalla Ecole technique 14, 15 et 16 mars 2011
11
Pourquoi la visualisation graphique?
Ecole technique 14, 15 et 16 mars 2011
12
Enjeux Pourquoi les cartes? Explorer de grandes masses de données
Comprendre rapidement des systèmes complexes Considérer l’espace et la temporalité des données (personnes, thématiques, etc.) Répondre à des questions transdisciplinaires S’arrêter et prendre le temps d’analyser le système par une radio/cartographie (à intervalle régulier) Ecole technique 14, 15 et 16 mars 2011
13
Pourquoi les cartes? Objectifs Observer Modéliser Intervenir
Les propriétés statistiques des corpus Les relations entre les objets Modéliser Des structures informationnelles Des phénomènes de flux et/ou d’évolution temporelle Intervenir En accompagnant l’évolution du système (repositionnement, mutation, etc.) En favorisant les nouvelles connexions Ecole technique 14, 15 et 16 mars 2011
14
Votre contexte métier Vos besoins
Pourquoi les cartes? Votre contexte métier Vos besoins (échanges) Ecole technique 14, 15 et 16 mars 2011
15
Production des cartographies
Ecole technique 14, 15 et 16 mars 2011
16
Cycle de production des cartographies
Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Ecole technique 14, 15 et 16 mars 2011
17
Cycle de production des cartographies
Corpus commun ProdINRA Réchauffement climatique Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Expériences nuage de mots avec Wordle Construction d’un réseau de copublication avec Gephi Ecole technique 14, 15 et 16 mars 2011
18
Cycle de production des cartographies
Quelles données pour quel message? Noms de personnes Collaborations Affiliations Relations Dates Evolution temporelle Références bibliographiques Personnes/groupes d’autorité Localisations Compétences Mots-clés, titres, résumés Thématiques URL Répartition géographique … Ecole technique 14, 15 et 16 mars 2011
19
Cycle de production des cartographies
Qualité des données Homogénéité des intitulés (INRA/Institut National de la Recherche Agronomique/Inra/…) Nettoyage manuel ou assisté des entités nommées (fusion, correction) Cohérence des niveaux de l’information (ex: région vs. pays, année vs. mois) Homogénéisation des champs, surtout en cas de sources hétérogènes Exhaustivité des informations pour tous les items considérés Qualification manuelle des données manquantes Normalisation typographique, linguistique, lexicale Application de règles de transformation, d’outils de TAL (lemmatisation, synonymie, suppression des « mots vides » ou « mots outils »,… ) Ecole technique 14, 15 et 16 mars 2011
20
Exemple sur un nuage de mots
Manip’ Qualité des données Exemple sur un nuage de mots Ecole technique 14, 15 et 16 mars 2011
21
Manip’ qualité des données
Outil Wordle est un logiciel qui génère des nuages de mots à partir d’un texte librement soumis par un utilisateur. Les termes les plus utilisés apparaissent dans une taille de caractère plus importante. Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\wordle\ Fichiers: Wordle1-titresWos-bruts.txt; Wordle2-titresWos-comptages.txt Ecole technique 14, 15 et 16 mars 2011
22
Wordle: accéder à l’outil
Ecole technique 14, 15 et 16 mars 2011
23
Wordle: entrer le corpus
Fichier: Wordle1-titresWos-bruts.txt Ecole technique 14, 15 et 16 mars 2011
24
Wordle: mettre en forme
Ecole technique 14, 15 et 16 mars 2011
25
Wordle: paramétrage par défaut
Ecole technique 14, 15 et 16 mars 2011
26
Wordle: paramétrage par défaut
Sauvegarde Sauvegarde publique Ecole technique 14, 15 et 16 mars 2011
27
Wordle: options linguistiques
Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011
28
Wordle: options linguistiques
Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011
29
Wordle: sans prétraitement linguistique
Ecole technique 14, 15 et 16 mars 2011
30
Wordle: sans prétraitement linguistique
Sauvegarde Ecole technique 14, 15 et 16 mars 2011
31
Wordle: travail avancé sur les données
Contrôle des pondérations Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011
32
Wordle: travail avancé sur les données
Contrôle des pondérations Fichier: Wordle2-titresWos-comptages.txt Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011
33
Wordle: avec contrôle des occurrences
+ fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Ecole technique 14, 15 et 16 mars 2011
34
Wordle: avec contrôle des occurrences
+ fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Sauvegarde Ecole technique 14, 15 et 16 mars 2011
35
Exemple d’un réseau de collaboration avec Gephi
Manip’ Construire une carte Exemple d’un réseau de collaboration avec Gephi Ecole technique 14, 15 et 16 mars 2011
36
La spatialisation des données
La spatialisation est l'étape permettant d'associer des coordonnées spatiales aux nœuds d'un graphe en vue de produire une visualisation. Elle s'effectue via un "algorithme de spatialisation", généralement un "force vector" appliquant des principes physiques d'attraction et de répulsion des nœuds en fonction de leurs liens. Source: web-mining.fr Ecole technique 14, 15 et 16 mars 2011
37
Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
38
Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
39
Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
40
Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011
41
Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Ecole technique 14, 15 et 16 mars 2011
42
Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
43
Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
44
Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011
45
Des algorithmes de spatialisation
Ils sont basés sur les forces d’attraction et de répulsion OpenOrd: adapté aux très grands graphes non dirigés, utile pour distinguer des clusters, rapide, jusqu’à plus d’1 million de nœuds Fruchterman-Reingold: adapté aux très grands graphes non dirigés, un classique Yifan Hu: met en lumière les hiérarchies ForceAtlas: meilleure qualité pour l’interprétation, « explorer des données réelles dans une perspective scientifique », mettre en valeur les « authorities » Ecole technique 14, 15 et 16 mars 2011
46
Manip’ construire une carte
Outil est un logiciel Open Source pour visualiser et analyser graphiquement les réseaux. Il utilise un moteur de rendu en 3D qui permet la diffusion de graphiques en temps réel. Utilisez Gephi pour explorer, analyser, spatialiser, filtrer, clustériser et exporter tous types de graphiques. Technologie Java NetBeans: modulable, évolutif, mises à jour auto Ecole technique 14, 15 et 16 mars 2011
47
Manip’ construire une carte (2)
Formats d’import * GEXF * GDF * GML * GraphML * Pajek NET * GraphViz DOT * CSV * UCINET DL * Tulip TPL * XGMML Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\gephi\ Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011
48
Gephi: les vues : manipuler le graphe
: visualisation des données en tables : travail graphique du graphe avant export Ecole technique 14, 15 et 16 mars 2011
49
Gephi: charger des données
1 3 2 Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011
50
Gephi: fonctionnalités
2. Ordonnancement 1.Statistiques 3. Agencement Ecole technique 14, 15 et 16 mars 2011
51
Gephi: mesures statistiques
Ecole technique 14, 15 et 16 mars 2011
52
Gephi: ordonnancement
Ecole technique 14, 15 et 16 mars 2011
53
Gephi: ordonnancement
Taille des nœuds Ecole technique 14, 15 et 16 mars 2011
54
Gephi: ordonnancement
Taille des nœuds En fonction de leur connectivité Ecole technique 14, 15 et 16 mars 2011
55
Gephi: ordonnancement
Taille des nœuds En fonction de leur connectivité Paramètres Ecole technique 14, 15 et 16 mars 2011
56
Gephi: ordonnancement
Couleur des nœuds Ecole technique 14, 15 et 16 mars 2011
57
Gephi: ordonnancement
Couleur des nœuds En fonction de leur rôle Ecole technique 14, 15 et 16 mars 2011
58
Gephi: ordonnancement
Couleur des nœuds En fonction de leur rôle Paramètres Voir les données Ecole technique 14, 15 et 16 mars 2011
59
Gephi: agencement 3. Agencement Ecole technique 14, 15 et 16 mars 2011
60
Gephi: agencement v Choix de l’algo de spatialisation Force Atlas
Ecole technique 14, 15 et 16 mars 2011
61
Gephi: agencement Paramètres: Repulsion = 50 000.0 v
Choix de l’algo de spatialisation Force Atlas 3. Agencement Ecole technique 14, 15 et 16 mars 2011
62
Gephi: mise en forme Afficher les étiquettes Ajuster leur taille
Ecole technique 14, 15 et 16 mars 2011
63
Gephi: vue sur les données
Ecole technique 14, 15 et 16 mars 2011
64
Gephi: travail graphique du graphe
Ecole technique 14, 15 et 16 mars 2011
65
Gephi: sauvegarder le projet
Ecole technique 14, 15 et 16 mars 2011
66
Gephi: enregistrer la carte
Graph file: graphe + mise en forme vers Gephi (.gexf) et d’autres outils SVG/PDF file: l’image du graphe SVG permet de retravailler dans un outils de dessin vectoriel (Inkscape, GIMP,…) Seadragon Web: export du graphe sous sa forme dynamique pour l’exposer sur le web Ecole technique 14, 15 et 16 mars 2011
67
Prêt à publier! Ecole technique 14, 15 et 16 mars 2011
68
Autour de Gephi sur le web
Introduction à Gephi 0.7: Présentation à JavaOne: Le wiki: Des jeux de données à manipuler: Des cartes créées avec Gephi: Le consortium: Une entreprise de services: Des communautés: LinkedIn, Facebook, etc. Ecole technique 14, 15 et 16 mars 2011
69
Des bonus avec Gephi Flem (Firefox Links Explorer Module) est une extension modeste mais utile pour les explorateurs web se servant de fichiers textes pour stocker leurs listes d'urls. Excel bien sûr, mais aussi d'autres logiciels également capables de sortir des listes d'urls sous formes de fichiers TXT ou CSV. Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigué, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. Ecole technique 14, 15 et 16 mars 2011
70
Des outils de cartographies
Réseaux de mots: Newzingo, WordMapper Des outils de visualisation: UCINET, Pajek, NodeXL, GraphViz, Cytoscape, R, Tulip... + Une analyse comparative des outils d’analyse de réseaux sociaux sur Wikipedia: Des plateformes d’analyse : Intellixir (testé par le Pôle Biblio), Sphinx, SPSS Clementine, SPSS Text Mining Builder (quelques licences INRA), Matheo Analyzer, ReseauLu Ecole technique 14, 15 et 16 mars 2011
71
Des idées, des demandes, des projets?
Ecole technique 14, 15 et 16 mars 2011
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.