La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Représenter le texte sous forme graphique

Présentations similaires


Présentation au sujet: "Représenter le texte sous forme graphique"— Transcription de la présentation:

1 Représenter le texte sous forme graphique
Transformation des données documentaires Atelier 5 Représenter le texte sous forme graphique Passer des mots à l’image

2 Quelques représentations graphiques
Ecole technique 14, 15 et 16 mars 2011

3 Intellixir – principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011

4 Intellixir – TreeMap des principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011

5 Intellixir – Répartition des principaux concepts du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011

6 Intellixir – principaux auteurs du corpus climat WOS
Ecole technique 14, 15 et 16 mars 2011

7 Sphinx – Présence des centres INRA (sauf Antilles-Guyane) dans le corpus climat ProdINRA
Ecole technique 14, 15 et 16 mars 2011

8 Sphinx + Gephi– Auteurs dans le corpus climat ProdINRA
Ecole technique 14, 15 et 16 mars 2011

9 Ne pas reproduire Gephi– Cartographie du Web of Science - Projet EDWoS – Inist-CNRS Ecole technique 14, 15 et 16 mars 2011

10 Définition Cartographies/espace de représentation (dimensions des données, réduction, projection/spatialisation) Elles éclairent la forme(s) des données présentes dans un système d’information, l’état d’un corpus, l’organisation sous-jacente d’une architecture documentaire / participent de la prospection, de l’évaluation et de la décision F. Ghitalla Ecole technique 14, 15 et 16 mars 2011

11 Pourquoi la visualisation graphique?
Ecole technique 14, 15 et 16 mars 2011

12 Enjeux Pourquoi les cartes? Explorer de grandes masses de données
Comprendre rapidement des systèmes complexes Considérer l’espace et la temporalité des données (personnes, thématiques, etc.) Répondre à des questions transdisciplinaires S’arrêter et prendre le temps d’analyser le système par une radio/cartographie (à intervalle régulier) Ecole technique 14, 15 et 16 mars 2011

13 Pourquoi les cartes? Objectifs Observer Modéliser Intervenir
Les propriétés statistiques des corpus Les relations entre les objets Modéliser Des structures informationnelles Des phénomènes de flux et/ou d’évolution temporelle Intervenir En accompagnant l’évolution du système (repositionnement, mutation, etc.) En favorisant les nouvelles connexions Ecole technique 14, 15 et 16 mars 2011

14 Votre contexte métier Vos besoins
Pourquoi les cartes? Votre contexte métier Vos besoins (échanges) Ecole technique 14, 15 et 16 mars 2011

15 Production des cartographies
Ecole technique 14, 15 et 16 mars 2011

16 Cycle de production des cartographies
Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Ecole technique 14, 15 et 16 mars 2011

17 Cycle de production des cartographies
Corpus commun ProdINRA Réchauffement climatique Sélection des sources (BDD scientifiques internes et/ou externes, web, réseaux sociaux, données d’usage, …) Traitement, filtrage et enrichissement des données (quels indicateurs? réduction des dimensions, …) Spatialisation et production des vues (application des algorithmes, recherche des patterns robustes, mise en forme de la carte) Retours de cycles d’exploration/conception Expériences nuage de mots avec Wordle Construction d’un réseau de copublication avec Gephi Ecole technique 14, 15 et 16 mars 2011

18 Cycle de production des cartographies
Quelles données pour quel message? Noms de personnes Collaborations Affiliations Relations Dates Evolution temporelle Références bibliographiques Personnes/groupes d’autorité Localisations Compétences Mots-clés, titres, résumés Thématiques URL Répartition géographique Ecole technique 14, 15 et 16 mars 2011

19 Cycle de production des cartographies
Qualité des données Homogénéité des intitulés (INRA/Institut National de la Recherche Agronomique/Inra/…) Nettoyage manuel ou assisté des entités nommées (fusion, correction) Cohérence des niveaux de l’information (ex: région vs. pays, année vs. mois) Homogénéisation des champs, surtout en cas de sources hétérogènes Exhaustivité des informations pour tous les items considérés Qualification manuelle des données manquantes Normalisation typographique, linguistique, lexicale Application de règles de transformation, d’outils de TAL (lemmatisation, synonymie, suppression des « mots vides » ou « mots outils »,… ) Ecole technique 14, 15 et 16 mars 2011

20 Exemple sur un nuage de mots
Manip’ Qualité des données Exemple sur un nuage de mots Ecole technique 14, 15 et 16 mars 2011

21 Manip’ qualité des données
Outil Wordle est un logiciel qui génère des nuages de mots à partir d’un texte librement soumis par un utilisateur. Les termes les plus utilisés apparaissent dans une taille de caractère plus importante. Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\wordle\ Fichiers: Wordle1-titresWos-bruts.txt; Wordle2-titresWos-comptages.txt Ecole technique 14, 15 et 16 mars 2011

22 Wordle: accéder à l’outil
Ecole technique 14, 15 et 16 mars 2011

23 Wordle: entrer le corpus
Fichier: Wordle1-titresWos-bruts.txt Ecole technique 14, 15 et 16 mars 2011

24 Wordle: mettre en forme
Ecole technique 14, 15 et 16 mars 2011

25 Wordle: paramétrage par défaut
Ecole technique 14, 15 et 16 mars 2011

26 Wordle: paramétrage par défaut
Sauvegarde Sauvegarde publique Ecole technique 14, 15 et 16 mars 2011

27 Wordle: options linguistiques
Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011

28 Wordle: options linguistiques
Gestion des nombres Gestion de la casse Gestion de la langue Suppression des « mots vides » Ecole technique 14, 15 et 16 mars 2011

29 Wordle: sans prétraitement linguistique
Ecole technique 14, 15 et 16 mars 2011

30 Wordle: sans prétraitement linguistique
Sauvegarde Ecole technique 14, 15 et 16 mars 2011

31 Wordle: travail avancé sur les données
Contrôle des pondérations Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011

32 Wordle: travail avancé sur les données
Contrôle des pondérations Fichier: Wordle2-titresWos-comptages.txt Contrôle des pondérations et des couleurs Ecole technique 14, 15 et 16 mars 2011

33 Wordle: avec contrôle des occurrences
+ fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Ecole technique 14, 15 et 16 mars 2011

34 Wordle: avec contrôle des occurrences
+ fusion des singuliers/pluriels + fusion des noms/gérondifs (-ing) Sauvegarde Ecole technique 14, 15 et 16 mars 2011

35 Exemple d’un réseau de collaboration avec Gephi
Manip’ Construire une carte Exemple d’un réseau de collaboration avec Gephi Ecole technique 14, 15 et 16 mars 2011

36 La spatialisation des données
La spatialisation est l'étape permettant d'associer des coordonnées spatiales aux nœuds d'un graphe en vue de produire une visualisation. Elle s'effectue via un "algorithme de spatialisation", généralement un "force vector" appliquant des principes physiques d'attraction et de répulsion des nœuds en fonction de leurs liens. Source: web-mining.fr Ecole technique 14, 15 et 16 mars 2011

37 Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

38 Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

39 Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

40 Des indicateurs et mesures de connectivité (1)
Qualifier l’aspect général du graphe Diamètre: distance entre les 2 nœuds les plus éloignés Densité: nombre de liens réels/nombre de liens possibles Qualifier les nœuds du graphe: Degrees: nombre de liens directs depuis ou vers un nœud Hubs: nœuds qui diffusent beaucoup de liens Authorities: nœuds qui reçoivent beaucoup de liens Ecole technique 14, 15 et 16 mars 2011

41 Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Ecole technique 14, 15 et 16 mars 2011

42 Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

43 Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

44 Des indicateurs et mesures de connectivité (2)
Repérer des points centraux dans le graphe autour desquels on va opérer des regroupements Betweeness centrality: nombre de fois qu’un nœud se trouve sur les plus courts chemins entre deux autres nœuds (« passage obligé »: contrôle) Closeness centrality: un nœud central de ce point de vue a des distances minimales par rapport aux autres nœuds (« agent de transmission » de l’information vs. Indépendance) Clusters: groupes de nœuds fortement interconnectés Ecole technique 14, 15 et 16 mars 2011

45 Des algorithmes de spatialisation
Ils sont basés sur les forces d’attraction et de répulsion OpenOrd: adapté aux très grands graphes non dirigés, utile pour distinguer des clusters, rapide, jusqu’à plus d’1 million de nœuds Fruchterman-Reingold: adapté aux très grands graphes non dirigés, un classique Yifan Hu: met en lumière les hiérarchies ForceAtlas: meilleure qualité pour l’interprétation, « explorer des données réelles dans une perspective scientifique », mettre en valeur les « authorities » Ecole technique 14, 15 et 16 mars 2011

46 Manip’ construire une carte
Outil est un logiciel Open Source pour visualiser et analyser graphiquement les réseaux. Il utilise un moteur de rendu en 3D qui permet la diffusion de graphiques en temps réel. Utilisez Gephi pour explorer, analyser, spatialiser, filtrer, clustériser et exporter tous types de graphiques. Technologie Java NetBeans: modulable, évolutif, mises à jour auto Ecole technique 14, 15 et 16 mars 2011

47 Manip’ construire une carte (2)
Formats d’import * GEXF * GDF * GML * GraphML * Pajek NET * GraphViz DOT * CSV * UCINET DL * Tulip TPL * XGMML Données Texte du champ ‘Title’ des notices Wos Localisation: cle_usb:\atelier5-graph\gephi\ Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011

48 Gephi: les vues : manipuler le graphe
: visualisation des données en tables : travail graphique du graphe avant export Ecole technique 14, 15 et 16 mars 2011

49 Gephi: charger des données
1 3 2 Fichier:ProdInra-Centres-Climat.csv Ecole technique 14, 15 et 16 mars 2011

50 Gephi: fonctionnalités
2. Ordonnancement 1.Statistiques 3. Agencement Ecole technique 14, 15 et 16 mars 2011

51 Gephi: mesures statistiques
Ecole technique 14, 15 et 16 mars 2011

52 Gephi: ordonnancement
Ecole technique 14, 15 et 16 mars 2011

53 Gephi: ordonnancement
Taille des nœuds Ecole technique 14, 15 et 16 mars 2011

54 Gephi: ordonnancement
Taille des nœuds En fonction de leur connectivité Ecole technique 14, 15 et 16 mars 2011

55 Gephi: ordonnancement
Taille des nœuds En fonction de leur connectivité Paramètres Ecole technique 14, 15 et 16 mars 2011

56 Gephi: ordonnancement
Couleur des nœuds Ecole technique 14, 15 et 16 mars 2011

57 Gephi: ordonnancement
Couleur des nœuds En fonction de leur rôle Ecole technique 14, 15 et 16 mars 2011

58 Gephi: ordonnancement
Couleur des nœuds En fonction de leur rôle Paramètres Voir les données Ecole technique 14, 15 et 16 mars 2011

59 Gephi: agencement 3. Agencement Ecole technique 14, 15 et 16 mars 2011

60 Gephi: agencement v Choix de l’algo de spatialisation Force Atlas
Ecole technique 14, 15 et 16 mars 2011

61 Gephi: agencement Paramètres: Repulsion = 50 000.0 v
Choix de l’algo de spatialisation Force Atlas 3. Agencement Ecole technique 14, 15 et 16 mars 2011

62 Gephi: mise en forme Afficher les étiquettes Ajuster leur taille
Ecole technique 14, 15 et 16 mars 2011

63 Gephi: vue sur les données
Ecole technique 14, 15 et 16 mars 2011

64 Gephi: travail graphique du graphe
Ecole technique 14, 15 et 16 mars 2011

65 Gephi: sauvegarder le projet
Ecole technique 14, 15 et 16 mars 2011

66 Gephi: enregistrer la carte
Graph file: graphe + mise en forme vers Gephi (.gexf) et d’autres outils SVG/PDF file: l’image du graphe SVG permet de retravailler dans un outils de dessin vectoriel (Inkscape, GIMP,…) Seadragon Web: export du graphe sous sa forme dynamique pour l’exposer sur le web Ecole technique 14, 15 et 16 mars 2011

67 Prêt à publier! Ecole technique 14, 15 et 16 mars 2011

68 Autour de Gephi sur le web
Introduction à Gephi 0.7: Présentation à JavaOne: Le wiki: Des jeux de données à manipuler: Des cartes créées avec Gephi: Le consortium: Une entreprise de services: Des communautés: LinkedIn, Facebook, etc. Ecole technique 14, 15 et 16 mars 2011

69 Des bonus avec Gephi Flem (Firefox Links Explorer Module) est une extension modeste mais utile pour les explorateurs web se servant de fichiers textes pour stocker leurs listes d'urls. Excel bien sûr, mais aussi d'autres logiciels également capables de sortir des listes d'urls sous formes de fichiers TXT ou CSV. Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigué, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. Ecole technique 14, 15 et 16 mars 2011

70 Des outils de cartographies
Réseaux de mots: Newzingo, WordMapper Des outils de visualisation: UCINET, Pajek, NodeXL, GraphViz, Cytoscape, R, Tulip... + Une analyse comparative des outils d’analyse de réseaux sociaux sur Wikipedia: Des plateformes d’analyse : Intellixir (testé par le Pôle Biblio), Sphinx, SPSS Clementine, SPSS Text Mining Builder (quelques licences INRA), Matheo Analyzer, ReseauLu Ecole technique 14, 15 et 16 mars 2011

71 Des idées, des demandes, des projets?
Ecole technique 14, 15 et 16 mars 2011


Télécharger ppt "Représenter le texte sous forme graphique"

Présentations similaires


Annonces Google