Votre « data » je vous la sers comment ? Journée d’étude "Big et Open Data : conséquences et compétences pour les professionnels de l'information ?”, Rennes, 28 mai 2015 Dominique Cotte Réflexions sur la nébuleuse de la « data » et les impacts sur les activités des professionnels de l’information. 1
Déroulé Introduction Prolégomènes : du document à la « data » et retour Open Data Open Resarch Data Les promesses du Big Data Conclusion sur les activités et spécialités de la gestion de l’information 2
Data OpenLinkedBigLong Introduction : Une nouvelle série d’objets à prendre en compte, comment, pourquoi ? 3 Une nouvelle manière de mettre en valeur et en relation des éléments singuliers pour produire de la connaissance Smart Web de données
Documents, données, hybrides… Sont-ils des opposables ? Quels rapports entretiennent ces objets ? Passe-t-on d’un monde à un autre monde ? 4
Construction, structure Est-il légitime de dire d’un document qu’il est « non structuré » ? Et de l’opposer aux données qui seraient, par nature « structurées » ? 5
Brevet 6 Article scientifique « Une » de journal
Des approches plus fines des contenus des documents Data mining, text mining Balisage Gestion de contenus structurés Outils de recherche 7
De nouvelles sources : les documents, dé- composés Du document… … à la donnée Édité Autoporteur Possédant un sens global Pérenne Détachée Volatile Recombinable Dynamique « Le mouvement d’atomisation conduit les professionnels de l’information à changer d’échelle pour l’organisation, la documentation et la description, l’archivage, la mémorisation… des données, de leur appareillage, de leurs métadonnées. » 8
Les modes de production de la donnée Recueil automatique, capteurs Réseaux sociaux Production documentaire démultipliée Appareillages scientifiques Métadonnées 9
Trois exemples Domaine des énergies fossiles : « dématérialistation » de rapports papier parfois anciens (permanence de l’information incluse dans ces études) afin de pouvoir en exploiter et traiter les contenus (dont les données ) Les cahiers de laboratoire dans l’industrie pharmaceutique Publications de l’OCDE, problématique de la ré-utilisation de contenus éditoriaux et de la mixité entre des contenus analytiques (séries statistiques, datasets, et d’éléments de monographie) 10
Cahier de laboratoire 11 Pratiques hétérogènes Ecritures mixtes Copier/coller Analogique/numérique
Site d’accès aux publications de l’OCDE 12
Ce qu’implique l’exploitation des données Au document De la donnée Protocoles de recueil Mise en collections Traitements Plans de gestion Documentarisation Mises en perspectives Mises en formes Commentaires Métadonnées 13
L’open Data et ses qualifications documentaires Qualification Recherche Description de contenu Métadonnées Qualité des données Systèmes d’information Indexation 14
La data dans « l’open research data » 15 Investigations Expériences Data datasets Etudes, communications Bases documen- taires
Une complexification du paysage documentaire, comme « écosystème » 16 Données (quantitatif) Travaux préparatoires Publications, actes, articles Retombées, vulgarisation Blogs, collaboratif Qualification Curation Accompagnement Médiation
Promesse technique : Quantitatif Volume Vitesse Infrastructures Capteurs Mobilité 17 Les promesses des « données massives »
(consulté le 13 janvier 2015) 18
« Grand » çà commence quand ? Promesse d’usages : Variété : rapprochement de ressources Emergence de nouvelles connaissances via des inférences et des rapprochements d’information Prédictions d’événements (démarche probabiliste) 19 Les promesses des « données massives »
Les univers de déploiement : Marketing et vente Comportement clients Santé Tourisme et territoires Sécurité … 20 Les promesses des « données massives » Data scientists Statisticiens Professionnels de l’information …
La marguerite de la data : BESOINS Santé Tourisme Economie Culture … TRAITEMENT Rapprochement des données Alignement des référentiels Exposition des ressources … PRATIQUES SOCIALES Mobilité Hyper-connectivité Participation … INFRASTRUCTURE Stockage Réseau Outils de captation … 21 Les promesses des « données massives »
Atouts (en général) Connaissances et pratiques : Des données et de leur description Des référentiels Des outils de traitement : text mining, analyse statistique, sémantique Contenus spécifiques Maillage, « dé-silotage » Dématérialisation de documents Approches métiers des fonds et des documents Validation, Véracité 22 Impacts sur activités des professionnels de l’information
Exemple : mise en commun de catalogues Cycle vertueux Récupération de données pour enrichir des contenus Ex. avis de lecteurs de Babelio, Libfly Open Data, récupération de biographies Exposition des données Mise en visibilité Echange Mutualisation Fédération de catalogues Rebonds et circulation dans les données Enrichissement et redressement des données et retour au producteur Ex. ISIDORE (Huma-Num CNRS) 23 Impacts sur activités des professionnels de l’information
Enjeux et opportunités Pilotage : mieux connaître les environnements et les publics Rapprocher corpus et données Accès aux données de la recherche Accès aux données publiques Accès aux ressources (ou aux références) à partir des données Améliorer l’exposition et la visibilité des fonds Enrichir les catalogues Exposer les éléments cachés dans de nouvelles formes de mises en relation (cf. CARTIER A., Bibliothèque et OpenData. Et si on ouvrait les bibliothèques sur l’avenir ?, Mémoire Enssib,2013) 24 Impacts sur activités des professionnels de l’information
Besoins Repérage, Qualification Modèles, formats, référentiels Curation Documentarisation Mise en liens, rapprochements 25
Conclusion Des objets documentaires qui s’hybrident sous l’influence des technologies numériques Des spécialités qui doivent dialoguer pour confronter des expériences Des emprunts nécessaires en termes de réflexions, méthodes, techniques, modèles, formats… 26
Merci de votre attention. 27