Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parNazaire Loisel Modifié depuis plus de 9 années
1
Jacques Ducloy 11/04/20151INRA formation Poitiers 2011
2
Comment exploiter des sources d'information locales ou internationales Dans le contexte internet Pour produire des informations ou documents numériques adaptés à un public local ou international ? Transformer les données 11/04/2015INRA formation Poitiers 20112
3
Vision 1939 -> 1999 Vision 2011 Un exemple introductif INRA formation Poitiers 20113 Éditeur Abonnement Éditeur Abonnement Bibliothèque Pascal Francis Pascal Francis Extractions Sélection analyse Extractions Sélection analyse Essentiel France Essentiel France Essentiel Monde Essentiel Monde Sources diversifiées, abonnements, Internet Archives Sources diversifiées, abonnements, Internet Archives synthèse Encyclopédique synthèse Encyclopédique 11/04/2015
4
Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique) Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation Un travail d’équipe multidisciplinaire Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers 20114
5
Introduction – c’est fait On introduit Wicri Pourquoi transformer ? ◦ Investigations documentaires : extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…) Transformer les structures Transformer les objets Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20115
6
Jacques.Ducloy@loria.fr Jacques.Ducloy@loria.fr Informatique Inist : ◦ traiter du MARC en grand volume R&D Inist puis Loria : ◦ ingénierie XML -> infométrie, génération de sites Produits et services Inist ◦ Bases, veille, portails, édition numérique Prospective Inist : ◦ pratiques éditoriales de la recherche DRRT Lorraine / Mission Ticri Votre interlocuteur 11/04/2015INRA formation Poitiers 20116 Wicri : réseau de wikis sémantique pour les communautés de la recherche et de l’innovation
7
Idées initiales : Mission TIC pour la Recherche et l’Innovation (TICRI) Groupe de travail autour d’un wiki ???? En profiter pour faire des démonstrations ++ Démarche début 2009 : 2 axes d’investigation Comment adapter l’expérience Wikipédia aux contraintes et besoins de la recherche et de l’innovation ? Que peut-on faire avec les wikis sémantiques ? Actuellement : Démonstrateur d’un réseau de Wikis pour les Communauté de la Recherche et de l’Innovation (WICRI) Une collection de sites encyclopédique intégrant des activités éditoriales, documentaires ou de culture scientifique et technique. Un environnement pour développer des wikis spécialisés (dictionnaire des mots de l’agronomie de l’INRA) WICRI – le démonstrateur 11/04/2015INRA formation Poitiers 20117
8
Le réseau WICRI Wicri/Manuel Wicri/Eau Wicri/Lorraine Wicri/Ticri Wicri/Wicri (signalement) Wikis communs Collections de la BUL Les mots de l’agronomie Wikis institutionnels 11/04/20158INRA formation Poitiers 2011
9
Introduction – c’est fait On introduit Wicri – c’est fait Pourquoi transformer ? ◦ Investigations documentaires : extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…) Transformer les structures Transformer les objets Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20119
10
Idée générale Investigation documentaire Générateurs de navigation 11/04/2015INRA formation Poitiers 201110 Réservoir(s) de données Réservoir(s) de données Extraction Corpus Conversion Infométrie
11
A propos du SIDA, quels sont les travaux de Merrill et Johnson portant sur l’utilisation combinée des composés : dideoxycytidine, zidovuline et interferon Investigation documentaire Question facile 11/04/2015INRA formation Poitiers 201111 Les résultats (Google 2006) ideoxycytidine: 1023; zidovudine: 24302; interferon: 77559; merrill: 249223; aids: 2316735; johnson: 3011288 résultat : 13 documents
12
Quelques exemples : Quelles sont les principales équipes de recherche travaillant sur le SIDA ? Quoi de neuf sur le SIDA depuis 1 mois (1 an...) ? Identifier la terminologie de tel domaine scientifique Quelles sont toutes les thérapies utilisées contre le SIDA... Pas de système intégré, mais : un ensemble d'outils (data-mining, linguistique...) Transformations de données au coup par coup Investigations documentaires Question plus difficiles 11/04/2015INRA formation Poitiers 201112
13
11/04/2015INRA formation Poitiers 201113 Générateur de serveurs d’investigation (vision 2000)
14
11/04/2015INRA formation Poitiers 201114 Serveurs d’investigation Accès à la liste des clusters
15
11/04/2015INRA formation Poitiers 201115 Un cluster Descripteurs françaisf. Sol23 Végétation13 Propriétés du sol10 Ecosystème12 Eau21 Paysage13 Eau souterraine12 Protection de l'environnement9 Liste de termes Liste d’associations Listes de documents par ordre de pertinenence Des liens
16
11/04/2015INRA formation Poitiers 201116 Génération de Bases d’images Extrait de Cluster
17
11/04/2015INRA formation Poitiers 201117 Transcriptome (avec l’INRS) Tissus sain Tissus cancéreux Gènes Documentation Statistiques Hypothèses Aider un chercheur à découvrir des hypothèses
18
Architectures de wikis sémantiques Axe actuel de réflexion 11/04/2015INRA formation Poitiers 201118 Ontologies Bases Internet Outils - Robots
19
En 2000 : Logiciel facile à mettre en œuvre pour un traitement collaboratif Une bonne architecture « générique » 2 axes : Augmenter la facilité de mise en œuvre ◦ C’est bien mais ce n’est pas notre problème… Prise en compte d’applications de construction de connaissances de plus en plus complexes. ◦ Système de construction collaborative de connaissance scientifique et technique Au fait, c’est quoi un wiki ??? 11/04/2015INRA formation Poitiers 201119
20
Créé en 2001, avec moteur MediaWiki Points forts : 20 000 000 de pages (anglais) ◦ Dont 18 000 000 de métadonnées La page, unité d’intervention pour tous les acteurs d’un système de construction de connaissances, Une architecture générique intégrant bases de données et documents structurés, Environnement pour faciliter l’administration a posteriori d’un univers de connaissances, Wikipédia 11/04/2015INRA formation Poitiers 201120
21
Un article en texte aligné au format HTML Un modèle Une redirection Une page Utilisateur (auteur) Une catégorie (indexation) Tous les corps de métiers interviennent sur les mêmes ensembles de page Le nom d’une page doit garantir l’unicité La page dans MediaWiki 11/04/2015INRA formation Poitiers 201121 Victor Hugo est né à [[Besançon]] {{Infoboc écrivain|Nom=Victor...}}
22
Code paramétrable permettant de reproduire sur plusieurs pages un même « objet numérique » Son appel est assez simple Sa réalisation peut être très complexe Les modèles 11/04/2015INRA formation Poitiers 201122 {{Infobox Écrivain | nom = '''Victor Hugo''' | image = Bonnat_Hugo001z.jpg | taille image = 230px … }}
23
Permet de qualifier les liens Syntaxe assez simple Lien simple : Lien sémantique : On peut naviguer et calculer… Liens sémantiques… 11/04/2015INRA formation Poitiers 201123 Victor Hugo est né à [[Besançon]] Victor Hugo est né à [[A pour lieu de naissance::Besançon]]
24
Recherches sur l’eau Hydrographie Exemple sémantique Pittsburgh sur Wicri Eau 11/04/2015INRA formation Poitiers 201124
25
Pittsburgh est située au confluent des rivières Allegheny et Monongahela qui forment l'Ohio, un affluent du Mississippi. AlleghenyMonongahelaOhioMississippi Hydrographie sémantique 11/04/2015INRA formation Poitiers 201125
26
L’Ohio 11/04/2015INRA formation Poitiers 201126 ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }} ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }}
27
La Moselle 11/04/2015INRA formation Poitiers 201127
28
Wicri: several metadata systems DC 2010 takes place in [[Has location city::Pittsburgh]] … ==Program Committee== * [[Has PC member::Thomas Baker]] A journal: TEI MARC 21/DC Eurovoc +…. Nancy Lorraine France Geographical browsing: Wikipedia conventions and templates University of Lorraine CNRSINRIA LORIA CRIS: Current Research Information System 11/04/201528INRA formation Poitiers 2011
29
Introduction – c’est fait On introduit Wicri – c’est fait Pourquoi transformer ? – c’est fait Transformer les structures Transformer les objets Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 201129
30
Transformer les structures 11/04/2015INRA formation Poitiers 201130 XML Brevets Ref. bib. Terminologie Factuel Statistiques Linguistique Édition Graphique
31
Un document XML est un arbre 11/04/2015INRA formation Poitiers 201131 Martin Jules MartinJules
32
Exemples avec les formats MARC 11/04/2015INRA formation Poitiers 201132 200 1 - $a #Le #siècle de Louis XIV$fHubert Méthivier 205 - - $a 11e éd.$fmise à jour par Pierre Thibault 210 - - $aParis$cPresses universitaires de France$d1992 215 - - $a127 p.$d18 cm... #Le #siècle de Louis XIV Hubert Méthivier 11e éd. mise à jour par Pierre Thibault Paris Presses universitaires de France 1992 127 p. 18 cm...
33
11/04/2015INRA formation Poitiers 201133 Une notice MARC = un arbre 200 1 - $a #Le #siècle de Louis XIV$fHubert Méthivier 205 - - $a 11e éd.$fmise à jour par Pierre Thibault 210 - - $aParis$cPresses universitaires de France$d1992 215 - - $a127 p.$d18 cm … zz999 Le siècle de Louis XIV Hubert Méthivier 11e éd. Mise à jour par Pierre Thibault. Paris Presses universitaires de France 11e éd.
34
IngénierieCollnet - Tutorial Xml34 Parser DOM XML 210 $a Paris $c Dunod $d 1988... Paris Dunod... ParisDunod1988 XmlAppendChild(zone210, XmlLeafCreate("sd","1988")); 210 $a Paris $c Dunod
35
Transformer les formes génériques Transformations réciproques 11/04/2015INRA formation Poitiers 201135 MarcXMLIso 2709 Marc textuel Unimarc natif Unimarc XML Unimarc textuel MARC 21 natif MARC 21 XML MARC 21 textuel
36
Ambigüités syntaxiques ◦ 200 --$aLe rôle de la zone $l dans … $lfr De l’arbre au peigne ◦ On sait convertir du Marc 21 en Dublin Core ◦ L’inverse n’est pas vrai… Attention au modèle relationnel Transformations non réciproques Dégradent la structure initiale 11/04/2015INRA formation Poitiers 201136 Nom colloque / ville / date début Nom colloque / ville / date début / date fin Nom colloque / ville / date début / date dead line
37
Cohabitation entre robot et humain !! 11/04/2015INRA formation Poitiers 201137 Unimarc (ABES) Unimarc (ABES) v1, v2… Wiki Numérisation Annotation Wiki Numérisation Annotation Notice v1, v2… Modèle Page visible
38
Introduction – c’est fait On introduit Wicri – c’est fait Pourquoi transformer ? – c’est fait Transformer les structures – c’est fait Transformer les objets Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 201138
39
Eléments de données Texte plus ou moins structuré dans différentes langues Vocabulaires appartenant à différentes ontologies Règles sémantiques Formules mathématiques chimiques etc, etc… Transformer les objets Tout se complique ! 11/04/2015INRA formation Poitiers 201139
40
Attention aux ambigüités syntaxiques ◦ Exemple : les caractères spéciaux dans un document XML ou HTML Unicode – tout n’est pas si simple ◦ Les codes « anciens » cohabitent avec Unicode ◦ Conventions « ad hoc » Exemple, pour indiquer des constantes en Unicode dans un programme C /* -*- coding: utf-8 -*- */ ◦ Correspondance UTF 16 / UTF 8 ◦ … Transformer les objets Le texte 11/04/2015INRA formation Poitiers 201140
41
Unicité (robot) Lisibilité (homme) Conventions valables pour des robots et pour des humains 11/04/2015INRA formation Poitiers 201141 Wikipédia France ( > 150)Wikipédia English ( > 150) Washington (District de Columbia)Washington, D.C. George Washington George Washington (inventeur)George Washington (inventor) État de WashingtonWashington (state) Université George WashingtonGeorge Washington University Université de WashingtonUniversity of Washington
42
Exemple : les dates Une date : ◦ que veut dire : 01/02/03 ??? ◦ La convention ISO 8601 est unificatrice : YYYY-MM-DD Une période : ◦ Du 2005-03-02 au 2005-07-01 ◦ Printemps 2005 ◦ Les années 50 ◦ Mensuel pendant les années 60 puis trimestriel… Conventions multiples Sémantiques mal définies 11/04/2015INRA formation Poitiers 201142
43
Les affiliations : Aie Aie Aie… Une stratégie : ◦ Clustériser les auteurs (unifiés) pour regrouper les affiliations… Une piste : ◦ une organisation de type CRIS Current Research Information System Système d’information sur les recherches en cours ◦ Sur du wiki sémantique Construction incrémentale et collective d’un système de description de la recherche ◦ Base d’unification pour le traitement des affiliations Auteurs, affiliations 11/04/2015INRA formation Poitiers 201143
44
H 2 0, on sait faire C 2 H 2 et C 2 H 6 aussi C 2 H 6 et C n H 2n+4 ◦ C’est moins simple Et les fullerènes ??? Eléments chimiques 11/04/2015INRA formation Poitiers 201144
45
Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique) Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation Un travail d’équipe multidisciplinaire Conclusion Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers 201145
46
Formation, sensibilisation Expérimentation, appropriation Venez donc visiter ◦ http://ticri.inpl-nancy.fr/wicri.fr http://ticri.inpl-nancy.fr/wicri.fr Vous pouvez demander un compte… Merci pour votre accueil Merci pour vos questions Conclusion - suite 11/04/2015INRA formation Poitiers 201146
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.