La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jacques Ducloy 11/04/20151INRA formation Poitiers 2011.

Présentations similaires


Présentation au sujet: "Jacques Ducloy 11/04/20151INRA formation Poitiers 2011."— Transcription de la présentation:

1 Jacques Ducloy 11/04/20151INRA formation Poitiers 2011

2  Comment exploiter des sources d'information locales ou internationales  Dans le contexte internet  Pour produire des informations ou documents numériques  adaptés à un public local ou international ? Transformer les données 11/04/2015INRA formation Poitiers 20112

3  Vision 1939 -> 1999  Vision 2011 Un exemple introductif INRA formation Poitiers 20113 Éditeur Abonnement Éditeur Abonnement Bibliothèque Pascal Francis Pascal Francis Extractions Sélection analyse Extractions Sélection analyse Essentiel France Essentiel France Essentiel Monde Essentiel Monde Sources diversifiées, abonnements, Internet Archives Sources diversifiées, abonnements, Internet Archives synthèse Encyclopédique synthèse Encyclopédique 11/04/2015

4  Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique)  Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation  Un travail d’équipe multidisciplinaire Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers 20114

5  Introduction – c’est fait  On introduit Wicri  Pourquoi transformer ? ◦ Investigations documentaires :  extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…)  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20115

6  Jacques.Ducloy@loria.fr Jacques.Ducloy@loria.fr  Informatique Inist : ◦ traiter du MARC en grand volume  R&D Inist puis Loria : ◦ ingénierie XML -> infométrie, génération de sites  Produits et services Inist ◦ Bases, veille, portails, édition numérique  Prospective Inist : ◦ pratiques éditoriales de la recherche  DRRT Lorraine / Mission Ticri Votre interlocuteur 11/04/2015INRA formation Poitiers 20116 Wicri : réseau de wikis sémantique pour les communautés de la recherche et de l’innovation

7 Idées initiales :  Mission TIC pour la Recherche et l’Innovation (TICRI)  Groupe de travail autour d’un wiki ????  En profiter pour faire des démonstrations ++ Démarche début 2009 : 2 axes d’investigation  Comment adapter l’expérience Wikipédia aux contraintes et besoins de la recherche et de l’innovation ?  Que peut-on faire avec les wikis sémantiques ? Actuellement :  Démonstrateur d’un réseau de Wikis pour les Communauté de la Recherche et de l’Innovation (WICRI)  Une collection de sites encyclopédique intégrant des activités éditoriales, documentaires ou de culture scientifique et technique.  Un environnement pour développer des wikis spécialisés (dictionnaire des mots de l’agronomie de l’INRA) WICRI – le démonstrateur 11/04/2015INRA formation Poitiers 20117

8 Le réseau WICRI Wicri/Manuel Wicri/Eau Wicri/Lorraine Wicri/Ticri Wicri/Wicri (signalement) Wikis communs Collections de la BUL Les mots de l’agronomie Wikis institutionnels 11/04/20158INRA formation Poitiers 2011

9  Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? ◦ Investigations documentaires :  extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…)  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20119

10  Idée générale Investigation documentaire Générateurs de navigation 11/04/2015INRA formation Poitiers 201110 Réservoir(s) de données Réservoir(s) de données Extraction Corpus Conversion Infométrie

11  A propos du SIDA, quels sont les travaux de Merrill et Johnson portant sur l’utilisation combinée des composés : dideoxycytidine, zidovuline et interferon Investigation documentaire Question facile 11/04/2015INRA formation Poitiers 201111 Les résultats (Google 2006) ideoxycytidine: 1023; zidovudine: 24302; interferon: 77559; merrill: 249223; aids: 2316735; johnson: 3011288 résultat : 13 documents

12 Quelques exemples :  Quelles sont les principales équipes de recherche travaillant sur le SIDA ?  Quoi de neuf sur le SIDA depuis 1 mois (1 an...) ?  Identifier la terminologie de tel domaine scientifique  Quelles sont toutes les thérapies utilisées contre le SIDA... Pas de système intégré, mais :  un ensemble d'outils (data-mining, linguistique...)  Transformations de données au coup par coup Investigations documentaires Question plus difficiles 11/04/2015INRA formation Poitiers 201112

13 11/04/2015INRA formation Poitiers 201113 Générateur de serveurs d’investigation (vision 2000)

14 11/04/2015INRA formation Poitiers 201114 Serveurs d’investigation  Accès à la liste des clusters

15 11/04/2015INRA formation Poitiers 201115 Un cluster Descripteurs françaisf. Sol23 Végétation13 Propriétés du sol10 Ecosystème12 Eau21 Paysage13 Eau souterraine12 Protection de l'environnement9 Liste de termes Liste d’associations Listes de documents par ordre de pertinenence Des liens

16 11/04/2015INRA formation Poitiers 201116 Génération de Bases d’images  Extrait de Cluster

17 11/04/2015INRA formation Poitiers 201117 Transcriptome (avec l’INRS) Tissus sain Tissus cancéreux Gènes  Documentation Statistiques Hypothèses Aider un chercheur à découvrir des hypothèses

18  Architectures de wikis sémantiques Axe actuel de réflexion 11/04/2015INRA formation Poitiers 201118 Ontologies Bases Internet Outils - Robots

19 En 2000 :  Logiciel facile à mettre en œuvre pour un traitement collaboratif  Une bonne architecture « générique » 2 axes :  Augmenter la facilité de mise en œuvre ◦ C’est bien mais ce n’est pas notre problème…  Prise en compte d’applications de construction de connaissances de plus en plus complexes. ◦ Système de construction collaborative de connaissance scientifique et technique Au fait, c’est quoi un wiki ??? 11/04/2015INRA formation Poitiers 201119

20  Créé en 2001, avec moteur MediaWiki Points forts :  20 000 000 de pages (anglais) ◦ Dont 18 000 000 de métadonnées  La page, unité d’intervention pour tous les acteurs d’un système de construction de connaissances,  Une architecture générique intégrant bases de données et documents structurés,  Environnement pour faciliter l’administration a posteriori d’un univers de connaissances, Wikipédia 11/04/2015INRA formation Poitiers 201120

21  Un article en texte aligné au format HTML  Un modèle  Une redirection  Une page Utilisateur (auteur)  Une catégorie (indexation) Tous les corps de métiers interviennent sur les mêmes ensembles de page Le nom d’une page doit garantir l’unicité La page dans MediaWiki 11/04/2015INRA formation Poitiers 201121 Victor Hugo est né à [[Besançon]] {{Infoboc écrivain|Nom=Victor...}}

22  Code paramétrable permettant de reproduire sur plusieurs pages un même « objet numérique »  Son appel est assez simple  Sa réalisation peut être très complexe Les modèles 11/04/2015INRA formation Poitiers 201122 {{Infobox Écrivain | nom = '''Victor Hugo''' | image = Bonnat_Hugo001z.jpg | taille image = 230px … }}

23  Permet de qualifier les liens  Syntaxe assez simple  Lien simple :  Lien sémantique :  On peut naviguer et calculer… Liens sémantiques… 11/04/2015INRA formation Poitiers 201123 Victor Hugo est né à [[Besançon]] Victor Hugo est né à [[A pour lieu de naissance::Besançon]]

24  Recherches sur l’eau  Hydrographie  Exemple sémantique Pittsburgh sur Wicri Eau 11/04/2015INRA formation Poitiers 201124

25 Pittsburgh est située au confluent des rivières Allegheny et Monongahela qui forment l'Ohio, un affluent du Mississippi. AlleghenyMonongahelaOhioMississippi Hydrographie sémantique 11/04/2015INRA formation Poitiers 201125

26 L’Ohio 11/04/2015INRA formation Poitiers 201126 ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }} ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }}

27 La Moselle 11/04/2015INRA formation Poitiers 201127

28 Wicri: several metadata systems DC 2010 takes place in [[Has location city::Pittsburgh]] … ==Program Committee== * [[Has PC member::Thomas Baker]] A journal: TEI MARC 21/DC Eurovoc +…. Nancy Lorraine France Geographical browsing: Wikipedia conventions and templates University of Lorraine CNRSINRIA LORIA CRIS: Current Research Information System 11/04/201528INRA formation Poitiers 2011

29  Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? – c’est fait  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 201129

30 Transformer les structures 11/04/2015INRA formation Poitiers 201130 XML Brevets Ref. bib. Terminologie Factuel Statistiques Linguistique Édition Graphique

31 Un document XML est un arbre 11/04/2015INRA formation Poitiers 201131 Martin Jules MartinJules

32 Exemples avec les formats MARC 11/04/2015INRA formation Poitiers 201132 200 1 - $a #Le #siècle de Louis XIV$fHubert Méthivier 205 - - $a 11e éd.$fmise à jour par Pierre Thibault 210 - - $aParis$cPresses universitaires de France$d1992 215 - - $a127 p.$d18 cm... #Le #siècle de Louis XIV Hubert Méthivier 11e éd. mise à jour par Pierre Thibault Paris Presses universitaires de France 1992 127 p. 18 cm...

33 11/04/2015INRA formation Poitiers 201133 Une notice MARC = un arbre 200 1 - $a #Le #siècle de Louis XIV$fHubert Méthivier 205 - - $a 11e éd.$fmise à jour par Pierre Thibault 210 - - $aParis$cPresses universitaires de France$d1992 215 - - $a127 p.$d18 cm … zz999 Le siècle de Louis XIV Hubert Méthivier 11e éd. Mise à jour par Pierre Thibault. Paris Presses universitaires de France 11e éd.

34 IngénierieCollnet - Tutorial Xml34 Parser DOM XML 210 $a Paris $c Dunod $d 1988... Paris Dunod... ParisDunod1988 XmlAppendChild(zone210, XmlLeafCreate("sd","1988")); 210 $a Paris $c Dunod

35  Transformer les formes génériques Transformations réciproques 11/04/2015INRA formation Poitiers 201135 MarcXMLIso 2709 Marc textuel Unimarc natif Unimarc XML Unimarc textuel MARC 21 natif MARC 21 XML MARC 21 textuel

36  Ambigüités syntaxiques ◦ 200 --$aLe rôle de la zone $l dans … $lfr  De l’arbre au peigne ◦ On sait convertir du Marc 21 en Dublin Core ◦ L’inverse n’est pas vrai…  Attention au modèle relationnel Transformations non réciproques Dégradent la structure initiale 11/04/2015INRA formation Poitiers 201136 Nom colloque / ville / date début Nom colloque / ville / date début / date fin Nom colloque / ville / date début / date dead line

37 Cohabitation entre robot et humain !! 11/04/2015INRA formation Poitiers 201137 Unimarc (ABES) Unimarc (ABES) v1, v2… Wiki Numérisation Annotation Wiki Numérisation Annotation Notice v1, v2… Modèle Page visible

38  Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? – c’est fait  Transformer les structures – c’est fait  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 201138

39 Eléments de données  Texte plus ou moins structuré dans différentes langues  Vocabulaires appartenant à différentes ontologies  Règles sémantiques  Formules mathématiques chimiques etc, etc… Transformer les objets Tout se complique ! 11/04/2015INRA formation Poitiers 201139

40  Attention aux ambigüités syntaxiques ◦ Exemple : les caractères spéciaux dans un document XML ou HTML  Unicode – tout n’est pas si simple ◦ Les codes « anciens » cohabitent avec Unicode ◦ Conventions « ad hoc »  Exemple, pour indiquer des constantes en Unicode dans un programme C  /* -*- coding: utf-8 -*- */ ◦ Correspondance UTF 16 / UTF 8 ◦ … Transformer les objets Le texte 11/04/2015INRA formation Poitiers 201140

41  Unicité (robot)  Lisibilité (homme) Conventions valables pour des robots et pour des humains 11/04/2015INRA formation Poitiers 201141 Wikipédia France ( > 150)Wikipédia English ( > 150) Washington (District de Columbia)Washington, D.C. George Washington George Washington (inventeur)George Washington (inventor) État de WashingtonWashington (state) Université George WashingtonGeorge Washington University Université de WashingtonUniversity of Washington

42  Exemple : les dates  Une date : ◦ que veut dire : 01/02/03 ??? ◦ La convention ISO 8601 est unificatrice :  YYYY-MM-DD  Une période : ◦ Du 2005-03-02 au 2005-07-01 ◦ Printemps 2005 ◦ Les années 50 ◦ Mensuel pendant les années 60 puis trimestriel… Conventions multiples Sémantiques mal définies 11/04/2015INRA formation Poitiers 201142

43  Les affiliations : Aie Aie Aie…  Une stratégie : ◦ Clustériser les auteurs (unifiés) pour regrouper les affiliations…  Une piste : ◦ une organisation de type CRIS  Current Research Information System  Système d’information sur les recherches en cours ◦ Sur du wiki sémantique  Construction incrémentale et collective d’un système de description de la recherche ◦ Base d’unification pour le traitement des affiliations Auteurs, affiliations 11/04/2015INRA formation Poitiers 201143

44  H 2 0, on sait faire  C 2 H 2 et C 2 H 6 aussi  C 2 H 6 et C n H 2n+4 ◦ C’est moins simple  Et les fullerènes ??? Eléments chimiques 11/04/2015INRA formation Poitiers 201144

45  Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique)  Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation  Un travail d’équipe multidisciplinaire Conclusion Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers 201145

46  Formation, sensibilisation  Expérimentation, appropriation  Venez donc visiter ◦ http://ticri.inpl-nancy.fr/wicri.fr http://ticri.inpl-nancy.fr/wicri.fr  Vous pouvez demander un compte…  Merci pour votre accueil  Merci pour vos questions Conclusion - suite 11/04/2015INRA formation Poitiers 201146


Télécharger ppt "Jacques Ducloy 11/04/20151INRA formation Poitiers 2011."

Présentations similaires


Annonces Google