Jacques Ducloy 11/04/20151INRA formation Poitiers 2011.

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

Introduction à l’automatisation -ELE3202- Cours #8: Le modèle d’état Enseignant: Jean-Philippe Roberge Jean-Philippe Roberge - Mars 2011.
Les couches basses Jacques Ducloy – avril 2012
LES BIBLIOTHÈQUES ET LES MÉDIATHÈQUES EOI MAIRENA DEL ALJARAFE.
Rosa María Gómez de Regil Educatice, 25 novembre 2010
Eléments méthodologiques généraux pour le TER
CTNERHI AG 10 mai 2007 Le CTNERHI et les réseaux Le Réseau de producteurs de la base SAPHIR (UNAPEI, OPHQ, ANPEA, Voir ensemble) Le réseau BDSP LABES-SUDOC.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Le"cartable électronique"®
Utilisation ou copie interdites sans citation Rémi Bachelet – Ecole Centrale de Lille 1 CentraleWiki : fonctionnement Image : SourceSource École Centrale.
Infométrie, ingénierie et métadonnées XML Introduction
Dis, Monsieur, cest quoi un wiki ? Jacques Ducloy, avtil 2012.
Jacques Ducloy – avril – Introduction générale le contexte, on introduit Wikipédia et… Wicri 2 - Tutoriel 2.1 Généralités sur les wikis 2.2 Wikis.
Et le réseau Wicri Jacques Ducloy – avril – Introduction générale le contexte, on introduit Wikipédia et… Wicri 2 - Tutoriel 2.1 Généralités sur.
Partie conférence discussion Aspects terminologiques et sémantiques
Où un wiki devient un système de gestion de bases de données… Jacques Ducloy – avril 2012.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Les observatoires locaux de linnovation Valérie Devaux / Alain Tramonti INIST - Service Veille /
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Métadonnées pour les thèses numériques françaises
Journées ABES Transformation du système universitaire français et IST Jean-Pierre Finance Président de lUniversité Henri Poincaré, Nancy.
Gestion de la communication par établissement sur le site ville
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
WAD : un outil de design de e-portfolios
Le portail documentaire de Paris 1
Plate-forme et solutions techniques : état davancement - Tunisie Bessem AAMIRA Sous Directeur Informatique ISTeMAG : Optimisation de l'accès à l'Information.
Le portail des MSH
Google, un moteur de recherche comme les autres ?
Présentation du deuxième document daccompagnement Ecole dété de Guidel 2010 Annie Journu.
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Informatique SOFT’AWARE
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
1 Ville de SAINT QUAY PORTRIEUX - Aménagement urbain du quartier de Portrieux Présentation des premières esquisses T324 - Réunion publique du 15 novembre.
La veille numérique : un outil pour s'informer intelligemment &
École de bibliothéconomie et des sciences de l’information 1 Gestion de l’information électronique (GIE) Maîtrise en sciences de l’information EBSI Université.
Soutenance de stage 16 Mai au 5 Août 2011
Assemble Générale du Samedi 17 septembre 2011 à 19H00 Bilan 2010/2011 et Perspectives Saison 2011/ /09/20111.
MISSION DE LA RECHERCHE ET DE LA TECHNOLOGIE 1 LA NUMERISATION DU PATRIMOINE CULTUREL EN FRANCE Turin, 23 février 2001 par Jean-Pierre Dalbéra.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
L’activité de référencement dans une Web agency – Stage de 4 mois –
1 Outils bibliographiques Plume 20 mars- Lyon Yannick Maignien.
BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.
Métrologie dans les milieux naturels et altérés par l’activité humaine
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Implantation de Metalib : par où commencer? Les principales étapes de l’implantation à l’université de Montréal Marie-Josée Leboeuf 8 septembre 2006.
Représentation de l’IRD au Sénégal DIC décentralisée
Management des Systèmes d’Information (MSI)
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
BRASSERIE DUBUISSON Conférence de Presse
Les grandes étapes de la recherche
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
ARPIST – Bordeaux – 15 nov D’un bulletin de veille à une activité de veille : l’expérience de l’ADEME1 Laurent MORICE ADEME Service valorisation.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Règles bibliographiques simplifiées pour historiens
Le Traitement Automatique des Langues (TAL)
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Lieu de concertation, de médiation et de coopération entre les institutions, l’Alliance Athena a pour mission d’améliorer les dynamiques du système de.
Master 1 « diffusion de la culture » Formation à la maîtrise de l’information scientifique et technique Séance 2 Jeudi 02/10/2014 SID2 1.
Transcription de la présentation:

Jacques Ducloy 11/04/20151INRA formation Poitiers 2011

 Comment exploiter des sources d'information locales ou internationales  Dans le contexte internet  Pour produire des informations ou documents numériques  adaptés à un public local ou international ? Transformer les données 11/04/2015INRA formation Poitiers 20112

 Vision > 1999  Vision 2011 Un exemple introductif INRA formation Poitiers Éditeur Abonnement Éditeur Abonnement Bibliothèque Pascal Francis Pascal Francis Extractions Sélection analyse Extractions Sélection analyse Essentiel France Essentiel France Essentiel Monde Essentiel Monde Sources diversifiées, abonnements, Internet Archives Sources diversifiées, abonnements, Internet Archives synthèse Encyclopédique synthèse Encyclopédique 11/04/2015

 Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique)  Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation  Un travail d’équipe multidisciplinaire Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers 20114

 Introduction – c’est fait  On introduit Wicri  Pourquoi transformer ? ◦ Investigations documentaires :  extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…)  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20115

  Informatique Inist : ◦ traiter du MARC en grand volume  R&D Inist puis Loria : ◦ ingénierie XML -> infométrie, génération de sites  Produits et services Inist ◦ Bases, veille, portails, édition numérique  Prospective Inist : ◦ pratiques éditoriales de la recherche  DRRT Lorraine / Mission Ticri Votre interlocuteur 11/04/2015INRA formation Poitiers Wicri : réseau de wikis sémantique pour les communautés de la recherche et de l’innovation

Idées initiales :  Mission TIC pour la Recherche et l’Innovation (TICRI)  Groupe de travail autour d’un wiki ????  En profiter pour faire des démonstrations ++ Démarche début 2009 : 2 axes d’investigation  Comment adapter l’expérience Wikipédia aux contraintes et besoins de la recherche et de l’innovation ?  Que peut-on faire avec les wikis sémantiques ? Actuellement :  Démonstrateur d’un réseau de Wikis pour les Communauté de la Recherche et de l’Innovation (WICRI)  Une collection de sites encyclopédique intégrant des activités éditoriales, documentaires ou de culture scientifique et technique.  Un environnement pour développer des wikis spécialisés (dictionnaire des mots de l’agronomie de l’INRA) WICRI – le démonstrateur 11/04/2015INRA formation Poitiers 20117

Le réseau WICRI Wicri/Manuel Wicri/Eau Wicri/Lorraine Wicri/Ticri Wicri/Wicri (signalement) Wikis communs Collections de la BUL Les mots de l’agronomie Wikis institutionnels 11/04/20158INRA formation Poitiers 2011

 Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? ◦ Investigations documentaires :  extraire, sélectionner, fusionner… ◦ Nouveaux services (wikis sémantiques…)  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers 20119

 Idée générale Investigation documentaire Générateurs de navigation 11/04/2015INRA formation Poitiers Réservoir(s) de données Réservoir(s) de données Extraction Corpus Conversion Infométrie

 A propos du SIDA, quels sont les travaux de Merrill et Johnson portant sur l’utilisation combinée des composés : dideoxycytidine, zidovuline et interferon Investigation documentaire Question facile 11/04/2015INRA formation Poitiers Les résultats (Google 2006) ideoxycytidine: 1023; zidovudine: 24302; interferon: 77559; merrill: ; aids: ; johnson: résultat : 13 documents

Quelques exemples :  Quelles sont les principales équipes de recherche travaillant sur le SIDA ?  Quoi de neuf sur le SIDA depuis 1 mois (1 an...) ?  Identifier la terminologie de tel domaine scientifique  Quelles sont toutes les thérapies utilisées contre le SIDA... Pas de système intégré, mais :  un ensemble d'outils (data-mining, linguistique...)  Transformations de données au coup par coup Investigations documentaires Question plus difficiles 11/04/2015INRA formation Poitiers

11/04/2015INRA formation Poitiers Générateur de serveurs d’investigation (vision 2000)

11/04/2015INRA formation Poitiers Serveurs d’investigation  Accès à la liste des clusters

11/04/2015INRA formation Poitiers Un cluster Descripteurs françaisf. Sol23 Végétation13 Propriétés du sol10 Ecosystème12 Eau21 Paysage13 Eau souterraine12 Protection de l'environnement9 Liste de termes Liste d’associations Listes de documents par ordre de pertinenence Des liens

11/04/2015INRA formation Poitiers Génération de Bases d’images  Extrait de Cluster

11/04/2015INRA formation Poitiers Transcriptome (avec l’INRS) Tissus sain Tissus cancéreux Gènes  Documentation Statistiques Hypothèses Aider un chercheur à découvrir des hypothèses

 Architectures de wikis sémantiques Axe actuel de réflexion 11/04/2015INRA formation Poitiers Ontologies Bases Internet Outils - Robots

En 2000 :  Logiciel facile à mettre en œuvre pour un traitement collaboratif  Une bonne architecture « générique » 2 axes :  Augmenter la facilité de mise en œuvre ◦ C’est bien mais ce n’est pas notre problème…  Prise en compte d’applications de construction de connaissances de plus en plus complexes. ◦ Système de construction collaborative de connaissance scientifique et technique Au fait, c’est quoi un wiki ??? 11/04/2015INRA formation Poitiers

 Créé en 2001, avec moteur MediaWiki Points forts :  de pages (anglais) ◦ Dont de métadonnées  La page, unité d’intervention pour tous les acteurs d’un système de construction de connaissances,  Une architecture générique intégrant bases de données et documents structurés,  Environnement pour faciliter l’administration a posteriori d’un univers de connaissances, Wikipédia 11/04/2015INRA formation Poitiers

 Un article en texte aligné au format HTML  Un modèle  Une redirection  Une page Utilisateur (auteur)  Une catégorie (indexation) Tous les corps de métiers interviennent sur les mêmes ensembles de page Le nom d’une page doit garantir l’unicité La page dans MediaWiki 11/04/2015INRA formation Poitiers Victor Hugo est né à [[Besançon]] {{Infoboc écrivain|Nom=Victor...}}

 Code paramétrable permettant de reproduire sur plusieurs pages un même « objet numérique »  Son appel est assez simple  Sa réalisation peut être très complexe Les modèles 11/04/2015INRA formation Poitiers {{Infobox Écrivain | nom = '''Victor Hugo''' | image = Bonnat_Hugo001z.jpg | taille image = 230px … }}

 Permet de qualifier les liens  Syntaxe assez simple  Lien simple :  Lien sémantique :  On peut naviguer et calculer… Liens sémantiques… 11/04/2015INRA formation Poitiers Victor Hugo est né à [[Besançon]] Victor Hugo est né à [[A pour lieu de naissance::Besançon]]

 Recherches sur l’eau  Hydrographie  Exemple sémantique Pittsburgh sur Wicri Eau 11/04/2015INRA formation Poitiers

Pittsburgh est située au confluent des rivières Allegheny et Monongahela qui forment l'Ohio, un affluent du Mississippi. AlleghenyMonongahelaOhioMississippi Hydrographie sémantique 11/04/2015INRA formation Poitiers

L’Ohio 11/04/2015INRA formation Poitiers ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }} ==Les affluents de l'Ohio== (''liste calculée'') {{#ask:[[est un affluent::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Rivières citées sur Wicri Eau :_ }} ==Les villes traversées par l'Ohio== (''liste calculée'') {{#ask:[[sur le cours d'eau::{{PAGENAME}}]] | format=ul | sep=,_ | intro=Villes citées sur Wicri Eau :_ }}

La Moselle 11/04/2015INRA formation Poitiers

Wicri: several metadata systems DC 2010 takes place in [[Has location city::Pittsburgh]] … ==Program Committee== * [[Has PC member::Thomas Baker]] A journal: TEI MARC 21/DC Eurovoc +…. Nancy Lorraine France Geographical browsing: Wikipedia conventions and templates University of Lorraine CNRSINRIA LORIA CRIS: Current Research Information System 11/04/201528INRA formation Poitiers 2011

 Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? – c’est fait  Transformer les structures  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers

Transformer les structures 11/04/2015INRA formation Poitiers XML Brevets Ref. bib. Terminologie Factuel Statistiques Linguistique Édition Graphique

Un document XML est un arbre 11/04/2015INRA formation Poitiers Martin Jules MartinJules

Exemples avec les formats MARC 11/04/2015INRA formation Poitiers $a #Le #siècle de Louis XIV$fHubert Méthivier $a 11e éd.$fmise à jour par Pierre Thibault $aParis$cPresses universitaires de France$d $a127 p.$d18 cm... #Le #siècle de Louis XIV Hubert Méthivier 11e éd. mise à jour par Pierre Thibault Paris Presses universitaires de France p. 18 cm...

11/04/2015INRA formation Poitiers Une notice MARC = un arbre $a #Le #siècle de Louis XIV$fHubert Méthivier $a 11e éd.$fmise à jour par Pierre Thibault $aParis$cPresses universitaires de France$d $a127 p.$d18 cm … zz999 Le siècle de Louis XIV Hubert Méthivier 11e éd. Mise à jour par Pierre Thibault. Paris Presses universitaires de France 11e éd.

IngénierieCollnet - Tutorial Xml34 Parser DOM XML 210 $a Paris $c Dunod $d Paris Dunod... ParisDunod1988 XmlAppendChild(zone210, XmlLeafCreate("sd","1988")); 210 $a Paris $c Dunod

 Transformer les formes génériques Transformations réciproques 11/04/2015INRA formation Poitiers MarcXMLIso 2709 Marc textuel Unimarc natif Unimarc XML Unimarc textuel MARC 21 natif MARC 21 XML MARC 21 textuel

 Ambigüités syntaxiques ◦ $aLe rôle de la zone $l dans … $lfr  De l’arbre au peigne ◦ On sait convertir du Marc 21 en Dublin Core ◦ L’inverse n’est pas vrai…  Attention au modèle relationnel Transformations non réciproques Dégradent la structure initiale 11/04/2015INRA formation Poitiers Nom colloque / ville / date début Nom colloque / ville / date début / date fin Nom colloque / ville / date début / date dead line

Cohabitation entre robot et humain !! 11/04/2015INRA formation Poitiers Unimarc (ABES) Unimarc (ABES) v1, v2… Wiki Numérisation Annotation Wiki Numérisation Annotation Notice v1, v2… Modèle Page visible

 Introduction – c’est fait  On introduit Wicri – c’est fait  Pourquoi transformer ? – c’est fait  Transformer les structures – c’est fait  Transformer les objets  Conclusion – c’est pratiquement fait Plan 11/04/2015INRA formation Poitiers

Eléments de données  Texte plus ou moins structuré dans différentes langues  Vocabulaires appartenant à différentes ontologies  Règles sémantiques  Formules mathématiques chimiques etc, etc… Transformer les objets Tout se complique ! 11/04/2015INRA formation Poitiers

 Attention aux ambigüités syntaxiques ◦ Exemple : les caractères spéciaux dans un document XML ou HTML  Unicode – tout n’est pas si simple ◦ Les codes « anciens » cohabitent avec Unicode ◦ Conventions « ad hoc »  Exemple, pour indiquer des constantes en Unicode dans un programme C  /* -*- coding: utf-8 -*- */ ◦ Correspondance UTF 16 / UTF 8 ◦ … Transformer les objets Le texte 11/04/2015INRA formation Poitiers

 Unicité (robot)  Lisibilité (homme) Conventions valables pour des robots et pour des humains 11/04/2015INRA formation Poitiers Wikipédia France ( > 150)Wikipédia English ( > 150) Washington (District de Columbia)Washington, D.C. George Washington George Washington (inventeur)George Washington (inventor) État de WashingtonWashington (state) Université George WashingtonGeorge Washington University Université de WashingtonUniversity of Washington

 Exemple : les dates  Une date : ◦ que veut dire : 01/02/03 ??? ◦ La convention ISO 8601 est unificatrice :  YYYY-MM-DD  Une période : ◦ Du au ◦ Printemps 2005 ◦ Les années 50 ◦ Mensuel pendant les années 60 puis trimestriel… Conventions multiples Sémantiques mal définies 11/04/2015INRA formation Poitiers

 Les affiliations : Aie Aie Aie…  Une stratégie : ◦ Clustériser les auteurs (unifiés) pour regrouper les affiliations…  Une piste : ◦ une organisation de type CRIS  Current Research Information System  Système d’information sur les recherches en cours ◦ Sur du wiki sémantique  Construction incrémentale et collective d’un système de description de la recherche ◦ Base d’unification pour le traitement des affiliations Auteurs, affiliations 11/04/2015INRA formation Poitiers

 H 2 0, on sait faire  C 2 H 2 et C 2 H 6 aussi  C 2 H 6 et C n H 2n+4 ◦ C’est moins simple  Et les fullerènes ??? Eléments chimiques 11/04/2015INRA formation Poitiers

 Infrastructures de la connaissance scientifique et technique ◦ Informatique architecture ◦ Informatique algorithmique ◦ Documentation, métadonnées normalisation ◦ Management de la connaissance (sémantique)  Connaissance du domaine cible ◦ D’un point de vue scientifique ◦ D’un point de vue technique ◦ Mais aussi de ses pratiques et organisation  Un travail d’équipe multidisciplinaire Conclusion Un mot-clé : multidisciplinarité 11/04/2015INRA formation Poitiers

 Formation, sensibilisation  Expérimentation, appropriation  Venez donc visiter ◦  Vous pouvez demander un compte…  Merci pour votre accueil  Merci pour vos questions Conclusion - suite 11/04/2015INRA formation Poitiers