ISTEX, un outil au service de la fouille de textes et de données.

Slides:



Advertisements
Présentations similaires
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2011 septembre/octobre 2011 Denis Roura,
Advertisements

FAIRE SA BIBLIOGRAPHIE DE THESE AVEC ZOTERO Traitements de texte pris en compte: Word et LibreOffice.
Épreuve de mise en situation professionnelle.... Sujet …
Exemples pour organiser des activités et des progressions intégrées de Sciences Physiques et Chimiques et de Mathématiques.
Recherche documentaire. Compétence énoncée par le Conseil Supérieur Paramédical S'impliquer dans sa formation et dans la construction de son identité.
Le site de ressources mutualisées ● Un site de ressources destiné à favoriser la mutualisation des savoirs.
AID - Recherches - Stéphanie Vial & Patrick Johner Page 1 Journée 6 Pour une veille documentaire ou bibliographique.
Collections documentaires numériques : Rapports de recherches sur la réussite Isabelle Laplante, bibliothécaire _REP_car, 1 er avril 2011.
@rchiveSIC Archive Ouverte en Sciences de l’Information et de la Communication Gabriel.
Politique de développement de collection : Bâtir sur les forces du réseau Isabelle Laplante, bibliothécaire _CAP du 15 avril 2011.
Savoirs en partage Le portail de ressources de l'AUF Objectifs ● Proposer de.
lesite.tv ● Ressource en ligne par abonnement ● Editeurs : SCEREN-CNDP, France 5 ● Tarif selon effectif de l'établissement ● Diffusion par web (adsl si.
Le déploiement du portail e-sidoc dans les CDI Comment l'adapter aux contextes locaux ? Quelle valeur ajoutée numérique ? Mercredi 22 février 2012 – CDDP.
Eléments clés à prendre en considération
PROJET QUALIBIM LES OUTILS NUMERIQUES AU SERVICE DE LA COMPETITIVITE DES ENTREPRISES DE LA FILIERE CONSTRUCTION AUVERGNE RHONE ALPES.
OFFRE DE L’ANFH ASSOCIEE A LA MISE EN PLACE DES GHT
Rechercher des articles et des sites web
Rechercher des livres et des DVD
HAL Matisse
LES BIBLIOTHEQUES NUMERIQUES
SAVOIRS 2.0 Ouverture du savoir scientifique et du terrain pour une didactique de collaboration E. Duplàa, M.J. Berger.
Domestiquer de nouvelles espèces de poissons grâce au text mining
Le lycée professionnel Louis Lumière à Chelles (77) « Lycée des Métiers du Commerce et des techniques administratives » et « Lycée des Métiers de l’Electricité et.
Offre documentaire : ressources et services 30/03/2017
ABES - Réunion des centres régionaux du SUDOC-PS – 12 mai 2017
UN LEARNING CENTER à l’Université de Haute-Alsace Dominique Meyer-Bolzinger VP Formation initiale et continue.
Formation « Administrateur ATRIUM »
Les P G I Les Progiciels de Gestion Intégrés
Votre Archive ouverte du réseau collégial québécois
Historique Plan Bâtiment régional
L’utilisation des formulaires pour un exemplarisateur
ProdInra au service des chercheurs et des unités de l’Inra
Vers les technologies de l’intelligence :
Rechercher des articles et des sites web
Isabelle Laplante, bibliothécaire _11 janvier 2012
Production de documents pédagogiques et chaîne éditoriale
Le Centre de documentation collégiale : Rassembleur et diffuseur du patrimoine documentaire collégial Marie-Christine Tremblay Directrice des études, Collège.
L’open data du SIE état d’avancement
Bibliothèque Myriam et J.-Robert Ouimet
Opérations France Grilles - structure et fonctions
Présentation du B2i école Références : B.O. n° 42 du 16 novembre 2006
04/06/2018 École de bibliothéconomie et des sciences de l'information
LES CLASSES de TROISIÈME PRÉPARATOIRES Á L’ENSEIGNEMENT PROFESSIONNEL
Mise en situation professionnelle – capes documentation 2017– 9 juin
CULTURETHEQUE VOTRE BIBLIOTHEQUE NUMERIQUE
Présentation du B2i école Références : B.O. n° 42 du 16 novembre 2006
Je collecte l’information J’accède aux documents sources
L’offre de services de l’Inist-CNRS : le portail OPIDoR
Les nouveautés de HAL en 2017
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
La stratégie pédagogique en
Les données du SCD de Paris Nanterre
L’information est structurée sous forme de notice
</Présentation de solutions documentaires>
Capitalisation des bases de données des expériences innovantes
COPIL EAUFRANCE Anne Macaire
Le Projet S’intègre dans S’inscrit dans la continuité
Techniques de publication et de diffusion électroniques : L’Annuaire statistique.
30/11/2018 École de bibliothéconomie et des sciences de l'information
ENSEIGNER L’ALGORITHMIQUE ET LA PROGRAMMATION AU COLLÈGE
TITRE Développement d’une étude d’association du génome basée sur la diversité génétique et phénotypique du café Arabica d’Ethiopie Sous-titre:GWASCOA.
Présentation des services IT
Lycée Jean-Piaget Médiathèque
Tableau de bord d’un système de recommandation
Colloque Education 4.1 – 17 janvier 2019
Projet CRImage UNIVERSITE STENDHAL GRENOBLE
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Formation Initiale 8ème promotion
Module bibliothèques numériques
Transcription de la présentation:

ISTEX, un outil au service de la fouille de textes et de données. Jean-Marie Pierrel, Université de Lorraine ANR-10-IDEX-0004-02

Rappel des objectifs d’ISTEX Création d’une plateforme nationale intégrant des collections rétrospectives de la littérature scientifique dans toutes les disciplines : Des acquisitions, sous forme de licence nationale Une cohérence de l’ensemble des droits sur les ressources ISTEX et sur les ressources courantes L’agrégation des ressources au sein d’une plateforme apportant une plus-value basée sur le traitement des données en texte intégral Une offre de services et usages complémentaires : traitement des données , extraction de données, fouille de textes, production de synthèses documentaires, de corpus terminologiques … ANR-10-IDEX-0004-02

Les partenaires d’ISTEX (2) Recueil et analyse des besoins, lancement des appels à propositions, évaluation des offres et ressources, pré-sélection, détermination prix-cibles, support aux négociations Pilotage du projet (DIST), Développement de la plateforme (Inist) Négociation, acquisition des ressources, signalement, gestion des accès et des droits Coordination des services à valeur ajoutée et chantiers d’usage Un budget de 60 millions d’euros ANR-10-IDEX-0004-02

Un réservoir unique d’archives documentaires scientifiques (1) Le programme d’acquisition de ressources concerne des collections rétrospectives de revues et de livres électroniques ; Acquisition du plein texte de ces ressources afin de permettre la mise en œuvre de fouille de texte sur l’ensemble des ressources venant de divers éditeurs, Représentant aujourd’hui 18,2 millions d’articles Plus de 7500 revues et plus de 8 500 E-books ANR-10-IDEX-0004-02

Un réservoir unique d’archives documentaires scientifiques (2) La poursuite des achats est prévue jusque mi-2017 Des perspectives d’avenir dans le cadre d’un nouveau projet au sein du PIA 3 Augmenter, diversifier et actualiser la collection acquise pour couvrir de façon équitable un grand nombre de champs disciplinaires. Intégrer de revues scientifiques publiées en open access permettant de couvrir de façon plus exhaustive les champs disciplinaires indépendamment des modalités de diffusion des publications. ANR-10-IDEX-0004-02

Caractéristiques de la plateforme ISTEX ELSEVIER OAI PMH SPARQL ENDPOINT API Web REST/JSON WIDGETS Utilisateurs METS, DC, PREMIS Entrepôt central Normalisation des objets Standardisation des formats Génération de formats (Zip) Génération Etat de collection Enrichissement Chargement Diffusion SPRINGER WILEY ……… ANR-10-IDEX-0004-02

Moyens de diffusion de la plateforme Accès aux ressources ISTEX à travers un widget d’interrogation qui s’intègre à un site web. API ISTEX 1 API/REST Sélection automatique d’un sous-corpus OAI-PMH, SPARQL 4 Accès aux ressources ISTEX à travers des outils de découverte ET/OU de résolveur de liens. OPEN ACCESS Abonnements courants 3 Accès aux ressources ISTEX à travers les APIs interfacées. 2 ANR-10-IDEX-0004-02

ISTEX support de projets de fouille de textes Définir des services à valeurs ajoutées sur la plateforme ISTEX par l’exploitation du plein texte. Créer une dynamique de recherche développement autour de la plateforme ISTEX qui puisse servir de déclencheur à des activités plus larges d’appropriation par les chercheurs des contenus d’ISTEX pour développer des recherches en fouille de textes ANR-10-IDEX-0004-02

Pour quels usages ? Interrogation en texte intégral sur les objets numériques indexés dans leur totalité. Production de synthèses documentaires par analyse de sous corpus individualisés pour l’occasion, et auxquels sont appliqués des méthodes de text mining. Représentation et visualisation de données basées sur des technologies de cartographie de la connaissance. Utilisation à des fins de recherche Par exemple en ingénierie de la langue, génomique, histoire des sciences…. ANR-10-IDEX-0004-02

Exemples d’exploitation Sélection de sous corpus d’articles citant tel auteur, tel article issus de travaux de tel projet (projet Européen, projet ANR, …), s’appuyant sur telle donnée (ou exploitant tel corpus), etc.  Caractérisation de l’évolution des recherches ou connaissances dans un domaine particulier au cours d’une période temporelle donnée. Ré-indexation terminologique d’articles scientifiques un nouveau concept n’est pas détectable dans les mots clés proposés au sein des métadonnées, mais uniquement par l’analyse du plein texte. Exemples : « actif toxique », « nuage informatique » ou « Cloud computing », etc. ) ANR-10-IDEX-0004-02

Trois grands types de projets Enrichissement des métadonnées grâce à des techniques de fouille de textes Mise en place de projets de services à valeurs ajoutées Mise en place de chantiers d’usage ANR-10-IDEX-0004-02

Enrichissements des métadonnées fondés sur des techniques de TDM Détection d’entités nommées (LDI Tours) Lieu, Date, Adresse web, etc. Détection en plein texte de termes et de leurs variantes (LINA Nantes) Intégration d’outils et enrichissement complémentaires (INIST) XMLisation de documents Balisage des principaux champs des références bibliographiques ANR-10-IDEX-0004-02

Des projets de services à valeur ajoutée CILLEX : classification et outils de métrologie greffés sur le moteur de recherche ISTEX (CLLE/IRIT Toulouse) LorExplor : Bibliothèque open source de composants Xml d’exploitation du corpus ISTEX (Université de Lorraine) ISTEX_R : Caractérisation de l’évolution des recherches et des connaissances dans le temps grâce à la construction de cartes diachroniques (LORIA, ATILF, INIST) ANR-10-IDEX-0004-02

Des expérimentations grâce à des chantiers d’usage Sélection de 8 équipes-projets « Chantier d’usage » en décembre 2016 pour démontrer les possibilités de fouille de textes sur les corpus ISTEX. Les corpus ISTEX vus comme des données de base de recherches de type fouille de textes ou «text mining». ANR-10-IDEX-0004-02

Les projets Chantiers d’usage en cours ALPAGE : annotation de corpus ISTEX et codage en TEI RelTEX : Usage du corpus ISTEX pour l'exploitation de méthodes d'extraction de connaissances à partir de textes 3ST : Surligneur Sémantique de Textes Scientifiques FULLLAB : Comparaison fulltext et abstract en sciences environnementales ANR-10-IDEX-0004-02

Les projets Chantiers d’usage en cours NEOTEX : Exploitation de documents textuels d’un domaine par un néophyte Terre-ISTEX : Identification et analyse des TERRains d’Études dans les corpus ISTEX Biosystémique : Recherche de résultats expérimentaux dans les publications scientifiques concernant la biologie systémique OTELO : chantier thématique sur les Terres rares, de l’exploration à l’impact environnemental ANR-10-IDEX-0004-02

Apport d’ISTEX face à l’existant Il y a certes des possibilités de fouille de textes sur les plateformes des éditeurs MAIS ISTEX permet de faire de la fouille de textes transverses sur l’ensemble des ressources acquises et donc pas uniquement celle d’un seul éditeur de développer son propre système de fouille de textes sur des sous-corpus d’ISTEX ANR-10-IDEX-0004-02

Liens utiles http://www.istex.fr/ http://www.licencesnationales.fr/ http://api.istex.fr/documentation/ @Projet_ISTEX @istexdev ANR-10-IDEX-0004-02

Merci de votre attention. ANR-10-IDEX-0004-02