Les Thèses en ligne à l’INRA Pascal Aventurier, INRA Versailles Patricia Volland-Nail, INRA Tours-Nouzilly INRA : Institut National de la Recherche Agronomique
Participent également à ce travail à l’INRA Marie-Colette Fauré, centre INRA de Tours-Nouzilly Hubert Pampouille , Systèmes d’Informations Documentaires, INRA Versailles Isabelle Cavallini, Systèmes d’Informations Documentaires, INRA Versailles Annie Chartier, Systèmes d’Informations Documentaires, INRA Versailles
Les thèses en ligne Initiation du projet Contexte national et international Objectifs pour l’INRA Aspects techniques
Initiation du projet (1) Dans le but d’une meilleure accessibilité et d ’une plus large diffusion du document «Thèse», un premier essai de mise en ligne d’une thèse en texte intégral (en format HTML) a été réalisé sur le serveur de l’INRA de Tours-Nouzilly en Juin 1997. http://www.tours.inra.fr/tours/general/theses.htm D’après les statistiques de consultation du serveur, la thèse mise en ligne était l’un des documents les plus consultés … … mais vives réactions de la part de directeurs de thèses quant aux problèmes de diffusion sur Internet de ce document scientifique.
Initiation du projet (2) La réflexion engagée sur le centre INRA de Tours-Nouzilly a entraîné en 2000 la constitution d’un groupe de travail «Thèses en ligne à l’INRA» dans le cadre d’un projet plus vaste de «Gestion Electronique de Documents». Enjeu : la gestion électronique de la production scientifique de l’INRA (littérature grise), la gestion du patrimoine et des connaissances scientifiques et de leur archivage.
Initiation du projet (3) Le groupe de travail «Thèses en ligne à l’INRA» s’est donné pour objectifs : de suivre les projets actuels de mise en ligne des thèses, au niveau national et international ; d'insérer l'INRA dans le débat engagé autour de la problématique de la mise en ligne des résultats et des objectifs scientifiques divulgués dans une thèse ; de convaincre de l’intérêt de la diffusion des thèses sur Internet : valorisation du travail, diffusion plus large, partage des acquis scientifiques ; de préparer «techniquement» les jeunes chercheurs de l'INRA à cette évolution.
Contexte international Aux USA : L’université Virginia Tech a été le leader dans le domaine et développe depuis plus de 10 ans des outils, des procédures et une expertise permettant de soumettre les thèses sous forme électronique : projet ETD (Electronic Thesis and Dissertation) : http://etd.vt.edu/ De nombreux autres projets existent : au Canada en Australie en Grande Bretagne … L’UNESCO a créé un groupe de travail "Electronic Theses and Dissertations » : http://www.unesco.org/webworld/etd/
Contexte national (1) De nombreuses initiatives pour diffuser les thèses en texte intégral sur Internet ont également vu le jour en France depuis ces dernières années, dont : Projet Cither pour les thèses soutenues à l’INSA de Lyon : http://csidoc.insa-lyon.fr/these/ Programme CyberThèses de l’université de Lyon-2, en association avec l’université de Montréal : http://www.univ-lyon2.fr/sentiers/edition/index.html Dans le cadre du projet Pelleas, à l’université de Marne-La Vallée, en partenariat avec l’Université de Reims
Contexte national (2) En mars 2000, le ministère de l’Education nationale a constitué un groupe de travail sur la numérisation des thèses et leur diffusion par voie électronique. Le Rapport de ce groupe de travail sur la Diffusion électronique des thèses (Claude Jolly) a été diffusé en septembre 2000. http://www.sup.adc.education.fr/bib/Acti/these/FnJoll.htm L’objectif affiché est «la valorisation des thèses, c’est à dire de leur conservation, de leur signalement et de leur accessibilité».
Contexte national (3) BO n°34 du 28 septembre 2000 : diffusion du texte de la circulaire du 21/09/2000 adressée aux président(e)s d’université sur la «Diffusion électronique des thèses» par le ministre de l’Education nationale http://www.sup.adc.education.fr/bib/Acti/FnThes.htm Les conclusions du rapport Jolly ont été validées et «le nouveau dispositif envisagé préconise la diffusion des thèses sur Internet dès lors qu’un certain nombre de conditions sont réunies … »
Contexte national (4) Les «conditions» sont les suivantes : autorisation du chef d’établissement, après avis du jury, et autorisation de l’auteur, dans le respect de la réglementation sur la propriété intellectuelle, respect par le doctorant de prescriptions techniques minimales, conversion de la thèse, au moyen de chaînes de traitement automatisées, dans les formats d’archivage et de diffusion adéquats, en vue de son stockage et de sa mise en ligne.
Avancement du projet à l’INRA (1) Une collaboration s’est engagée avec l’université de Lyon-2 pour expérimenter et tester leurs «chaînes de conversion», ainsi que les différents formats d’archivage et de diffusion: HTML, XML ou PDF. Adaptation de la chaîne et en particulier de la feuille de style utilisée aux caractéristiques «INRA».
Avancement du projet à l’INRA (2) Mise en place de la formation des étudiants à la mise en ligne de leurs travaux et aux contraintes techniques qui en résultent en matière de structuration des documents : utilisation des feuilles de styles dans Word : la première formation a eu lieu vendredi 16 mars à l’INRA de Tours pour 12 thésards prêts à rédiger leur thèse (soutenances prévues en fin d’année 2001). Récupération et traitement de leur document numérisé fin 2001.
Objectifs actuels (1) Héberger les thèses des thésards «INRA» (environ 300 thèses par an) sur les serveurs de l’INRA en attendant que l’ensemble du dispositif se mette en place dans toutes les universités françaises : l’INRA se positionne actuellement en tant que «relais» du dispositif national. Organiser la diffusion des thèses «INRA» au travers d’un infoservice «thèses» : http://www.inra.fr/Internet/theses/ (en cours d ’ouverture)
Objectifs actuels (2) Analyser l’utilisation des thèses en ligne à partir de nos serveurs : qu’est-ce qu’implique(ra) la diffusion de ce type de document dans notre domaine (biologie, sciences de la vie) ? Analyser la problématique des «thèses sur articles» : demandes d’autorisation aux éditeurs recensement des conditions des principaux éditeurs (Elsevier, Academic Press …) établissement d’une liste de points de contacts chez les éditeurs.
Objectifs actuels (3) Valider certaines options techniques de traitement du document thèse (chaîne de Lyon-2) et quantifier le travail à fournir. Réfléchir au cadre légal de la mise en ligne des thèses de l’INRA : la thèse est régie par le principe du droit d’auteur, on doit obtenir l’autorisation de l’auteur : rédaction d’une demande d’autorisation de mise en ligne par le service juridique de l ’INRA, l’INRA veut se garder le droit de décider de la diffusion des thèses : clause de confidentialité de résultats, problématique de la propriété des résultats de la recherche ...
Aspects Techniques Le document structuré Les normes actuelles La feuille de style (Traitement de texte) La chaîne de traitement de l’Université Lyon 2 Problèmes liés au traitement La diffusion et l’exploitation des documents
Le document structuré (1) Différents types de document électronique Format texte : traitement de texte (word), PDF, HTML Format Image : Gif, Jpeg, Tiff nécessite d’avoir des logiciels qui connaissent toutes les règles de codage des documents Présentation et contenu Dans ces formats, les éléments qui permettent de coder la structure du document et la présentation de celui-ci sont « mélangés » Le document « structuré» permet de séparer la présentation du contenu
Le document structuré (2) Avantages Formats indépendants des logiciels Les formats XML et SGML sont définis par des normes XML est défini par le W3C SGML est une norme ISO Le document structuré tend à se généraliser XML et SGML permettent de contrôler les différents éléments contenus dans les documents en fonction d’une structure définie Ces formats introduisent du «codage sémantique » dans les les textes
Les normes SGML (Structured General Markup Langage) Norme ISO XML (Extensible Markup Language) norme du W3C http://www.w3.org/XML/ (TEI) Text Encoding Initiative Permet de coder les textes académiques Définie une structure de document , une DTD (Document type Definition). Des outils permettent de valider un document conforme à cette structure Permet de coder des éléments : Auteur, titre,date de parution, différents niveaux de titres, citations, informations bibliographiques… Tei Consortium : http://www.tei-c.org/ En Français : http://www.uic.edu/orgs/tei/lite/teiu5_fr.html
La chaîne de traitement de l’Université Lyon2 Fichier XML à plat Fichier fourni par l’ étudiant texte stylé (WORD, traitement de texte) Fichier RTF omlette 2 1 Fichiers images construction Fichiers images corrections Diffusion 4 3 Fichier SGML de travail Internet (Html) SGML TEI Lite Archivage (document structuré) Validation de la structure SGML Xml (en cours) Script de traitement en langage Omnimark
La feuille de style 1
Intérêt de la feuille de style Word Pour le doctorant Aide à la rédaction. L’étudiant peut ainsi mieux se consacrer au contenu du document La présentation (les styles) sont personnalisables Une première approche du document structuré lors de la formation des étudiants Avantages pour le traitement du document Possibilité de conversion en document structuré dans d’autres formats (à chaque style Word correspondra un élément XML)
Le fichier XML à plat 2
Un exemple de fichier XML (conforme TEI) 3
Diffusion sur Internet 4 3
Problèmes liés au traitement Traitement des formules mathématiques et chimiques Actuellement : ces parties du document sont numérisées et traitées en tant qu’image En cours de développements : des outils pour coder ces structures en XML ( MathML, CML (Chemical Markup Language) Traitement des images Les images vont de trouver dans des fichiers séparés du texte Validation conforme à la TEI La saisie avec la feuille de Style Word n’est pas contrôlée, la validation « conforme à la TEI » se fait ultérieurement » L’aspect du document est modifié
La diffusion et l’exploitation des documents (évolution du projet) L’utilisation des Méta données issues du Dublin Core et définies dans le Rapport Jolly Lien avec d’autres projets Création d’un site Web permettant la recherche sur les thèses : utilisation d’un moteur de recherche Lien avec les bases bibliographiques de l’INRA Exploitation du document XML (Feuille de style XSL, etc..) Traitement d’autres types de document (rapport, congrès,…)