La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau

Présentations similaires


Présentation au sujet: "Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau"— Transcription de la présentation:

1 Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr Ecole nationale des chartes

2 14/03/2007G. Poupeau2 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

3 14/03/2007G. Poupeau3 Les acteurs de l'édition scientifique (1) Chaque acteur possède un marché spécifique et très peu de catalogues d'éditeurs rassemblent l'ensemble des types de publications Acteurs privés Les PUF : monographies, revues, manuels Armand Collin : revues à fort tirage (Les Annales), Manuels universitaires Gallimard : monographies (bibliothèque des idées) et vulgarisation (collection découvertes) Le Seuil : manuels, synthèses, vulgarisation (revue l'Histoire) Brepols, spécialisé sur le Moyen Âge : manuels et éditions critiques Droz et champion, très spécialisés dans l'érudition : monographies et éditions critiques Errance et Picard, spécialisées dans l'archéologie métropolitaine Klincksieck, de Boccard, spécialisés dans l'archéologie orientale

4 14/03/2007G. Poupeau4 Les acteurs de l'édition scientifique (2) Acteurs publics Les presses universitaires : Monographies, revues, actes de colloques, éditions critiques, instruments de références, par exemple CNRS éditions (propose aussi des ouvrages de vulgarisation) Presses de Paris Sorbonne (PUPS – Paris IV) Les publications de la Sorbonne (PUS – Paris 1) Presses universitaires de Rennes (PUR) la Direction de l'architecture et du patrimoine au ministère de la culture édite les Documents d'archéologie française Un cas particulier : le CTHS, comité des travaux historiques et scientifiques. Institution rattachée administrativement à l'École des chartes chargée de la publication des sociétés savantes et de l'organisation du congrès annuel des sociétés savantes. Post-scriptum : Un éditeur public n'est pas forcément le diffuseur de ses éditions...

5 14/03/2007G. Poupeau5 Les problèmes de l'édition scientifique Augmentation du nombre de publications Augmentation du prix des périodiques Baisse du tirage (500 exemplaires en moyenne) Désintéressement du grand public pour des publications scientifiques « pointues » Principaux voire uniques acheteurs : les bibliothèques. Budgets consacrés à la publication de moins en moins importants Les « colosses aux pieds d'argile » O. Guyotjeannin

6 14/03/2007G. Poupeau6 « Le paradoxe de la publication scientifique » Concept développé par Jean-Michel Salaün et Ghislaine Chartron, mais mis en lumière par d'autres : Steven Harnard ou Robert Darnton Affrontement de deux logiques : économie des biens et économies des idées « Publish or perish » : Publier pour avancer dans la recherche, mais comment publier ?? Mise en place de critères d'évaluation souvent peu adaptés aux caractéristiques des SHS Le facteur d'impact La bibliométrie

7 14/03/2007G. Poupeau7 Avantages économiques ? logistiques ? Une fausse idée : « l'édition électronique ne coûte rien » Le travail éditorial reste le même Coûts différents Investissement en amont pour mettre au point plate-forme et applications Pas de gestion des stocks, mais gestion des fichiers (serveurs, espaces disques, ingénieur systèmes) Le coût d'une édition électronique n'est pas tenu de façon aussi stricte que le support papier à des contingences physiques Un réel avantage financier ?? Avantage économique : possibilité d'un accès gratuit avec un financement en amont

8 14/03/2007G. Poupeau8 Les enjeux du libre accès Enjeux économiques : résoudre le paradoxe de la publication scientifique Enjeux politiques : Empêcher la confiscation des résultats de la recherche scientifique par des grands groupes commerciaux Enjeux sociaux : Permettre au plus grand nombre l'accès aux résultats de la recherche, même dans les pays ne pouvant se payer les abonnements. Redistribution des recherches financées sur des fonds publics

9 14/03/2007G. Poupeau9 La souplesse éditoriale Diffuser au fur et à mesure de la réalisation du projet Introduction de modifications avec un coût faible voire nul Problème : Donner l'impression qu'une édition en ligne ne constitue jamais un travail terminé Rendre légitime la publication électronique et la publication « à étapes » Jouer sur la complémentarité entre le papier et l'électronique Possibilité de multiplier les supports à partir de l'encodage informatique de l'information

10 14/03/2007G. Poupeau10 Disponibilité et utilisabilité Disponibilité des ouvrages Audience potentielle du Web Publication potentiellement plus rapide Des études ont montré que les recherches en libre accès sont cités deux fois plus que les autres Traitement et exploitation de l'information Interopérabilité : présence dans les agrégateurs de contenu (exemple : oaister ou in-extenso)

11 14/03/2007G. Poupeau11 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

12 14/03/2007G. Poupeau12 Numérisation – édition électronique Les mêmes matériaux, techniques, outils voire la même réflexion que l'édition électronique Numériser, ce n'est pas éditer !! Éditer, ce n'est pas numériser !! Numérisation n'est pas de l'édition conçue comme la publication d'une œuvre originale Numérisation = fac-similé numérique d'une œuvre existante Passage d'une information existante d'un support à un autre en utilisant le support original Deux types de numérisation : mode texte/mode image Numérisation ne se limite pas à scanner un ouvrage !! Qu'est-ce-qu'une bibliothèque numérique ? Qu'est-ce-qu'une collection d'ouvrages numériques ?

13 14/03/2007G. Poupeau13 Les archives ouvertes (1) Les archives ouvertes sont des réservoirs darticles scientifiques mis à disposition des internautes par les scientifiques eux-mêmes, le plus souvent gratuitement et répondant aux règles dinteropérabilité définies par lOpen Archive Initiative. Les principaux enjeux associés aux archives ouvertes sont : un accès ouvert et simplifié aux publications scientifiques, une recherche dinformation décuplée (interopérabilité possible entre les archives) et une mémoire scientifique commune.

14 14/03/2007G. Poupeau14 Les archives ouvertes (2) Différents types darchives ouvertes Au niveau du type darticle : De prépublications De postpublications Les deux Au niveau du type darchives Par domaines : exple, en économie : http://econwpa.wustl.edu/ ou en sciences de linformation : http://archivesic.ccsd.cnrs.fr/http://econwpa.wustl.edu/http://archivesic.ccsd.cnrs.fr/ Par institutions : exple : Lyon 2 : http://eprints.univ-lyon2.fr:8050/, lens-lsh : http://eprints.ens-lsh.fr/, linstitut Jean Nicod : http://jeannicod.ccsd.cnrs.fr/, le plus connu Escolarship de luniversité de Californie : http://escholarship.cdlib.org/http://eprints.univ-lyon2.fr:8050/ http://eprints.ens-lsh.fr/http://jeannicod.ccsd.cnrs.fr/ http://escholarship.cdlib.org/ Le cas français : l'accord CPU, CEMAGREF, CNRS, INRA, INRIA, INSERM, IRD, CIRAD, Institut Pasteur, Conférence des Grandes Ecoles pour une plate-forme nationale : HALHAL

15 14/03/2007G. Poupeau15 Les revues en ligne Différents types de revues en ligne: Revues existant sur le papier et dont on développe une version électronique en texte intégral souvent intégrée dans des portails Revues existant exclusivement sur le Web Revues existant sur le papier pour lesquelles le Web est une vitrine Différentes offres Revue intégrée à un portail Revue isolée Notion de barrière flottante Offre à l'étranger : Elsevier (Science direct), Jstor, Muse, EruditElsevierJstorMuse Erudit

16 14/03/2007G. Poupeau16 Les revues en ligne (2) : le cas français Un acteur public : Revues.orgRevues.org Un acteur privé : CAIRN (Belin, De Boeck, La Découverte, Erès : 4 éditeurs + BnF et soutien de Gesval et CNL)CAIRN Un portail pour la numérisation rétrospective des revues en SHS : Persée

17 14/03/2007G. Poupeau17 Les thèses en ligne Un des chantiers les plus engagés avec les revues Volonté institutionnelle forte (cf. le rapport Jolly sur la diffusion électronique des thèses) Projet pilote mené à Lyon II : Cyberthèses avec mise au point dune chaîne de traitement automatiqueCyberthèses Pas une volonté dédition mais de diffusion et darchivage. Serveur des thèses de Lyon II : http://theses.univ- lyon2.fr/http://theses.univ- lyon2.fr/ Les problèmes rencontrés : les changements en 2005 TEF. Norme AFNOR pour les métadonnées des revues

18 14/03/2007G. Poupeau18 Les instruments de recherche et les usuels Lavènement du Web a permis la mise en ligne dinstruments de la recherche comme les bases de données, avant confinés dans les laboratoires de recherche Elles permettent la mise en ligne de données brutes de la recherche non encore analysées mais classées Par exemple, en histoire : Base de données bibliographiques : BEDEBEDE Base de données prosopographiques : PASEPASE Inventaires, catalogues ou répertoires : Répertoire des cartulaires françaisRépertoire des cartulaires français Quelques dictionnaires Le trésor de la langue française : http://atilf.atilf.fr/tlf.htm Une liste intéressante de dictionnaires : http://www.admin.ch/ch/f/bk/sp/dicos/monol.html http://www.admin.ch/ch/f/bk/sp/dicos/monol.html

19 14/03/2007G. Poupeau19 Manuels Peu d'offres en ligne, car est plutôt du ressort des éditeurs privés Une réflexion associant universités, éditeurs privés et labo de recherches : ManumManum Universités se sont tournées vers l'enseignement à distance et les cours en ligne à destination de ses étudiants : cf la plate-forme ClarolineClaroline Exemple d'une expérience à l'École des chartes : Theleme Theleme

20 14/03/2007G. Poupeau20 Les sources historiques Projets menés par des institutions universitaires, des laboratoires de recherche et par des éditeurs privés Edition de sources historiques, douvrages de référence, douvrages de littérature sous forme hypertextuelle Sources de première main : Numérisation patrimoniale (par exemple : liber floridus) Sources de seconde main numérisée dans le cadre d'une bibliothèque numérique : Gallica Édition électronique d'édition critique de sources : le Cartulaire blanc Repérage et description de sources Catalogue : Catalogue général des manuscrits Instruments de recherche : les instruments de recherche en ligne en EAD

21 14/03/2007G. Poupeau21 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

22 14/03/2007G. Poupeau22 Séparation du support et des données Séparation entre l'information elle-même et le support de l'information : la dématérialisation Mais : Besoin d'un artefact indépendant a-priori de l'information pour accéder aux données L'information est stockée à un seul endroit Pas de notion d'organisation physique de l'information L'information doit être traduite dans un format exploitable par un ordinateur Mais : Il faut conserver la structure logique de l'information Il faut pouvoir mettre en place des interfaces de visualisation de l'information

23 14/03/2007G. Poupeau23 Les responsabilités Nouvelle organisation de la chaîne auteur-éditeur- lecteur : concept de désintermédiation et la navigation du lecteur Les responsabilités juridiques

24 14/03/2007G. Poupeau24 La visualisation, la navigation, la consultation La lecture à l'écran Interface graphique : notion d'ergonomie et de graphisme voire de « webDesign » Le feuilletage remplacé par la navigation ---> le principe de l'hypertexte Multiplication des points d'accès à l'information : la notion de parcours de lecture

25 14/03/2007G. Poupeau25 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

26 14/03/2007G. Poupeau26 Le problème de la conservation Une fois les documents stockés, sont-il vraiment en sécurité ? Pour combien de temps ? Identifier les risques Sauvegarder nest pas archiver ! … le problème de la conservation

27 14/03/2007G. Poupeau27 Préserver les documents numériques : quel enjeu ? Voici un document numérique que jai créé en 1998. Je lai enregistré sur une disquette, est-elle toujours en bon état ? Mon portable, acheté en 2004, na pas de lecteur de disquette. Où en trouver un ? Jai créé ce document avec Claris Works. Comment vais-je retrouver ce logiciel ? Jai trouvé le logiciel, mais puis-je linstaller et lutiliser sous Windows XP ? Ca marche ! Mais jai perdu toute ma mise en forme … De quoi sagit-il, déjà? Est-ce bien ce qui est indiqué sur la disquette ?

28 14/03/2007G. Poupeau28 Caractéristiques de l'édition scientifique sur le Web Support unique de l'information sur le serveur de l'éditeur Données doivent pouvoir être encore exploitées dans 50 ou 100 ans Les données doivent être citables dans une bibliographie Les références doivent rester accessibles

29 14/03/2007G. Poupeau29 La conservation : une problématique nouvelle « la conservation de l'information sous forme numérique est beaucoup plus complexe que la conservation de l'information sur supports papier ou film. Ceci nest pas seulement un problème pour les Archives traditionnelles, mais également pour de nombreux organismes qui, jusque-là, navaient jamais eu conscience d'assurer une fonction d'archivage ». p. 13 de la traduction française de la norme OAIS

30 14/03/2007G. Poupeau30 La mission de l'éditeur scientifique Garantir l'accès à long terme aux ressources qu'il produit et met à disposition en ligne Pérennisation des fichiers à l'origine de la ressource en ligne QUESTION : Existe-t-il une différence entre le but poursuivi par un éditeur et par un bibliothécaire ou un archiviste ?

31 14/03/2007G. Poupeau31 Un exemple dans le contexte de l'édition papier La France au Moyen Âge, du Ve au XVe siècle Claude Gauvard Presses universitaires de France

32 14/03/2007G. Poupeau32 Quatre éditions

33 14/03/2007G. Poupeau33 Deux chartes graphiques différentes Édition de 1997Dernière édition : 2004

34 14/03/2007G. Poupeau34 L'évolution d'un document numérique Le contenu La charte graphique Le format de description des données A garder en tête, le support n'existe qu'à un seul endroit : le serveur

35 14/03/2007G. Poupeau35 Évolution du contenu de la ressource Pour le papier : nouvelle édition Avantage de l'électronique : souplesse éditoriale, changement immédiat et à n'importe quel moment Question : Doit-on conserver les deux versions du fichier ?

36 14/03/2007G. Poupeau36 Modification de la charte graphique Pour le papier : nouvelle édition Évolution de la charte graphique Question : Dois-je donner un moyen de visualiser les deux versions ? Est-ce-que cela entre dans le cadre de mes missions d'éditeur électronique ?

37 14/03/2007G. Poupeau37 Changement du format Migration des fichiers pour des raisons de cohérence éditoriale ou technique Les deux fichiers sont encore lisibles car ils utilisent le même format mais ils n'utilisent pas le même formalisme Question : Doit-on conserver les deux versions du fichier ?

38 14/03/2007G. Poupeau38 Quelques réponses Question 1 : les différentes versions mais on donne accès à la dernière en indiquant la date de modification Question 2 : Le dépôt légal du Web Question 3 : il faudrait le conserver, mais pas l'éditeur. Qui ? l'IMEC ? les Archives nationales ?

39 14/03/2007G. Poupeau39 Une contrainte technique : la préservation La conservation à long terme est un enjeu pour le document numérique : supports formats environnement matériel et logiciel Stocker/sauvegarder ce nest pas archiver !!! La préservation doit être au cœur de la réflexion à toutes les étapes de réalisation d'un projet de diffusion en ligne Un modèle darchivage : lOAIS (ISO 14721) les documents et leurs métadonnées le cycle de vie du document

40 14/03/2007G. Poupeau40 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

41 14/03/2007G. Poupeau41 Le modèle OAIS : présentation (1) Open Archival Information System Norme ISO (14721) mis au point par le CCSDS (Consultative Comitee for Space Data Systems) Modèle conceptuel explicitant théoriquement la mise en place d'un entrepôt de document numérique en vue de leur archivage sur le long terme Les fonctions Les responsabilités L'organisation du système Une terminologie commune « Le Long terme est défini comme étant suffisamment long pour être soumis à limpact des changements technologiques, y compris à la prise en compte de nouveaux supports et nouveaux formats de données ou à des changements de la communauté dutilisateurs »

42 14/03/2007G. Poupeau42 Le modèle OAIS : présentation (2) A quoi sert-il, concrètement ? À établir la responsabilité de la conservation : notion de mission, de contrat À surveiller les documents avant que les dégradations ne se produisent (en général, avec le numérique, « après »= trop tard) À garantir lintégrité des documents, vérifier quils ne sont pas altérés, et sils le sont, expliquer pourquoi À organiser lactivité de conservation autour dun référentiel commun pour faciliter les évolutions

43 14/03/2007G. Poupeau43 Le modèle OAIS n'est pas... il ne donne pas de formats, schémas, règles ou techniques pour préserver les documents numériques il ne décrit pas les applications informatiques et techniques à mettre en œuvre, ni logicielles, ni matérielles il ne donne pas de méthodologie concrète de réalisation dun tel système (cahier des charges, workbook ou autre).

44 14/03/2007G. Poupeau44 Quels sont les intervenants dans la gestion de l'information numérique ? Les acteurs Comment décrire mes objets en vue de leur préservation ? Le modèle dinformation Quelles sont les méthodes pour éviter lobsolescence technologique ? Les stratégies de préservation Quelle organisation mettre en place pour assurer cette activité de préservation ? Le modèle fonctionnel Composantes du modèle OAIS

45 14/03/2007G. Poupeau45 Les acteurs de l'OAIS Archive Management Producteur Utilisateur

46 14/03/2007G. Poupeau46 Objet données Information de pérennisation Provenance, contexte, intégrité… Paquet dinformations Information de représentation Format, langue… ++ + + Monde réel : Monde numérique : Le modèle d'informations

47 14/03/2007G. Poupeau47 Les paquets dinformation ont une forme différente suivant ce quon en fait Paquet darchivage (AIP) Paquet de dissémination (DIP) Paquet de versement (SIP) Les paquets d'informations

48 14/03/2007G. Poupeau48 Le modèle fonctionnel PRODUCTEUR UTILISATEUR MANAGEMENT entrées données stockage SIP AIP accès DIP ADMINISTRATION PLANIFICATION DE LA PRESERVATION

49 14/03/2007G. Poupeau49 Principes pour la conservation du numérique Séparer les données des applications les exploitant Modéliser l'information par rapport à son fonctionnement intrinsèque, plutôt que par rapport à une application précise Surveiller et renouveler régulièrement les supports (de façon préventive) Contrôler lintégrité des documents (le « train de bits ») Collecter toutes les informations nécessaires pour maîtriser le document (métadonnées) Transformer le document dans une forme plus facile à conserver dans le temps (« migration »), c'est à dire utiliser des formats contrôlables Collecter toutes les informations concernant ces transformations Collecter des environnements et des plateformes de références pour lavenir (« émulation »)

50 14/03/2007G. Poupeau50 Plan du cours Pourquoi diffuser ligne ? Tour d'horizon des projets en ligne Particularités du support électronique Les problèmes de la conservation du document numérique Présentation théorique du modèle OAIS Du producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

51 14/03/2007G. Poupeau51 Missions de TELMA Mettre en place une plate-forme technique pour accueillir, gérer, conserver et diffuser les données accueillies par le centre. Devenir un relais d'information et de soutien technique pour la communauté des chercheurs en histoire dans le domaine du traitement numérique de l'information scientifique Devenir un intermédiaire entre la communauté des chercheurs et les institutions de conservation, en particulier leurs tutelles pour mener des actions de numérisation partagées Assurer une veille technologique et représenter la communauté des chercheurs en histoire dans les organismes de normalisation comme le TEI consortium

52 14/03/2007G. Poupeau52 Notre exemple : deux actes du cartulaire de Nesle Le but de la mise en ligne Donner à lire le texte transcrit de la source Offrir la numérisation de la source primaire Offrir des interfaces pour naviguer dans la source éditée et numérisée Offrir des moyens de traiter la source De quoi dispose le chercheur ? Un document Word contenant l'édition critique La source primaire à numériser

53 14/03/2007G. Poupeau53 1ère étape : négociation avec le management Déterminer les buts poursuivis par le producteur Déterminer la communauté d'utilisateurs Déterminer la responsabilité et l'implication de l'archive Responsabilité en terme de conservation Responsabilité de diffusion Responsabilité de réalisation Responsabilité juridique Accord entre le producteur et le management sur les formats des fichiers conservés par l'archive en fonction des responsabilités demandés et des buts poursuivis Déterminer les métadonnées nécessaires à la réalisation des buts et au respect des responsabilités

54 14/03/2007G. Poupeau54 2ème étape : encoder l'information Rendre lisible l'information brute à un ordinateur L'information possède une structure et une cohérence intrinsèque Structure hiérarchique de l'information Encoder un texte répond à différents objectifs : publication, étude et analyse L'information possède des contextes contexte morphologique contexte grammatical contexte documentaire contexte historique

55 14/03/2007G. Poupeau55 Le choix des formats utilisés

56 14/03/2007G. Poupeau56 Types d'encodage de l'information La base de données Le format binaire Le format texte (ascii) Le format texte + systèmes d'étiquetages

57 14/03/2007G. Poupeau57 Les formats ouverts et libres Pourquoi garantir indépendance de l'information par rapport à un logiciel OU à un éditeur ? Critères auxquels doit répondre le format : Spécification du format accessibles gratuitement (format libre) Spécification non soumise au paiement de royalties (format ouvert) Assurer la stricte séparation entre la mise en forme et le contenu : format indépendant de logiciels et/ou de plates-formes Le format doit être un standard reconnu Doit permettre de mettre en lumière les différents contextes

58 14/03/2007G. Poupeau58 le XML Répond aux exigences précédentes Langage à balises héritier de SGML Mis au point au W3C Met en lumière la structure logique et hiérarchique d'un texte au moyen de balises Langages à balises: Poupeau Gautier les balises indiquent le rôle/la caractéristique de l'information dans le contexte du document Schéma XML, une grammaire qui détermine le nom des balises et leurs règles d'agencement. Différentes syntaxes pour décrire une grammaire : DTD, XML schema, Relax NG

59 14/03/2007G. Poupeau59 La TEI : Text encoding initiative Mise en place depuis 1987 (SGML) Maintenu par le TEI consortium 5ème version actuellement en développement Comprend 450 éléments pour encoder les textes en SHS et en littérature La TEI est un guide composé de recommandations et de la proposition de balises normalisées En fonction du texte encodé, choix de modules dans la TEI pour créer une grammaire adaptée Très utilisée dans le monde anglo-saxon et de plus en plus utilisée dans les pays européens

60 14/03/2007G. Poupeau60 Structure générale d'un fichier TEI Le titre Éditeur Source du fichier numérique (la balise magique !!)

61 14/03/2007G. Poupeau61 Les éléments d'un texte Les mises en valeur : Les images : Les citations : ou Les notes : Les mots étrangers : Les listes : Les tableaux :

62 14/03/2007G. Poupeau62

63 14/03/2007G. Poupeau63 L'encodage des données

64 14/03/2007G. Poupeau64 Qu'est-ce-qu'on encode ? (1) L'encodage XML reflète la structure logique et hiérarchique de l'information. Il implique la séparation du contenu (une portion d'informations correspond à un titre d'ouvrage) et la mise en forme (le titre est en italique) L'encodage XML ne sert pas à donner le sens du texte : il ne s'agit pas de sémantique !! Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot ---> Il est essentiel de faire des choix, car il est impossible de tout encoder. Penser aux possibilités de la grammaire utilisée Questions essentielles : Pourquoi encoder ce document ? A quoi va servir l'encodage ? Quelles informations sont utiles par rapport au but poursuivi ? Quelle est la nature du document ? Comment fonctionne- t-il ?

65 14/03/2007G. Poupeau65 Qu'est-ce-qu'on encode ? (2) Deux parties dans un document Les macro-structures (corps du texte, annexes, parties liminaires, chapitre, partie, sous-partie, paragraphes, strophes, vers, acte, scène, répliques...). Les micro-structures : tableaux, figures, notes, indexation, emphase....

66

67

68 Acte 26 Guillaume de Chassey, chevalier, bailli dAuxois 1264 n. st., mars. Guillaume de Chassey, chevalier, bailli dAuxois, notifie quen sa présence Guillermin de Rugney, écuyer, a reconnu avoir vendu à Jean de Nesle, écuyer, ce quil avait des tierces de Nesle, soit le quart de ces tierces, pour dix l. t. Ancous dAlerey sest établi plège pour Guillermin à hauteur de 30 l. t. A la requête de Guillermin et dAncous, le bailli a scellé lacte.

69 Nos, Guillaumes de Cheacey, chevaliers, bailliz de Aussois por noble honme <persName corresp="#ip103">Hugon, duc de Borgoigne, faisons savoir a touz cels qui verront cels presentes letres que, an nostre presence estaublis Guillermins de Ruygney, escuiers, at reconeu que il at vendu, quittei et delivrei a Jehant de Neelles, escuier, a tenir a touz jours, lui et ses hoirs, tout ce que il avoit as tierces de Neelles, cest a savoir lou quart des dites tierces por dix livres de tornois ; des queles li diz <persName corresp="#ip187" >Guillermins se est tenuz por paiez per devant nos an deniers nombrez. Et ceste dite vendue, ceste quittance et ceste delivrance lidis Guillermins at promis a tenir per son soirement fait corporelment per devant nos et a guarantir au dit Jehant et a ses hoirs contre toutes genz ; et se il defailloit del garantir <persName corresp="#ip31">Ancous de Alerey se est estaubliz per devant nos pleges et detres an la main au dit <persName corresp="#ip93">Jehant ou a ses hoirs de trente livres de tornois por lou defaut de la dite garantie ; et les porroit lever li diz Jehanz ou sui hoir del dit Ancous ou de ses hoirs por lou dit defaut ; et toutes ces dites choses li diz Guillermins et li diz Ancous ont promis a tenir li diz Guillermins per son seirement dessus dit et li diz Ancous an bone foi, senz aler ne faire a aler ancontre per aux ne per autrui ; et ont quittées toutes barres per quoi il porroient aler ou faire a aler ancontre ces dites choses ; et se il aloient ou faisoient a aler ancontre, il nos ont donei pooir de aux contreindre as dessus dites choses tenir et de aux gaigier senz plait, senz fuyte, senz asloigne ausic cum de chose que ait estei jugié per nos an nostre cort. Et que ce soit plus ferme chose et plus estauble, per la requeste <del n="a" rend="gratté">del dit del dit <persName corresp="#ip187" >Guillermin et del dit <persName corresp="#ip31" >Ancous, nos avons mis nostre seaul an cels presentes letres. Ce fu fait an lan nostre Signour m. cc. sexante et trois, el mois de marz.

70 14/03/2007G. Poupeau70 La numérisation de la source primaire

71 14/03/2007G. Poupeau71 La numérisation de la source Format de l'image numérisée TIFF pour la conservation JPEG pour la diffusion La numérisation « déconstruit » l'ouvrage

72 14/03/2007G. Poupeau72 La numérisation de la source Reconstruire l'intégrité de la source grâce aux métadonnées, cad reconstruire la reliure Faire correspondre la page originale au fichier informatique, cad procéder à un récollement Faire correspondre structure logique et structure physique

73 ...................

74 14/03/2007G. Poupeau74 3ème étape Rendre accessible les données en XML

75 14/03/2007G. Poupeau75 Exploiter les fichiers XML Communautés d'utilisateurs : chercheurs, curieux, un utilisateur du Web Les données doivent être accessibles avec un navigateur Web Transformer les données XML en HTML Feuilles de style XSLT (eXtensible styleSheet language transformation Interroger le fichier XML : Xquery, équivalent de SQL pour des fichiers XML Mise en forme du HTML : CSS, cascading stylesheets

76 14/03/2007G. Poupeau76 [fol. ] [ ] Extrait d'un fichier XSLT

77 14/03/2007G. Poupeau77 Fichier Xquery { for $result in collection("/db/nesle")//group[@recueil]/text let $title:=$result/front/titlePage/docTitle/title where year-from-date(xs:date($result/front/titlePage/docDate/@notAfter))<=1300 order by $result return {$title} {data($result/@n)} }

78 14/03/2007G. Poupeau78 Extrait fichier CSS h1 { text-align: center; font-family: Georgia, Arial, Verdana, sans-serif; font-size: 1.6em; color: #BF0000; letter-spacing: 0.1em; margin-bottom: 1em; margin-top: 0; } #document h1 { margin-top: -1em; }.soustitre { font-size: 0.8em; }

79 14/03/2007G. Poupeau79 4ème étape Construction du paquet de versement

80 14/03/2007G. Poupeau80 Les métadonnées Toutes les informations sur le corpus qui vont permettre de gérer le corpus à long terme Trois types de métadonnées : Métadonnées descriptives : titre, auteur, date de publication... Métadonnées administratives : métadonnées juridiques, métadonnées techniques, métadonnées du cycle de vie des informations Métadonnées de structure : Structure du corpus, agencement des différents fichiers entre eux Encodage en XML de ces différentes métadonnées

81 14/03/2007G. Poupeau81 Les métadonnées descriptives Le Dublin core : http://dublincore.orghttp://dublincore.org Initiative internationale : Dublin core metadata initiative Norme ISO 15836-2003 15 éléments de base pour décrire des documents (numériques ou non) : Dublin core simple Onix : http://www.editeur.org/onix.htmlhttp://www.editeur.org/onix.html Mis au point par EdiTeur, groupe international d'éditeurs dont la vocation est de coordonner les initiatives et les standards pour le commerce électronique dans le domaine du livre Schéma XML 26 parties permettant la gestion du livre à tous les niveaux par un éditeur. A-priori pour le support papier, mais intègre les publications électroniques

82 Edition de sources Cartulaire de la seigneurie de Nesle Xavier Hélary Institut de Recherche et d'Histoire des Textes Institut de Recherche et d'Histoire des Textes - Section de diplomatique 2006 Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly. http://www.cn-telma.fr/nesle/ Histoire politique et institutionnelle Histoire sociale et culturelle Histoire économique Cartulaire France Moyen Âge Bourgogne Latin Langue d'oil Chantilly, Musée Condé, série GB, XIV F 22 text/xtml TEI fr Ædilis

83 14/03/2007G. Poupeau83 Les métadonnées administratives PREMIS : Preservation metadata : implementation strategies Mis au point par un groupe de travail soutenu par OCLC et RLG Définit un jeu de métadonnées de préservation : « les informations utiles à un entrepôt pour mener à bien le processus de conservation à long terme du document numérique » Il suit les recommandations de l'OAIS, en particulier la notion de paquets Très complet, trop ??

84 full XML 1.0 PRONOM fmt/101 Indique le rôle du répertoire de format par rapport à l'objet FRED info:gdfr/fred/f/xml http://www.digitalpreservation.gov/formats/fdd/ fdd000075 oXygen 7.2 2006-07-19 TEI P5 Schéma Relax- NG http://www.cn- telma.fr/irht/nesle/tei_complte_200406.rng

85 14/03/2007G. Poupeau85 Rassembler ces différents jeux de métadonnées Un format d'empaquetage : METS (Metadata encoding and transmission standard) http://www.loc.gov/standards/mets/http://www.loc.gov/standards/mets/ Initiative de la Digital library foundation et maintenu par la library of congress Gestion les objets complexes en vue de leur description et de leur échange Gestion des trois types de métadonnées (descriptives, administratives, de structure) 7 sections : METS header (metsHdr) Description Metadata Section (dmdsec) Administrative Metadata Section (amdSec) File Section (fileSec) Structural Map (structMap) Structural Map Linking (structLink) Behaviour section (behaviourSec)

86 <METS:mets xmlns:METS="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:premis="http://www.loc.gov/standards/premis/v1" xmlns:onix="http://www.editeur.org/onix/2.1/reference" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.w3.org/1999/xlink http://www.loc.gov/standards/mets/xlink.xsd http://purl.org/dc/elements/1.1/ http://dublincore.org/schemas/xmls/qdc/2003/04/02/dc.xsd http://www.loc.gov/standards/premis/v1 http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd http://www.editeur.org http://www.editeur.org/onix/2.1/reference/ONIX_BookProduct_Release2.1_reference.xsd"> Christophe JACOBS Institut de Recherche et d'Histoire des Textes Edition de sources Cartulaire de la seigneurie de Nesle Xavier Hélary Institut de Recherche et d'Histoire des Textes Institut de Recherche et d'Histoire des Textes - Section de diplomatique 2006 Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly. http://www.cn-telma.fr/nesle/ Histoire politique et institutionnelle Histoire sociale et culturelle Histoire économique Cartulaire France Moyen Âge Bourgogne Latin Langue d'oil Chantilly, Musée Condé, série GB, XIV F 22 text/xtml TEI fr Ædilis

87 [....] full XML 1.0 PRONOM fmt/101 Indique le rôle du répertoire de format par rapport à l'objet FRED info:gdfr/fred/f/xml http://www.digitalpreservation.gov/formats/fdd/ fdd000075 oXygen 7.2 2006-07-19 TEI P5 Schéma Relax-NG http://www.cn- telma.fr/irht/nesle/tei_complte_200406.rng [.....]

88 [....]

89

90 14/03/2007G. Poupeau90 Récapitulatif des fichiers XML pour les données XSL, XSL-FO, Xquery pour le traitement CSS pour la mise en page HTML TIFF et JPG pour les images numérisées PNG ou JPG, éventuellement GIF pour les images du graphisme Un fichier de métadonnées au format METS incluant des métadonnées descriptives au format Dublin Core et ONIX et des métadonnées administratives au format PREMIS

91 14/03/2007G. Poupeau91 Le paquet de versement est maintenant terminé

92 14/03/2007G. Poupeau92 Le modèle fonctionnel PRODUCTEUR MANAGEMENT entrées données stockage SIP AIP ADMINISTRATION PLANIFICATION DE LA PRESERVATION

93 14/03/2007G. Poupeau93 5ème étape Stocker les fichiers et créer l'AIP

94 14/03/2007G. Poupeau94 Stockage des fichiers Il n'existe aucun de support de stockage pérenne Stockage sur un serveur Migration de support régulière : changement de serveurs Temps d'accès trop long si simplement sauvegarde sur bandes magnétiques Sauvegarde de secours journalière sur bande Virtualisation du stockage

95 14/03/2007G. Poupeau95 Indexation des données Utilisation d'une base de données XML native Principe général identique à une base de données relationnelles respecte le principe de XML Interrogation avec Xquery, format normalisé au W3C Un fichier permet de centraliser les informations et de générer automatiquement les interrogations L'unité structurelle les critères spécifiques Les métadonnées permettant de contextualiser les différents corpus Ce fichier forme la description de l'AIP

96 14/03/2007G. Poupeau96 Le modèle fonctionnel PRODUCTEUR UTILISATEUR MANAGEMENT entrées données stockage SIP AIP accès DIP ADMINISTRATION PLANIFICATION DE LA PRESERVATION

97 14/03/2007G. Poupeau97 6ème étape Diffuser les données Permettre à la communauté d'utilisateurs d'y accéder

98 14/03/2007G. Poupeau98 Premier type de requête Demande d'un utilisateur pour afficher tout ou partie d'un corpus dans les formats HTML, texte ou PDF Deux arguments obligatoires Le nom du corpus le nom de la division de l'information demandée ou unité structurelle Trois arguments optionnels le nom de l'ouvrage si plusieurs ouvrages dans un corpus L'identifiant de l'unité structurelle si plusieurs unités du même type dans l'ouvrage/corpus Le format de sortie (si absent, HTML)

99 14/03/2007G. Poupeau99 Exemple Demande de l'utilisateur : afficher en HTML l'acte 26 de l'édition du Cartulaire de Nesle corpus : nesle unité structurelle : acte identifiant : 26 http://www.cn-telma.fr/nesle/acte26/

100 14/03/2007G. Poupeau100 Dexuième type de requête Interrogation de la base de données XML indexant l'ensemble des données conservées Interrogation par formulaire sur le site du centre Interrogation par Web services Deux types de requêtes Interrogation en texte intégral Interrogation sur critères

101 14/03/2007G. Poupeau101 Le paquet de diffusion - DIP Il se construit automatiquement en fonction de la requête et des informations du fichier METS Le paquet diffère selon la nature de la requête un fichier XML conservé + un fichier XSL ou XSL-FO + images Dans le cas d'une requête sur la base de données XML : un fichier XML généré dynamiquement correspondant à la réponse + XSL + images Les ressources générées ne sont pas conservées Indépendance du contenu de la mise en forme finale

102 14/03/2007G. Poupeau102 Architecture logicielle Serveur Web Apache Serveur d'applications Tomcat Framework Cocoon Base de données XML : eXist Une application développée en interne qui permet de générer automatiquement les DIP à partir du METS et des requêtes de l'utilisateur L'application n'est pas pérennisée et peut être changée à tout moment.

103 14/03/2007G. Poupeau103 Assurer l'accessibilité des informations « mettre le Web et ses services à la disposition de tous les individus, quel que soit leur matériel ou logiciel, leur infrastructure réseau, leur langue maternelle, leur culture, leur localisation géographique, ou leurs aptitudes physiques ou mentales » Tim Berners-Lee, inventeur du Web Pour assurer l'accessibilité, il faut suivre les standards du Web ne pas développer un site pour un navigateur penser aux personnes handicapés visuelles utilisant un lecteur d'écran Dans le cadre des sites de service public, l'accessibilité est une exigence légale : article 25 de la loi pour l'égalité des droits et des chances, la participation à la citoyenneté des personnes handicapées adopté par l'Assemblé le 3 février 2005

104 14/03/2007G. Poupeau104 Échanger l'information L'utilisateur est une application

105 14/03/2007G. Poupeau105 La syndication de contenu Affichage synchronisé des informations d'un site A sur un site B Connaître les mises à jour d'un site Web Un fichier XML dans un format précis (RSS ou ATOM) est mis à disposition sur le serveur du site. Il est ensuite analysé pour l'afficher sur un autre site ou dans un agrégateur

106 14/03/2007G. Poupeau106 Le protocole OAI-PMH OAI-PMH (Open Archive Initiative Protocol for metadata Harvesting) est un protocole d'échange des métadonnées Utilisé par les archives ouvertes, réservoir d'articles alimenté par les chercheurs, exemple : http://halshs.ccsd.cnrs.fr/ http://halshs.ccsd.cnrs.fr/ Basé sur le procole HTTP et le langage XML Objectifs : Découvrir, présenter et analyser le contenu d'une archive échanger des données asynchrones

107 14/03/2007G. Poupeau107 OAI- PMH : le data-provider Data Provider Les DP mettent en place une application informatique compatible OAI-PMH Métadonnées en DC Métadonnées autres formats Gestion des droits, contrôle daccès Organisation de la collection (sets) identifiants ListSets ListMetadataFormatsc GetRecord ListRecords Identify ? une base de données accessible via un serveur web une application capable de répondre aux 6 requêtes OAI- PMH (verbs)...... et de renvoyer des documents XML valides Titr e du livre Paul Pierre

108 14/03/2007G. Poupeau108 OAI-PMH : le service provider Les service providers (SP)... Service Provider Localisent les DP enregistrés Collectent les métadonnées des DP avec un harvester (moissonneuse ) de manière automatique et incrémentale Traitent les métadonnées en ajoutant des informations de Et ajoutent de la valeur sous la forme de services recherche bibliographique rapprochement, comptage de citations et de références personnalisation, alerte

109 14/03/2007G. Poupeau109 Les Web services Échanger de l'information structurée au format XML grâce au protocole HTTP Protocole pour les Web services : SOAP, REST, XML-RPC Croiser les sources d'informations de différents Web services : le mashup Google Maps et Flick'r

110 14/03/2007G. Poupeau110 Merci à Emmanuelle Bermès, département de la bibliothèque numérique, BnF qui m'a « prêté » quelques diapos Merci à Christophe Jacobs pour son aide dans l'élaboration de cette formation Merci à vous pour votre attention


Télécharger ppt "Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau"

Présentations similaires


Annonces Google