La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée.

Présentations similaires


Présentation au sujet: "Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée."— Transcription de la présentation:

1 Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document

2 http://pelleas.univ-mlv.fr

3

4 Introduction (1) Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA – Documents variés (thèses, mémoires, rapports, articles, collections d'images, cours...) – Mise en valeur de la production scientifique grâce à Internet – Exploitation des nouvelles possibilités documentaires

5 Introduction (2) Un choix technique principal: le XML – Avantages pour la publication (multisupport, gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées) – Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux) – Avantages pour l'interopérabilité et la préservation.

6 Introduction (3) Une contrainte principale: convertir... –... les documents –... les auteurs (On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)

7 Plan La conversion des documents vers XML: – Moyens – Limites – Horizon La conversion des usagers (en quelques mots) Une période transitoire à franchir

8 Moyens Limites Horizon La conversion des documents vers XML

9 Comment produire du XML? Avec WordPad?

10 Les éditeurs XML – Exploitent toute la richesse du XML – Valident le résultat – Jouent la feuille de style – Mais chers, et formation des usagers impossible. Comment produire du XML? (2)

11 Les outils bureautiques ordinaires – Word – LaTeX (on n'en parlera plus ici – conversion pas encore réalisée, travail en cours.) Comment produire du XML? (3)

12 Word et le XML Word ne produit pas de document structuré Mais il permet d'appliquer des styles sur des éléments structurels (titres, paragraphes, citations, légendes...) Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple). Une grande part de la mise en forme nest pas récupérée (polices, alignements…)

13 La feuille de style (1) Fichier.dot, contenant: – La carcasse d'un document (mise en forme) – Une série de styles, correspondant à des unités structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération). – Une barre de stylage (macro Word), qui améliore l'ergonomie.

14

15 La feuille de style (3) Avantage pour les auteurs – Aide à la structuration des documents longs – Aide à la saisie (page de titre, bibliographie) – Aide pour la cohérence graphique Avantage pour le traitement – Marquage des grandes unités structurelles – Le nom du style est la seule chose importante de ce point de vue.

16 La feuille de style (4) Inconvénients – Pas de verrouillage possible (risque de corruption) – Pas de validation possible (Titre 1 suivi d'un titre 3) – Ne limite pas l'usage des fonctions de Word dont le résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)

17 Le stylage Court à présenter: – Un agent corrige le document pour le rendre conforme aux exigences de la chaîne de conversion.... parfois long à réaliser.

18 Le stylage (2) Quelques chiffres – Lyon 2: une thèse, une journée – UMLV: 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????

19 La conversion Un bon outil en fin de course: Cyberthèses première version – Scripts OmniMark – Conversion à partir de.rtf – Fidèle mais rigide: aucune erreur de stylage tolérée, extraction préalable des images – Conversion vers SGML Réalisation: Presses de lUniversité de Montréal, Cellule ERAD de lUniversité de Lyon 2.

20 La conversion (2) Un bon outil en cours de débogage: Cyberthèses deuxième version – Conversion.doc /.rtf vers XML grâce à OpenOffice – Transformation du XML OpenOffice vers TEI Lite par XSLT – Conversion du XML/TEI vers HTML et PDF

21 La conversion Cyberthèses deuxième version: Réalisation: AJLSM (Martin Sévigny), maître d'oeuvre Université de Lyon 2 / Cyberthèses Originalité: mise sur le développement coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)

22

23 L'intégration dans Pelleas Production des métadonnées: à assez court terme, vers une quasi automatisation Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50 Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).

24 L'intégration dans Pelleas Un apport théorique: le fichier PEL – Enveloppe structurelle de l'ensemble des constituants du document. – Objectif: gestion informatique des objets composant le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.

25

26 L'intégration dans Pelleas Chargement des différents fichiers (-XML, -MET, -PEL, images). Validation, exécution de la feuille de style XSLT... Et voilà:

27 Limites Poids du stylage Multiples possibilités de Word, et imagination informatique sans limites des auteurs Limites du XML pour certains documents très graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable. Le document doit être pensé dès le début pour son support de publication.

28 Horizon Amélioration des outils de conversion Multiplication des initiatives du même genre, laissant attendre de rapides progrès. Logiciels validants mais conviviaux? Formation des usagers

29 Culture bureautique très inégale – Formation à la feuille de style, mais aussi formation de base à garantir Culture de l'imprimé vs culture du document structuré – La structuration nest pas la présentation Méconnaissance des questions de droits d'auteur II. La conversion des usagers: un chantier essentiel

30 Instructions aux auteurs Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques

31 Comment passer la période transitoire? Lobjectif du XML peut être considéré comme évident. Avantages de s'engager tôt dans la production de documents structurés: – S'engager tôt parce que la formation des auteurs, des équipes, et des décideurs, est un travail de longue haleine – Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.

32 Comment passer la période transitoire? (2) Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse. Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)? Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.

33 Merci.


Télécharger ppt "Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée."

Présentations similaires


Annonces Google