La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines.

Présentations similaires


Présentation au sujet: "XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines."— Transcription de la présentation:

1 XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines Lou Burnard Oxford University Computing Services

2 Lyon, Pourquoi numeriser un texte? Pour remplacer ou pour enrichir un texte écrit? Pour aider la recherche, la formation, ou l'enseignement? Pour quel public? Pour faire quelque chose de nouveau, ou des choses anciennes d'une manière plus efficace?

3 Lyon, Du point de vue academique, la numerisation offre… L'integration des ressources diverses –textes, commentaires, sources, variations… –multimédia, manuscrits, transcriptions, metadata… La preservation des ressources –Les media s'envolent, les données restent –"multiplication beyond the reach of accident" Un vaste élargissement d'accessibilité des ressources –quantitative –qualitatitive

4 Lyon, De point de vue informatique, la numerisation offre… Toute une gamme de problemes techniques une raison d être: la conservation du patrimoine et de la culture contemporaine des outils bien compris et pratiques –la semiotique –le linguistique –l'encodage

5 Ressources ressources numerises encodage analyses modele abstraite

6 Lyon, Il etait une fois, il y a longtemps, dans une galaxie lointaine….

7 The Text Encoding Initiative 1987: Vassar College Conference

8 Lyon, Loomings CALL me Ishmael. Some years ago --- never mind how long precisely--- having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world Loomings CALL me Ishmael. Some years ago --- never mind how long precisely--- having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world Balisage ou babel? |chap1 Loomings \chapter \chapter[1]{Loomings} :h1.1. Loomings MOBY001001LOOMINGS |C1.chapter Loomings.cp;.sp 6 a;.ce.bd 1. Loomings ~x Bonne nouvelle: on peut trouver un logiciel pour traduire entre 400 formats diverses Mauvaise nouvelle: il existe (au moins) 400 formats divers

9 Lyon, Echange d'informations (1) A B CD E 20 traductions requises (n 2 -n)

10 Lyon, Echange d'informations (2) A B CD E standard commun d'echange 10 traductions requises (2n)

11 Un langage dencodage sert à... specifier les caractères dun texte expliciter la/les structures aperçue/s dans un texte linéariser le texte specifier les méta-informations, renseignements contextuels etc.... ce qui implique une indépendance totale dapplication, du hard, comme du soft

12 Quest-ce que lencodage? Un format d'echange s'exprime dans un encodage… …qui explicite une théorie concernant un aspect quelconque dun document –tout encodage est donc une interprétation –aucun langage dencodage ne peut donc prétendre être ni complet ni exhaustif

13 Lyon, Loomings Call me Ishmael. Some years ago — never mind how long ago precisely — having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world. Loomings Call me Ishmael. Some years ago — never mind how long ago precisely — having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world. Un encodage TEI

14 Origines de la TEI communauté internationale de recherche surtout dans sciences humaines, linguistiques effort international (financement des États Unis, de lUnion Européenne et du Canada) parrainnée par trois associations erudites (ACH, ALLC, ACL)

15 Les buts de la TEI faciliter la création, léchange, et lintegration des données textuelles informatisées toute sorte de texte toutes les langues toute provenance temporelle ou culturelle La TEI doit servir également à aider... –les débutants, cherchant des solutions bien connues et consensuelles –les experts, cherchant à créer de nouvelles solutions

16 Les "délivrables" de la TEI un ensemble cohérent de recommandations sur lencodage, fondé sur la pratique actuelle un système extensible, modulaire, polymorphe une documentation extensive –TEI P3 : manuel de référence –TEI U5, U6 : manuels introductifs des textes exemplaires Voir

17 La modus operandi TEI identifier les traits textuels signicatifs independemment de leur notation ou realisation se méfier des controverses, et des rafinements excessifs et des simplifications inutiles chercher des solutions génériques

18 ... et quelques consequences appui sur le contenu, plutôt que sur la présentation un schéma libéral, peu normatif le rasoir de Occam une structuration fonctionelle, avec plusieurs possibilités d'enrichissement «La TEI ne dispense pas de lire nos collègues, bien au contraire, mais elle nous permet comme en sciences exactes de disposer directement et de façon normalisée des textes travaillés selon les hypotheses d'autrui » (L. Romary)

19 Lyon, Heritage de la TEI Une facon de considerer ce que le texte est vraiment Une codification des pratiques academiques courantes Un ensemble d'aprioris et priorites partages dans les perspectives numeriques … qui reste valable depuis plus de dix ans

20 Qui se sert de la TEI? les bibliothèques informatisées UMICH, CETH, UVA, OTA, BiMiCeSa, INALF... les projets d'ingenierie linguistique EAGLES, BNC, MULTEX, ECI, Silfide les chercheurs Women Writers Project, Model Editions Partnership, Le projet Charette

21 Quest-ce que cest que le {SG,X}ML? SGML (Standard Generalised Markup Language) est une norme ISO bien répandue dans le monde informatique; …dont XML est une forme simplifiée (norme W3C) qui remplace l'HTML Toutes les deux donnent la possibilité d'exprimer une grammaire precise d'encodage: une Document Type Definition (DTD); (facultatif pour XML) … et de marquer à la fois la structure et la signification des traits textuels

22 Lyon, Current TEI activity (1) First AGM and elections in Pisa, November 2001 Elected TEI Council met in London, January 2002 XML revision (P4X) approved at Board meeting in Prague, May 2002 XML edition published in print, June 2002 Second AGM, Chicago, October 2002

23 Lyon, Current TEI activity (2) New work groups on –character set issues: convergence with Unicode –manuscript description –hyperlinking/stand off markup Work in progress –SGML/XML conversion –Training Funding problems and opportunities

24 Ce quil faut savoir à propos de {SG,X}ML un texte est divisé en éléments, qui peuvent simbriquer les limites des éléments sont marqués par des balises, ayant un type générique et des attributs facultatifs un texte peut également contenir des entités: par exemple pour représenter les caractères speciaux

25 Lencodage {X,SG}ML tout est délimité: les éléments par des balises de debut et des balises de fin les balises par et les entités par &... ; par exemple: L'état, c'est moi! L'état, c'est moi!

26 SGML et XML La TEI s'est servie de SGML pour des raisons –pragmatiques un standard déjà existant un standard bien répandu dans lindustrie –théoriques un système declaratif un système vérifiable un système performant, adéquat aux besoins de recherche

27 Lyon, SGML et XML La TEI a beaucoup influence l'evolution de XML La TEI constitue un modele abstrait, qui peut etre represente ou en SGML ou en XML (ou ailleurs) Actuellement, on peut generer des DTDs XML specifiques a l'aide du Pizzachef

28 Exemple de structuration Book I. Of writing lives in general,...

29 Lyon, Structuration de phrases... And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage...

30 Lyon, …or... And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage...

31 A quoi sert une DTD? définir lensemble des éléments, attributs, et entitités possibles dans un document definir la manière de les combiner, pe leur contenu permettre la verification formelle dun document aider la gestion automatique des documents

32 Combien de DTDs faut-il pour supporter les buts de la TEI? une seule (approche autoritaire: eg ISO WKWBFY) aucune (approche Waterloo: eg OED NWEUMP) autant quil en faut (approche Californien: WNSA) ou peut-on mieux faire?

33 La solution TEI plusieurs (400+) éléments rassemblés en classes sémantiques organisés en «tagsets » (jeux de balises) –du noyau («core») –de base –additionels une seule DTD à plusieurs aspects

34 Comment sen servir? comment faire un seul schéma capable de gérer lunivers des applications voulues? chaque texte est différent tous les textes sont pareils nimporte quel texte peut être utilisé en des manières diverses

35 Modèle Pizza (manière Chicago)

36 Pour créer une application TEI, il faut... prendre le noyau choisir une base ajouter les garnitures de choix ..... .....

37 Le noyau Len-tête TEI Un ensemble déléments typiques de presque toute sorte de document –éléments structuraux (divisions, paragraphes, vers, discours dramatiques, titres, notes, listes...) –éléments descriptifs (noms, dates, engras...) –modifications éditorialles –liens, références...

38 Len-tête TEI description bibliographique normalisée –du document electronique (titre, responsables, maison dédition, source....) –de son encodage (éléments presents, codes internes...) –de sa classification (sujets, genres...) –de son état de revision facilite la découverte des ressources sur réseau et dans les bases de données

39 Lyon, Exemple d'un entete TEI Thomas Paine: Common sense, a machine-readable transcript compiled by Jon K Adams Oxford Text Archive The complete writings of Thomas Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) Thomas Paine: Common sense, a machine-readable transcript compiled by Jon K Adams Oxford Text Archive The complete writings of Thomas Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945)

40 Un jeu de balises de base... définit les composants fondamentaux des documents bases définies: –prose, poésie, théâtre –transcription du discours oral –dictionnaires, terminologies on peut aussi mélanger les bases –(avec précaution)

41 Un jeu de balises additionel... ajoute des éléments ou attributs specialisés sont definis: –linking (liens, jalons, segmentation &c.) –analyse et interprétation, –structures de traits (feature structures) –manuscrits et sources primaires –apparat critique –études onomastiques –formules, tables, graphiques –méta-informations pertinentes aux corpus etcetera

42 Tagsets auxiliaires Writing System: (mode décriture) –documentation des caractères Feature System (système de traits) –documentation du système abstrait dinterprétation Documentation des jeux de balises (tagsets) En-tête indépendent

43 Attributs globaux tout élément est membre de la classe «globale», et donc porte les attributs suivants: –id (identification unique) –n (identification locale) –lang (langage, identification du WSD rélévant) –rend (rendition) on peut étendre la classe globale en choisissant des jeux additionels

44 Modifications apres avoir choisi sa pizza, on peut aussi –renommer un élément... –supprimer un élément... –ajouter un élément ou changer sa définition En "cuisinant" sa pizza, on peut l'exporter en XML ou SGML simple

45 Lyon, Using the TEI Which modules will you use? How will you customize them? What additional constraints are needed? What software will you develop? Where will it all be documented?

46 Quelques applications de la TEI TEI Lite Manuscrits Hypertext

47 TEI Lite: une modification exemplaire sous-ensemble du noyau avec en plus: –hypertext («HyTime for Idiots») –interprétation analytique –figures, tables en service à plusieurs Text Archives, Etext Centers etc. documentés dans le manuel TEIU5, voir Version francaise chez Cahiers Gutenberg!!

48 a linterieur dun seul document, (sans contenu) or (avec contenu) doivent pointer sur une identification (ID) References See especially section 12 on page 34. See especially.... Concerning Identifiers See especially section 12 on page 34. See especially.... Concerning Identifiers

49 X-Pointers pour pointer en dehors du document courant ou sur des objets non-SGML (empty element) or (with content) pointent sur en étendu specifié par une echelle de location (a linterieur dun entité nommé par lattribut doc ) see especially see especially see especially see especially

50 Liens independent On peut specifier que deux objets sont liés en pointant sur tous les deux avec un qui permet dencoder une correspondence ou alignment

51 Lyon, and links freestanding links can associate anything that has an ID, including x-pointers can also be grouped and typed

52

53 Lyon, A three way alignment The Study is a place where a Student, a part from men, sitteth alone, addicted to his Studies, whilst he readeth Books, The Study is a place where a Student, a part from men, sitteth alone, addicted to his Studies, whilst he readeth Books, Muséum Museum est locus ubi Studiosus, secretus ab hominibus, studiis deditus, dum lectitat Muséum Museum est locus ubi Studiosus, secretus ab hominibus, studiis deditus, dum lectitat

54 The Beowulf Manuscript MS Cotton Vitellius A xv voir

55 Version imprimée (Wrenn,1953) Hwæt we Gar-Dena in gear-dagum þeod-cyninga þrym gefrunon, hu ða æþelingas ellen fremedon. Oft Scyld Scefing sceaþena þreatum, monegum mægþum meodo-setla ofteah; egsode Eorle, syððan ærest wearð feasceaft funden...

56 Transcription or Editing? tout encodage est forcément une interpretation le but pourrait être –représenter lobjet originel (transcription) –représenter lobjet idéal (editing) une distinction imprécise

57 Version informatisée (1) Hwæt we Gar-Dena in gear- dagum þeod-cyninga þrym gefrunon, hu ða æþelingas ellen fremedon. Oft Scyld Scefing sceaþena þreatum, monegum mægþum meodo-setla ofteah; egsode Eorle, syððan ærest wearð feasceaft funden...

58 Version informatisée (2) &H;&wynn;æt we garde na in gear-dagum þeod cyninga þrym gefrunon huða æþelinga&s; ellen fremedon. oft Scyld Scefing sceaþe na þreatum, moneg um mægþum meodo- setla of teah egsode eorl syððan ærest wearð fea sceaft funden...

59 Transcrire cest distinguer... modifications originelles interventions dediteur/scripteur/transcripteur scripteurs et changements de scripteur endommagement physique au medium usage de blancs, majuscules, format visuel

60 par exemple... les omissions sont balisés avec la regularization (ou linverse) avec ou I told Mary how it would be, he said: I telled Mary how it would be, he said: I told Mary how it would be, he said: I telled Mary how it would be, he said:

61 Normalization ou correction? on peut signaler les deux, au meme temps que loriginel... for his nose was as sharp as a pen and he babbl'd of green fields... for his nose was as sharp as a pen and he babbl'd of green fields

62 Comment distinguer les responsables? avec lattribute hand (main): – Whe hadon our wyfe at our wil – and well –fore to ware. Whe hadon our wyfe at our wil and well fore to ware. Whe hadon our wyfe at our wil and well fore to ware. oft Scyld Scefing sceaþe na oft Scyld Scefing sceaþe na

63 Apparatus criticus informatisé Experience (though non auctorité Were in this world) is right ynough for me To speke of wo that is in mariage … 1 Experience El Hg : Experiment La... Experience Experiment &th;oug&h; non auctorite Experience Experiment &th;oug&h; non auctorite


Télécharger ppt "XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines."

Présentations similaires


Annonces Google