XML + TEI: un marriage fait aux cieux?

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Données structurées et XML
Catherine Cyrot Introduction à la TEI Cours bibliothèques numériques
Transformation de documents XML
DTD Sylvain Salvati
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Systèmes d'Information
Les espaces de nommage XML par Philippe Poulard 1
Données structurées et XML
XHTML EXtensible HyperText Markup Language. HTML et XML HTML (HyperText Markup Language) et XML (eXtensible Markup Language) sont deux spécifications.
le langage les éléments
Ontologie, Méta-données, Sémiotiques
Nicolas Singer Maître de conférence, université Champollion
Format dannotations génériques, multi-annotations, multi- documents Présentation ASP navigation 11 avril 2002.
contrat Creative Commons Paternité-Pas d'Utilisation Commerciale- Partage des Conditions Initiales à l'Identique.
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Initiation au système d’information et aux bases de données
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Les Médias Sociaux au R tary World
Retour sur la mission dappui au SSE pour le projet GERES « efficacité énergétique dans lhabitat domestique, province de Bamyan » Le Système dInformation.
Web Sémantique: Le Relief Actuel
L’animisme chez les Première Nations du Canada
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
STAF 2X XSL/FO Glaus & Ruckstuhl Mars © Glaus & Ruckstuhl TECFA Programme du 18 et 19 mars Revision XML Introduction à XSL/FO (intérêts et.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Les Expressions Négatives
OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement.
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Les feuilles de style CSS
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
8 - XML Cours XML.
UML.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.
Core Module 10 Advocacy: Engaging the Public Association des conseils scolaires des écoles publiques de l’Ontario (ACÉPO) Association franco-ontarienne.
IB Language B French and German
Algorithmes et Programmation
La santé au travail en Europe des employés de sites de construction, l’amélioration et le renforcement du développement de leurs compétences en Santé et.
La célèbre chaîne de magasins H&M a créé une collection entièrement inspirée par les forêts et les jardins. C'est précisément pour cela qu’elle a créé.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
Initiation à la conception des systèmes d'informations
S'initier au HTML et aux feuilles de style CSS Cours 5.
Sélection de colonnes (la projection)
Méta-données et ressources linguistiques
Introduction à XML Yves Bekkers. Plan Introduction - structurer l’information Les langages à balises - un peu d’histoire XML - concepts de base Outils.
Groupe Développement Durable Réalisation et exposition d’un CLOM Blanc.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Modélisation des documents: DTD et Schéma
Cours sur le DOI COULET Alban GREMONT Baptiste GIDO2A Le 13/12/2007.
eXtensible Markup Language. Généralités sur le XML.
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
Christina Arecy April 10 th  In the standard dictionary, the term legacy is define as a gift by will especially of money or other personal property.
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Présenter une bibliographie en lycée
XML : un métalangage pour la description de documents structurés XML a été défini par le consortium W3 en fonction de 2 objectifs: Compenser les limitations.
Fiche méthodologique 1: How to understand a text? (Written comprehension) General remarks: 1.It is OK NOT to understand everything…….yes, it is!! 2. You.
Le net.Art GENET Afthakia Exposé de SI28 19/12/2006.
The 4th Power Places and Forms of power How reliable are our sources of information today ? The media.
Introduction au HTML Qu’est ce que le HTML ?
DTD EAD.
MES STRATÉGIES DE LECTURE
French leve 1 - Homework due on May 2, 2016 – vocabulary  You are given at the beginning of the year the global list of the vocabulary list of BON VOYAGE,
Transcription de la présentation:

XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines Lou Burnard Oxford University Computing Services

Pourquoi numeriser un texte? Pour remplacer ou pour enrichir un texte écrit? Pour aider la recherche, la formation, ou l'enseignement? Pour quel public? Pour faire quelque chose de nouveau, ou des choses anciennes d'une manière plus efficace?

Du point de vue academique, la numerisation offre… L'integration des ressources diverses textes, commentaires, sources, variations… multimédia, manuscrits, transcriptions, metadata… La preservation des ressources Les media s'envolent, les données restent "multiplication beyond the reach of accident" Un vaste élargissement d'accessibilité des ressources quantitative qualitatitive

De point de vue informatique, la numerisation offre… Toute une gamme de problemes techniques une raison d’ être: la conservation du patrimoine et de la culture contemporaine des outils bien compris et pratiques la semiotique le linguistique l'encodage

Ressources encodage modele abstraite ressources numerises analyses

Il etait une fois, il y a longtemps, dans une galaxie lointaine….

The Text Encoding Initiative 1987: Vassar College Conference

Balisage ou babel? Loomings “CALL me Ishmael. Some years ago --- never mind how long precisely--- having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world” |chap1 <C 1> Loomings \chapter \chapter[1]{Loomings} :h1.1. Loomings MOBY001001LOOMINGS |C1 .chapter Loomings .cp;.sp 6 a;.ce .bd 1. Loomings ~x Bonne nouvelle: on peut trouver un logiciel pour traduire entre 400 formats diverses Mauvaise nouvelle: il existe (au moins) 400 formats divers

Echange d'informations (1) B E C D 20 traductions requises (n2-n)

Echange d'informations (2) standard commun d'echange B E C D 10 traductions requises (2n)

Un langage d’encodage sert à... specifier les caractères d’un texte expliciter la/les structures aperçue/s dans un texte linéariser le texte specifier les méta-informations, renseignements contextuels etc. ... ce qui implique une indépendance totale d’application, du hard, comme du soft

Qu’est-ce que l’encodage? Un format d'echange s'exprime dans un encodage… …qui explicite une théorie concernant un aspect quelconque d’un document tout encodage est donc une interprétation aucun langage d’encodage ne peut donc prétendre être ni complet ni exhaustif

Un encodage TEI <div type=chapter n="ch1"> <text n="moby"> <div type=chapter n="ch1"> <head rend=centred>Loomings</head> <p><s>Call me <name>Ishmael</name>.</s> <s>Some years ago — never mind how long ago precisely — having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.</s></p>

Origines de la TEI communauté internationale de recherche surtout dans sciences humaines, linguistiques effort international (financement des États Unis, de l’Union Européenne et du Canada) parrainnée par trois associations erudites (ACH, ALLC, ACL)

Les buts de la TEI faciliter la création, l’échange, et l’integration des données textuelles informatisées toute sorte de texte toutes les langues toute provenance temporelle ou culturelle La TEI doit servir également à aider... les débutants, cherchant des solutions bien connues et consensuelles les experts, cherchant à créer de nouvelles solutions

Les "délivrables" de la TEI un ensemble cohérent de recommandations sur l’encodage, fondé sur la pratique actuelle un système extensible, modulaire, polymorphe une documentation extensive TEI P3 : manuel de référence TEI U5 , U6 : manuels introductifs des textes exemplaires Voir http://www.tei-c.org

La modus operandi TEI identifier les traits textuels signicatifs independemment de leur notation ou realisation se méfier des controverses, et des rafinements excessifs et des simplifications inutiles chercher des solutions génériques

... et quelques consequences appui sur le contenu, plutôt que sur la présentation un schéma libéral, peu normatif le rasoir de Occam une structuration fonctionelle, avec plusieurs possibilités d'enrichissement «La TEI ne dispense pas de lire nos collègues, bien au contraire, mais elle nous permet comme en sciences exactes de disposer directement et de façon normalisée des textes travaillés selon les hypotheses d'autrui » (L. Romary)

Heritage de la TEI Une facon de considerer ce que le texte est vraiment Une codification des pratiques academiques courantes Un ensemble d'aprioris et priorites partages dans les perspectives numeriques … qui reste valable depuis plus de dix ans

Qui se sert de la TEI? les bibliothèques informatisées http://www.tei-c.org/Applications/ les bibliothèques informatisées UMICH, CETH, UVA, OTA, BiMiCeSa, INALF... les projets d'ingenierie linguistique EAGLES, BNC, MULTEX, ECI, Silfide les chercheurs Women Writers Project, Model Editions Partnership, Le projet Charette

Qu’est-ce que c’est que le {SG,X}ML? SGML (Standard Generalised Markup Language) est une norme ISO bien répandue dans le monde informatique; …dont XML est une forme simplifiée (norme W3C) qui remplace l'HTML Toutes les deux donnent la possibilité d'exprimer une grammaire precise d'encodage: une Document Type Definition (DTD); (facultatif pour XML) … et de marquer à la fois la structure et la signification des traits textuels

Current TEI activity (1) First AGM and elections in Pisa, November 2001 Elected TEI Council met in London, January 2002 XML revision (P4X) approved at Board meeting in Prague, May 2002 XML edition published in print, June 2002 Second AGM, Chicago, October 2002 http://www.tei-c.org/Services/order/

Current TEI activity (2) New work groups on character set issues: convergence with Unicode manuscript description hyperlinking/stand off markup Work in progress SGML/XML conversion Training Funding problems and opportunities

Ce qu’il faut savoir à propos de {SG,X}ML un texte est divisé en éléments, qui peuvent s’imbriquer les limites des éléments sont marqués par des balises, ayant un type générique et des attributs facultatifs un texte peut également contenir des entités: par exemple pour représenter les caractères speciaux

L’encodage {X,SG}ML tout est délimité: les éléments par des balises de debut et des balises de fin les balises par < ... > et </ ... > les entités par & ... ; par exemple: <quote lang="fra">L'état, c'est moi! </quote>

SGML et XML La TEI s'est servie de SGML pour des raisons pragmatiques un standard déjà existant un standard bien répandu dans l’industrie théoriques un système declaratif un système vérifiable un système performant, adéquat aux besoins de recherche

SGML et XML La TEI a beaucoup influence l'evolution de XML La TEI constitue un modele abstrait, qui peut etre represente ou en SGML ou en XML (ou ailleurs) Actuellement, on peut generer des DTDs XML specifiques a l'aide du Pizzachef http://www.tei-c.org/Software/pizza.html

Exemple de structuration <text> <front> <!-- page de titre, etc --> </front> <body> <div1 type='book' n='I' id=JA0100> <head>Book I. </head> <div2 type='chapter' n='1' id=JA0101> <head>Of writing lives in general,... <!-- suite du chapitre 1 --> </div2> <div2 n='2' id=JA0102> <!-- chapitre 2 --> <!-- suite du tome premier--> </div1> <div1 type='book' n='II' id=JA0200> <!-- tome deuxieme--> <!-- encore des tomes --> </body></text>

Structuration de phrases... And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage... <hi rend=gothic>And this Indenture further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage ...

…or... And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage... <seg type=formula>And this Indenture further witnesseth</seg> that the said <name rend=italic>Walter Shandy</name>, merchant, in consideration of the said intended marriage ...

A quoi sert une DTD? définir l’ensemble des éléments, attributs, et entitités possibles dans un document definir la manière de les combiner, pe leur contenu permettre la verification formelle d’un document aider la gestion automatique des documents

Combien de DTDs faut-il pour supporter les buts de la TEI? une seule (approche autoritaire: eg ISO 12083 WKWBFY) aucune (approche Waterloo: eg OED NWEUMP) autant qu’il en faut (approche Californien: WNSA) ou peut-on mieux faire?

La solution TEI plusieurs (400+) éléments rassemblés en classes sémantiques organisés en «tagsets » (jeux de balises) du noyau («core») de base additionels une seule DTD à plusieurs aspects

Comment s’en servir? comment faire un seul schéma capable de gérer l’univers des applications voulues? chaque texte est différent tous les textes sont pareils n’importe quel texte peut être utilisé en des manières diverses

Modèle Pizza (manière Chicago) <!ENTITY % base “(deepDish | thinCrust | stuffed)” > <!ENTITY % garniture “( poivron| champignon | saucisse | anchois | anananas | ...)” > <!ELEMENT pizza - - ( %base;, sauceTomate & fromage, (%garniture)*) >

Pour créer une application TEI, il faut... prendre le noyau choisir une base ajouter les garnitures de choix <!DOCTYPE TEI.2 system 'tei2.dtd' [ <!ENTITY % tei.prose 'INCLUDE' > <!ENTITY % tei.analysis 'INCLUDE' > ]> <tei.2>.....</tei.2>

Le noyau L’en-tête TEI Un ensemble d’éléments typiques de presque toute sorte de document éléments structuraux (divisions, paragraphes, vers, discours dramatiques, titres, notes, listes...) éléments descriptifs (noms, dates, engras...) modifications éditorialles liens, références...

L’en-tête TEI description bibliographique normalisée du document electronique (titre, responsables, maison d’édition, source....) de son encodage (éléments presents, codes internes...) de sa classification (sujets, genres...) de son état de revision facilite la découverte des ressources sur réseau et dans les bases de données

Exemple d'un entete TEI <teiHeader><fileDesc> <titleStmt><title>Thomas Paine: Common sense, a machine-readable transcript</title> <respStmt><resp>compiled by</resp> <name>Jon K Adams</name></respStmt></titleStmt> <publicationStmt> <distributor>Oxford Text Archive</distributor> </publicationStmt> <sourceDesc><bibl>The complete writings of Thomas Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) </bibl></sourceDesc> </fileDesc><teiHeader>

Un jeu de balises de base... définit les composants fondamentaux des documents bases définies: prose, poésie, théâtre transcription du discours oral dictionnaires, terminologies on peut aussi mélanger les bases (avec précaution)

Un jeu de balises additionel... ajoute des éléments ou attributs specialisés sont definis: linking (liens, jalons, segmentation &c.) analyse et interprétation, structures de traits (feature structures) manuscrits et sources primaires apparat critique études onomastiques formules, tables, graphiques méta-informations pertinentes aux corpus etcetera

Tagsets auxiliaires Writing System: (mode d’écriture) documentation des caractères Feature System (système de traits) documentation du système abstrait d’interprétation Documentation des jeux de balises (tagsets) En-tête indépendent

Attributs globaux tout élément est membre de la classe «globale», et donc porte les attributs suivants: id (identification unique) n (identification locale) lang (langage, identification du WSD rélévant) rend (rendition) on peut étendre la classe globale en choisissant des jeux additionels

Modifications apres avoir choisi sa pizza, on peut aussi renommer un élément... supprimer un élément... ajouter un élément ou changer sa définition En "cuisinant" sa pizza, on peut l'exporter en XML ou SGML simple http://www.tei-c.org/Software/pizza.html

Using the TEI Which modules will you use? How will you customize them? What additional constraints are needed? What software will you develop? Where will it all be documented?

Quelques applications de la TEI TEI Lite Manuscrits Hypertext

TEI Lite: une modification exemplaire sous-ensemble du noyau avec en plus: hypertext («HyTime for Idiots») interprétation analytique figures, tables en service à plusieurs Text Archives, Etext Centers etc. documentés dans le manuel TEIU5, voir http://www.tei-c.org/Lite/ Version francaise chez Cahiers Gutenberg!!

References a l’interieur d’un seul document, <ptr> (sans contenu) or <ref> (avec contenu) doivent pointer sur une identification (ID) See especially <ref target='SEC12'> section 12 on page 34</ref>. See especially <ptr target='SEC12'/>. ... <div id='sec12'> <head>Concerning Identifiers</head>

X-Pointers pour pointer en dehors du document courant ou sur des objets non-SGML <xptr> (empty element) or <xref> (with content) pointent sur en étendu specifié par une echelle de location (a l’interieur d’un entité nommé par l’attribut doc) see especially <xptr doc='doc2' from="ID (SEC12)"> see especially <xptr doc='doc2' from="DESCENDANT (2 DIV1) (4 P) CHILD (1 QUOTE LANG LAT)">

Liens independent On peut specifier que deux objets sont liés en pointant sur tous les deux avec un <link> qui permet d’encoder une correspondence ou alignment <xptr id='x1' doc='xdoc'/> <xptr id='x2' doc='ydoc'/> <link targets="x1 x2"/>

... and links freestanding links can associate anything that has an ID, including x-pointers can also be grouped and typed <xptr id="x1" doc="xdoc"/> <xptr id="x2" doc="ydoc"/> <link targets="x1 x2"> <linkGrp type="imitations"> <link targets="t1 t2"/> <link targets="x1 x2 t3"/> </linkgrp>

A three way alignment <linkGrp type=alignment> <div id=E98 lang=EN><head>The Study</head> <seg id=E9801>The Study</seg> <seg id=E9802>is a place</seg> <seg id=E9803>where a Student,</seg> <seg id=E9804>a part from men,</seg> <seg id=E9805>sitteth alone,</seg> <seg id=E9806>addicted to his Studies,</seg> <seg id=E9807>whilst he readeth</seg> <seg id=E9808>Books,</seg> <div id=L98 lang=LA> <head>Muséum</head> <seg id=L9801>Museum</seg> <seg id=L9802>est locus</seg> <seg id=L9803>ubi Studiosus,</seg> <seg id=L9804>secretus ab hominibus, <seg id=L9805>studiis deditus,</seg> <seg id=L9806>dum lectitat</seg> <xptr n='1' id=p981 doc=com98> <xptr n='2' id=p982 doc=com98 from='space (2d) (75 5) (133 75)'> <xptr n='3' id=p983 doc=com98 from='space (2d) (55 42) (90 60)'> <linkGrp type=alignment> <link targets='E9801 L9801 p981'> <link targets='E9802 L9802 '> <link targets='E9803 L9803 p982'> <link targets='E9804 L9804 '> <link targets='E9805 L9805 '> <link targets='E9808 L9808 p983'> </linkGrp> <div id=E98 lang=EN><head>The Study</head> <seg id=E9801>The Study</seg> <seg id=E9802>is a place</seg> <seg id=E9803>where a Student,</seg> <seg id=E9804>a part from men,</seg> <seg id=E9805>sitteth alone,</seg> <seg id=E9806>addicted to his Studies,</seg> <seg id=E9807>whilst he readeth</seg> <seg id=E9808>Books,</seg> <div id=L98 lang=LA> <head>Muséum</head> <seg id=L9801>Museum</seg> <seg id=L9802>est locus</seg> <seg id=L9803>ubi Studiosus,</seg> <seg id=L9804>secretus ab hominibus, <seg id=L9805>studiis deditus,</seg> <seg id=L9806>dum lectitat</seg> xptr n=1 id=p981 doc=com98> <xptr n='2' id=p982 doc=com98 from='space (2d) (75 5) (133 75)'> <xptr n='3' id=p983 doc=com98 from='space (2d) (55 42) (90 60)'>

The Beowulf Manuscript MS Cotton Vitellius A xv voir http://portico.bl.uk/

Version imprimée (Wrenn,1953) Hwæt we Gar-Dena in gear-dagum þeod-cyninga þrym gefrunon, hu ða æþelingas ellen fremedon. Oft Scyld Scefing sceaþena þreatum, monegum mægþum meodo-setla ofteah; egsode Eorle, syððan ærest wearð feasceaft funden...

Transcription or Editing? tout encodage est forcément une interpretation le but pourrait être représenter l’objet originel (transcription) représenter l’objet idéal (editing) une distinction imprécise

Version informatisée (1) <lg><l>Hwæt we Gar-Dena in gear-dagum</l> <l>þeod-cyninga þrym gefrunon,</l> <l>hu ða æþelingas ellen fremedon.<l></lg> <lg><l>Oft Scyld Scefing sceaþena þreatum,</l> <l>monegum mægþum meodo-setla ofteah; </l> <l>egsode Eorle, syððan ærest wearð</l> <l>feasceaft funden...

Version informatisée (2) <hi rend='caps'>&H;&wynn;æt we garde</hi><lb/> na in gear-dagum þeod cyninga<lb/> þrym gefrunon huða æþelinga&s; ellen<lb/> fremedon. oft Scyld Scefing sceaþe<add>na</add><lb/> þreatum, moneg<expan sic='&ubar;'>um</expan> mægþum meodo-setla <lb/> of<damage desc=blot/>teah egsode <sic corr='Eorle'>eorl</sic> syððan ærest wearð<lb/> fea sceaft funden...

Transcrire c’est distinguer... modifications originelles interventions d’editeur/scripteur/transcripteur scripteurs et changements de scripteur endommagement physique au medium usage de blancs, majuscules, format visuel

par exemple... les omissions sont balisés avec <gap> la regularization (ou l’inverse) avec <reg> ou <orig> <gap reason='illegible' desc='bloodstain'> <gap reason='sampling' desc='figure'> <q>I <reg resp="LB" orig="telled"> told</reg> Mary how it would be,</q> he said: <q>I <orig reg="told">telled</orig> Mary how it would be,</q> he said:

Normalization ou correction? on peut signaler les deux, au meme temps que l’originel ... for his nose was as sharp as a pen and <reg sic="a'">he</reg> <corr sic='table' ed='Gifford'>babbl'd</corr> of green <reg sic='feelds'>fields</reg>

Comment distinguer les responsables? avec l’attribute hand (main): <l n=108>Whe hadon our wyfe at our wil <add hand=manus2>and well</add> fore to ware.</l> <l n='108'>Whe hadon our wyfe at our wil <add hand='manus2'>and well</add> fore to ware.</l> oft Scyld Scefing sceaþe<add hand='ed1'>na</add><lb/>

Apparatus criticus informatisé Experience (though non auctorité Were in this world) is right ynough for me To speke of wo that is in mariage … 1 Experience El Hg : Experiment La... <l><app> <rdg wit='El Hg'>Experience</rdg> <rdg wit='La'>Experiment</rdg> </app>&th;oug&h; non auctorite </l>