5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management gautier.poupeau@logicacmg.unilog.com.

Slides:



Advertisements
Présentations similaires
Données structurées et XML
Advertisements

Transformation de documents XML
Xavier Blanc Web Services Xavier Blanc
DTD Sylvain Salvati
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Données structurées et XML
XHTML EXtensible HyperText Markup Language. HTML et XML HTML (HyperText Markup Language) et XML (eXtensible Markup Language) sont deux spécifications.
Nicolas Singer Maître de conférence, université Champollion
Métadonnées pour les thèses numériques françaises
Introduction à la POO: Les classes vs les objets
Initiation au système d’information et aux bases de données
Adamou Mahamane Sidi Maman Bachir
Initiation au système d’information et aux bases de données
Présentation de MEDISCO ASCOMED Mars 2008
Construire une base de données bibliographiques Elaborer un site web
GED Masters: Gestion Électronique de Documents
Etude des Technologies du Web services
Traitement de texte ++.
XML-Family Web Services Description Language W.S.D.L.
UNIVERSITE CHOUAIB DOUKKALI Département des mathématiques
Initiation à la conception de systèmes d'information
UE : 3.4. S4 Initiation à la démarche de recherche
Administration de bases de données spatiales avec SavGIS
28 novembre 2012 Grégory Petit
Pour faire une recherche documentaire quelques conseils
Recherche Documentaire et traitement de l’information
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
XML: Syntaxe XML, DTD et Schémas
Etude globale de système.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Une chaîne éditoriale développée dans le cadre du CIRM François Dagorn Journées pédagogiques de lIFSIC.
La problématique de la recherche de document Journée de formation 29 février 2008.
STAF 2X XSL/FO Glaus & Ruckstuhl Mars © Glaus & Ruckstuhl TECFA Programme du 18 et 19 mars Revision XML Introduction à XSL/FO (intérêts et.
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement.
Projet de Master première année 2007 / 2008
Sensibilisation a la modelisation
Les feuilles de style CSS
Le langage du Web CSS et HTML
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
Formation utilisateurs CMS. 16/01/20082 Plan 1)Présentation 2)Espace contributeur 3)Plan du site 4)Créer des pages 5)Edition en ligne 6)Les ressources.
Programmation Web : Introduction à XML
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Congrès AAPI Québec1 Document technologique, authenticité et intégrité Yves Marcoux - EBSI Université de Montréal.
Initiation à la conception des systèmes d'informations
SMIL Synchronized Multimedia Integration Language
G.KEMBELLEC - UP81 Master 2 THYP Cas pratique d’utilisation De simpleXML Un lecteur de RSS Novembre 2009.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Modélisation des documents: DTD et Schéma
eXtensible Markup Language. Généralités sur le XML.
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Nom de l’objet Epreuve d’admission CAPET externe
Stage à Ontomantics Master Pro TILDE
LDAP (Lightweight Directory Access Protocol)
Pour mieux vieillir ensemble EndNote Bâtir sa bibliothèque Par Marie-Marthe Gagnon Bibliothécaire Mars 2015.
XML : un métalangage pour la description de documents structurés XML a été défini par le consortium W3 en fonction de 2 objectifs: Compenser les limitations.
Introduction Module 1.
Dreamweaver Séance 1.
Faire un dossier documentaire
Introduction au HTML Qu’est ce que le HTML ?
DTD EAD.
INF2005– Programmation web– A. Obaid Variantes de HTML.
MES STRATÉGIES DE LECTURE
L’ASSISTANT PGD FORMATION IDD, UNIVERSITÉ MCGILL. 29 AVRIL 2016.
Transcription de la présentation:

5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management gautier.poupeau@logicacmg.unilog.com

Introduction La DTD TEI : principes et fonctionnement pour la création de contenu éditorial Le framework Le schéma 24/01/2008

Introduction : essai de définition La TEI (Text encoding initiative) est un framework/cadre de description pour créer des schémas/grammaires utilisés pour encoder des textes de nature très diverse en vue de leur : échange ; exploitation, c’est-à-dire : les publier y effectuer des recherches les traiter encoder des textes 24/01/2008

Qu’est-ce-qu’un texte ? Un texte est la représentation sur un support d’une construction logique de phrases formant une unité. Un texte comprend différents éléments plus ou moins implicites que le lecteur prend compte dans le processus de lecture pour le comprendre et l’appréhender : un support un contexte une présentation une structure 24/01/2008

Qu’est-ce-que l’encodage ? L’encodage ou le balisage consiste à rendre explicite l’ensemble des caractéristiques et phénomènes d’un texte en vue de leur exploitation par les machines. L’encodage permet : la caractérisation de parties d’un texte de manière formalisée ; la mise en lumière de la structure logique et hiérarchique d’un texte. L’encodage facilite la réutilisation du texte dans différents contextes par différents utilisateurs. 24/01/2008

XML : une syntaxe pour encoder les textes XML (eXtensible Markup Language) est un langages à balises issu de SGML. Exemple : <etatcivil id="1"> <nomdefamille>Poupeau</nomdefamille> <prenom>Gautier</prenom> <datedenaissance>1980/05/19</datedenaissance> </etatcivil> Des éléments ou balises complétés par des attributs s’emboîtent pour mettre en lumière la structure d’un texte. Le fichier XML forme un arbre avec une racine et des nœuds. Chaque élément précise le rôle ou la caractéristique tenu par la portion d’informations entourée dans le contexte du texte. 24/01/2008

XML est une recommandation du W3C Avantages de XML XML est une recommandation du W3C XML est indépendant d’un logiciel, d’un éditeur, d’une plate-forme, d’un système d’exploitation XML n’est pas un format binaire, aucun logiciel particulier n’est requis pour lire du XML XML est relativement facile à utiliser De plus en plus d’applications supportent le XML XML est extensible …..Mais XML est extensible !! 24/01/2008

Permettre l’interopérabilité : les schémas XML Un schéma permet de déterminer le nom des éléments et des attributs, leurs significations et leurs règles d’utilisation. Un schéma peut être comparé à une grammaire. Trois langages pour décrire un schéma : DTD (Document type definition) issu pour SGML XML schema (XSD), recommandation du W3C Relax NG, norme OASIS et ISO 24/01/2008

Les problèmes de XML et des schémas XML Les schémas sont majoritairement spécialisés et limités à un type de textes : EAD pour les inventaires d’archives Docbook pour la documentation technique XHTML pour les pages Web Les schémas peuvent s’avérer incomplet pour encoder certains besoins particuliers. Les schémas évoluent et peuvent perdre la compatibilité descendante. L’utilisation d’un même schéma peut différer d’un utilisateur à un autre ce qui n’est pas forcément documenté. Les schémas sont définis suivant un des trois langages (DTD, XML schema, Relax NG) Construire un schéma est un travail complexe, long et fastidieux et n’a de sens que dans la mesure où il est partagé par une large communauté. Les schémas existants ne permettent pas d’encoder à la fois la structure logique et la structure physique d’un texte. La syntaxe XML est-elle pérenne ? Qu’en est-il de JSON, par exemple ? 24/01/2008

L’approche de la TEI Une communauté partageant les mêmes buts et objets d’études détermine les besoins d’encodage liés à leur discipline. Elle établit un compromis sur les éléments et leurs règles d’utilisation. La consolidation des éléments déterminés par les différentes communautés constitue un guide qui s’attache à repérer, organiser, définir et normaliser les différentes informations/éléments d’un texte : guidelines for Electronic Text encoding and interchange (aujourd’hui la 5ème version dite P5). Une application est mise à disposition pour construire son schéma personnalisée à partir des guidelines. 24/01/2008

Conséquences de l’approche de la TEI La syntaxe XML n’est qu’un moyen d’encoder un texte suivant la TEI (sous-entendu les guidelines). La TEI est indépendante du langage de définition du schéma XML (DTD, XML schema, Relax NG). La TEI ne se limite pas à un type de textes et, de par sa maturité (20 ans), répond à l’ensemble des besoins des chercheurs en sciences humaines et même plus. La TEI comprend 450 éléments !! Et la TEI est extensible… Conclusion : le schéma n’est qu’une conséquence du guidelines. Un texte encodé en TEI est validé selon un schéma qui respecte le guidelines de la TEI. 24/01/2008

Le consortium TEI Pour maintenir, développer et faire connaître la TEI, une fondation à but non lucrative a été fondée en 1999. Elle est basée à : Oxford University Brown University University of Virginia LORIA/ATILF/INIST (Nancy) Deux instances composent le TEI Consortium : TEI council, chargé des développements du guidelines ; TEI board, chargé de gérer le consortium. Deux éditeurs sont chargés de mettre au point et consolider le guidelines : Lou Burnard, Oxford University Syd Bauman, Brown University Toutes les institutions ou personnes peuvent adhérer au consortium pour supporter la TEI. Le consortium organise une fois par an une réunion rassemblant les membres, occasion pour présenter les projets, les nouveaux développements et rencontrer les différents acteurs de la TEI. 24/01/2008

Organisation de la TEI : les modules (1) Les 450 éléments de la TEI sont réparties en 21 chapitres qui décrivent et définissent un ensemble cohérent d’éléments, appelé module. Nom du module Identification Exemples Analysis Analyse et interprétation <c>, <w>, <m> Certainty Certitude et incertitude <certainty> Core Eléments communs à tous les textes <bibl>, <hi>, <list>, <item>, <p>, <note>, <l>, <lb/>, <pb/> Corpus Métadonnées pour les corpus linguistiques <textDesc> Dictionaries Dictionnaires imprimés <entry>, <etym>, <def> Drama Texte dramatique <role>, <castList>, <actor> Figures Tableaux, formules et images <figure>, <table>, <row>, <cell> Gaiji Documentation des caractères et des glyphes <char>, <g> Header Métadonnées communes <teiHeader>, <titleStmt>, <seriesStmt> iso-fs Analyse des traits structurelles Linking Lien, segmentation et alignement <link>, <seg> 24/01/2008

Organisation de la TEI : les modules (2) Nom du module Identification Exemples Msdescription Description des manuscrits <msDescription>, <bindingDesc>, <filiation> Namesdates Noms, dates, personnes et lieux <persName>, <date>, <geogName>, <orgName> Nets Graphes, réseaux et arbres <root>, <tree> Spoken Transcription de corpus oraux <incident>, <pause>, <u> Tagdocs Documentation des éléments (de la TEI) Tei Infrastructure de la TEI <tei>, <teicorpus> Textcrit Apparat critique <listWit>, <witness>, <app>, <rdg> Textstructure Structure par défaut des textes <text>, <front>, <body>, <back>, <div> Transcr Transcription des sources primaires <damage>, <handShift>, <restore> Verse Texte versifié <rhyme>, <caesura> En fonction du texte encodé, l’utilisateur choisit les modules qui lui sont utiles pour construire son schéma. Seul le module tei est obligatoire. Mais il faut au minimum les modules tei, core, header et textstructure pour encoder un texte simple. 24/01/2008

Organisation de la TEI : les classes En plus de l’organisation sous formes de modules, les différentes éléments de la TEI sont réparties dans des classes. Elles déterminent : Les attributs partagés par un ensemble d’éléments ; Le comportement de l’élément, c’est-à-dire l’endroit où il peut être placé. Les éléments héritent des règles attribuées à leur classe ou à leur super-classe. Un élément peut appartenir à une ou plusieurs classes. L’utilisation des classes n’est pas requise pour mettre au point un schéma simple. 24/01/2008

Organisation de la TEI : un exemple pour les classes d’éléments <div> <body> <lem> model.common model.inter <figure> <table> <cit> <sourceDesc> model.listLike model.pLike <listBibl> <p> <ab> model.bibLike <bibl> 24/01/2008

Organisation de la TEI : un exemple pour les classes d’attributs @xml:id @xml:lang @xml:base att.global @n @rend <bibl> @rendition @type att.type @subtype att.declarable @default 24/01/2008

ODD (One document does it all) (1) Pour définir un schéma XML à partir du guidelines de la TEI, un format, appelé ODD, a été mis au point. Un fichier ODD est un document XML dérivé de la TEI qui permet de déterminer : les modules utilisés ; le comportement d’un élément, c’est-à-dire changer sa ou ses classes Il offre aussi la possibilité d’aller plus loin dans la personnalisation : changer le nom d’un élément ; déterminer les éléments utilisés ou non dans un module ; ajouter un attribut et le rattacher à une classe ; ajouter un nouvel élément en le reliant à une classe, un module et/ou même un élément ; contraindre la valeur d’un élément ou d’un attribut ; documenter l’utilisation d’un élément existant ou ajouté, c’est-à-dire son propre guide de balisage 24/01/2008

ODD (One document does it all) (2) ODD permet donc de construire son propre schéma issu de la TEI adapté à vos besoins précis. Tous les changements par rapport à la « TEI canonique », c'est à dire les éléments et les attributs, leurs noms, leurs comportements et leurs sémantiques, seront indiqués dans ce fichier ODD. 24/01/2008

Roma : une interface Web pour construire son schéma Roma est une interface Web mis au point par le consortium qui permet de construire son fichier ODD, et donc son schéma suivant le guidelines de la TEI. http://tei.oucs.ox.ac.uk/Roma/ 24/01/2008

Roma : page d’accueil 24/01/2008

Roma : les schémas prédéterminés 24/01/2008

Roma : les métadonnées de la personnalisation 24/01/2008

Roma : interface en français 24/01/2008

Roma : choisir la langue des éléments et de la documentation 24/01/2008

Roma : choix des modules 24/01/2008

Roma : Module ajouté 24/01/2008

Roma : Description du module 24/01/2008

Roma : ajouter un élément 24/01/2008

Roma : modification des classes d’attributs 24/01/2008

Roma : sanity checker 24/01/2008

Roma : génération de la documentation 24/01/2008

Roma : génération du schéma 24/01/2008

Roma : sauver votre personnalisation sous forme de fichier ODD 24/01/2008

Un exemple pas à pas d’utilisation de la TEI Je souhaite encoder des textes simples du type rapport, article, monographies… 24/01/2008

Qu’est-ce-qu’on encode ? Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot Il est essentiel de faire des choix, car il est impossible de tout encoder. Il faut déterminer toutes les informations possibles qu’il est utile, souhaitable d’encoder Questions essentielles : Pourquoi encoder ce document ? A quoi va servir l'encodage ? Quelles informations sont utiles par rapport au but poursuivi ? Quelle est la nature du document ? Comment fonctionne-t-il ? 24/01/2008

Les éléments de structure générale d’un fichier TEI Les macro-structures Les éléments de structure générale d’un fichier TEI <tei>, <teiHeader>, <text> Les éléments qui composent le texte <front>, <body>, <back> L’élément « magique » de structuration du texte <div> 24/01/2008

Les éléments d’un texte Les micro-structures Les éléments d’un texte Les mises en valeur : <hi></hi> Les images : <figure><figDesc></figDesc><graphic/></figure> Les citations : <q></q> ou <quote></quote> Les notes : <note></note> Les mots étrangers : <foreign></foreign> Les listes : <list><item></item></list> Les tableaux : <table><row><cell></cell></row></table> Les éléments de la bibliographie Une bibliographie : <listBibl> La référence bibliographique : <bibl> Les éléments de la référence bibliographiques : <author>, <bibl>, <biblScope>, <publisher> 24/01/2008

Utilisation de Roma pour construire mon schéma 24/01/2008

La structure générale d’un fichier TEI <teiHeader> <fileDesc> <titleStmt><title>Le titre</title></titleStmt> <publicationStmt><p>Éditeur</p></publicationStmt> <sourceDesc><p>Source du fichier numérique</p></sourceDesc> </fileDesc> </teiHeader> <text> <front></front> <body> <div></div> (la balise magique !!) <div type="partie"> <p> Mon texte avec une <hi rend=“italic”>emphase</hi>. </p> </div> </body> <back></back> </text> </TEI> 18/12/2006

Exemple d’une référence bibliographique <author>Gautier Poupeau</author>, <title level="a">L'édition électronique de sources historiques. Nouvelles approches de l'indexation</title>, dans <title level="m">Indexer les <foreign>exempla</foreign> médiévaux</title> sous la direction de Marie-Anne Polo de Beaulieu, <title level="j">Cahier du centre de recherches historiques</title>, n° 35, avril 2005, <biblScope type="page">pp. 71-78</biblScope> </bibl> 18/12/2006

Exemples d’utilisation de la TEI La plateforme Cyberdocs utilisée pour la mise en ligne des thèses, par exemple : Université de Lyon 2 Un exemple d’édition critique accompagné de la numérisation de l’original : Le cartulaire de Nesle Autre exemples d’édition critique : Les comptes des consuls de Montferrand ou les chroniques latines de Saint-Denis Un exemple de numérisation en mode texte : les cartulaires numérisés d’Ile-de-France Un répertoire de manuscrits : le Miroir des classiques Une plate-forme de publication et de traitement de textes encodés en XML : Telma 24/01/2008

Merci pour votre attention !! Des questions ??? Merci pour votre attention !! Des questions ? 24/01/2008