La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management

Présentations similaires


Présentation au sujet: "5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management"— Transcription de la présentation:

1 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management

2 24/01/20082 La DTD TEI : principes et fonctionnement pour la création de contenu éditorial Le schémaLe framework Introduction

3 24/01/20083 Introduction : essai de définition La TEI (Text encoding initiative) est un framework/cadre de description pour créer des schémas/grammaires utilisés pour encoder des textes de nature très diverse en vue de leur : échange ; exploitation, cest-à-dire : les publier y effectuer des recherches les traiter encoder des textes

4 24/01/20084 Quest-ce-quun texte ? Un texte est la représentation sur un support dune construction logique de phrases formant une unité. Un texte comprend différents éléments plus ou moins implicites que le lecteur prend compte dans le processus de lecture pour le comprendre et lappréhender : un support un contexte une présentation une structure

5 24/01/20085 Quest-ce-que lencodage ? Lencodage ou le balisage consiste à rendre explicite lensemble des caractéristiques et phénomènes dun texte en vue de leur exploitation par les machines. Lencodage permet : la caractérisation de parties dun texte de manière formalisée ; la mise en lumière de la structure logique et hiérarchique dun texte. Lencodage facilite la réutilisation du texte dans différents contextes par différents utilisateurs.

6 24/01/20086 XML : une syntaxe pour encoder les textes XML (eXtensible Markup Language) est un langages à balises issu de SGML. Exemple : Poupeau Gautier 1980/05/19 Des éléments ou balises complétés par des attributs semboîtent pour mettre en lumière la structure dun texte. Le fichier XML forme un arbre avec une racine et des nœuds. Chaque élément précise le rôle ou la caractéristique tenu par la portion dinformations entourée dans le contexte du texte.

7 24/01/20087 Avantages de XML XML est une recommandation du W3C XML est indépendant dun logiciel, dun éditeur, dune plate-forme, dun système dexploitation XML nest pas un format binaire, aucun logiciel particulier nest requis pour lire du XML XML est relativement facile à utiliser De plus en plus dapplications supportent le XML XML est extensible …..Mais XML est extensible !!

8 24/01/20088 Permettre linteropérabilité : les schémas XML Un schéma permet de déterminer le nom des éléments et des attributs, leurs significations et leurs règles dutilisation. Un schéma peut être comparé à une grammaire. Trois langages pour décrire un schéma : DTD (Document type definition) issu pour SGML XML schema (XSD), recommandation du W3C Relax NG, norme OASIS et ISO

9 24/01/20089 Les problèmes de XML et des schémas XML Les schémas sont majoritairement spécialisés et limités à un type de textes : EAD pour les inventaires darchives Docbook pour la documentation technique XHTML pour les pages Web Les schémas peuvent savérer incomplet pour encoder certains besoins particuliers. Les schémas évoluent et peuvent perdre la compatibilité descendante. Lutilisation dun même schéma peut différer dun utilisateur à un autre ce qui nest pas forcément documenté. Les schémas sont définis suivant un des trois langages (DTD, XML schema, Relax NG) Construire un schéma est un travail complexe, long et fastidieux et na de sens que dans la mesure où il est partagé par une large communauté. Les schémas existants ne permettent pas dencoder à la fois la structure logique et la structure physique dun texte. La syntaxe XML est-elle pérenne ? Quen est-il de JSON, par exemple ?

10 24/01/ Lapproche de la TEI Une communauté partageant les mêmes buts et objets détudes détermine les besoins dencodage liés à leur discipline. Elle établit un compromis sur les éléments et leurs règles dutilisation. La consolidation des éléments déterminés par les différentes communautés constitue un guide qui sattache à repérer, organiser, définir et normaliser les différentes informations/éléments dun texte : guidelines for Electronic Text encoding and interchange (aujourdhui la 5 ème version dite P5).guidelines for Electronic Text encoding and interchange Une application est mise à disposition pour construire son schéma personnalisée à partir des guidelines.

11 24/01/ Conséquences de lapproche de la TEI La syntaxe XML nest quun moyen dencoder un texte suivant la TEI (sous-entendu les guidelines). La TEI est indépendante du langage de définition du schéma XML (DTD, XML schema, Relax NG). La TEI ne se limite pas à un type de textes et, de par sa maturité (20 ans), répond à lensemble des besoins des chercheurs en sciences humaines et même plus. La TEI comprend 450 éléments !! Et la TEI est extensible… Conclusion : le schéma nest quune conséquence du guidelines. Un texte encodé en TEI est validé selon un schéma qui respecte le guidelines de la TEI.

12 24/01/ Le consortium TEI Pour maintenir, développer et faire connaître la TEI, une fondation à but non lucrative a été fondée en Elle est basée à : Oxford University Brown University University of Virginia LORIA/ATILF/INIST (Nancy) Deux instances composent le TEI Consortium : TEI council, chargé des développements du guidelines ; TEI board, chargé de gérer le consortium. Deux éditeurs sont chargés de mettre au point et consolider le guidelines : Lou Burnard, Oxford University Syd Bauman, Brown University Toutes les institutions ou personnes peuvent adhérer au consortium pour supporter la TEI. Le consortium organise une fois par an une réunion rassemblant les membres, occasion pour présenter les projets, les nouveaux développements et rencontrer les différents acteurs de la TEI.

13 24/01/ Organisation de la TEI : les modules (1) Les 450 éléments de la TEI sont réparties en 21 chapitres qui décrivent et définissent un ensemble cohérent déléments, appelé module. Nom du moduleIdentificationExemples AnalysisAnalyse et interprétation,, CertaintyCertitude et incertitude CoreEléments communs à tous les textes,,,,,,,, CorpusMétadonnées pour les corpus linguistiques DictionariesDictionnaires imprimés,, DramaTexte dramatique,, FiguresTableaux, formules et images,,, GaijiDocumentation des caractères et des glyphes, HeaderMétadonnées communes,, iso-fsAnalyse des traits structurelles LinkingLien, segmentation et alignement,

14 24/01/ Organisation de la TEI : les modules (2) Nom du moduleIdentificationExemples MsdescriptionDescription des manuscrits,, NamesdatesNoms, dates, personnes et lieux,,, NetsGraphes, réseaux et arbres, SpokenTranscription de corpus oraux,, TagdocsDocumentation des éléments (de la TEI) TeiInfrastructure de la TEI, TextcritApparat critique,,, TextstructureStructure par défaut des textes,,,, TranscrTranscription des sources primaires,, VerseTexte versifié, En fonction du texte encodé, lutilisateur choisit les modules qui lui sont utiles pour construire son schéma. Seul le module tei est obligatoire. Mais il faut au minimum les modules tei, core, header et textstructure pour encoder un texte simple.

15 24/01/ Organisation de la TEI : les classes En plus de lorganisation sous formes de modules, les différentes éléments de la TEI sont réparties dans des classes. Elles déterminent : Les attributs partagés par un ensemble déléments ; Le comportement de lélément, cest-à-dire lendroit où il peut être placé. Les éléments héritent des règles attribuées à leur classe ou à leur super-classe. Un élément peut appartenir à une ou plusieurs classes. Lutilisation des classes nest pas requise pour mettre au point un schéma simple.

16 24/01/ Organisation de la TEI : un exemple pour les classes déléments model.bibLike model.inter model.listLike model.common model.pLike

17 24/01/ Organisation de la TEI : un exemple pour les classes dattributs att.global @xml:base

18 24/01/ ODD (One document does it all) (1) Pour définir un schéma XML à partir du guidelines de la TEI, un format, appelé ODD, a été mis au point. Un fichier ODD est un document XML dérivé de la TEI qui permet de déterminer : les modules utilisés ; le comportement dun élément, cest-à-dire changer sa ou ses classes Il offre aussi la possibilité daller plus loin dans la personnalisation : changer le nom dun élément ; déterminer les éléments utilisés ou non dans un module ; ajouter un attribut et le rattacher à une classe ; ajouter un nouvel élément en le reliant à une classe, un module et/ou même un élément ; contraindre la valeur dun élément ou dun attribut ; documenter lutilisation dun élément existant ou ajouté, cest-à-dire son propre guide de balisage

19 24/01/ ODD (One document does it all) (2) ODD permet donc de construire son propre schéma issu de la TEI adapté à vos besoins précis. Tous les changements par rapport à la « TEI canonique », c'est à dire les éléments et les attributs, leurs noms, leurs comportements et leurs sémantiques, seront indiqués dans ce fichier ODD.

20 24/01/ Roma : une interface Web pour construire son schéma Roma est une interface Web mis au point par le consortium qui permet de construire son fichier ODD, et donc son schéma suivant le guidelines de la TEI.

21 24/01/ Roma : page daccueil

22 24/01/ Roma : les schémas prédéterminés

23 24/01/ Roma : les métadonnées de la personnalisation

24 24/01/ Roma : interface en français

25 24/01/ Roma : choisir la langue des éléments et de la documentation

26 24/01/ Roma : choix des modules

27 24/01/ Roma : Module ajouté

28 24/01/ Roma : Description du module

29 24/01/ Roma : ajouter un élément

30 24/01/ Roma : modification des classes dattributs

31 24/01/ Roma : sanity checker

32 24/01/ Roma : génération de la documentation

33 24/01/ Roma : génération du schéma

34 24/01/ Roma : sauver votre personnalisation sous forme de fichier ODD

35 24/01/ Un exemple pas à pas dutilisation de la TEI Je souhaite encoder des textes simples du type rapport, article, monographies…

36 24/01/ Quest-ce-quon encode ? Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot Il est essentiel de faire des choix, car il est impossible de tout encoder. Il faut déterminer toutes les informations possibles quil est utile, souhaitable dencoder Questions essentielles : Pourquoi encoder ce document ? A quoi va servir l'encodage ? Quelles informations sont utiles par rapport au but poursuivi ? Quelle est la nature du document ? Comment fonctionne-t-il ?

37 24/01/ Les macro-structures Les éléments de structure générale dun fichier TEI,, Les éléments qui composent le texte,, Lélément « magique » de structuration du texte

38 24/01/ Les micro-structures Les éléments dun texte Les mises en valeur : Les images : Les citations : ou Les notes : Les mots étrangers : Les listes : Les tableaux : Les éléments de la bibliographie Une bibliographie : La référence bibliographique : Les éléments de la référence bibliographiques :,,,

39 24/01/ Utilisation de Roma pour construire mon schéma

40 18/12/ Le titre Éditeur Source du fichier numérique (la balise magique !!) Mon texte avec une emphase. La structure générale dun fichier TEI

41 18/12/ Gautier Poupeau, L'édition électronique de sources historiques. Nouvelles approches de l'indexation, dans Indexer les exempla médiévaux sous la direction de Marie-Anne Polo de Beaulieu, Cahier du centre de recherches historiques, n° 35, avril 2005, pp Exemple dune référence bibliographique

42 24/01/ Exemples dutilisation de la TEI La plateforme Cyberdocs utilisée pour la mise en ligne des thèses, par exemple : Université de Lyon 2Université de Lyon 2 Un exemple dédition critique accompagné de la numérisation de loriginal : Le cartulaire de NesleLe cartulaire de Nesle Autre exemples dédition critique : Les comptes des consuls de Montferrand ou les chroniques latines de Saint-DenisLes comptes des consuls de Montferrandles chroniques latines de Saint-Denis Un exemple de numérisation en mode texte : les cartulaires numérisés dIle-de-Franceles cartulaires numérisés dIle-de-France Un répertoire de manuscrits : le Miroir des classiquesle Miroir des classiques Une plate-forme de publication et de traitement de textes encodés en XML : TelmaTelma

43 24/01/ Des questions ??? Merci pour votre attention !! Des questions ?


Télécharger ppt "5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management"

Présentations similaires


Annonces Google