OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement de l I nformation et des S ystèmes EA 4108 Université de ROUEN Faculté des sciences Saint-Etienne du Rouvray
OPTIMA, 6 novembre 2008, BnF 2 un outil daide à la transcription Les ambitions dOPTIMA Valorisation des grands corpus modernes Transcription de lavant texte, réputé illisible Conception des outils numériques fondamentaux Transcription Classement
OPTIMA, 6 novembre 2008, BnF 3 Transcription ? Un résultat visible lisible une explicitation sans interprétation une preuve
OPTIMA, 6 novembre 2008, BnF 4 Transcription ? Une source numérique rendue accessible au classement accès aux parties de documents décrire le contenu au-delà du visuel penser la transcription comme une base de données
OPTIMA, 6 novembre 2008, BnF 5 1- Un langage pour décrire les contenus textuels et graphiques 2- Une interface daide à lencodage 3- Visualisation des images Haute Définition 4- Visualisation des transcriptions (diplomatique?) Expression des besoins
OPTIMA, 6 novembre 2008, BnF 6 1. Langage dencodage Définition informatique dune transcription Repose sur XML: langage des BD semi-structurées HNML + GustaveML + besoins spécifiques DTD établie début 2008 Dernières modifications aout 2008
OPTIMA, 6 novembre 2008, BnF 7 Ajout interlinéaire : Flaubert - Proust Balise Interligne Elle permet d'indiquer quel interligne est utilisé (Supérieur ou Inférieur). Pour un interligne situé dans le corps de texte, on utilise le mot du corps de texte pour indiquer à la visualisation diplomatique ou débute l'interligne. Exemple: l'interligne débute après le i de "villa" Codage: vi de Cale o loco lla 1. Langage dencodage
OPTIMA, 6 novembre 2008, BnF 8 bloc de texte : Proust Balise Bloc On utilise le type bloc de texte pour délimiter les blocs composant le document. Le transcripteur indique les positions successives des points entourant le bloc. La forme est de type polyèdre, ainsi, quelque soit la forme du bloc, on peut délimiter celui-ci et le visualiser sur la diplomatique. Codage: [coordonnées des points du bloc] 1. Langage dencodage
OPTIMA, 6 novembre 2008, BnF 9 bloc image : Braudel Balise bloc On utilise un type de bloc particulier, appelé bloc "Image". Le transcripteur indique ainsi que le contenu de ce bloc n'est pas un texte, mais un tampon que l'on ne peut rendre avec une transcription. La portion d'image ainsi délimitée est ajoutée à la visualisation diplomatique du document transcrit. Codage: [coordonnées des points du bloc] 1. Langage dencodage
OPTIMA, 6 novembre 2008, BnF 10 ajout en marge : Flaubert - Proust Non géré actuellement 1. Langage dencodage
OPTIMA, 6 novembre 2008, BnF Langage dencodage <!DOCTYPE transcription [ … ]>
OPTIMA, 6 novembre 2008, BnF Interface daide à lencodage 1. Saisie du texte et aide à lencodage
OPTIMA, 6 novembre 2008, BnF Visualisation des images HD Fonctionnalités images zoom rotation saisie de blocs mesure
OPTIMA, 6 novembre 2008, BnF 14 Faire passer un système décriture non standard dans un système dédition électronique normalisé Transcription diplomatique ? linéarisée diplomatique horizontale diplomatique horizontale avec éléments graphiques diplomatique inclinée régulière diplomatique inclinée régulière avec éléments graphiques Très dépendant de lutilisateur et du corpus Accepter une certaine distorsion 4. Visualisation des transcriptions
OPTIMA, 6 novembre 2008, BnF Visualisation des transcriptions
OPTIMA, 6 novembre 2008, BnF 16 Plateforme Java : - dev indépendant de la machine - permet la manipulation des images HD - pas de technologies Web - IHM en SWING - rendu codé en SVG et visualisé avec BATIK (Apache) Choix Technologiques
OPTIMA, 6 novembre 2008, BnF 17 - Format de Transcription Numérique: achevé (version 1) - Saisie du balisage: achevée (version 1) - Sauvegarde: en cours de validation - Visualisation diplomatique: 40% achevé - Test et validation : à continuer !! Utilisateurs = Testeurs Bilan et Perspectives
OPTIMA, 6 novembre 2008, BnF 18 - Un outil numérique ambitieux au regard du temps disponible (1 an) - Un prototype en passe dêtre achevé grâce à des échanges réguliers - A transformer en une réelle application informatique validée Génie Logiciel = Cycle de production industrielle - Transcrire la masse? Bilan et Perspectives