Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMichèle Salaun Modifié depuis plus de 11 années
2
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III Chantal Wionet Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III
3
2 Plan Le Basnage et les dictionnaires anciens Pourquoi linformatisation est indispensable Comment baliser le texte Comment Intex peut faciliter la tâche
4
3 Le Basnage 1702 Le Basnage : Une refonte méconnue du Furetière (1690) Un dictionnaire encyclopédique et un dictionnaire de langue.
5
4 Pourquoi faut-il informatiser ? Conservation de documents fragiles. Disponibilité (diffusion sur Internet). Perspectives nouvelles pour lhistorien de la langue, le chercheur en lexicographie, lhistorien des idées. - comptages. - repérages des patrons. - comparaison des dictionnaires.
6
5 Mais … ce nest pas tâche aisée Coût et difficulté de la saisie : OCR exclu, orthographe non normalisée. Difficultés à délimiter les champs. Marques formelles (typographie, abréviations) souvent peu cohérentes. « Polyphonie » du discours.
7
6 Pourquoi choisir le balisage comme mode d informatisation? Balisage : insertion de jalons isolant les champs du texte. Texte original nest pas altéré. Formalisation minimale. DEBARASSÉ, ÉE. part.pass. & adj. […] part. pass. & adj.
8
7 Principes adoptés pour le balisage Baliser aussi finement que possible. Sappuyer sur des marques formelles. Utiliser des standards : SGML et la « Text Encoding Initiative ». Postuler une structure type : la DTD. Automatiser le processus de balisage le plus possible à laide dautomates (INTEX)
9
8 Les standards choisis : SGML et la « Text Encoding Initiative » SGML : Standard Generalized Markup Language. Norme ISO. Avantages : souplesse du balisage, guidage dans le processus de balisage. TEI : Pour les dictionnaires papier, jeu de balises préexistant à adapter.
10
9 Comment Intex peut faciliter la tâche de balisage Permet de baliser semi-automatiquement le texte à laide de transducteurs. Permet de formaliser au plus point la structure des champs. Fonctionne bien sur les champs les plus structurés.
11
10 Exemples de graphes Champ grammatical : exemple du substantif
12
11 Marques de domaine
13
12 Conclusion Travail sur une maquette de 350 articles saisis manuellement (350 premiers articles de la lettre D). Plusieurs transducteurs élaborés à ce jour : entrées et sous-entrées, zone grammaticale, marques de domaines, références aux auteurs, renvois. Tous les champs ne se prêtent pas à un balisage semi-automatique. Intex est encore sous-utilisé (ressources proprement linguistiques ne sont pas vraiment exploitées).
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.