La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.

Présentations similaires


Présentation au sujet: "1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III."— Transcription de la présentation:

1

2 1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III Chantal Wionet Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III

3 2 Plan Le Basnage et les dictionnaires anciens Pourquoi linformatisation est indispensable Comment baliser le texte Comment Intex peut faciliter la tâche

4 3 Le Basnage 1702 Le Basnage : Une refonte méconnue du Furetière (1690) Un dictionnaire encyclopédique et un dictionnaire de langue.

5 4 Pourquoi faut-il informatiser ? Conservation de documents fragiles. Disponibilité (diffusion sur Internet). Perspectives nouvelles pour lhistorien de la langue, le chercheur en lexicographie, lhistorien des idées. - comptages. - repérages des patrons. - comparaison des dictionnaires.

6 5 Mais … ce nest pas tâche aisée Coût et difficulté de la saisie : OCR exclu, orthographe non normalisée. Difficultés à délimiter les champs. Marques formelles (typographie, abréviations) souvent peu cohérentes. « Polyphonie » du discours.

7 6 Pourquoi choisir le balisage comme mode d informatisation? Balisage : insertion de jalons isolant les champs du texte. Texte original nest pas altéré. Formalisation minimale. DEBARASSÉ, ÉE. part.pass. & adj. […] part. pass. & adj.

8 7 Principes adoptés pour le balisage Baliser aussi finement que possible. Sappuyer sur des marques formelles. Utiliser des standards : SGML et la « Text Encoding Initiative ». Postuler une structure type : la DTD. Automatiser le processus de balisage le plus possible à laide dautomates (INTEX)

9 8 Les standards choisis : SGML et la « Text Encoding Initiative » SGML : Standard Generalized Markup Language. Norme ISO. Avantages : souplesse du balisage, guidage dans le processus de balisage. TEI : Pour les dictionnaires papier, jeu de balises préexistant à adapter.

10 9 Comment Intex peut faciliter la tâche de balisage Permet de baliser semi-automatiquement le texte à laide de transducteurs. Permet de formaliser au plus point la structure des champs. Fonctionne bien sur les champs les plus structurés.

11 10 Exemples de graphes Champ grammatical : exemple du substantif

12 11 Marques de domaine

13 12 Conclusion Travail sur une maquette de 350 articles saisis manuellement (350 premiers articles de la lettre D). Plusieurs transducteurs élaborés à ce jour : entrées et sous-entrées, zone grammaticale, marques de domaines, références aux auteurs, renvois. Tous les champs ne se prêtent pas à un balisage semi-automatique. Intex est encore sous-utilisé (ressources proprement linguistiques ne sont pas vraiment exploitées).


Télécharger ppt "1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III."

Présentations similaires


Annonces Google