1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.

Slides:



Advertisements
Présentations similaires
Conférence Nationale – 4 juin 2008
Advertisements

Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Données structurées et XML
24510, AND PROJECT STANDARDS TEST IN TWO MOROCCAN CITIES LOCAL ACTION – 4th WORLD WATER FORUM, MEXICO 2006 SERVICE DE NORMALISATION INDUSTRIELLE.
Automatisation des processus dans IIJCan par François HARVEY (Programmeur-analyste)
Projet BATERI - journée régionale du 22 octobre 2007 à Grenoble 1 BATERI Banc de Test pour la Réalisation de lInteropérabilité
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Interaction et intégration des ressources Internet dans un dispositif dapprentissage autonome de langues Mercedes Sanz Gil Universitat.
Les stratégies de recherche Lefficacité du mode de recherche diffère selon le type dinformations recherchées.
INFORMATISATION DU DICTIONNAIRE UNIVERSEL DE FURETIERE REVU PAR BASNAGE DE BAUVAL (1702) : PREMIER BILAN Chantal Wionet Unité Mixte de Recherche SILEX,
ASTRID et la traçabilité
Présentation générale
Données structurées et XML
Circonscription d’Avranches Février 2012
CERN – Organisation Européenne pour la Recherche Nucléaire Services dInformation Administrative Le projet DocLeg et léchange électronique de données personnelles.
Cordial, le TAL et les aides à la rédaction
2 ième édition 1 Introduction aux systèmes dinformation Un outil essentiel pour lentreprise branchée Chapitre James A. OBrien © 2003 Les Éditions de la.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Traitement de texte ++.
Semaine du Document Numérique
Techniques de test Boulanger Jean-Louis.
Conscience phonologique
OUTILEX Présentation des résultats
Ingrid Geretschläger and Jocelyne Jerdelet/CERN ETT-SIS-DM1 La litterature grise : importation et gestion au SIS u Dans le passé, échange entre.
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Catalogage de données Notions, enjeux et initiatives actuelles.
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
LA VEILLE DOCUMENTAIRE
Les feuilles de style CSS
Langages de requêtes XML
Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)
BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Les archives en ligne et l'histoire
Agenda de la présentation
Introduction aux bibliothèques numériques Alain Jacquesson Bibliothèque publique et universitaire Ville de Genève Vers
Frédéric Vella et Nadine Vigouroux IRIT, Université Paul Sabatier, 118 Route de Narbonne, F TOULOUSE CEDEX 9.
XHTML les fondamentaux M.DIENG Abdoulaye DTS 1 Réseaux & Données.
Traitement de texte +.
Dictionnaires, lexicographie, lexicographes
Les fichiers des anciens cheminots Etat des lieux début 2008 Le portail CGC L'avenir 1.
B2i école : domaines, aptitudes et pistes d’activités
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Offre de service Sécurité des systèmes d’information
ISO 9001:2000 IDENTIFICATION et DOCUMENTATION DES PROCESSUS
TEXT MINING Fouille de textes
Programme de soutien au développement de l’engagement bénévole en loisir et en sport.
Diaporama réalisé par Florence Mezzoud,
Savoir-être : Fréquenter le CDI
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
Jocelyne Jerdelet - Sandrine Reyes CERN-DSU-SI 1 La Théorie sur la "voie verte" de l'Open Access.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Présentation du « Pôle ressource» Année scolaire
Dreamweaver Séance 1.
Plan de la présentation Le langage HTML Dreamweaver MX Les premiers outils pour créer une page web :  Propriétés d’une page  Création de cadres  Création.
Le portail Communications sur les questions d’application.
DTD EAD.
1 er séance SI28 A2004 YIN Lei Emmanuel Eugene. Plan de l’exposé  Introduction au HTML  Le HTML dans le bloc-notes (notepad)  Présentation de Dreamweaver.
La recherche documentaire avec PMB PMB est un logiciel documentaire qui permet de rechercher toutes les ressources existantes au CDI : livres documentaires,
Echanges de données géographiques Sandre Geography Markup Language (GML) GIGE 2014 – Dimitri MEUNIER.
TECHNOLOGIE – Avril 2008 Projet de programme 4 e : Thème : Confort et domotique Equipement intérieur Equipement extérieur Electroménager Vidéo, photo Son.
Initiation à la recherche documentaire Initiation à la recherche documentaire L.Berger Collège St Paul Roanne.
CATALOGUE DES FORMATIONS WORD 2007 – Formateur : TAFOUREAU Laurent mercredi 23 mars 2016.
FORMATIONENT/SVT Saint Orens Vendredi 15 novembre 2013.
Transcription de la présentation:

1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III Chantal Wionet Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III

2 Plan Le Basnage et les dictionnaires anciens Pourquoi linformatisation est indispensable Comment baliser le texte Comment Intex peut faciliter la tâche

3 Le Basnage 1702 Le Basnage : Une refonte méconnue du Furetière (1690) Un dictionnaire encyclopédique et un dictionnaire de langue.

4 Pourquoi faut-il informatiser ? Conservation de documents fragiles. Disponibilité (diffusion sur Internet). Perspectives nouvelles pour lhistorien de la langue, le chercheur en lexicographie, lhistorien des idées. - comptages. - repérages des patrons. - comparaison des dictionnaires.

5 Mais … ce nest pas tâche aisée Coût et difficulté de la saisie : OCR exclu, orthographe non normalisée. Difficultés à délimiter les champs. Marques formelles (typographie, abréviations) souvent peu cohérentes. « Polyphonie » du discours.

6 Pourquoi choisir le balisage comme mode d informatisation? Balisage : insertion de jalons isolant les champs du texte. Texte original nest pas altéré. Formalisation minimale. DEBARASSÉ, ÉE. part.pass. & adj. […] part. pass. & adj.

7 Principes adoptés pour le balisage Baliser aussi finement que possible. Sappuyer sur des marques formelles. Utiliser des standards : SGML et la « Text Encoding Initiative ». Postuler une structure type : la DTD. Automatiser le processus de balisage le plus possible à laide dautomates (INTEX)

8 Les standards choisis : SGML et la « Text Encoding Initiative » SGML : Standard Generalized Markup Language. Norme ISO. Avantages : souplesse du balisage, guidage dans le processus de balisage. TEI : Pour les dictionnaires papier, jeu de balises préexistant à adapter.

9 Comment Intex peut faciliter la tâche de balisage Permet de baliser semi-automatiquement le texte à laide de transducteurs. Permet de formaliser au plus point la structure des champs. Fonctionne bien sur les champs les plus structurés.

10 Exemples de graphes Champ grammatical : exemple du substantif

11 Marques de domaine

12 Conclusion Travail sur une maquette de 350 articles saisis manuellement (350 premiers articles de la lettre D). Plusieurs transducteurs élaborés à ce jour : entrées et sous-entrées, zone grammaticale, marques de domaines, références aux auteurs, renvois. Tous les champs ne se prêtent pas à un balisage semi-automatique. Intex est encore sous-utilisé (ressources proprement linguistiques ne sont pas vraiment exploitées).