Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parGeorgine Fortin Modifié depuis plus de 10 années
1
Silfide : ressources, outils et normalisation
Laurent Romary Laboratoire Loria Nancy
2
Silfide - présentation
Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, son Etude Projet commun lancé au début de 1996 CNRS (Centre National de la Recherche Scientifique) Aupelf•Uref (Association des Universités Partiellement ou Entièrement de Langue Française) Équipes : Loria, INaLF, CLIPS, LIMSI, LPL
3
Principaux objectifs coordonner les efforts de la communauté académique dans le domaine des ressources linguistiques développer et promouvoir des actions de normalisation procurer un accès libre aux ressources et aux services associés
4
Contexte Ressources linguistiques Utilisateurs
Textes (littérature,théâtre, poésie, journaux, etc.) Transcriptions (e.g. dialogues) Dictionnaires, lexiques Utilisateurs Lexicographes, linguistes, informaticiens Outils divers (e.g. étiqueteurs morpho-syntaxiques)
5
Un constat coût intellectuel et financier de la création des données
quelle documentation associée à ces données ? comment utiliser ces données (outils) ? Normaliser pour mieux utiliser et partager nos données.
6
TEI (Text Encoding Initiative)
Origine : réunion de novembre 1987 au Vassar College (Poughkeepsie, New York) Directives de codage des textes électroniques sur la base de SGML Institutions scientifiques : ACH, ALLC, ACL Guidelines for Electronic Text Encoding and Interchange (TEI P3) eds. : Michael Sperberg-McQueen et Lou Burnard
7
TEI - Contenu Recommandations Conséquence : une famille de DTD TEI
norme SGML (Standard Generalized Markup Language) modularité de la DTD TEI un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc. des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc. des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc. Conséquence : une famille de DTD TEI
8
TEI - Documentation des textes
Identification et suivi des textes cf. catalogage des documents électroniques (ex. Silfide) cf. échange des documents électroniques Comment : en-tête TEI (TeiHeader) aspects bibliographiques du document source (auteur, éditeur, édition, etc.) aspects propres au document électronique (aspects bibliographiques, codage, historique des révisions etc.)
9
TEI - Pièces de théâtre interventions et indications scéniques
<sp who=“P”> <speaker>Paul</speaker> <p>Il fait chaud aujourd’hui…</p> </sp> <stage>Paul allume une cigarette</stage> remarque : déclaration des personnages dans une <castList>
10
TEI - Transcriptions de l’oral
tours de parole, segments <u who=“S”> <seg>France Telecom, bonjour.</seg> <seg>Que désirez-vous?</seg> </u> remarque : possibilités de coder les pauses, transitions, superpositions, bruits, difficultés de transcription etc.
11
TEI - Dictionnaires structure minimale d’une entrée :
mot-vedette, indications grammaticales, définition, exemples <entry> <form> <orth>table</orth> </form> <gramGrp><pos>n.f.</pos><gramGrp> <def>Pièce de mobilier…</def> <eg>Une table de cuisine</eg> </entry>
12
Silfide - du point de vue de l’utilisateur
pas de balise SGML… un scénario en deux temps Sélection de ressources : construction d’un corpus de travail (“panier”) Requêtes sur le contenu : utilisation d’outils en ligne sur ce corpus
13
Sélection des ressources
Liste des sélections Le petit Prince… Le Père Goriot… ksqjdhlksqjhd ksjqdhlkqj … Titre Auteur Requête complexe Recherche panier Sélection Travail en ligne Résultat
14
Où l’internet donne raison à la démarche de la TEI
Et XML arriva... Où l’internet donne raison à la démarche de la TEI
15
Un rapide état des lieux - 1
XML Une recommandation du W3C simplifiant SGML Un gain en souplesse et en puissance Document bien formé/valide Des interfaces de programmation API DOM : modèle arborescent API SAX : accès par évènements
16
Un rapide état des lieus - 2
Des recommandations associées Xpath Un langage généralisé d ’accès à la structure d ’un document XML /body//div/q[lan=“de”] , XSL Un langage de transformation et de présentation Un système à base de règle exprimées en XML Les bases d ’une BD orientée XML?
17
Mise en réseau de serveurs Silfide
DB2 http Serveur 1 DB1 Serveur 4 Point d ’accès local DB4 Client (navigateur) Serveur 3 DB3
18
Usage généralisé de XML
Informations utilisateurs Gestion de l ’espace de travail Paramètres de session « Panier » Requêtes Listes de résultats
19
Silfide et XML… Server 2 DB2 Server 1 DB1 Server 4 DB4 Server 3 DB3
<SWS> Server 2 DB2 <XQL> Server 1 DB1 Server 4 Local access point <XRS> DB4 User Client Server 3 DB3
20
Bilan : apports d ’XML Uniformisation des formats
Contenus « utiles » (adapter la TEI…) Gestion des échanges Fractionnement et recomposition Utilisation des documents par parties E.g. : entrée d ’un dictionnaire Résultat >> document Applications : commandes en « pipe » (cf. HCRC)
21
Bilan : apports d ’XML - 2 De premiers composants réutilisables
Parseurs XML Interpréteur de requêtes sur des documents structurés Au delà?
22
Pistes de développement des efforts de normalisation
Et maintenant ? Pistes de développement des efforts de normalisation
23
Développements en cours - 1
Ressources primaires Initiative INaLF-Loria de rétro-conversion de textes issus de Frantext Théâtre, poésie etc. Des bases éditoriales codifiées et simplifiées (en-tête minimal) Une prise de conscience du besoin de normalisation : IRESCO, Paris IV, etc.
24
Développements en cours - 2
Annotation externe Cf. CES/Eagles - avènement de Xpath Exemple: alignement de textes multilingues Annotation de la référence MLIS/Mate: une initiative européenne dans le domaine de l ’étude du dialogue
25
Développements en cours - 3
Ressources pour l ’Informatique linguistique Terminologie/lexicographie multilingue MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro) Lexique syntaxique TAGML
26
Perspectives Stabiliser une « couche basse »
API d ’accès aux mots d ’un texte Entrées/Sorties d ’étiqueteurs morpho-syntaxiques Architectures de ressources lexico-grammaticales
27
Moyens Accroître la normalisation des données et des interfaces
Des rencontres régulières (au delà de cette journée « découverte ») Un vrai GT sur ce thème Aboutir à une base commune pour: Échanger des données primaires Échanger des composants Évaluer nos systèmes
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.