La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Silfide : ressources, outils et normalisation

Présentations similaires


Présentation au sujet: "Silfide : ressources, outils et normalisation"— Transcription de la présentation:

1 Silfide : ressources, outils et normalisation
Laurent Romary Laboratoire Loria Nancy

2 Silfide - présentation
Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, son Etude Projet commun lancé au début de 1996 CNRS (Centre National de la Recherche Scientifique) Aupelf•Uref (Association des Universités Partiellement ou Entièrement de Langue Française) Équipes : Loria, INaLF, CLIPS, LIMSI, LPL

3 Principaux objectifs coordonner les efforts de la communauté académique dans le domaine des ressources linguistiques développer et promouvoir des actions de normalisation procurer un accès libre aux ressources et aux services associés

4 Contexte Ressources linguistiques Utilisateurs
Textes (littérature,théâtre, poésie, journaux, etc.) Transcriptions (e.g. dialogues) Dictionnaires, lexiques Utilisateurs Lexicographes, linguistes, informaticiens Outils divers (e.g. étiqueteurs morpho-syntaxiques)

5 Un constat coût intellectuel et financier de la création des données
quelle documentation associée à ces données ? comment utiliser ces données (outils) ? Normaliser pour mieux utiliser et partager nos données.

6 TEI (Text Encoding Initiative)
Origine : réunion de novembre 1987 au Vassar College (Poughkeepsie, New York) Directives de codage des textes électroniques sur la base de SGML Institutions scientifiques : ACH, ALLC, ACL Guidelines for Electronic Text Encoding and Interchange (TEI P3) eds. : Michael Sperberg-McQueen et Lou Burnard

7 TEI - Contenu Recommandations Conséquence : une famille de DTD TEI
norme SGML (Standard Generalized Markup Language) modularité de la DTD TEI un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc. des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc. des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc. Conséquence : une famille de DTD TEI

8 TEI - Documentation des textes
Identification et suivi des textes cf. catalogage des documents électroniques (ex. Silfide) cf. échange des documents électroniques Comment : en-tête TEI (TeiHeader) aspects bibliographiques du document source (auteur, éditeur, édition, etc.) aspects propres au document électronique (aspects bibliographiques, codage, historique des révisions etc.)

9 TEI - Pièces de théâtre interventions et indications scéniques
<sp who=“P”> <speaker>Paul</speaker> <p>Il fait chaud aujourd’hui…</p> </sp> <stage>Paul allume une cigarette</stage> remarque : déclaration des personnages dans une <castList>

10 TEI - Transcriptions de l’oral
tours de parole, segments <u who=“S”> <seg>France Telecom, bonjour.</seg> <seg>Que désirez-vous?</seg> </u> remarque : possibilités de coder les pauses, transitions, superpositions, bruits, difficultés de transcription etc.

11 TEI - Dictionnaires structure minimale d’une entrée :
mot-vedette, indications grammaticales, définition, exemples <entry> <form> <orth>table</orth> </form> <gramGrp><pos>n.f.</pos><gramGrp> <def>Pièce de mobilier…</def> <eg>Une table de cuisine</eg> </entry>

12 Silfide - du point de vue de l’utilisateur
pas de balise SGML… un scénario en deux temps  Sélection de ressources : construction d’un corpus de travail (“panier”) Requêtes sur le contenu : utilisation d’outils en ligne sur ce corpus

13 Sélection des ressources
Liste des sélections Le petit Prince… Le Père Goriot… ksqjdhlksqjhd ksjqdhlkqj Titre Auteur Requête complexe Recherche panier Sélection Travail en ligne Résultat

14 Où l’internet donne raison à la démarche de la TEI
Et XML arriva... Où l’internet donne raison à la démarche de la TEI

15 Un rapide état des lieux - 1
XML Une recommandation du W3C simplifiant SGML Un gain en souplesse et en puissance Document bien formé/valide Des interfaces de programmation API DOM : modèle arborescent API SAX : accès par évènements

16 Un rapide état des lieus - 2
Des recommandations associées Xpath Un langage généralisé d ’accès à la structure d ’un document XML /body//div/q[lan=“de”] , XSL Un langage de transformation et de présentation Un système à base de règle exprimées en XML Les bases d ’une BD orientée XML?

17 Mise en réseau de serveurs Silfide
DB2 http Serveur 1 DB1 Serveur 4 Point d ’accès local DB4 Client (navigateur) Serveur 3 DB3

18 Usage généralisé de XML
Informations utilisateurs Gestion de l ’espace de travail Paramètres de session « Panier » Requêtes Listes de résultats

19 Silfide et XML… Server 2 DB2 Server 1 DB1 Server 4 DB4 Server 3 DB3
<SWS> Server 2 DB2 <XQL> Server 1 DB1 Server 4 Local access point <XRS> DB4 User Client Server 3 DB3

20 Bilan : apports d ’XML Uniformisation des formats
Contenus « utiles » (adapter la TEI…) Gestion des échanges Fractionnement et recomposition Utilisation des documents par parties E.g. : entrée d ’un dictionnaire Résultat >> document Applications : commandes en « pipe » (cf. HCRC)

21 Bilan : apports d ’XML - 2 De premiers composants réutilisables
Parseurs XML Interpréteur de requêtes sur des documents structurés Au delà?

22 Pistes de développement des efforts de normalisation
Et maintenant ? Pistes de développement des efforts de normalisation

23 Développements en cours - 1
Ressources primaires Initiative INaLF-Loria de rétro-conversion de textes issus de Frantext Théâtre, poésie etc. Des bases éditoriales codifiées et simplifiées (en-tête minimal) Une prise de conscience du besoin de normalisation : IRESCO, Paris IV, etc.

24 Développements en cours - 2
Annotation externe Cf. CES/Eagles - avènement de Xpath Exemple: alignement de textes multilingues Annotation de la référence MLIS/Mate: une initiative européenne dans le domaine de l ’étude du dialogue

25 Développements en cours - 3
Ressources pour l ’Informatique linguistique Terminologie/lexicographie multilingue MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro) Lexique syntaxique TAGML

26 Perspectives Stabiliser une « couche basse »
API d ’accès aux mots d ’un texte Entrées/Sorties d ’étiqueteurs morpho-syntaxiques Architectures de ressources lexico-grammaticales

27 Moyens Accroître la normalisation des données et des interfaces
Des rencontres régulières (au delà de cette journée « découverte ») Un vrai GT sur ce thème Aboutir à une base commune pour: Échanger des données primaires Échanger des composants Évaluer nos systèmes


Télécharger ppt "Silfide : ressources, outils et normalisation"

Présentations similaires


Annonces Google