La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Présentations similaires


Présentation au sujet: "Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,"— Transcription de la présentation:

1 Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble, 7 juin 2007

2 Seite 2 Objectifs généraux  Partager des ressources (corpus annotés)  Contexte : déclaration de Berlin   Partager des outils (annotation, visualisation, accès)  Partager des pratiques  E.g. recueil de données, manuels d’annotation, méthodes d’évaluation  Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

3 Seite 3 Lexicométrie et corpus multilingues  Notion de corpus parallèle ou comparable  Point de vue linguistique: rôle de l’expert  Point de vue technique:  Adoption de formats « similaires »: codage primaire, niveaux d’annotation  Comparaisons de la sémantique des annotations  E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique  Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

4 Seite 4 Lexicométrie et corpus multilingues (suite)  Représentation consistante des structures lexicales  Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé  Croiser les observations avec des dictionnaires existants  interopérabilité  Deux aspects  Organisation générale des entrées lexicales (méta-modèle)  Choix des catégories de données permettant de décorer un modèle particulier

5 Seite 5  « Couverture linguistique »  conditions de production & contenu linéaire  « Je sais que le langage courant est plein de pièges. » => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004  « Corpus »  collection de données caractérisée par une même couverture linguistique  Goriot, chap. I  Le Monde 09/1986  articles sportifs du Monde 09/1986  corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)  « Ressource »  unité physique de dépôt de données relatives à un corpus  Goriot scanné (image)  Goriot texte brut (Word)  Goriot étiqueté + arboré (XML Tiger) Concepts fondamentaux

6 Seite 6  « Niveau de description »  ensemble cohérent d’informations explicitées relatif à un corpus  fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours  analyse humaine ou traitement automatique  instancié par un schéma d’annotation (Ide & Romary, 2001)  données primaires et secondaires  considération pratique : reconstitution de la couverture  continuum théorique (texte balisé TEI ?)  « Méta-données »  identification et gestion des données Concepts fondamentaux

7 Seite 7 Organisation linguistique Corpus Couverture Caractérisations supplémentaires … dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de

8 Seite 8 Organisation opérationnelle Corpus Dépositaire Date de dépôt Couverture Caractérisations supplémentaires … n est composé de Ressource dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de n est composé de

9 Seite 9 Méta-données  Complémentarité des initiatives internationales  Dublin Core, OLAC, IMDI, TEI  convergence sur les descripteurs du TC 37 de l’ISO  répertoire de catégories de données : rôles, codes de langue…  Méta-données utiles pour la FReeBank  pertinence vis-à-vis de corpus, ressource et niveau de description  prévoir des méta-données plus fines à terme  documentation des étiquettes morpho-syntaxiques  caractérisation de données « primaires » / « secondaires »  Méta-données codées sous forme d’en-têtes TEI  dissémination de bonnes pratiques pour la représentation et la transcription  diffusion au format OLAC et IMDI  moissonnage de la FReeBank par les portails correspondants

10 Seite 10 Exemple « types de discours »  Classification stable dans OLAC  drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech  Caractérise la composante « niveau de description »  utilisation de / dans l’en-tête TEI  A définir…  opérationnalité de la classification  percolation vers la composante « corpus » ?

11 Seite 11 Exemple « rôles »  Ensemble complexe de rôles dans OLAC  caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques  Distribution vis-à-vis de l’architecture de la FReeBank  Corpus  Depositor  Ressource  Depositor, Compiler, Editor, Researcher, Sponsor  Niveau de description  [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor  [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

12 Seite 12 Normalisation ?  Standard:  Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit  Avantage: flexibilité  Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards)  Norme  Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne »  E.g.: W3C, TEI, ISO, IEC, CEN

13 Seite 13 Que normaliser?  Documentation des données  Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés)  Transcription  Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique)  Annotation  Accompagne l’étude d’un phénomène, stabilise l’observation

14 Seite 14 Bases de travail  Quelles initiatives devons nous considérer?  De multiples projets ont visité le domaine  EAGLES, ISLE, Mate, NITE, OLAC, ATLAS  Quelques points de référence  W3C  TEI  ISO  Autres?

15 Seite 15 Le W3C  World Wide Web Consortium  Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio)  Apporte des normes (recommandations) horizontales  XML, XSLT, chemins, pointeurs, liens  RDF, RDFS, OWL  SVG, SMIL  SOAP, WSDL

16 Seite 16 La TEI  Text Encoding Initiative  Consortium académique à forte orientation sciences humaines  Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire):  Les éléments principaux  En-tête : base documentaire riche  Composants de base : prose, poésie, théâtre, oral…  Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

17 Seite 17 ISO  Organisation internationale de standardisation  Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.)  Organisé en comités techniques et sous-comités  Couvre tous les domaines

18 Seite 18 ISO - exemples  ISO-IEC/JTC1  E.g. ISO / Unicode pour l’identification et la représentatioin universelle de caractères  ISO/TC 37 (Terminologie et autres ressources linguistiques)  SC 1: Méthodes en terminologie  SC 2: e.g. Codes langues; ISO (en, fr)  SC 3: Terminologies informatisés; ISO (TMF)  SC 4: Ressources linguistiques

19 Seite 19 L’ISO/TC 37/SC 4  Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques  Mécanismes de base: e.g. structures de traits  Répertoires de catégories de données  Processus souple de spécification d’un format d’annotation  Domaines abordés/à aborder  Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation

20 Seite 20 LMF: le modèle Lexical DB 1..1 Global Info 1..1 Lexical Entry 0..n 1..1 Form 1..1 Sense 0..n n 1..1 Lexical Entry Morphology 1..1 Lexical Entry Morphology 1..1 Lexical extensions Lexical extensions Lexical extension Lexical extension 0..1 Paradigm 1..1 Flexion 0..n 1..1 Lexical extension for morphology

21 Seite 21 Méta-modèle d’un lexique morphologique Morphology 1..1 Paradigm Inflexion 0..n 1..1 Lexical DB Entry 0..n 1..1 Global Info 1..1

22 Seite 22 Décoration du modèle Lexical DB Entry 0..n 1..1 Morphology 1..1 Paradigm Inflexion 0..n 1..1 /lemma/ /POS/ /word form/ /gender/ /number/ /tense/ … 1..1 Global Info 1..1

23 Seite 23 Une entrée du DCR Entry Identifier: grammatical gender Profile:morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}

24 Seite 24 Un format compatible avec le modèle chat noun fr-s-plural chat singular chats plural …

25 Seite 25 Application directes  Morphalou:  un lexique morphologique ouvert  Téléchargement+ patch+fair use  FReeBank:  une base de ressources libres annotées  Dépôt en ligne (En-têtes TEI)  Téléchargement d’un simple clic  Fair use  Une institution de référence:  Le CNRTL


Télécharger ppt "Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,"

Présentations similaires


Annonces Google