Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble, 7 juin 2007
Seite 2 Objectifs généraux Partager des ressources (corpus annotés) Contexte : déclaration de Berlin Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels d’annotation, méthodes d’évaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens
Seite 3 Lexicométrie et corpus multilingues Notion de corpus parallèle ou comparable Point de vue linguistique: rôle de l’expert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux d’annotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?
Seite 4 Lexicométrie et corpus multilingues (suite) Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un modèle particulier
Seite 5 « Couverture linguistique » conditions de production & contenu linéaire « Je sais que le langage courant est plein de pièges. » => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004 « Corpus » collection de données caractérisée par une même couverture linguistique Goriot, chap. I Le Monde 09/1986 articles sportifs du Monde 09/1986 corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000) « Ressource » unité physique de dépôt de données relatives à un corpus Goriot scanné (image) Goriot texte brut (Word) Goriot étiqueté + arboré (XML Tiger) Concepts fondamentaux
Seite 6 « Niveau de description » ensemble cohérent d’informations explicitées relatif à un corpus fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours analyse humaine ou traitement automatique instancié par un schéma d’annotation (Ide & Romary, 2001) données primaires et secondaires considération pratique : reconstitution de la couverture continuum théorique (texte balisé TEI ?) « Méta-données » identification et gestion des données Concepts fondamentaux
Seite 7 Organisation linguistique Corpus Couverture Caractérisations supplémentaires … dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de
Seite 8 Organisation opérationnelle Corpus Dépositaire Date de dépôt Couverture Caractérisations supplémentaires … n est composé de Ressource dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de n est composé de
Seite 9 Méta-données Complémentarité des initiatives internationales Dublin Core, OLAC, IMDI, TEI convergence sur les descripteurs du TC 37 de l’ISO répertoire de catégories de données : rôles, codes de langue… Méta-données utiles pour la FReeBank pertinence vis-à-vis de corpus, ressource et niveau de description prévoir des méta-données plus fines à terme documentation des étiquettes morpho-syntaxiques caractérisation de données « primaires » / « secondaires » Méta-données codées sous forme d’en-têtes TEI dissémination de bonnes pratiques pour la représentation et la transcription diffusion au format OLAC et IMDI moissonnage de la FReeBank par les portails correspondants
Seite 10 Exemple « types de discours » Classification stable dans OLAC drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech Caractérise la composante « niveau de description » utilisation de / dans l’en-tête TEI A définir… opérationnalité de la classification percolation vers la composante « corpus » ?
Seite 11 Exemple « rôles » Ensemble complexe de rôles dans OLAC caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques Distribution vis-à-vis de l’architecture de la FReeBank Corpus Depositor Ressource Depositor, Compiler, Editor, Researcher, Sponsor Niveau de description [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker
Seite 12 Normalisation ? Standard: Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards) Norme Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN
Seite 13 Que normaliser? Documentation des données Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne l’étude d’un phénomène, stabilise l’observation
Seite 14 Bases de travail Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?
Seite 15 Le W3C World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL SOAP, WSDL
Seite 16 La TEI Text Encoding Initiative Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.
Seite 17 ISO Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines
Seite 18 ISO - exemples ISO-IEC/JTC1 E.g. ISO / Unicode pour l’identification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO (en, fr) SC 3: Terminologies informatisés; ISO (TMF) SC 4: Ressources linguistiques
Seite 19 L’ISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation
Seite 20 LMF: le modèle Lexical DB 1..1 Global Info 1..1 Lexical Entry 0..n 1..1 Form 1..1 Sense 0..n n 1..1 Lexical Entry Morphology 1..1 Lexical Entry Morphology 1..1 Lexical extensions Lexical extensions Lexical extension Lexical extension 0..1 Paradigm 1..1 Flexion 0..n 1..1 Lexical extension for morphology
Seite 21 Méta-modèle d’un lexique morphologique Morphology 1..1 Paradigm Inflexion 0..n 1..1 Lexical DB Entry 0..n 1..1 Global Info 1..1
Seite 22 Décoration du modèle Lexical DB Entry 0..n 1..1 Morphology 1..1 Paradigm Inflexion 0..n 1..1 /lemma/ /POS/ /word form/ /gender/ /number/ /tense/ … 1..1 Global Info 1..1
Seite 23 Une entrée du DCR Entry Identifier: grammatical gender Profile:morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}
Seite 24 Un format compatible avec le modèle chat noun fr-s-plural chat singular chats plural …
Seite 25 Application directes Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use Une institution de référence: Le CNRTL