Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »
Objectifs généraux Partager des ressources (corpus annotés) Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels d’annotation, méthodes d’évaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens
Lexicométrie et corpus multilingues Notion de corpus parallèle ou comparable Point de vue linguistique: role de l’expert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux d’annotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?
Lexicométrie et corpus multilingues (suite) Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un modèle particulier
Normalisation ? Standard: Norme Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards) Norme Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN
Que normaliser? Documentation des données Transcription Annotation Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne l’étude d’un phénomène, stabilise l’observation
Bases de travail Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?
Le W3C World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL
La TEI Text Encoding Initiative Les éléments principaux Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.
ISO Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines
ISO - exemples ISO-IEC/JTC1 E.g. ISO 10646 / Unicode pour l’identification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO 639-1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques
L’ISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation http://www.tc37sc4.org
LMF: le modèle Lexical DB Global Info Lexical Entry Lexical extensions 1..1 Global Info Lexical Entry 0..n 1..1 Lexical extensions Lexical extension Lexical extension 1..1 Form Sense 0..n 1..1 Lexical extension for morphology Lexical Entry Lexical Entry 1..1 1..1 Lexical extensions 1..1 1..1 Morphology Morphology 0..1 Paradigm 1..1 Flexion 0..n 1..1
Méta-modèle d’un lexique morphologique Lexical DB Entry 0..n 1..1 Global Info Morphology 1..1 Paradigm 0..1 Inflexion 0..n
Décoration du modèle Lexical DB Entry Morphology Paradigm Inflexion 1..1 Morphology Paradigm 0..1 Inflexion 1..1 /lemma/ /POS/ 1..1 Global Info /word form/ /gender/ /number/ /tense/ …
Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}
Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> …
Cas de la morpho-syntaxe Exemple: “du” = “de” + “le” <struct type=”W-level”> <feat type=”source text”>du</feat> <feat type=”lemma”>de</feat> <feat type=”pos”>preposition</feat> </struct> <feat type=”lemma”>le</feat> <feat type=”pos”>determinant</feat> seg : ….………..…….du…. ……………. …………… ………….. ………… Lemma : de Pos : prep Lemma : le Pos : det
Et maintenant… Engagez-vous… ;-) Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 Application directes (projets ATILF-Loria) Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use