Normalisation pour les corpus et les lexiques multilingues

Normalisation pour les corpus et les lexiques multilingues
Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

Objectifs généraux Partager des ressources (corpus annotés)
Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels d’annotation, méthodes d’évaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Lexicométrie et corpus multilingues
Notion de corpus parallèle ou comparable Point de vue linguistique: role de l’expert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux d’annotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

Lexicométrie et corpus multilingues (suite)
Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un modèle particulier

Normalisation ? Standard: Norme
Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards) Norme Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN

Que normaliser? Documentation des données Transcription Annotation
Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne l’étude d’un phénomène, stabilise l’observation

Bases de travail Quelles initiatives devons nous considérer?
De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?

Le W3C World Wide Web Consortium
Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL

La TEI Text Encoding Initiative Les éléments principaux
Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

ISO Organisation internationale de standardisation
Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines

ISO - exemples ISO-IEC/JTC1
E.g. ISO / Unicode pour l’identification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO (en, fr) SC 3: Terminologies informatisés; ISO (TMF) SC 4: Ressources linguistiques

L’ISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation

LMF: le modèle Lexical DB Global Info Lexical Entry Lexical extensions
1..1 Global Info Lexical Entry 0..n 1..1 Lexical extensions Lexical extension Lexical extension 1..1 Form Sense 0..n 1..1 Lexical extension for morphology Lexical Entry Lexical Entry 1..1 1..1 Lexical extensions 1..1 1..1 Morphology Morphology 0..1 Paradigm 1..1 Flexion 0..n 1..1

Méta-modèle d’un lexique morphologique
Lexical DB Entry 0..n 1..1 Global Info Morphology 1..1 Paradigm 0..1 Inflexion 0..n

Décoration du modèle Lexical DB Entry Morphology Paradigm Inflexion
1..1 Morphology Paradigm 0..1 Inflexion 1..1 /lemma/ /POS/ 1..1 Global Info /word form/ /gender/ /number/ /tense/ …

Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax
Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Un format compatible avec le modèle
<struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> …

Cas de la morpho-syntaxe
Exemple: “du” = “de” + “le” <struct type=”W-level”> <feat type=”source text”>du</feat> <feat type=”lemma”>de</feat> <feat type=”pos”>preposition</feat> </struct> <feat type=”lemma”>le</feat> <feat type=”pos”>determinant</feat> seg : ….………..…….du…. ……………. …………… ………….. ………… Lemma : de Pos : prep Lemma : le Pos : det

Et maintenant… Engagez-vous… ;-)
Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 Application directes (projets ATILF-Loria) Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use

Normalisation pour les corpus et les lexiques multilingues

Présentations similaires

Présentation au sujet: "Normalisation pour les corpus et les lexiques multilingues"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Normalisation pour les corpus et les lexiques multilingues

Présentations similaires

Présentation au sujet: "Normalisation pour les corpus et les lexiques multilingues"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back