La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie.

Présentations similaires


Présentation au sujet: "Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie."— Transcription de la présentation:

1 Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

2 Objectifs généraux Partager des ressources (corpus annotés) Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels dannotation, méthodes dévaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

3 Lexicométrie et corpus multilingues Notion de corpus parallèle ou comparable Point de vue linguistique: role de lexpert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux dannotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer dun répertoire de catégories de données dans le domaine des langues?

4 Lexicométrie et corpus multilingues (suite) Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta- modèle) Choix des catégories de données permettant de décorer un modèle particulier

5 Normalisation ? Standard: Pratique dun groupe de personnes, dune communauté, choix dun industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec dautres standards) Norme Officialisation dune telle pratique par une décision consensuelle sous légide dune organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN

6 Que normaliser? Documentation des données Permettre lidentification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage dun matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne létude dun phénomène, stabilise lobservation

7 Bases de travail Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?

8 Le W3C World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL

9 La TEI Text Encoding Initiative Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

10 ISO Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines

11 ISO - exemples ISO-IEC/JTC1 E.g. ISO / Unicode pour lidentification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO (en, fr) SC 3: Terminologies informatisés; ISO (TMF) SC 4: Ressources linguistiques

12 LISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et dannotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification dun format dannotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation

13 LMF: le modèle Lexical DB 1..1 Global Info 1..1 Lexical Entry 0..n 1..1 Form 1..1 Sense 0..n n 1..1 Lexical Entry Morphology 1..1 Lexical Entry Morphology 1..1 Lexical extensions Lexical extensions Lexical extension Lexical extension 0..1 Paradigm 1..1 Flexion 0..n 1..1 Lexical extension for morphology

14 Méta-modèle dun lexique morphologique Morphology 1..1 Paradigm Inflexion 0..n 1..1 Lexical DB Entry 0..n 1..1 Global Info 1..1

15 Décoration du modèle Lexical DB Entry 0..n 1..1 Morphology 1..1 Paradigm Inflexion 0..n 1..1 /lemma/ /POS/ /word form/ /gender/ /number/ /tense/ … 1..1 Global Info 1..1

16 Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

17 Un format compatible avec le modèle chat noun fr-s-plural chat singular chats plural …

18 Cas de la morpho-syntaxe du de preposition le determinant Exemple: du = de + le ….……….. …….du…. ……………. …………… ………….. ………… Lemma : de Pos : prep seg : Lemma : le Pos : det

19 Et maintenant… Engagez-vous… ;-) Participation comme expert au sein des groupes nationaux miroir de lISO/TC 37/SC 4 Application directes (projets ATILF-Loria) Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement dun simple clic Fair use


Télécharger ppt "Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie."

Présentations similaires


Annonces Google