Olivier Kraif, Agnès Tutin LIDILEM

Slides:



Advertisements
Présentations similaires
Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Advertisements

Metatag Objectifs et rédaction du rapport Présentation du rapport
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Enseigner la technologie
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Gérer l'autoformation guidée
Utilisation didactique des extractions lexicales des corpus
Analyse et structuration thématiques
ANDRE Marine DABIN Julie WATERLOT Amandine
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Indexation textuelle : Systèmes de recherche d’informations
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Cordial, le TAL et les aides à la rédaction
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
L’observation réfléchie de la langue au cycle 3
Interfaces de recherche usager
Pour un système formel de description linguistique
Du dictionnaire informatisé au système dinformation lexical intégré Serge Verlinde Institut des langues vivantes K.U.Leuven X papier Le dictionnaire nouveau.
Annotations sémantiques pour le domaine des biopuces
Bases de données lexicales
Corpus parallèles et textométrie
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Justification et opérationnalisation des hypothèses
Démonstrateur Lingway
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Éric Poirier Université du Québec à Trois-Rivières (UQTR)
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Recherche par mots-clés vs recherche en langue naturelle.
Catalogage de données Notions, enjeux et initiatives actuelles.
LORTHOGRAPHE. Les nouveaux programmes prévoient entre 2h 30 (horaire minimum) et 3h30 (horaire maximum) pour la grammaire, lorthographe, le vocabulaire.
la maîtrise de la langue française Inspection Pédagogique Régionale
Les techniques des moteurs de recherche
TRAITEMENT INSTRUMENTÉ DE CORPUS
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Human Knowledge La nouvelle génération de moteurs sémantiques.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
La recherche documentaire
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Dictionnaires, lexicographie, lexicographes
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Le projet de terminologie
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Moteurs et métamoteurs de recherche
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
But : avoir un regard réflexif sur le métier d’enseignant
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Master EISIS – Michel JOUBERT – LERTIM, Faculté de Médecine, Marseille UMLS « Unified Medical Language System » U.S. National Library of Medicine.
Transcription de la présentation:

Olivier Kraif, Agnès Tutin LIDILEM Des corpus bilingues annotés sémantiquement pour l’aide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès Tutin LIDILEM Université Stendhal Grenoble 3 Paris, Journée ATALA « Outils de TAL pour l’aide à la rédaction »

Objectif Montrer comment des corpus bilingues alignés étiquetés et annotés sémantiquement permettraient d’élaborer des outils d’aide à la rédaction en L2 : Pour la constitution des données : En permettant au concepteur d’extraire facilement des données lexicales fines pour constituer des bases de collocations monolingues et bilingues. Pour la consultation des données : En permettant à l’utilisateur d’observer les phénomènes lexicaux dans leur contexte naturel, les corpus, à partir d’un accès onomasiologique et sémasiologique.

Plan Les collocations : un phénomène qui doit être observé en corpus Une proposition d’architecture d’un outil d’aide à la rédaction exploitant des corpus bilingues annotés linguistiquement Les ressources TAL exploitées à cette fin

Les collocations : un phénomène qui doit être observé sur corpus Architecture Ressources TAL Les collocations Donner exemples syntaxiques et exemples sémantiques Informations sur les fréquences et les genres

Architecture d’un système d’aide à la rédaction basé sur corpus Collocations ► Architecture Ressources TAL Principes : Navigation entre les ressources lexicales et les exemples sur corpus. Accès par le sens (classe sémantique, synonyme) ou par la forme (lemme, catégorie) Navigation entre les langues par le biais d’un lexique pivot et des alignements de phrases. Exploitation d’analogies sémantiques pour vérifier des candidats collocations et proposer le cas échéant des collocations valides.

Architecture générale Collocations ► Architecture Ressources TAL Base+ collocatif L2 Les exemples sont triés en fonction des correspondances (par ordre de fréquence décroissante) Dictionnaire corpus bilingue Index Les exemples sont triés en fonction des constructions (par ordre de fréquence décroissante) Base+ collocatif corpus monolingue Fiche lexicographique de la base classe sémantique collocatifs triés par 1/ classes et 2/ fréquences d'occurrence 3/ fréquences des constructions échec Généralisation à la classe de la base et/ou du collocatif Substitution synonymique Schéma d'interrogation unilingue

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Exemple de recherche (corpus bilingue) Critère de recherche : défendre une approche Le corpus ne contient pas d'exemple Possibilité de généraliser : type-verbe='défendre' Résultats, dans le corpus bilingue : pourquoi et comment nous préconisons une démarche de design… why and how we promote a design… En soutenant l' idée d' un essai contrôlé … In endorsing the idea of a placebo-controlled … Trois arguments sont généralement avancés à l' appui … Three arguments are generally put forth to support … Kracke et Parker , aux Etats-Unis , ont avancé l' hypothèse que … Kracke and Parker argued that …. Je veux préconiser une approche au problème… I want to advocate a view of the problem …. (…)

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Exemple de recherche (corpus bilingue) On obtient ainsi des quasi-synonymes : approche -> démarche défendre -> préconiser Mais aussi des équivalents potentiels en anglais to promote to advocate a view

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Des classes de quasi-synonymes peuvent être obtenues automatiquement grâce au corpus bilingue : Technique de l'aller-retour Deux unités de L2 qui partagent les mêmes correspondances en L1 ont sans doute des sens en commun. Exemples (extrait d'un corpus de 27 000 couples de phrases): prouver-verb -> démontrer-verb montrer-verb révéler-verb question-noun -> problème-noun apercevoir-verb -> observer-verb montrer-verb remarquer-verb distinguer-verb trouver-verb voir-verb vivre-verb Les quasi-synonymes permettent également de généraliser la recherche

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Autre parcours On traduit la requête mot à mot Puis on effectue une recherche dans le corpus en L2. Exemple : approche -> approach préconiser -> promote Trouve-t-on des occurrences de la collocation: to promote + approach ?

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Pour la traduction des requêtes, on peut utiliser un lexique bilingue extrait à partir du corpus aligné. On calcule les correspondances lexicales On enregistre les équivalences les plus fréquentes et statistiquement significatives Plus le corpus est vaste, mieux on peut filtrer les correspondances valides. Exemple (WHR95)

Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Différents types d’accès : Forme Catégorie Lemme Sens (thésaurus) Classe sémantique Généralisations En cas d’échec à une réponse, extension à la classe sémantique et aux synonymes

Exemple 1 Exemple 1 : défendre approche français ou bilingue Collocations ► Architecture Ressources TAL Exemple 1 : défendre approche français ou bilingue

Exemple 2 Défendre approche vers l’anglais Collocations ► Architecture Ressources TAL Défendre approche vers l’anglais Traduction de l’expression en utilisant les équivalents traductionnels et classes sémantiques (en sélectionnant les équivalents jugés pertinents)

Ressources TAL nécessaires Collocations Architecture ► Ressources TAL Corpus Corpus en anglais et français étiquetés au niveau morpho-syntaxique. Corpus annotés au niveau des collocations : Annotation simple à réaliser (par exemple, emploi de transducteurs d’états finis). Annotations à vérifier manuellement. Corpus bilingues alignés (techniques??). Alignement à vérifier manuellement.

Ressources TAL nécessaires Collocations Architecture ► Ressources TAL Ressources lexicales Dictionnaire de collocations (produit automatiquement à partir des annotations vérifiées sur corpus). Lexique d’équivalents traductionnels (mots simples), généré automatiquement, à vérifier en partie manuellement. Lexique des synonymes généré automatiquement à partir des équivalents traductionnels, à vérifier en partie manuellement.

Problèmes posés par les ressources Collocations Architecture ► Ressources TAL La qualité du lexique bilingue et du dictionnaire de synonymes est tributaire de la taille des corpus (difficiles à obtenir). Pistes à envisager : Corpus d’autres domaines, par exemple, presse ou discours institutionnels (vocabulaire abstrait commun). Exploiter les corpus comparables pour affiner les dictionnaires de synonymes.

Interface utilisateur Collocations Architecture ► Ressources TAL L’intégration des ressources TAL doit être pensée du point de vue de l’utilisateur. Points à envisager : L’accès sémantique aux données doit être simple et « naturel ». Expérimentation nécessaire pour vérifier l’ « utilisabilité » des étiquettes sémantiques. Le mode d’interrogation doit être simple mais puissant. Trouver un compromis entre des formulaires peu puissants et des expressions régulières indigestes. Proposer des requêtes préenregistrées pour permettre l’interrogation par analogie.

Conclusion Des techniques de TAL éprouvées (étiquetage morpho-syntaxique, automates d’états finis, alignement de textes bilingues) pourraient être exploitées facilement pour élaborer un outil d’aide à la rédaction. Une vérification manuelle des outils reste indispensable (mais est relativement peu coûteuse). L’ergonomie de l’interface utilisateur doit être prise sérieusement en compte. Moteurs de recherche Correcteurs orthographiques