Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni.

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

Apprendre, cest poursuivre un but 3 façons de donner du sens (Davelay, 1992; Viau, 1994) 1.Compétence 2.Contrôle 3.Utilité
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
LA GESTION DE PROJETS APPLIQUÉE AU SECTEUR DE LA TRADUCTION
Urbanisation de Systèmes d'Information
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Par Aline Mahot et Charlyne Routier
OLST — Université de Montréal
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
L'architecture du dictionnaire bilingue et le métier du lexicographe
Reconnaissance de la parole
Cordial, le TAL et les aides à la rédaction
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
PROJET D'ACTIVITE RIVIS-TIPEI LAURA.
Du dictionnaire informatisé au système dinformation lexical intégré Serge Verlinde Institut des langues vivantes K.U.Leuven X papier Le dictionnaire nouveau.
Corpus parallèles et textométrie
Maîtrise de la langue française
Les langues anciennes au lycée
Mamadou Dieye, Mohamed Rafik Doulache,
Reconnaissance Vocale
Page Titre Ton nom La date Classe Mon nom Titre But Cest ton objectif, le point de lexpérience * nutilise jamais les mots « je », « on », « nous », etc.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Systeme Question-Reponse SQR
Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG.
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Training teachers to use the European Language Portfolio Former les enseignants à lutilisation du Porfolio européen des langues.
La méthode RVP et ses applications
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
L’enseignement des compétences grammaticales
Projet de Recherche Nathalie GORMEZANO Directrice générale de l’ISIT
Human Knowledge La nouvelle génération de moteurs sémantiques.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Quel est l’impact de l’interculturel sur les échanges virtuels en entreprise ? 1 Cusumano Christophe - HEC- University of Liege - UER Management –Research.
MEMOIRE INDUSTRIEL ESIEA
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Les Techniques d’enquête quantitative
Intégration de schémas
Dictionnaires, lexicographie, lexicographes
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Sylwia Ozdowska1, Vincent Claveau2
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Correspondance - Équivalence
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Participants LIMSI-CNRS Université Paris XI Psychologues
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Progression/Programmation – Français (1/3)
Consolidation de grands réseaux lexicaux
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Mémoire de fin d’études
Évaluation sommative de la traduction pragmatique en dernière année de formation : expérience en cours à Lille III afin d’allier critères universitaires.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Les relatives infinitives ou la construction d’un inobservable Sylvain Kahane Modyco, Université Paris 10 Lattice, Université Paris 7 COLDOC, Université.
SYNTAXE SYNTAXE Comment faire l’analyse logique de la phrase composée? Beata Śmigielska Institut des Langues Romanes et de Traduction Université de Silésie.
APPRENTISSAGE 2.0 et dispositif de formation Apprendre… L’apprentissage dans un contexte techno-pédagogique… Construire son dispositif… Est-ce que je peux.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
LES PROBLÈMES DE LA TRADUCTION. NE PAS CONFONDRE MÉTHODE conforme au contexte et au but de la traduction, choix global pour tout le texte, pas de méthode.
Transcription de la présentation:

Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni ISSCO / TIM / ETI Université de Genève, Suisse

RECITAL 2005Bruno Cartoni2 Plan de l’exposé  But de la recherche  Motivations  Modèle proposé  Expérience  Choix d’un processus de construction  Réalisation de l’expérience  Évaluation  Conclusion et perspectives

RECITAL 2005Bruno Cartoni3 But de la recherche  Résoudre l’incomplétude lexicale en TA  Exploiter les propriétés morphosémantiques des néologismes construits

RECITAL 2005Bruno Cartoni4 Motivations (I)  Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu en TA :  non-traduction  analyse syntaxique de la phrase affectée Caractérisation des mots inconnus (Maurel, 2004)  noms propres  créations lexicales  erreurs typographiques

RECITAL 2005Bruno Cartoni5 Motivations (II)  Créativité lexicale  propriété de chaque langue de former de nouvelles unités (Guilbert, 1975)  Néologie formelle  création de formes nouvelles à partir de matériaux lexicaux existants  75 % de la néologie (Cabré, 2002)  construction morphologique (préfixation, suffixation, etc.)

RECITAL 2005Bruno Cartoni6 Motivations (III)  Parallélisme entre deux langues morphologiquement proches  français et italien : même origine, même fonds lexical commun (Geysen, 1990)  similitudes dans les procédés de construction des mots  similitudes exploitables en TALN (Namer, 2001; Gdaniec, et al. 2001)

RECITAL 2005Bruno Cartoni7 Modèle proposé (I) ItalienFrançais Devo riaffrontare questo problema. Je dois riaffrontare ce problème. ?

RECITAL 2005Bruno Cartoni8 Modèle proposé (II) Mot inconnu construit : riaffrontare Analyse du mot par décomposition : ri + affrontare Transfert lexical Génération par construction néologique : réaffronter Italien Français affrontare  L it Je dois réaffronter ce problème.

RECITAL 2005Bruno Cartoni9 Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical Base : affronter RCM : re + verbe = verbe  Dictionnaire bilingue de formes de base  Règles de construction des mots (Corbin, 1987) bilingues

RECITAL 2005Bruno Cartoni10 Hypothèses  Les néologismes construits sont sémantiquement transparents.  Les procédés de construction des mots sont parallèles dans deux langues morphologiquement proches.

RECITAL 2005Bruno Cartoni11 Expérience  Choix d’un processus de construction  Construction et application de RCM bilingues  Evaluation  Evaluation de l’analyse ( sens sémantiquement transparent des néologismes en langue source )  Evaluation de la traduction ( mots construits en langue cible )

RECITAL 2005Bruno Cartoni12 Processus de construction  En italien (Dardano, 1978) : ri- + Y verbe = « Y di nuovo » (rimangiare, rifare, etc.)  En français (Rey-Debove, 2004) : re- + Y’ verbe = « Y’ de nouveau » (remanger, refaire, etc. )

RECITAL 2005Bruno Cartoni13 La RCM bilingue FR X/ VERBE => ri/ PREF [Y/ VERBE ] Y/ VERBE  L it X’/ VERBE => re/ PREF [Y’/ VERBE ] Y’/ VERBE  L fr IT où : Y/ VERBE = Y’/ VERBE (équivalents de traduction) = (+ tous les changements morphographémiques)

RECITAL 2005Bruno Cartoni14 Le préfixe réitératif sur un nom déverbal  En italien (Dardano, ibid ) : ri- + X nom_deverbal (ristabilizzazione)  En français : re- + X nom_deverbal (redistribution)

RECITAL 2005Bruno Cartoni15 La RCM bilingue pour les noms déverbaux FR IT = X/ NOM => ri/ PREF [Y/ NOM ] Y/ NOM = [a-z]*zione/i | [a-z]*mento/i | [a-z]*aggio/i Y/ NOM  L it X’/ NOM => re/ PREF [Y’/ NOM ] Y’/ NOM = [a-z]*tion/s | [a-z]*ment/s | [a-z]*age/s Y’/ NOM  L fr où : Y/ NOM = Y’/ NOM (équivalents de traduction) (+ tous les changements morphographémiques)

RECITAL 2005Bruno Cartoni16 Corrélaire En français comme en italien: « ce qui est défait peut être refait » RCM pour le préfixe de-/dé- devant un nom ou un verbe Paradigmes: IT: stabilizzare/destabilizzare/ristabilizzare FR: stabiliser/déstabiliser/restabiliser

RECITAL 2005Bruno Cartoni17 Réalisation de l’expérience 1.Extraction des mots inconnus du corpus italien (ilSole24ore) par confrontation avec le lexique L it 2.Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) 4.Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) 3.Traduction de la base (par un système de TA commercial)

RECITAL 2005Bruno Cartoni18 Etape 1 : les mots inconnus Méthode : confrontation du corpus (ilSole24ore) avec le lexique d’un analyseur morphosyntaxique ( mmorph )  corpus : 1.88 mio d’occurrences  mots inconnus : (12 %)  exclusion des noms propres  potentiellement néologismes : (4.8 %) Mots inconnus = Corpus – LexRef

RECITAL 2005Bruno Cartoni19 Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) X/ VERBE => ri/ PREF [Y/ VERBE ] Y/ VERBE  L it IT "riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] …

RECITAL 2005Bruno Cartoni20 Etape 2 : évaluation  Les néologismes construits sont-ils sémantiquement transparents ?

RECITAL 2005Bruno Cartoni21 Etape 2 : évaluation ex: ri + posare ex: de + cantare  erreurs  néologismes  lacunes du lexique de référence Les verbes:

RECITAL 2005Bruno Cartoni22 Etape 2 : évaluation ri + suzione Les noms:

RECITAL 2005Bruno Cartoni23 Etape 3 : traduction Traduction de la base (Systran © + validation manuelle) " riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] … ITFR "organizzare" ="organiser" "distribuzione" ="distribution" "centralizzazione"= "centralisation"

RECITAL 2005Bruno Cartoni24 Etape 4 : traduction Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) IT =FR "riorganizzare" = "réorganiser" "redistribuzione" = "redistribution" "decentralizzazione" = "décentralisation" …

RECITAL 2005Bruno Cartoni25 Etape 4 : évaluation  Evaluation des constructions françaises :  jugement humain de la correction de la traduction (sentiment linguistique)  jugement uniquement sur la « bonne » formation du néologisme en français  jugement selon trois critères (correct / incertain / incorrect )

RECITAL 2005Bruno Cartoni26 Etape 4 : évaluation recrocheter réemplacement

RECITAL 2005Bruno Cartoni27 Résultats chiffrés  Bon taux de rappel  Meilleurs résultats sur des règles très contraintes

RECITAL 2005Bruno Cartoni28 Conclusions  Pour une règle très restreinte, les RCM bilingues proposent des traductions très valables.  La relative constance de l’utilisation du préfixe ri- /re- en fait une règle utile sur le long terme.  La règle permet d’éviter une alimentation frénétique des lexiques informatisés pour tous les mots construits possibles.

RECITAL 2005Bruno Cartoni29 Perspectives  Application du même principe à l’ensemble des préfixes connus de l’italien  Application du même principe aux formants néoclassiques (Iacobini, 2004) tele-, eco-, euro-, pseudo-  Etude des limites du modèle  Extension à d’autres paires de langues

Merci

RECITAL 2005Bruno Cartoni31 Référence  Cabré T., Freixa, J., Solé E., (2002), A la limite des mots construits possible, Actes du Forum de morphologie, pp  Corbin D., (1987), Morphologie dérivationnelle et structuration du lexique, Tuebingen, Niemeyer.  Dardano M., (1978), La formazione delle parole nell'italiano di oggi, Rome, Bulzoni.  Gdaniec C., Manandise, E., McCord, M., (2001), Derivational Morphology to the Rescue: How It Can Help Resolve Unfound Words in MT. Actes de MT Summit VIII.  Guilbert, L. (1975), La créativité lexicale, Larousse, Paris.  Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes de JADT 2004, Louvain-la-Neuve.  Namer, F. (2001), Génération automatique de néologismes bilingues morphologiquement construits en français et en italien. Actes de TALN pp  Rey-Debove J., Ed. (2004). Brio, Paris, Dictionnaire Le Robert.