Les Triggers inter-langues pour la Traduction Automatique

Slides:



Advertisements
Présentations similaires
Extraction de synonymes à partir d’un corpus multilingue aligné
Advertisements

Projet Fin d'Etudes ASR 2006/20071 Projet Fin détudes Rugby Match Management KHAIREDDINE Mohamed Abderrahmene BOUKDHIR Walid ENCADRANTS : TACONET Chantal.
EVALUER UNE ACTION.
Fabrice Lauri, François Charpillet, Daniel Szer
Évaluation – méthode DCF
Chantal Courtaux janvier 2007
LIège, Le rôle du jeune enfant dans les coalitions familiales Cf alliances et coalitions Minuchin 1974.
La physique nucléaire aujourd’hui
Olivier Kraif, Agnès Tutin LIDILEM
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Présentation du Projet CAUSA
Application de réseaux bayésiens à la détection de fumées polluantes
Colloque AIP-PRIMECA La Plagne, Avril 2007
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Yann Chevaleyre et Jean-Daniel Zucker
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Piecewise Affine Registration of Biological Images
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Classification thématique de courriels
du 22 mai DADDi Dependable Anomaly Detection with Diagnosis ACISI 2004.
Outils d’analyse statique
OpenSTA INTRODUCTION Logiciel libre OpenSTA Mise en application.
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Reconnaissance de la parole
Cordial, le TAL et les aides à la rédaction
Sélection automatique d’index et de vues matérialisées
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Présentation de la Licence AES
Stage initial MF1 Décembre-2007
Les exigences de la norme ISO 14001
جامعــــــة محمد خيضــــــــــــر بــســكــــــــــــرة
LOST en France : les projets en cours – avril LOST en France : les projets et activités en cours Chris Roth Responsable du pôle indicateurs et études.
Système de distribution d’eau
Méthode des k plus proches voisins
Université Mouloud Mammeri de Tizi-Ouzou
Champs de Markov cachés pour la classification de gènes..
Recherche Documentaire et traitement de l’information
Systeme de Combat Commun Barracuda SNLE-NG4
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
L’enseignement de la chimie au 21ème siècle
SCIENCES DE L ’INGENIEUR
Reconnaissance Vocale
Modélisation de la topologie avec le Graphe Génératif Gaussien
Ecaterina Giacomini Pacurar
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
27 juin Formation à lutilisation dun client Subversion Vincent Carpier Florent Guilleux Paris, 27 Juin 2007.
Norbert PERROT 24 octobre Réunion Chef des Travaux – Poissy MISSIONDU CHEF DE TRAVAUX.
Plan de la présentation
Création du site Internet du Centre des Ressources Informatiques
Projet de Master première année 2007 / 2008
Paraclinique de gestion des exploitations agricoles – Partum génétique 2 ème doctorat JEORIS Marie SALMON Caroline.
Vers une génération automatique du mapping de sources biomédicales
C DIFFUSION CONTRÔLEE DIFFUSION NON NON CONTRÔLEE MANUEL QUALITE
Michèle Bodino - 24/03/20071 Approche de l’écriture D’après le fichier De la trace à l’écriture – CRDP Académie de Créteil
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Du graphisme à l’écriture
Les exigences de la norme ISO 9001:2000
Développement d’un modèle d’apprentissage actif et contextualisé de l’anglais juridique Nathalie Vézina Professeure titulaire Faculté de droit.
Traitement de la parole : Synthèse et reconnaissance
De la RSE au SMI Les référentiels du SMI Le processus de Certification
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Sylwia Ozdowska1, Vincent Claveau2
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Transcription de la présentation:

Les Triggers inter-langues pour la Traduction Automatique Caroline Lavecchia, Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France Journée Atala 1er Décembre 2007

Plan Positionnement en Traduction Automatique Nouvelle approche : les triggers inter-langues Mise en œuvre des triggers inter-langues : Construction et évaluation d’un dictionnaire bilingue Français-Anglais Construction et évaluation d’une table de Traduction dédiée à la traduction automatique Conclusion et Perspectives Journée Atala 1er Décembre 2007

Un système de traduction Parole-Parole : Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Un système de traduction Parole-Parole : Phrase Source Système de Reconnaissance de la Parole Signal de Parole Langue source Module de Traduction Automatique Langue cible Système de Synthèse de la Parole Signal de Parole Phrase Cible Journée Atala 1er Décembre 2007

But de la traduction automatique statistique : Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique But de la traduction automatique statistique : Approche du canal bruité Trouver la meilleure phrase cible t* sachant la phrase source s t* = argmaxt P(t|s) t* = argmaxt P(t) * P(s|t) Modèle de Langage Modèle de Traduction Journée Atala 1er Décembre 2007

Procédé : Décodeur P(si/tj) Corpus parallèles alignés Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Procédé : Corpus parallèles alignés Apprentissage du modèle de traduction Table de Traduction P(si/tj) si,tj Є Vocabulaires Décodeur « Phrase Cible » « Phrase Source » Modèle de Langage Journée Atala 1er Décembre 2007

Exemple de corpus parallèles alignés : Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Exemple de corpus parallèles alignés : Le chat est gris Je vous en prie entrez Never ever take your eye off the ball Encore du poisson pour le dîner The cat is grey Please come in Jamais tu ne quittes la balle des yeux Fish for supper again Corpus Source Corpus Cible Journée Atala 1er Décembre 2007

Apprentissage des modèles de traduction : Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Apprentissage des modèles de traduction : Les modèles d’ IBM (Brown et al, 1993) P(s|t) = a P(s, a|t) Avec a, un alignement possible entre la phrase source s et la phrase cible t Modèle 1 : tous les alignements sont équiprobables Modèle 2 : introduction de probabilités d’alignement Nombre conséquent de paramètres à estimer Modèles complexes et coûteux EGYPT(Al-Onaizan, 1999 ), GIZA++ (Och, 2003) Journée Atala 1er Décembre 2007

Boris Kasparov is a chess champion Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Rappel sur les triggers : Triggers classiques intra-langues calculés à partir de l’ Information Mutuelle (Kim et Khudanpur, 2004) Boris Kasparov is a chess champion Combinaison avec des modèles n-grammes en modélisation du langage Journée Atala 1er Décembre 2007

Les triggers inter-langues : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Les triggers inter-langues : Pour chaque couple de mots (mot_source, mot_cible) et chaque paire k du corpus parallèle, calcul d’une IM partielle : Pour chaque couple de mots (mot_source, mot_cible), calcul d’une IM globale sur toutes les S paires du corpus : Journée Atala 1er Décembre 2007

Les triggers inter-langues : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Les triggers inter-langues : Pour chaque mot source, nous gardons comme triggers inter-langues, les n meilleurs mots cibles suivant la valeur de l’IM globale. Boris Kasparov is a chess champion | Boris Kasparov est un champion d’échecs Triggers intra-langues Triggers inter-langues Journée Atala 1er Décembre 2007

Méthode de construction du dictionnaire bilingue : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Méthode de construction du dictionnaire bilingue : Trigger(ei) : l’ensemble des mots déclenchés par ei Trigger(fj) : l’ensemble des mots déclenchés par fj Si fj Є Trigger(ei) et si ei Є Trigger(fj) alors ajout de l’entrée fj : ei dans le dictionnaire A chaque mot sont associées ses p meilleures traductions possibles suivant l’ IM fj Є Trigger(ei) ei Є Trigger(fj) fj : ei Dictionnaire fj : échecs Échecs : chess ei : chess Journée Atala 1er Décembre 2007

Apprentissage : Les données Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Apprentissage : Les données Extrait des actes du Parlement Européen (Koehn, 2005) 598014 paires de phrases Français-Anglais Vocabulaires : 19588 mots anglais les plus fréquents 26811 mots français les plus fréquents  ei, fj Є Vocabulaires, génération des 10 meilleurs triggers anglais et des 10 meilleurs triggers français selon l’ IM Journée Atala 1er Décembre 2007

Triggers inter-langues Ang-Fr Triggers inter-langues Fr-Ang Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Exemples de triggers générés : Triggers inter-langues Ang-Fr Mots anglais Mots français déclenchés IM globale Cooperation Coopération 38 Collaboration 7 Développement 6 Difficulty Difficulté 1.5 Difficultés 0.9 Problème 0.5 Disciplines 0.22 Règles 0.07 investissements 0.06 Triggers inter-langues Fr-Ang Mots français Mots anglais déclenchés IM globale Coopération Cooperation 38 Development 7 countries 6 Difficulté Difficulty 1.5 Difficulties 0.9 Difficult 0.5 Disciplines 0.22 New 0.07 Different 0.06 Journée Atala 1er Décembre 2007

Extraits des dictionnaires bilingues obtenus : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Extraits des dictionnaires bilingues obtenus : Dictionnaire inter-langues Ang-Fr Mots anglais Traductions possibles Fish Pêche Pêcheurs Poissons Fisherman Pêcheur Flag Pavillon Drapeau Navires Flexible Souple Travail Foods Alimentaires Alimentaire Produits Gender Femmes Hommes Genre Henceforth Désormais Dorénavant Dès Dictionnaire Anglais/Français Dictionnaire inter-langues Fr-Ang Dictionnaire Français/Anglais Mots français Traductions possibles Humide Wetland Wet Rainforest Humble Opinion Modest Mécaniquement Automatically Systematically Necessarily Méconnaissance Ignorance Lack Knwoledge Royal Family Navy Sonnette Alarm Sound Bells Urgence Urgent Urgency emergency Journée Atala 1er Décembre 2007

Évaluation du dictionnaire Français-Anglais : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation du dictionnaire Français-Anglais : Comparaison de notre dictionnaire automatique Français-Anglais TrigDic avec deux dictionnaires existants : Un dictionnaire distribué par ELRA de 70832 entrées françaises ( dont 10405 se retrouvent dans notre vocabulaire français) Un dictionnaire du projet XDXF de 41398 entrées (dont 11265 se retrouvent dans notre vocabulaire français) Journée Atala 1er Décembre 2007

Résultats en terme de Rappel : Test A Test B ELRA 53% 68% XDXF 41% 49% Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Résultats en terme de Rappel : Nombre de mots français correctement traduits dans TrigDic Rappel = Nombre de mots français en commun avec ELRA ou XDXF Test A Test B ELRA 53% 68% XDXF 41% 49% Pour chaque entrée française de notre dictionnaire automatique: Test A : seule la meilleure traduction possible est prise en compte Test B : ses 5 meilleures traductions possibles sont prises en compte Journée Atala 1er Décembre 2007

Traduction proposée par ELRA Traductions à partir des triggers Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Analyse et perspectives : Analyse : Seulement 5 traductions possibles par mot Certaines traductions possibles dans TrigDic sont pertinentes mais n’apparaissent pas dans le dictionnaire ELRA Les traductions proposées par le dictionnaire ELRA ne sont pas toujours très courantes Mot Français Traduction proposée par ELRA Traductions à partir des triggers Chevaux Horsefles horses, animals, horse Chimère Bubble illusion, fantasy, dream, fancy Déléguée Deputy delegated, united, delegate Perspectives : Augmenter le nombre de traductions possibles dans TrigDic Comparer TrigDic à un dictionnaire construit manuellement Journée Atala 1er Décembre 2007

Du dictionnaire bilingue à la table de traduction : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Du dictionnaire bilingue à la table de traduction : Dictionnaire TrigDic  f Є Vocabulaire, f : e1(IMG(f,e1)), … ep(IMG(f,ep)) Table de traduction TrigDic  f Є Vocabulaire, P(e1|f) = , …, P(ep|f) = IMG(f, e1)  IMG(f, ei) j=1 …p IMG(f, ep)  IMG(f, ei) j=1 …p e f IMG(f,e) P(e/f) Cooperation Coopération 38 0.73 Development 6 0.11 Countries 5 0.10 Agreement 3 0.06 Journée Atala 1er Décembre 2007

59530 traductions candidates Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation de la table de traduction TrigDic : Intégration dans un module de traduction automatique Anglais vers Français Table de traduction TrigDic Table de Traduction Table de traduction générée à l’aide de Giza++ Décodeur 59530 traductions candidates 59530 phrases Anglaises Pharaoh (Koehn, 2004) BLEU Modèle de Langage Français Modèle trigramme Journée Atala 1er Décembre 2007

Évaluation de la table de traduction TrigDic : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation de la table de traduction TrigDic : Comparaison en terme de score BLEU (Papineni, 2002) Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction TrigDic Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction générée par l’outil Giza++ avec le modèle 2 d’IBM (G) T1 : 10 meilleurs triggers Fr-Ang, 10 meilleurs triggers Ang-Fr, 5 meilleures traductions probables pour chaque mot f du Vocabulaire Traductions Candidates Bleu T1 0.18 G 0.24 Journée Atala 1er Décembre 2007

Améliorations apportées : Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Améliorations apportées : T2 : 50 meilleurs triggers Fr-Ang, 50 meilleurs triggers Ang-Fr, 10 traductions probables pour chaque mot Français f du vocabulaire T3 : T2 + ajout d’une probabilité P(null | f) pour chaque mot Français f du vocabulaire Traductions Candidates Bleu T1 0.18 T2 0.19 T3 0.21 G 0.24 Journée Atala 1er Décembre 2007

654 traductions probables pour Coopération avec le modèle 2 d’IBM Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Comparaison TrigDic-Giza++ : T2 Comparaison des tables de traduction pour le mot Français Coopération e P(e/f) Cooperation 0,59 Development 0,10 Countries 0,08 Agreement 0,05 International 0,04 Area 0.03 Co-operation Regional Framework Through Modèle 2 d’IBM T1 e P(e/f) Cooperation 0.87 Co-operation 0.04 Collaboration 0.008 Together Cooperate 0.012 e P(e/f) Cooperation 0.73 Development 0.11 Countries 0.10 Agreement 0.06 654 traductions probables pour Coopération avec le modèle 2 d’IBM Journée Atala 1er Décembre 2007

Conclusion : Résultats encourageants Conclusion et perspectives Conclusion : Résultats encourageants Les triggers inter-langues permettent de construire une table de traduction appropriée pour la traduction automatique Résultats en terme de BLEU proches de ceux des méthodes classiquement utilisées Modèles d’IBM : complexes, calculs itératifs longs Triggers inter-langues : simple (une seule itération) et rapide à mettre en œuvre Travaux sur des corpus de sous-titres Meilleures performances que le modèle 3 d’IBM Journée Atala 1er Décembre 2007

Perspectives : Traduction automatique basée sur les séquences Conclusion Conclusion et perspectives Perspectives : Traduction automatique basée sur les séquences Triggers de séquences (plusieurs mots déclenchent plusieurs mots) Mise en place de triggers de traits Singulier déclenche Singulier Adj-Nom en Anglais déclenche Nom-Adj en Français Will en Anglais déclenche verbe futur en Français Etc … Mise en place d’un décodeur dédié aux triggers (en cours de test) Journée Atala 1er Décembre 2007