Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique Thèse de doctorat 28 octobre 2005 Christophe Chenon.

Slides:



Advertisements
Présentations similaires
RAS 3,1 Modéliser des situations à l’aide de relations et les utiliser afin de résoudre des problèmes avec et sans l’aide de technologie.
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Distance inter-locuteur
M1 MASTER GESTION Séance 3 Pilotage coûts- délais
Analyse temps-fréquence
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
Les identités remarquables
Les Prepositions.
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
Les éléments de mémorisation
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Analyse de la variance à un facteur
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Les taux de natalité et de mortalité au Canada (1925 – 2010)
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Application des algorithmes génétiques
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
KAKI - Gestion budgétaire et comptable de la paye
Rappel au Code de sécurité des travaux 1 Code de sécurité des travaux Rappel du personnel initié Chapitre Lignes de Transport (Aériennes)
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
18/05/ Utiliser le cahier de texte en ligne avec lapplication SPIP Adresse du site du lycée :
Méthode des k plus proches voisins
Titre : Implémentation des éléments finis sous Matlab
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
La Saint-Valentin Par Matt Maxwell.
2 TP avec l ’aide d ’un modeleur 3D :
Unit 4: Les animaux Unit 4: Les animaux.
PLD GHome H4214 Piccolo Thomas Gu Lei Deville Romain Huang Yachen
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
C'est pour bientôt.....
Veuillez trouver ci-joint
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Biologie – Biochimie - Chimie
CALENDRIER-PLAYBOY 2020.
Slide 1 of 39 Waterside Village Fête ses 20 ans.
LES PILES ET FILES.
Les Chiffres Prêts?
Chapitre 3 :Algèbre de Boole
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Transcription de la présentation:

Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG

La traduction à IBM 25 centres de traduction à travers le monde Une trentaine de langues En France : 20 millions de mots par an Logiciels et texte THAM à mémoires de traduction Pionniers (~1990 Translation Manager) Consiste à réutiliser des traductions déjà faites - Cohérence stylistique, terminologique - Productivité - Travail en réseau

Fonctionnement traduit Traducteurs Mémoires de traduction Texte à traduire traduit N langues Translation Manager Mémoires de traduction Le système de THAM utilise des mémoires de traduction

Principe de fonctionnement On conserve toutes les traductions… Le traducteur travaille par « segment » Il traduit le segment (avec ou sans aide) On enregistre des « bisegments » … pour les réutiliser Si le segment est déjà traduit dans la mémoire Le système demande (éventuellement) une confirmation au traducteur Si segment n’est pas traduit Soit le système propose des segments « proches » => Le traducteur part de l’une des traductions Soit aucun segment de la mémoire n’est proche => Il faut traduire complètement On veut proposer mieux au traducteur

Un scénario « de rêve »… Dans la mémoire This tool will help you to correct potential mistakes in your text. Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texte. This task will show you how to change views. Dans cette tâche vous apprendrez à modifier les vues. À traduire This task will show you how to correct potential mistakes in your text.

Analyse du scénario Dans la mémoire This tool will help you to correct potential mistakes in your text. Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texte. This task will show you how to change views. Dans cette tâche vous apprendrez à modifier les vues. À traduire This task will show you how to correct potential mistakes in your text. Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.

Vers un alignement sous-phrastique Expliciter Correspondances au niveau des mots Briques traductionnelles Leur agencement Difficultés Déterminer des frontières Trouver les traductions Rétablir l’ordre Objectif: enrichissement des mémoires Formaliser cette information Calculer cette information À plus long terme: généraliser cette information

Plan Introduction Modèle pour l’alignement Motivations Illustration du résultat attendu Le modèle TransTree Acquisition de l’information Expérimentations Application et perspectives

Quelques travaux dans ce domaine Correspondances entre analyses Synchronous Structured String-Tree Correspondences (S-SSTC) Al Adhaileh, Tang (Penang) Fine-grained Alignment of Multilingual Texts Cyrus, Feddes (Münster) Analyse bilingue Stochastic Inversion Transduction Grammars (SITG) Wu (Hong-Kong) Tous utilisent une approche symbolique fondée sur des ressources linguistiques

Or Ces approches ont des limites… Dépendance vis-à-vis de la langue Coût des ressources linguistiques …que ne connaissent pas les environnement de THAM à mémoire de traduction Succès de cette technologie On va mettre en œuvre des méthodes statistiques

Illustration du résultat attendu

Le modèle TransTree

Un diagramme TransTree simple « Boîte de dialogue » Un diagramme TransTree simple Amphigrammes

TransTree Principes Les nœuds sont des « amphigrammes » Bi-arbre n-aire, abstrait, non ordonné Correspondances chaîne-chaîne non orientées Les nœuds sont des « amphigrammes » Briques traductionnelles gigognes Armature textuelle et points d’insertion Feuilles = paire de chaînes de caractères « amphigramme atomique »

Bi-arbre…

Plan Introduction Modèle pour l’alignement Acquisition de l’information Ligne directrice Alignements atomiques Structuration des segments Alignements sous-phrastiques Classification Expérimentations Application et perspectives

Ligne directrice Démarche métalinguistique Démarche statistique Axe interlingue => digrammes, amphigrammes Axe syntagmatique => arbres binaires de sécabilité Axe paradigmatique => classes, patrons de trad. Démarche statistique Ce qui revient souvent est utile, figé Les exceptions confirment la règle…

Ligne directrice Click OK to close the dialog box Cliquez sur OK pour fermer la boîte de dialogue

Bi-arbre…

Alignements atomiques Mots typographiques Granularité Systèmes d’écriture à séparateurs Méthode utilisée Meilleurs candidats réciproques par l’information mutuelle (surfréquence) Processus itératif Placement par moindres croisements Certains mots non appariés

Digrammes Idée de base Chaque segment va être considéré Couple de mots typographiques vu comme unité (avions,had) =/= (avions,planes) Désambiguïsation forte Vrai digramme = couple de mots Faux digramme = un mot seulement Unité de granularité Chaque segment va être considéré comme une suite de digrammes Cliquez(Clic) sur() OK(OK) pour(to) fermer(close) la(the) boîte(box) de() dialogue(dialog).

Structuration des segments Sécabilité Indice de cohésion de chaque séparateur Permet de constituer des groupes de mots Estimée sur une fenêtre glissante Cliquez sur OK pour fermer la boîte de dialogue g d N(gd) N(g) ∙ N(d)

Arbre binaire de sécabilité 2 6 8 5 7 4 1 3 Cliquez sur OK pour fermer la boîte de dialogue 6 8 7 2 5 4 3 1

Alignements sous-phrastiques Passage du binaire au n-aire Axe interlingue Comparaison des arbres binaires de sécabilité Notion de congruence Un amphigramme est constitué avec deux nœuds dominant le même ensemble de vrais digrammes On prend au moins deux vrais digrammes, => il peut y en avoir plus : arbre résultant n-aire

Congruence Click OK to close the dialog box Cliquez sur OK pour fermer la boîte de dialogue

Autre exemple This task shows you how to change views. Dans cette tâche, vous apprendrez à modifier les vues.

Saturation This A shows B how Dans cette A B apprendrez

Classification Deux objectifs Généralisation des amphigrammes Factorisation Extrapolation Généralisation des amphigrammes On remplace les amphigrammes fils par des paradigmes d’amphigrammes (classes) Amphigrammes « génériques » Obtention d’une grammaire => TransTree = arbre de dérivation

En résumé… TransTree permet d’exprimer des correspondances sous-phrastiques dans les mémoires de traduction Le modèle est accompagné d’une méthode générale d’acquisition de données par voie statistique

Plan Introduction Modèle pour l’alignement Acquisition de l’information Expérimentations Données de travail Échantillons Application et perspectives

Filtrage des mémoires Tous les bisegments ne sont pas utiles Segments non textuels (balises, code, variables etc.) Anglais dans le français (ou l’inverse) Mauvais découpage

Volumes Segments Mots Hapax 64 658 691 532 18 727 7 376 758 896 20 334 Avant filtrage Taille des données : 565 Mo Nombre de mémoires : 453 Nombre de bisegments : 1 785 684 Après filtrage Segments Mots (occurrences) (prototypes) Hapax SOURCE 64 658 691 532 18 727 7 376 CIBLE 758 896 20 334 7 981

Longueur des phrases X 1000 phrases Nombre de mots

Echantillon briques traductionnelles default par défaut database base de données Click Cliquez sur password mot de passe all tous les output de sortie viewpoint point de vue will be sera Cannot Impossible de cannot ne peut pas ne pouvez pas Buidtime Client de modélisation as au fur et à mesure que

Plan Introduction Modèle pour l’alignement Acquisition de l’information Expérimentations Application et perspectives

Applications immédiates Aide aux traducteurs Améliore la perception de ce qui est utile Permet une édition plus efficace Enseignement Éditions bilingues Permet à l’apprenant d’identifier les correspondances

Perspectives Algorithme de production de segments cible Classification Modèle de traduction Évaluation sur la traduction Systèmes d’écriture sans séparateur Ajuster les indices Digrammes, sécabilité, classification Avec un algorithme itératif Diminution du nombre de descripteurs Densification de l’alignement

Merci