La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Amalia Todirascu-Courtier

Présentations similaires


Présentation au sujet: "Amalia Todirascu-Courtier"— Transcription de la présentation:

1 Amalia Todirascu-Courtier todiras@unistra.fr
Corpus alignés Amalia Todirascu-Courtier

2 Plan Définition et motivation Comment aligner le corpus?
Exemples des corpus alignés Applications des corpus alignés

3 Corpus parallèles Corpus parallèles (Hartmann 1980) - le même contenu numérisé traduit en plusieurs langues Corpus de traduction: Traduction manuelle des corpus Alignement possible au niveau de propositions, paragraphe, lexical....

4 Corpus comparables Corpus comparables (EAGLES) (McEnery 2003) (Fung & Yee, 1996) pas une traduction exacte même fonction dans une situation de communication même thème ou même domaine ou même genre multilingues ou monolingues

5 Motivation Documents numériques qui traduisent le même contenu en plusieurs langues débat parlamentaires legislation européene normes médicales Besoin d'acquisition automatique des ressources électroniques - Dictionnaires mono- ou multilingues - Bases terminologiques mono ou multilingues - Grammaires en format électroniques

6 Applications – Outils d'aide à traduction
Methodes statistiques qui utilisent comme données d'apprentissage les corpus alignés TransType – outil interactif qui assiste le traducteur et qui propose des extensions (Laboratoire « Recherches appliquées en linguistique informatique » Generic Translation interface (Cour de Justice de Communauté européenne) Matrice de traduction: la structure et la mise en page du document ; formulations normalisées ; les données constantes de l'affaire (numéro de l'affaire, nom des parties, nom des juges et de l'avocat général, type de décision) les citations des textes officiels (règlements et directives communautaires, arrêts antérieurs, etc.) dans la langue cible ;

7 Applications - Terminologie
corpus parallèles Un alignement au niveau lexical Une liste de termes pour la langue source À base d'un thésaurus ou d'un dictionnaire Identification automatique des termes candidats pour la langue cible Extraction des paires candidats langue cible – termes langue source

8 Applications – Extraction de dictionnaires
Dictionnaires bilingues Implique des corpus alignés au niveau des mots pour l'apprentissage des outils Dictionnaires monolingues S'il y a un dictionnaire disponible dans la langue source et des corpus alignés Extraction des candidats dans la langue cible

9 Applications Utilisation des corpus comparables pour extraire des terminologies bilingues TTC : Terminology Extraction, Translation Tools and Comparable Corpora ( Accurat : Analysis and Evaluation of Comparable Corpora for Under Resourced Areas of Machine Translation ( autres :

10 Alignement propositionnel
Corpus de traduction comme matière prémière Alignement propositionnel = mise en correspondance des unités de texte Unité de texte: phrase, paragraphe Algorithmes d'alignement automatique Longueur des phrases - Church & Gale 1991 Mots similaires - Simard et al. 1992, Pierre Isabelle et Susan Warwick-Armstrong 1993

11 Le modèle de Church & Gale
Hypothèses de travail Unité du texte: la phrase La longueur de la phrase (nr. de caractères) doit être similaire dans les deux langues Correspondances entre le nombre de phrases en langue source et en langue cible une phrase peut être traduite par une phrase deux phrases traduites par une, une par deux, deux phrases par deux phrases, une phrase par zéro et zéro par une Combinaisons possibles et propositions de celle qui a le meilleur score 95,8 % de réussite

12 Exemple d'alignement F1 E1 E2 F2 F3 E3 F4 E4 E5 F5
La crise que vivent en ce moment nos agriculteurs se répercutera sur tous et chacun de nous à un certain moment. F2 Nous sommes des consommateurs. F3 Nous avons tous besoin d'une agriculture saine et forte. F4 Heureusement que le député d'Algoma (M. Foster) a mentionné des chiffres dans ses remarques, sans cela ce gouvernement s'en serait sorti en douce encore une fois. F5 Le député d'Algoma suggérait mardi soir qu'il fallait que le gouvernement se prononce clairement et s'engage à aider nos agriculteurs avant qu'il ne soit trop tard. E1 The crisis our farmers are in right now will affect all of us at a certain point in time. E2 We are all consumers and we all need a strong and healthy agricultural sector. E3 I am glad that the Hon. Member for Algoma (Mr. Foster) mentioned figures in his remarks. E4 Otherwise, the Government might have eluded the problem once again. E5 The Hon. Member for Algoma suggested Tuesday night that the Government had to take a clear position and make a commitment to assist our farmers before it is too late.

13 Le modèle de (Simard & all)
Exploiter les mots qui ont des formes très proches dans les deux langues - Mots apparentés (cognates): liste/list, erreur/error, taxe/tax - noms propres ou chiffres Paragraphe: liste de mots pour chaque langue et calculs des pairs des mots apparentés Limites: on peut toujours traduire une phrase et pas utiliser les mots apparentés Une approche mixte: Church + Simard Exemple d'alignement: le corpus HANSARD

14 Exemples de corpus alignés
Les corpus HANSARD (documents du Parlement canadien) – bilingue anglais-français 2,87 millions de paires de phrases alignés Discours legislatifs (1995, 1996, 1997) variété de sujets de disscusion transcriptions des dialogues + textes écrits Distribué par Linguistic Data Consortium Alignement par phrase et par fichier Notation SGML sur la structure (paragraphe, phrase)

15 Exemples de corpus alignés (II)
EUROPARL – débat du Parlement européen 11 langues, 20 millions mots/langue Acquisition du corpus Extraction du web Alignement au niveau du document Segmentation en phrases Identification des mots et des expréssions figées Alignement au niveau des phrases

16 Exemples de corpus alignés (III)
EUROPARL (suite) Certains sous-parties sont arborés (avec un outil VISL) pour quelques langues: français, portugais, allemand... Interface qui permettra de faire des recherches Applications possibles Outils d'aide à la traduction Développement des grammaires et des dictionnaires

17 Autres liens corpus CLUVI corpus Oslo concordancier multilingue
corpus Oslo possibilité de rechercher la langue source ou cible

18 Exemples d'outils Vanilla Aligner – pour l'alignement d'Europarl
Aligner de Moore (en-fr, en-ru) SVM (Ceausu) Alinéa (Olivier Kraif) XAlign (LORIA) Plug (Univ. Uppsala, Göteborg) Unitex

19 Avantages et inconvénients
peu de données d'apprentissage peu d'information dépendentes des langues inconvénients corpus parallèls: traduction humaine du même contenu

20 Alignement lexical mettre en correspondance des mots ou des expressions entrée: corpus aligné au niveau propositionnel correspondances 1-1 sortie: les mots alignés Ressources: équivalents de traduction calculés sur les corpus alignés au niveau propositionnel corpus étiquétés, lemmatisés ressources sémantiques WordNet

21 Outils d'alignement lexical
Giza++ (Och, Ney, 2003) Twente Word Alignment Software COWAL (Tufis et al, 2005) Editeurs MtKit (Tufis et al, 2005)

22 COWAL Combined aligners (Tufis et al., 2005) : YAWA et MEBA Etapes
extraction d'equivalents de traduction (Loglikelihood) mettre en correspondance les mots contenus, les noms propres, les nombres règles héuristiques classes de correspondance entre les catégories lexicales position alignement à l'intérieur des chunks identité de la classe sémantique (WordNet ou SUMO)

23 Avantages et inconvenients
correspondances au niveau de mot ou des expressions extraire des dictionnaires multilingues désavantages corrections successives pas toujours évident d'aligner même pour un utilisateur humain volume important de données d'apprentissage

24 Bibliographie Fung P., Yee. L.Y. (1996) An IR approach for translating new words from non-parallel, comparable texts, ACL 1996. Deléger L., Zweigenbaum P. (2010) Extracting Lay Paraphrases of Specialized Expressions from Monolingual Comparable Medical Corpora, Workshop on Building and Using Comparable Corpora, ACL 2010 Gale W., Church K. (1991) A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 1991 ISABELLE P., WARWICK-ARMSTRONG S. (1993) Les corpus bilingues : une nouvelle ressource pour le traducteur. In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université de Montréal, pp Ji H. (2010) Mining Name Translations from Comparable Corpora by Creating Bilingual Information Networks, Workshop on Building and Using Comparable Corpora, ACL 2010 Koehn P. (2002) Europarl: A Multilingual Corpus for Evaluation of Machine Translation, Information Sciences Institute, University of Southern California, Rapport interne, 2002

25 Bibliographie (II) Mihailov M.; Tommola H. (2001) Compiling Parallel Text Corpora: Towards Automation of Routine Procedures International Journal of Corpus Linguistics, Volume 6, Special Issue, December 2001, pp (11) Och F. J., Ney, H. (2003) A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp March 2003. Prochasson, E (2009) Alignement multilingue en corpus comparables spécialisés. Caractérisation terminologique multilingue Rapp, R.(1995) Identifying Word Translation in Non-Parallel Texts, ACL 1995. Simard M, Foster, G., Isabelle P (1992) Use cognates to align sentences in bilingual corpora, Proceedings of TMI, 1992

26 Bibliographie(III) Simões A., Almeida, J.J., (2003) NATools -- A Statistical Word Aligner Workbench, Sociedade Española para el Procesamiento del Lenguaje Natural, 2003 Tiedemann J. (1999) Uplug - a modular corpus tool for parallel corpora. In L. Borin (ed.) Parallel Corpora, Parallel Worlds. Proceedings of Parallel Corpus Symposium, Uppsala, April 22-23, 1999, Uppsala University. Department of Linguistics. Tufiş D., Ion R., Ceauşu A., Ştefănescu D. (2005) Combined word alignments, Proceedings of the ACL Workshop on Building and Using Parallel Texts, pages 107–110, Ann Arbor, June 2005. Tufis, D. (2004) Term Translations in Parallel Corpora: Discovery and Consistency Check. In Proceedings of the 4th LREC Conference, Lisbon, pp


Télécharger ppt "Amalia Todirascu-Courtier"

Présentations similaires


Annonces Google