La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Corpus alignés Amalia Todirascu-Courtier

Présentations similaires


Présentation au sujet: "Corpus alignés Amalia Todirascu-Courtier"— Transcription de la présentation:

1 Corpus alignés Amalia Todirascu-Courtier

2 Plan Définition et motivation Comment aligner le corpus? Exemples des corpus alignés Applications des corpus alignés

3 Corpus parallèles Corpus parallèles (Hartmann 1980) - le même contenu numérisé traduit en plusieurs langues –Corpus de traduction: Traduction manuelle des corpus –Alignement possible au niveau de propositions, paragraphe, lexical....

4 Corpus comparables Corpus comparables (EAGLES) (McEnery 2003) (Fung & Yee, 1996) –pas une traduction exacte –même fonction dans une situation de communication –même thème ou même domaine ou même genre –multilingues ou monolingues

5 Motivation Documents numériques qui traduisent le même contenu en plusieurs langues –débat parlamentaires –legislation européene –normes médicales Besoin d'acquisition automatique des ressources électroniques - Dictionnaires mono- ou multilingues - Bases terminologiques mono ou multilingues - Grammaires en format électroniques

6 Applications – Outils d'aide à traduction Methodes statistiques qui utilisent comme données d'apprentissage les corpus alignés –TransType – outil interactif qui assiste le traducteur et qui propose des extensions (Laboratoire « Recherches appliquées en linguistique informatique » –Generic Translation interface (Cour de Justice de Communauté européenne) Matrice de traduction: –la structure et la mise en page du document ; –formulations normalisées ; –les données constantes de l'affaire (numéro de l'affaire, nom des parties, nom des juges et de l'avocat général, type de décision) –les citations des textes officiels (règlements et directives communautaires, arrêts antérieurs, etc.) dans la langue cible ;

7 Applications - Terminologie corpus parallèles –Un alignement au niveau lexical Une liste de termes pour la langue source –À base d'un thésaurus ou d'un dictionnaire Identification automatique des termes candidats pour la langue cible –Extraction des paires candidats langue cible – termes langue source

8 Applications – Extraction de dictionnaires Dictionnaires bilingues –Implique des corpus alignés au niveau des mots pour l'apprentissage des outils Dictionnaires monolingues –S'il y a un dictionnaire disponible dans la langue source et des corpus alignés -Extraction des candidats dans la langue cible

9 Applications Utilisation des corpus comparables pour extraire des terminologies bilingues –TTC : Terminology Extraction, Translation Tools and Comparable Corpora (www.ttc-project.eu) –Accurat : Analysis and Evaluation of Comparable Corpora for Under Resourced Areas of Machine Translation (http://www.accurat-project.eu/index.php)http://www.accurat-project.eu/index.php –autres : technologies/portfolio_en.html

10 Alignement propositionnel Corpus de traduction comme matière prémière Alignement propositionnel = mise en correspondance des unités de texte –Unité de texte: phrase, paragraphe –Algorithmes d'alignement automatique Longueur des phrases - Church & Gale 1991 Mots similaires - Simard et al. 1992, Pierre Isabelle et Susan Warwick-Armstrong 1993

11 Le modèle de Church & Gale Hypothèses de travail –Unité du texte: la phrase –La longueur de la phrase (nr. de caractères) doit être similaire dans les deux langues –Correspondances entre le nombre de phrases en langue source et en langue cible une phrase peut être traduite par une phrase deux phrases traduites par une, une par deux, deux phrases par deux phrases, une phrase par zéro et zéro par une –Combinaisons possibles et propositions de celle qui a le meilleur score 95,8 % de réussite

12 Exemple d'alignement E1 The crisis our farmers are in right now will affect all of us at a certain point in time. E2 We are all consumers and we all need a strong and healthy agricultural sector. E3 I am glad that the Hon. Member for Algoma (Mr. Foster) mentioned figures in his remarks. E4 Otherwise, the Government might have eluded the problem once again. E5 The Hon. Member for Algoma suggested Tuesday night that the Government had to take a clear position and make a commitment to assist our farmers before it is too late. F1 La crise que vivent en ce moment nos agriculteurs se répercutera sur tous et chacun de nous à un certain moment. F2 Nous sommes des consommateurs. F3 Nous avons tous besoin d'une agriculture saine et forte. F4 Heureusement que le député d'Algoma (M. Foster) a mentionné des chiffres dans ses remarques, sans cela ce gouvernement s'en serait sorti en douce encore une fois. F5 Le député d'Algoma suggérait mardi soir qu'il fallait que le gouvernement se prononce clairement et s'engage à aider nos agriculteurs avant qu'il ne soit trop tard.

13 Le modèle de (Simard & all) Exploiter les mots qui ont des formes très proches dans les deux langues - Mots apparentés (cognates): liste/list, erreur/error, taxe/tax - noms propres ou chiffres Paragraphe: liste de mots pour chaque langue et calculs des pairs des mots apparentés Limites: on peut toujours traduire une phrase et pas utiliser les mots apparentés Une approche mixte: Church + Simard –Exemple d'alignement: le corpus HANSARD

14 Exemples de corpus alignés Les corpus HANSARD (documents du Parlement canadien) – bilingue anglais- français –2,87 millions de paires de phrases alignés Discours legislatifs (1995, 1996, 1997) –variété de sujets de disscusion –transcriptions des dialogues + textes écrits –Distribué par Linguistic Data Consortium Alignement par phrase et par fichier –Notation SGML sur la structure (paragraphe, phrase)

15 Exemples de corpus alignés (II) EUROPARL – débat du Parlement européen –11 langues, 20 millions mots/langue –http://people.csail.mit.edu/koehn/publications/euro parl/ Acquisition du corpus –Extraction du web –Alignement au niveau du document –Segmentation en phrases –Identification des mots et des expréssions figées –Alignement au niveau des phrases

16 Exemples de corpus alignés (III) EUROPARL (suite) –Certains sous-parties sont arborés (avec un outil VISL) pour quelques langues: français, portugais, allemand... Interface qui permettra de faire des recherches –http://visl.sdu.dk/visl/corpus.html Applications possibles –Outils d'aide à la traduction –Développement des grammaires et des dictionnaires

17 Autres liens corpus CLUVI –concordancier multilingue –http://sli.uvigo.es/CLUVI/index_en.html corpus Oslo –possibilité de rechercher la langue source ou cible –http://www.hf.uio.no/forskningsprosjekter/sprik /

18 Exemples d'outils Vanilla Aligner – pour l'alignement d'Europarl –http://nl.ijs.si/ME/CD/tool/Vanilla/ Aligner de Moore (en-fr, en-ru) –https://research.microsoft.com/en-us/people/bobmoore/ SVM (Ceausu) Alinéa (Olivier Kraif) –http://w3.u-grenoble3.fr/kraif/ XAlign (LORIA) –http://led.loria.fr/download/source/Xalign.zip Plug (Univ. Uppsala, Göteborg) –http://stp.ling.uu.se/~corpora/plug/ Unitex

19 Avantages et inconvénients avantages –peu de données d'apprentissage –peu d'information dépendentes des langues inconvénients –corpus parallèls: traduction humaine du même contenu

20 Alignement lexical mettre en correspondance des mots ou des expressions –entrée: corpus aligné au niveau propositionnel correspondances 1-1 –sortie: les mots alignés Ressources: –équivalents de traduction calculés sur les corpus alignés au niveau propositionnel –corpus étiquétés, lemmatisés –ressources sémantiques WordNet

21 Outils d'alignement lexical Giza++ (Och, Ney, 2003) –http://www.fjoch.com/GIZA++.html Twente Word Alignment Software –http://linguateca.di.uminho.pt/natools/ COWAL (Tufis et al, 2005) –http://www.racai.ro Editeurs –MtKit (Tufis et al, 2005)

22 COWAL Combined aligners (Tufis et al., 2005) : YAWA et MEBA Etapes –extraction d'equivalents de traduction (Loglikelihood) –mettre en correspondance les mots contenus, les noms propres, les nombres –règles héuristiques classes de correspondance entre les catégories lexicales position alignement à l'intérieur des chunks identité de la classe sémantique (WordNet ou SUMO)

23 Avantages et inconvenients avantages –correspondances au niveau de mot ou des expressions –extraire des dictionnaires multilingues désavantages –corrections successives –pas toujours évident d'aligner même pour un utilisateur humain –volume important de données d'apprentissage

24 Bibliographie Fung P., Yee. L.Y. (1996) An IR approach for translating new words from non-parallel, comparable texts, ACL Deléger L., Zweigenbaum P. (2010) Extracting Lay Paraphrases of Specialized Expressions from Monolingual Comparable Medical Corpora, Workshop on Building and Using Comparable Corpora, ACL 2010 Gale W., Church K. (1991) A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 1991 ISABELLE P., WARWICK-ARMSTRONG S. (1993) Les corpus bilingues : une nouvelle ressource pour le traducteur. In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de lUniversité de Montréal, pp Ji H. (2010) Mining Name Translations from Comparable Corpora by Creating Bilingual Information Networks, Workshop on Building and Using Comparable Corpora, ACL 2010 Koehn P. (2002) Europarl: A Multilingual Corpus for Evaluation of Machine Translation, Information Sciences Institute, University of Southern California, Rapport interne, 2002

25 Bibliographie (II) Mihailov M.; Tommola H. (2001) Compiling Parallel Text Corpora: Towards Automation of Routine Procedures International Journal of Corpus Linguistics, Volume 6, Special Issue, December 2001, pp (11) Och F. J., Ney, H. (2003) A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp March Prochasson, E (2009) Alignement multilingue en corpus comparables spécialisés. Caractérisation terminologique multilingue Rapp, R.(1995) Identifying Word Translation in Non-Parallel Texts, ACL Simard M, Foster, G., Isabelle P (1992) Use cognates to align sentences in bilingual corpora, Proceedings of TMI, 1992

26 Bibliographie(III) Simões A., Almeida, J.J., (2003) NATools -- A Statistical Word Aligner Workbench, Sociedade Española para el Procesamiento del Lenguaje Natural, 2003 Tiedemann J. (1999) Uplug - a modular corpus tool for parallel corpora. In L. Borin (ed.) Parallel Corpora, Parallel Worlds. Proceedings of Parallel Corpus Symposium, Uppsala, April , 1999, Uppsala University. Department of Linguistics. Tufiş D., Ion R., Ceauşu A., Ştefănescu D. (2005) Combined word alignments, Proceedings of the ACL Workshop on Building and Using Parallel Texts, pages 107–110, Ann Arbor, June Tufis, D. (2004) Term Translations in Parallel Corpora: Discovery and Consistency Check. In Proceedings of the 4th LREC Conference, Lisbon, pp


Télécharger ppt "Corpus alignés Amalia Todirascu-Courtier"

Présentations similaires


Annonces Google