La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre.

Présentations similaires


Présentation au sujet: "Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre."— Transcription de la présentation:

1 Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre de Recherche en Terminologie et Traduction Université Lumière Lyon 2, maniezf@univ-lyon2.frmaniezf@univ-lyon2.fr

2 1. Introduction 2. Hypothèses initiales 3. Corpus utilisé 4. Les adjectifs composés de langlais 5. Méthode de repérage utilisée 6. Résultats 7. Sources de labsence dappariement 8. Améliorations à apporter au modèle

3 1. Introduction Les corpus bilingues alignés permettent dextraire automatiquement des équivalents de traduction des collocations et des lexies complexes (Langlois & Plamondon 1998). Les termes de langlais sont majoritairement formés à laide des deux seuls patrons syntaxiques N N et Adj N. (Gaussier 2001). Le repérage des bigrammes correspondant à ces patrons syntaxiques et celui de leur équivalent de traduction dans le corpus bilingue (bitexte) peut servir à lextraction dune terminologie bilingue.

4 2. Hypothèses initiales Similitude morphologique entre les ET Les termes de la langue technique et scientifique anglaise et leurs traductions françaises partagent fréquemment les mêmes racines gréco-latines (méthode des cognats). Stabilité des traductions Il y a peu de variation dans la traduction des termes et collocations de la langue scientifique.

5 Traductions de myocardial infarction (39 occurrences) infarctus du myocarde 14 infarctus myocardique 10 IDM (sigle) 8 infarctus (ellipse) 7

6 3. Corpus utilisé corpus bilingue aligné composé de 30 articles ayant pour sujet la cardiologie (134 000 mots) et de leur traduction parue dans la version française du Journal of the American Medical Association étiquetage morpho-syntaxique des deux parties du corpus ; pas danalyse syntaxique Formes traitées : toutes les expressions de patron syntaxique ADJ N (élimination des formes de comparatif et de superlatif, ainsi que des adjectifs composés).

7 4. Les adjectifs composés de langlais Absence de traitement car : leurs équivalents de traduction (ET) varient beaucoup plus que ceux des autres adjectifs les patrons syntaxiques utilisés pour les traduire sont divers et plus complexes que ceux déjà mentionnés, doù une augmentation du temps de traitement. difficulté dun repérage exhaustif (pretest probability, noninvasive tests)

8 Exemples de traductions des adjectifs composés : adjectif simple: placebo-controlled human study essai contrôlé chez l'homme low-cholesterol diet régime hypocholestéromique calcium-channel blockers inhibiteurs calciques connective-tissue disease connectivite

9 sigle : low-density lipoprotein LDL groupe prépositionnel : dental-induced endocarditis endocardite dorigine dentaire single-dose regimen protocole de prise unique antibiotic-resistant endocarditis endocardite à germes résistants dental procedure-induced infective endocarditis endocardite infectieuse d'origine dentaire

10 Ellipse (réduction) The high initial dose of antibiotic ensures a high blood level during and just after the bacteremia-producing procedure. La dose initiale élevée assure une concentration sanguine élevée pendant et juste après le geste bactériémique. Etoffement Maintenance-dose antibiotics are inadequate to prevent bacterial endocarditis. Les antibiotiques administrés à dose d'entretien sont inefficaces pour prévenir l'endocardite bactérienne.

11 Transformation de la structure syntaxique LDL represents the atherogenic, cholesterol- containing particle les LDL, véhicules du cholestérol, sont les particules athérogènes. Variation des équivalents de traduction (plus fréquente pour les participes) cocaine-induced myocardial infarction IDM associés à l'usage de cocaïne, infarctus myocardique par usage de cocaïne

12 5. Méthode de repérage utilisée Extraction des séquences de type Adj N de la partie anglaise du corpus. Extraction des séquences correspondant aux patrons syntaxiques les plus fréquemment observés dans les traductions françaises des séquences de type Adj N (Adj N, N Adj, N Prep N, N Prep Det N) de la partie française du corpus. Appariement des groupes nominaux des deux langues au niveau du corpus, et non pas au niveau des phrases alignées.

13 Patrons syntaxiques des traductions françaises Adj N vast majority grande majorité N Adj pericardial effusion épanchement péricardique N Prep N hypercoagulable state état d'hypercoagulabilité N Prep Det N myocardial infarction infarctus du myocarde, hypertensive group groupe des hypertendus

14 La méthode dextraction compare les informations contenues dans trois tables distinctes : le corpus bilingue aligné au niveau de la phrase (2000 enregistrements). les séquences Adj N de langlais (2000 séquences distinctes pour 3200 occurrences) les groupes nominaux du français correspondant aux quatre patrons syntaxiques sélectionnés (4000 séquences distinctes pour 5500 occurrences)

15 Appariement entre les séquences de type Adj N et leurs équivalents de traduction potentiels, par un programme mettant en relation les trois fichiers, écrit sous un SGBD: Chaque séquence Adj N est dans un premier temps mise en relation avec un sous-ensemble du fichier des groupes nominaux français. filtre utilisé : similitude graphique des quatre premiers caractères de ladjectif et du nom (méthode des cognats) + utilisation de la fonction DIFFERENCE() de DBASE pour la reconnaissance dET contenant des accents (predictive value).

16 Le corpus bilingue est consulté afin détablir le nombre denregistrements contenant les deux chaînes comparées dans chacun des deux champs du corpus bilingue, lénoncé anglais et sa traduction française.

17 Indices utilisés : R1 = nombre de phrases contenant les 2 GN comparés / fréquence du GN anglais R2 = nombre de phrases contenant les 2 GN comparés / fréquence du GN français

18 Les trois équivalents de traduction les plus fréquemment observés sont relevés et classés en fonction de leur probabilité de correspondance calculée à partir du pourcentage de co-occurrence dans les énoncés alignés par rapport à leur fréquence demploi sur lensemble du corpus.

19 6. Résultats : (pour toutes les séquences de fréquence supérieure à 2 sur lensemble du corpus). précision de 92% (129 ET corrects /140 ET attribués) rappel de 71% (129 ET corrects attribués /182 GN au total)

20 7. Sources de labsence dappariement : 7.1. Le GN fait partie dune unité terminologique de taille supérieure : familial dyslipidemic hypertension : hypertension familiale dyslipidémique, dyslipidémie familiale hypertensive hypertensive heart disease : cardiopathie hypertensive sudden cardiac death : mort subite d'origine cardiaque

21 7.2. Le GN appartient à une structure coordonnée : [pulmonary and systemic] venous [hypertension and congestion] l'hypertension et la congestion veineuse pulmonaire et systémique

22 7.3. Non-correspondance du nombre de mots des ET. Traduction du nom par une lexie composée : clinical management : prise en charge clinique Amalgame à la traduction : antibiotic therapy : antibiothérapie coronary angiography : coronarographie Réduction hypertensive patients (hommes / patients) hypertendus

23 7.4. La synonymie entraîne une faible valeur des indices R1 et R2 to use parenteral prophylaxis : avoir recours à la voie injectable, utiliser des antibiotiques par voie parentérale. 7.5. non correspondance des cognats male patients sujets masculins 7.6. Siglaison ischemic stroke AVC ischémique myocardial infarction IDM

24 8. A méliorations à apporter au modèle Traitement du patron syntaxique N N Sélection plus fine des candidats ET Traitement au niveau de la phrase pour les hapax, avec prise en compte de la position des groupes nominaux dans la phrase. Reconnaissance des séquences appartenant à des unités de taille supérieure (Cf. Frantzi 99, Maynard 01)


Télécharger ppt "Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre."

Présentations similaires


Annonces Google