Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre.

Slides:



Advertisements
Présentations similaires
Les risques cardiovasculaires et la thérapie antirétrovirale
Advertisements

INVESTIGATING THE ADVERSE RESPIRATORY EFFECTS OF BETA-BLOCKER TREATMENT: SIX YEARS OF PROSPECTIVE LONGITUDINAL DATA IN A COHORT WITH CARDIAC DISEASE Dr.
Le statut social des enfants de 0 à 5 ans influe-t-il sur la prise en charge de leurs problèmes de santé ? A partir d'une étude réalisée en médecine générale.
Les comités pharmaceutiques et thérapeutiques Session 7A. Identification des problèmes dutilisation des médicaments : études faisant appel à des indicateurs.
L’insuffisance cardiaque: plus malin qu’un cancer ?
Classification et prédiction
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Olivier Kraif, Agnès Tutin LIDILEM
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Thrombopénie provoquée par l’héparine (HIT)
CARDIOPATHIES ISCHEMIQUES
Quelques clés pour une lecture critique des essais thérapeutiques
Tests de comparaison de pourcentages
Cœur et anesthésie Un probléme de santé publique 9 millions danesthésies / an en France 14 % population / an anesthésies / français(es) % de la.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
JLMVPC Saisir une commande.
Plusieurs possibilités
Introduction : Compilation et Traduction
Lecture critique MA.
Guide du bon usage des examens d'imagerie médicale gbu.radiologie.fr
Journal Club Constantin Filip C’est-tu mon cœur, docteur?
Chap 4 Les bases de données et le modèle relationnel
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Critères de jugement.
Introduction à la recherche en science politique
DESC Réanimation médicale Clermont-Ferrand, Juin 2008
Comparaison de deux échantillons
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1 ClassRoom 2000 (eclass) Séminaire SH pour le groupe de recherche DIVA de Fribourg Étudiant: Marco Genasci Professeurs: R. Ingold, D. Lalanne.
Lecture critique d’un essai clinique
Master 1 – Sciences du Langage –
TAPAS Thrombus aspiration during percutaneous coronary intervention in acute myocardial infarction study (TAPAS) mortality and reinfarction at 1 year.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Revascularisation du sujet âgé le point de vue du chirurgien… S. LOPEZ
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
REPRESENTATION DE L’INFORMATION
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Sylwia Ozdowska1, Vincent Claveau2
Sélection de colonnes (la projection)
Dominique LAURENT Patrick SEGUELA
Evaluation multicentrique du dosage semi- quantitatif de la h-FABP (Cardio Detect®) au laboratoire central : intérêt dans le diagnostic de l’infarctus.
Cours LCS N°4 Présenté par Mr: LALLALI
Une étude épidémiologique observationelle Eur Respir J 2010
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Observance thérapeutique. Observance Action d’observer une règle religieuse Puis stricte exécution des prescriptions du médecin Donne au patient un rôle.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Hospital computing and the costs and quality of care : a national study D. Himmelstein, A. Wright, S. Woolhandler. Etats – Unis The American Journal of.
Appariement syntaxique question-réponse Séminaire groupe LIR 21/10/2003.
Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier
Intérêts et difficultés d'un critère composite pour l'évaluation d'un médicament en Phase III Audrey Lajoinie DESC de Pharmacologie Médicale 2015.
DIU de thérapeutiques anti-infectieuses Rennes – 15 janvier 2016
F.Arhlade, A.Asadi, R. Habbal Service de cardiologie
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
CRASH-2 Effets de l’acide tranexamique sur la mortalité, les événements cardiovasculaires et la transfusion sanguine chez les patients traumatisés ayant.
Rami BAATOUR Master 2 Master 2 Pharmacologie, Modélisation et Essais Cliniques Service EMET Service EMET - Evaluation et Modélisation des Effets Thérapeutiques.
Collins PW, et al. JTH 2010;8: Factor VIII requirement to maintain a target plasma level in the prophylactic treatment of severe hemophilia A:
Master EISIS – Michel JOUBERT – LERTIM, Faculté de Médecine, Marseille – 2009 Interopérabilité des Données et des Terminologies dans le Domaine de la Santé.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
LCA Edoxaban versus Warfarin for the Treatment of Symptomatic Venous Thromboembolism.
Transcription de la présentation:

Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre de Recherche en Terminologie et Traduction Université Lumière Lyon 2,

1. Introduction 2. Hypothèses initiales 3. Corpus utilisé 4. Les adjectifs composés de langlais 5. Méthode de repérage utilisée 6. Résultats 7. Sources de labsence dappariement 8. Améliorations à apporter au modèle

1. Introduction Les corpus bilingues alignés permettent dextraire automatiquement des équivalents de traduction des collocations et des lexies complexes (Langlois & Plamondon 1998). Les termes de langlais sont majoritairement formés à laide des deux seuls patrons syntaxiques N N et Adj N. (Gaussier 2001). Le repérage des bigrammes correspondant à ces patrons syntaxiques et celui de leur équivalent de traduction dans le corpus bilingue (bitexte) peut servir à lextraction dune terminologie bilingue.

2. Hypothèses initiales Similitude morphologique entre les ET Les termes de la langue technique et scientifique anglaise et leurs traductions françaises partagent fréquemment les mêmes racines gréco-latines (méthode des cognats). Stabilité des traductions Il y a peu de variation dans la traduction des termes et collocations de la langue scientifique.

Traductions de myocardial infarction (39 occurrences) infarctus du myocarde 14 infarctus myocardique 10 IDM (sigle) 8 infarctus (ellipse) 7

3. Corpus utilisé corpus bilingue aligné composé de 30 articles ayant pour sujet la cardiologie ( mots) et de leur traduction parue dans la version française du Journal of the American Medical Association étiquetage morpho-syntaxique des deux parties du corpus ; pas danalyse syntaxique Formes traitées : toutes les expressions de patron syntaxique ADJ N (élimination des formes de comparatif et de superlatif, ainsi que des adjectifs composés).

4. Les adjectifs composés de langlais Absence de traitement car : leurs équivalents de traduction (ET) varient beaucoup plus que ceux des autres adjectifs les patrons syntaxiques utilisés pour les traduire sont divers et plus complexes que ceux déjà mentionnés, doù une augmentation du temps de traitement. difficulté dun repérage exhaustif (pretest probability, noninvasive tests)

Exemples de traductions des adjectifs composés : adjectif simple: placebo-controlled human study essai contrôlé chez l'homme low-cholesterol diet régime hypocholestéromique calcium-channel blockers inhibiteurs calciques connective-tissue disease connectivite

sigle : low-density lipoprotein LDL groupe prépositionnel : dental-induced endocarditis endocardite dorigine dentaire single-dose regimen protocole de prise unique antibiotic-resistant endocarditis endocardite à germes résistants dental procedure-induced infective endocarditis endocardite infectieuse d'origine dentaire

Ellipse (réduction) The high initial dose of antibiotic ensures a high blood level during and just after the bacteremia-producing procedure. La dose initiale élevée assure une concentration sanguine élevée pendant et juste après le geste bactériémique. Etoffement Maintenance-dose antibiotics are inadequate to prevent bacterial endocarditis. Les antibiotiques administrés à dose d'entretien sont inefficaces pour prévenir l'endocardite bactérienne.

Transformation de la structure syntaxique LDL represents the atherogenic, cholesterol- containing particle les LDL, véhicules du cholestérol, sont les particules athérogènes. Variation des équivalents de traduction (plus fréquente pour les participes) cocaine-induced myocardial infarction IDM associés à l'usage de cocaïne, infarctus myocardique par usage de cocaïne

5. Méthode de repérage utilisée Extraction des séquences de type Adj N de la partie anglaise du corpus. Extraction des séquences correspondant aux patrons syntaxiques les plus fréquemment observés dans les traductions françaises des séquences de type Adj N (Adj N, N Adj, N Prep N, N Prep Det N) de la partie française du corpus. Appariement des groupes nominaux des deux langues au niveau du corpus, et non pas au niveau des phrases alignées.

Patrons syntaxiques des traductions françaises Adj N vast majority grande majorité N Adj pericardial effusion épanchement péricardique N Prep N hypercoagulable state état d'hypercoagulabilité N Prep Det N myocardial infarction infarctus du myocarde, hypertensive group groupe des hypertendus

La méthode dextraction compare les informations contenues dans trois tables distinctes : le corpus bilingue aligné au niveau de la phrase (2000 enregistrements). les séquences Adj N de langlais (2000 séquences distinctes pour 3200 occurrences) les groupes nominaux du français correspondant aux quatre patrons syntaxiques sélectionnés (4000 séquences distinctes pour 5500 occurrences)

Appariement entre les séquences de type Adj N et leurs équivalents de traduction potentiels, par un programme mettant en relation les trois fichiers, écrit sous un SGBD: Chaque séquence Adj N est dans un premier temps mise en relation avec un sous-ensemble du fichier des groupes nominaux français. filtre utilisé : similitude graphique des quatre premiers caractères de ladjectif et du nom (méthode des cognats) + utilisation de la fonction DIFFERENCE() de DBASE pour la reconnaissance dET contenant des accents (predictive value).

Le corpus bilingue est consulté afin détablir le nombre denregistrements contenant les deux chaînes comparées dans chacun des deux champs du corpus bilingue, lénoncé anglais et sa traduction française.

Indices utilisés : R1 = nombre de phrases contenant les 2 GN comparés / fréquence du GN anglais R2 = nombre de phrases contenant les 2 GN comparés / fréquence du GN français

Les trois équivalents de traduction les plus fréquemment observés sont relevés et classés en fonction de leur probabilité de correspondance calculée à partir du pourcentage de co-occurrence dans les énoncés alignés par rapport à leur fréquence demploi sur lensemble du corpus.

6. Résultats : (pour toutes les séquences de fréquence supérieure à 2 sur lensemble du corpus). précision de 92% (129 ET corrects /140 ET attribués) rappel de 71% (129 ET corrects attribués /182 GN au total)

7. Sources de labsence dappariement : 7.1. Le GN fait partie dune unité terminologique de taille supérieure : familial dyslipidemic hypertension : hypertension familiale dyslipidémique, dyslipidémie familiale hypertensive hypertensive heart disease : cardiopathie hypertensive sudden cardiac death : mort subite d'origine cardiaque

7.2. Le GN appartient à une structure coordonnée : [pulmonary and systemic] venous [hypertension and congestion] l'hypertension et la congestion veineuse pulmonaire et systémique

7.3. Non-correspondance du nombre de mots des ET. Traduction du nom par une lexie composée : clinical management : prise en charge clinique Amalgame à la traduction : antibiotic therapy : antibiothérapie coronary angiography : coronarographie Réduction hypertensive patients (hommes / patients) hypertendus

7.4. La synonymie entraîne une faible valeur des indices R1 et R2 to use parenteral prophylaxis : avoir recours à la voie injectable, utiliser des antibiotiques par voie parentérale non correspondance des cognats male patients sujets masculins 7.6. Siglaison ischemic stroke AVC ischémique myocardial infarction IDM

8. A méliorations à apporter au modèle Traitement du patron syntaxique N N Sélection plus fine des candidats ET Traitement au niveau de la phrase pour les hapax, avec prise en compte de la position des groupes nominaux dans la phrase. Reconnaissance des séquences appartenant à des unités de taille supérieure (Cf. Frantzi 99, Maynard 01)