UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues 1 Doctorat en Sciences du langage : Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM 26/11/2004
Plan de l’exposé Parcours… Ressources textuelles multilingues 2 Plan de l’exposé Parcours… Ressources textuelles multilingues Gestion, accès au contenu linguistique… Domaines d’application Textométrie multilingue Un nouveau courrant de recherches interdisciplinaire… Bilan sur les utilisations 26/11/2004
Parcours Etudes de lettres (Université Lomonossov, Moscou) 3 Etudes de lettres (Université Lomonossov, Moscou) Philologie Linguistique et langues modernes Information Technology for Linguists (Coventry University, UK) Travail sur corpus de textes Première approche de concordanciers parallèles Approches quantitatives de corpus parallèles (Université de la Sorbonne nouvelle – Paris 3) …
4 « Il est maintenant possible d ’enregistrer et de manipuler par ordinateur des masses pratiquement illimitées de textes… Compte tenu de l ’évolution récente en informatique, tout indique en effet que les traducteurs pourront bientôt accéder facilement à de très vastes corpus bilingues contenant leurs propres traductions et celles de leurs collègues. » ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993). « Les corpus bilingues : une nouvelle ressource pour le traducteur ». In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université de Montréal, pp. 288-306. 26/11/2004
Analyse de ressources textuelles multilingues 5 Analyse de ressources textuelles multilingues Sources : Web, archives de textes traduits… Outils de gestion : aligneurs, étiqueteurs et analyseurs syntaxiques… Moyens d’accès au contenu linguistique : concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues… Corpus de textes parallèles ou comparables État 1 Bi-textes numérisés État 2 Visualisations sélectives du contenu linguistique État 3 26/11/2004
Corpus multilingues : domaines d’application 6 Corpus multilingues : domaines d’application Traduction Lexicographie Terminologie Enseignement des langues étrangères Recherche d’information multilingue … 26/11/2004
TRAITEMENT AUTOMATIQUE DE CORPUS MULTILINGUES 7 Textométrie multilingue TRADUCTOLOGIE TRAITEMENT AUTOMATIQUE DE CORPUS MULTILINGUES Extraction de ressources traductionnelles TEXTOMÉTRIE Ingénierie multilingue Alignement automatique http://www.cavi.univ-paris3.fr/lexicometrica/jadt/textometrie-multilingue/ 26/11/2004
Exploration textométrique parallèle (étape 1) 8 volet français volet anglais fonctionnaires 26/11/2004
Exploration textométrique parallèle (étape 2) 9 volet français volet anglais fonctionnaires servants 26/11/2004
Analyse des résultats ? officers (Frq.P.=10) officials (Frq.P.= 7) servants (Frq.P.=31) fonctionnaires (Frq.Tot.=49) 48 volet français volet anglais ? 26/11/2004
Univers lexicaux parallèles 11 F A F A F A Travail effectué en collaboration avec William Martinez 26/11/2004
Bilan… sur l’extraction de ressources traductionnelles 12 Bilan… sur l’extraction de ressources traductionnelles Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles. La textométrie met en évidence des phénomènes traductionnels complexes : variations contextuelles des traductions, groupes thématiques d’équivalences lexicales, constellations lexicales parallèles, etc. Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales. 26/11/2004
13 Bilan… sur la création d’outils de traitement automatique de corpus multilingues Maquettes de logiciels d’exploration textométrique multilingue ; Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus. 26/11/2004