Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
ÉCOLE DOCTORALE : Langage et langues 1 Doctorat en Sciences du langage : Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM 26/11/2004
2
Plan de l’exposé Parcours… Ressources textuelles multilingues
2 Plan de l’exposé Parcours… Ressources textuelles multilingues Gestion, accès au contenu linguistique… Domaines d’application Textométrie multilingue Un nouveau courrant de recherches interdisciplinaire… Bilan sur les utilisations 26/11/2004
3
Parcours Etudes de lettres (Université Lomonossov, Moscou)
3 Etudes de lettres (Université Lomonossov, Moscou) Philologie Linguistique et langues modernes Information Technology for Linguists (Coventry University, UK) Travail sur corpus de textes Première approche de concordanciers parallèles Approches quantitatives de corpus parallèles (Université de la Sorbonne nouvelle – Paris 3) …
4
4 « Il est maintenant possible d ’enregistrer et de manipuler par ordinateur des masses pratiquement illimitées de textes… Compte tenu de l ’évolution récente en informatique, tout indique en effet que les traducteurs pourront bientôt accéder facilement à de très vastes corpus bilingues contenant leurs propres traductions et celles de leurs collègues. » ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993). « Les corpus bilingues : une nouvelle ressource pour le traducteur ». In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université de Montréal, pp 26/11/2004
5
Analyse de ressources textuelles multilingues
5 Analyse de ressources textuelles multilingues Sources : Web, archives de textes traduits… Outils de gestion : aligneurs, étiqueteurs et analyseurs syntaxiques… Moyens d’accès au contenu linguistique : concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues… Corpus de textes parallèles ou comparables État 1 Bi-textes numérisés État 2 Visualisations sélectives du contenu linguistique État 3 26/11/2004
6
Corpus multilingues : domaines d’application
6 Corpus multilingues : domaines d’application Traduction Lexicographie Terminologie Enseignement des langues étrangères Recherche d’information multilingue … 26/11/2004
7
TRAITEMENT AUTOMATIQUE DE CORPUS MULTILINGUES
7 Textométrie multilingue TRADUCTOLOGIE TRAITEMENT AUTOMATIQUE DE CORPUS MULTILINGUES Extraction de ressources traductionnelles TEXTOMÉTRIE Ingénierie multilingue Alignement automatique 26/11/2004
8
Exploration textométrique parallèle (étape 1)
8 volet français volet anglais fonctionnaires 26/11/2004
9
Exploration textométrique parallèle (étape 2)
9 volet français volet anglais fonctionnaires servants 26/11/2004
10
Analyse des résultats ? officers (Frq.P.=10) officials (Frq.P.= 7)
servants (Frq.P.=31) fonctionnaires (Frq.Tot.=49) 48 volet français volet anglais ? 26/11/2004
11
Univers lexicaux parallèles
11 F A F A F A Travail effectué en collaboration avec William Martinez 26/11/2004
12
Bilan… sur l’extraction de ressources traductionnelles
12 Bilan… sur l’extraction de ressources traductionnelles Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles. La textométrie met en évidence des phénomènes traductionnels complexes : variations contextuelles des traductions, groupes thématiques d’équivalences lexicales, constellations lexicales parallèles, etc. Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales. 26/11/2004
13
13 Bilan… sur la création d’outils de traitement automatique de corpus multilingues Maquettes de logiciels d’exploration textométrique multilingue ; Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus. 26/11/2004
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.