Assises universitaires 29 septembre 2015 Assises universitaires Corpus et bases de données français et parallèles dans l’enseignement et la traduction Nadejda Buntman Université Lomoniossov de Moscou nabunt@hotmail.com Definition de corpus Divers corpus français accessibles online Corpus national de la langue russe et son sous-corpus parallèle Les bases de données sur corpus ( Temps verbaux et Unités spécifiques ), le travail interactif
Corpus Un corpus est un ensemble de documents, (textes, images, vidéos, etc.), regroupés dans une optique précise Depuis 2001, la revue universitaire CORPUS est dédiée à l'objet. http://corpus.revues.org/
Corpus en langue française http://wortschatz.uni-leipzig.de/ws_fra/ http://www.cnrtl.fr/ http://atilf.atilf.fr/tlf.htm http://clapi.ish-lyon.cnrs.fr/V3_Corpus_criteres.php?interface_langue=FR http://www.crisco.unicaen.fr/
Paramètres du corpus Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé : la taille ; le langage du corpus ; le temps couvert par les textes du corpus ; le registre.
Национальный корпус русского языка http://www.ruscorpora.ru/search-main.html
Поливариантный параллельный русско-французский корпус Проект Российского фонда фундаментальных исследований – РФФИ (2012-2013) «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» Русско-французский параллельный корпус (всего 1 734 719 словоупотреблений) был дополнен текстами с двумя и более вариантами переводов (около 700 000 словоупотреблений):
Надкорпусная база данных глагольных категорий Создана пополняемая надкорпусная база данных моноэквиваленций (одна глагольная конструкция русского языка, которой соответствуют один ее перевод на французский язык) Пример моноэквиваленции:
Проект частного фонда «Династия» (2013-2014) «Принципы создания лингвистических баз данных на основе поливариантных параллельных корпусов» Создан сайт с базой данных глагольных форм русского языка и их переводов на французский язык в открытом доступе по адресу: http://a179.ipi.ac.ru/corpora_dynasty/main.aspx: 5244 глагольных конструкции русского языка и 1-2 перевода каждой конструкции
Частотности соответствий видов русских и французских глагольных форм, вычисленные по данным сайта
Поиск полиэквиваленций на сайте глагольных форм русского языка и их переводов Построена 1921 полиэквиваленция (одна глагольная конструкция русского языка, которой соответствуют два разных ее перевода)
варианты перевода слова баба по базе данных: femme, paysanne, Надкорпусная база данных специфических черт семантической системы русского языка Проект РФФИ (2013-2015) «Контрастивное корпусное исследование специфических черт семантической системы русского языка» (в зеркале французского языка) варианты перевода слова баба по базе данных: femme, paysanne, femme de menage, bonne femme, servante, féminin, vieille femme, la vieille, sorcière
варианты перевода по базе данных: d'une manière ou d'une autre, 2.2 Надкорпусная база данных специфических черт семантической системы русского языка как-нибудь варианты перевода по базе данных: d'une manière ou d'une autre, s'arranger, façon de +INF, en quelque sorte, un moyen de + INF, pouvoir + INF, coûte que coûte, comme tu pourras, même, peut-être, possible adj
варианты перевода по базе данных: paysan,moujik,homme,garçon, 2.3 Надкорпусная база данных специфических черт семантической системы русского языка мужик варианты перевода по базе данных: paysan,moujik,homme,garçon, le domestique,laquais, homme à tout faire http://a179.ipi.ac.ru/lingvospec/select.aspx
Bibliographie http://pratiques.revues.org/1581 Michel Bert, Sylvie Bruxelles, Carole Etienne, Emilie Jouin-Chardon, Justine Lascar, Lorenza Mondada, Sandra Teston et Véronique Traverso Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL) p. 17-34 http://praxematique.revues.org/1136 Linguistique de corpus et didactique du F.L.E. Une exploitation du corpus IntUne Corpus Linguistics and French as a Foreign Language : Using the IntUne Corpus Delphine Giuliani et Radia Hannachi Rastier, François(2005). Enjeux épistémologiques de la linguistique de corpus. In: Williams, G. (ed.). La linguistique de corpus. Rennes: Presses universitaires de Rennes, 2005, pp.31–47