Module lexicographie II Beatriz Sánchez Cárdenas Universidad de Granada bsc@ugr.es
Évaluation finale 50% note finale: En groupes de deux: constitution d’un prototype de ressource lexicographique (à finir pour le 14 février) Examen final: des questions courtes sur le contenu du cours (14 février)
Objectifs partie II Constitution d’un corpus Comment dégager les information sémantiques, syntaxiques et pragmatiques nécessaires à partir des corpus ? Analyse du corpus avec WordSmith tools
Des dictionnaires au corpus et inversement Première étape : étude des dictionnaires existants Les dictionnaires témoignent d’une connaissance linguistique qu’il serait imprudent d’ignorer. Certaines définitions des dictionnaires, comme le TLFi, se basent sur des corpus (même si exclusivement littéraires). Ne pas tomber dans la caricature du « linguiste de corpus » vs. le « linguiste de fauteuil » (Fillmore 2006)
« Armchair linguist » « Corpus linguist » - Armchair linguist: Why should I think that what you tell me is interesting ? - Corpus linguist: Why should I think that what you tell me is true?
1. Définir le profil de l’usager Décrivez le type de ressource que vous envisagez de créer (typologie des dictionnaires), b) les besoin de l’usager auquel il est destiné -> Un dictionnaire bilingue FR-AN des verbes des Sciences de l’environnement (volcanologie)
2. Constitution et analyse du corpus « A corpus is a collection of pieces of language that are selected according to explicit linguistic criteria in order to be used as a sample of the language. » (Sinclair 1996 : 4) Constitué selon des critères visant à délimiter la langue définie par les limites temporelles, le registre et le milieu social: « The texts are selected according to explicit criteria in order to capture the regularities of a language, a language variety or a sub-language. » (Tognini Bonelli 2001: 55)
2.a. Avantages de l’utilisation des corpus dans la lexicographie Rapidité, efficacité, gain de temps Permet de mieux définir la combinatoire des mots Permet de différencier les nuances sémantiques des mots grâce à leurs contextes Reflète la langue utilisée par les locuteurs (et pas l’idiolecte du linguiste) Fournit des données quantitatives Permet d’appréhender le « linguistic behaviour » (Hanks) des UL, l’ « usage syntagmatique réel » La linguistique des corpus: une théorie ou une méthode ?
2.b. Corpus based vs. Corpus driven Approche « corpus based » Les exemples de corpus servent à illustrer la théorie. Approche « corpus driven » Le corpus a une suprématie absolue. Il n’existe pas de modélisation théorique préalable. Les découvertes réalisées dans le corpus conduisent à la construction des connaissances linguistiques. Les affirmations théoriques sont dérivées de l’accumulation de phénomènes linguistiques. ! Mais toute analyse linguistique comporte des postulats théoriques L’analyse de corpus ne peut pas remplacer la réflexion linguistique. Attention à ne pas tomber dans l’un ou l’autre des extrêmes. Il est fécond d’associer les deux démarches.
« On peut donc reprendre, sans risque d’être démenti, l’affirmation qu’il n’existe aucun dictionnaire neutre, en ce sens que tout dictionnaire est nécessairement conditionné par des théories linguistiques, sociales, économiques ou même parfois politiques, même s’il tente de rester représentatif. » (André Clas 1996 : 201)
2.c. Délimitation du corpus Unités lexicales choisies: langue générale / langue de spécialité (domaine- sous domaine) catégorie grammaticale : nom, verbe, adjectif, adverbe Période Registre Langue orale/écrite Monolingue, bilingue, plurilingue ? Langue générale ou spécialisée
2.e. Constitution du corpus: ressources Délimitez le corpus. Faites l’inventaire des ressources que vous allez utiliser pour le constituer. Textes parallèles : thèses, mémoires, revues scientifiques, articles ! Tous les textes doivent être convertis au format .txt
2.f. Mesurer la fiabilité des textes parallèles notoriété de l’auteur, entité qui finance, maison d’édition… date de publication ou dernière mise à jour public auquel l’ouvrage est destiné objectifs de l’ouvrage (pédagogique, informatif, normatif,…) langue dans laquelle il a été rédigé (s’agit-il d’une traduction?) origine géographique (un jargon local?) information sur la terminologie employée (définitions, équivalents dans d’autres langues, contextes, images,…) niveau d’usage et reconnaissance de l’ouvrage accès à l’information (qualité de la présentation, organisation…) bibliographie éventuellement utilisée
Constitution du corpus En groupes de deux, constituez un corpus avec des textes du domaine de la volcanologie Assurez-vous qu’ils remplissent les conditions de qualité. Consigne de base : plus le corpus est large, plus il est représentatif. N’oubliez pas de convertir les documents au format .txt Domaine général: Sciences de l’environnement Sous-domaine: volcanologie
C. Pré-analyse du corpus
Pre-analyse a) Sketch engine
Pre-analyse b) Analyse des diccionaires Avec Sketch engine, faites une première ébauche: Verbes liés au termes volcan (FR) et volcano (AN) Axe paradigmatique: verbes liés à ces termes dans les deux langues Axe syntagmatique: structures syntaxique et sémantique (types de compléments, types de N des copléments, structures syntaxiques).
Axe paradigmatique Faites une analyse de la description des verbes sélectionnés dans les dictionnaires généraux pour une première ébauche de leur comportement et en vue d’une future description dans le domaine de la volcanologie http://www.upf.edu/bibtic/es/traduc/trad1.html Construire un corpus (AN ou FR) dans le domaine de la volcanologie pour demain, mardi 7.