La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la linguistique de corpus

Présentations similaires


Présentation au sujet: "Introduction à la linguistique de corpus"— Transcription de la présentation:

1 Introduction à la linguistique de corpus
De la définition, élaboration et application des corpus dans l ’étude des langues naturelles

2 Bibliographie Partington, Alan (1998). Patterns and Meanings: Using Corpora for English Language Research and Teaching. Amsterdam/Philadelphia: John Benjamins. Sinclair, John M. (1991). Corpus, Concordance, Collocation, Oxford: OUP

3 Bibliographie Hunston, S. (2002). Corpora in Applied Linguistics Cambridge: Cambridge University Press Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam: John Benjamins Publishing Bowker, Lynne & Pearson, Jennifer (2002). Working with Specialized Language: a practical guide to using corpora. London: Routledge.

4 Modalités d’évaluation
Partiel en janvier ou décembre (66%) DST le 19 ou le 26 novembre, selon l’avancement des travaux dans le TD (33%) Etudiants à l’étranger: fiche de lecture sur l’un des ouvrages de la bilbiographie (100%) Etudiants présents: lire au moins Bowker and Pearson, Partington et Sinclair

5 Concordances Europe 1. Le grand débat annoncé par Edouard Balla
nt l idée d un grand débat annoncé par M. Ballad en obligé d ouvrir le débat annoncé. Mais il avance dé é la nécessité d un débat approfondi, certains n exclua , l idée même d un débat argumenté avec ceux qui ne e, lors d un récent débat au " Milia " de Cannes (le M nce-maladie et un débat au Parlement au printemps, t prévu d ouvrir un débat au Parlement français, à l u nquante heures de débat au Parlement pour un texte sa durée, après un débat au Parlement qui permettra allisé l essentiel du débat au Parlement, a été jugée co

6 Définition: linguistique de corpus
1991: Sinclair,Corpus, Concordance,Collocation = Ouvrage définitoire de la linguistique de corpus: env. 25 ans après l’apparition des premiers corpus informatisés tels que le Survey of English Usage ou le Brown Corpus Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne nécessitant pas de connaissances informatiques approfondies.

7 Domaines connexes En anglais: distinction entre Corpus linguistics, computational philology, computational linguistics, language engineering. En français: on parle surtout de traitement automatique du langage (TAL). Il y a parfois confusion entre TAL et linguistique de corpus.

8 Définition des trois autres disciplines
« Philologie computationnelle": utilisation de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques et l'enseignement des langues Traitement automatique du langage: analyse et la modélisation automatiques du langage en utilisant des langages de programmation Ingénierie linguistique: création et application de corpus dans des logiciels de TAL: traduction automatique, correction automatique, synthèse de la parole, reconnaissance de la parole

9 I. Qu’est-ce qu’un corpus?
à savoir, en linguistique de corpus

10 Corpus Ensemble de textes dans une base de données sur support électronique... Ensemble structuré de textes assemblés spécifiquement pour l ’analyse linguistique... Vaste ensemble de textes... Ensemble de textes représentatifs du langage en général...

11 Mais... Historiquement, les premiers corpus n’existaient même pas sous forme électronique. Un corpus pouvant servir à l’étude linguistique n’a pas forcément été rassemblé dans ce but.

12 De plus... Un corpus n’a pas forcément besoin d ’être gigantesque, ni de constituer un échantillon représentatif de toute la langue. Sa taille et son contenu dépendent de l ’usage que l’on veut en faire.

13 Un corpus peut être composé de:
Texte complet Ensemble de textes complets Echantillons extraits de textes complets Ensembles de citations Dictionnaire Texte dans une seule ou plusieurs langues

14 Archives et Bases de données
Corpus : compilation systématique et structurée archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au hasard

15 Une archive est composée de
Les oeuvres complètes d’un ou de plusieurs auteurs Tous les numéros d ’un journal sur une ou plusieurs années Tous les textes connus d’une période historique particulière Peut être adaptée et traitée pour constituer un corpus

16 Définitions par les experts
Sinclair 1994: a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language

17 Experts II Francis 1992: a collection of texts assumed to be representative of a given language, dialect, or other subset of language, to be used for linguistic analysis

18 Experts III Mc Ennery and Wilson 1996:
(1) (loosely) any body of text; (2) (most commonly) a body of machine-readable text; (3) (more strictly) a finite collection of machine readable text, sampled to be maximally representative of a language or variety

19 Donc... corpus (N, pluriel: corpus)
ensemble de documents sélectionnés et assemblés à l’aide de critères explicites en vue d’un objectif clairement défini et stockés sous forme électronique

20 Objectifs Corpus généraux ou à objectifs généraux, dits « corpus équilibrés » corpus spécialisés corpus d ’entraînement et de tests corpus multilingues corpus régionaux, de dialectes, non standard corpus d ’apprenants

21 . Corpus écrit Corpus de langue parlée
Corpus annoté vs non annoté (données brutes) corpus statique vs dynamique (moniteur, très gros corpus) BNC, Bank of English, Cosmas, Frantext, Leipzig corpus

22 Corpus pré-électroniques
Un peu d’histoire…

23 Tradition d’études de corpus
Biblique ou littéraire Lexicologie Dialectologie Enseignement des langues Grammaire descriptive

24 La Bible 1736 Alexander Cruden publie la première édition de concordances mots à contenu sémantique plein mots grammaticaux mots composé (how long, how many) et expressions figées ? (all the nations) (collocations) Sur le même modèle: Oeuvres littéraires (Shakespeare)

25 Lexicographie Début du 17e en Grande-Bretagne:
Dictionary of the English Language: entrées, citations sur fiches Oxford English Dictionary: environ 70 ans, dernier volume en 1928 Oeuvres littéraires remontant jusqu ’à l’an mille: entrées, 5 millions de citations

26 Dialectologie Récolte systématique de données du langage parlé
Textes écrits dans les variantes ou patois : Dictionnaire historique du parler neuchâtelois et suisse romand = premier dictionnaire différentiel scientifique de la francophonie

27 L’enseignement des langues
Käding (1890): 11 millions de mots : informations statistiques sur la fréquence d’apparition de lettres et de séquences de lettres => améliorer les performances des sténographes Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l ’anglais aux natifs et non natifs

28 Grammaire descriptive
Jespersen: journaux et romans Fries: précurseur en linguistique descriptive et sociolinguistique 1940: American English Grammar (lettres envoyées au gouvernement des E.-U., toutes origines socio-culturelles) 1952: The Structure of English retranscriptions de conversations téléphoniques enregistrées

29 La linguistique de corpus et la linguistique
Approche IA vs Approche probabiliste

30 Deux « camps » Linguistique de corpus / approche probabiliste
Grammaire générative / approche Intelligence Artificielle

31 Deux facteurs: l’œuf et la poule
Position théorique: décrire la langue dans sa réalisation authentique (niveau de la « performance » de Chomsky) Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données

32 Approche probabiliste
Basée sur des propriétés statistiques du langage S ’appuie sur des données authentiques extraites de tous les domaines du discours

33 Le courant générativiste
N. Chomsky: Syntactic Structures (1957) intuition du locuteur natif rejet des corpus Traitement Automatique du Langage (TAL) Intelligence Artificielle psychologie cognitive (systèmes-experts)

34 Noam Chomsky 1957: Syntactic Structures, The Hague: Mouton, p. 159
Any natural corpus will be skewed. Some sentences won’t occur because they are obvious […], false, […] impolite. […]the description […] would be no more than a mere list.

35 Systèmes « jouets » Whatever is linguistic is interesting
A ticket was bought by every man I saw the man on the hill with the telescope Max charge le camion de caisses Max gave Marie d’épinards

36 Fillmore: The corpus linguist
He has all the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment, he is busy determining the relative frequencies of the eleven parts of speech for the first word of a sentence versus the second word of a sentence

37 Fillmore: The armchair linguist
He sits in a deep soft armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and writes something down… having come close to knowing what language is really like.

38 Guerre de territoire Plus personne ne nie la nécessité des corpus en lexicologie et terminologie…en syntaxe et sémantique, les deux écoles survivent: jugements portés par les locuteurs natifs sur la grammaticalité d’une phrase vs toute description doit se fonder sur des faits observables => On utilise le corpus pour valider des modèles pré-construits

39 Tournant en TAL Besoins très vastes en données lexicales et syntaxiques Description syntaxique très précise Extraire les informations directement des données authentiques Analyses quantitatives => comparer la définition EN et FR de « linguistique de corpus » dans wikipedia


Télécharger ppt "Introduction à la linguistique de corpus"

Présentations similaires


Annonces Google