La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles.

Présentations similaires


Présentation au sujet: "Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles."— Transcription de la présentation:

1 Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles

2 Concordances LDP terms don't allow modification ( other than translation), modified ver­ sions can I said that there had to be something better than xmag, well this is it. See section way of this. If you are using a Kernel newer than , just type linux no-scroll at included it, so if you get a version later than 740, you probably won't have to do patch. This does not apply to kernels earlier than *** console.c~ Fri Mar 15 Braille Lite This is more a portable computer than a terminal. It could, however, be used

3 Définition 1981: Sinclair,Corpus, Concordance,Collocation = Ouvrage définitoire de la linguistique de corpus: env. 15 ans après lapparition des premiers corpus informatisés tels que le Survey of English Usage ou le Brown Corpus 1981: Sinclair,Corpus, Concordance,Collocation = Ouvrage définitoire de la linguistique de corpus: env. 15 ans après lapparition des premiers corpus informatisés tels que le Survey of English Usage ou le Brown Corpus Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne nécessitant pas de connaissances informatiques approfondies. Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne nécessitant pas de connaissances informatiques approfondies.

4 Domaines connexes En anglais: distinction entre Corpus linguistics, computational philology, computational linguistics, language engineering. En anglais: distinction entre Corpus linguistics, computational philology, computational linguistics, language engineering. En français: on parle surtout de traitement automatique du langage (TAL). Il y a parfois confusion entre TAL et linguistique de corpus. En français: on parle surtout de traitement automatique du langage (TAL). Il y a parfois confusion entre TAL et linguistique de corpus.

5 Définition des trois autres disciplines "Philologie computationnelle": L'utilisation de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques et l'enseignement des langues. "Philologie computationnelle": L'utilisation de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques et l'enseignement des langues. Traitement automatique du langage: l'analyse et la modélisation automatiques du langage en utilisant des langages de programmation. Traitement automatique du langage: l'analyse et la modélisation automatiques du langage en utilisant des langages de programmation. Ingénierie linguistique: la création et l'application de corpus dans des logiciels de traitement du langage, tels que la traduction automatique, etc. Ingénierie linguistique: la création et l'application de corpus dans des logiciels de traitement du langage, tels que la traduction automatique, etc.

6 La linguistique de corpus et la linguistique Approche IA vs Approche probabiliste

7 Deux facteurs: lœuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la performance Disponibilité croissante de documents sur support électronique, ainsi que doutils de manipulation des données Disponibilité croissante de documents sur support électronique, ainsi que doutils de manipulation des données

8 Deux « camps » Linguistique de corpus / approche probabiliste Grammaire générative / approche IA

9 Approche probabiliste Basée sur des propriétés statistiques du langage Basée sur des propriétés statistiques du langage S appuie sur des données authentiques extraites de tous les domaines du discours S appuie sur des données authentiques extraites de tous les domaines du discours

10 Le courant générativiste N. Chomsky: Syntactic Structures N. Chomsky: Syntactic Structures l intuition du locuteur natif l intuition du locuteur natif rejet des corpus rejet des corpus TAL TAL Intelligence Artificielle Intelligence Artificielle psychologie cognitive psychologie cognitive

11 Noam Chomsky 1957: Syntactic Structures, The Hague: Mouton, p : Syntactic Structures, The Hague: Mouton, p. 159 Any natural corpus will be skewed. Some sentences wont occur because they are obvious […], false, […] impolite. […]the description […] would be no more than a mere list.

12 Systèmes « jouets » Whatever is linguistic is interesting Whatever is linguistic is interesting A ticket was bought by every man A ticket was bought by every man The man with the telescope and the umbrella kicked the ball The man with the telescope and the umbrella kicked the ball Hans bekommt von dieser Frau ein Buch Hans bekommt von dieser Frau ein Buch Maria è andata a Roma con Anna Maria è andata a Roma con Anna

13 Fillmore: The corpus linguist He has all the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment, he is busy determining the relative frequencies of the eleven parts of speech for the first word of a sentence versus the second word of a sentence

14 Fillmore: The armchair linguist He sits in a deep soft armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits abruptly shouting, Wow, what a neat fact!, grabs his pencil, and writes something down… having come close to knowing what language is really like.

15 Guerre de territoire Plus personne ne nie la nécessité des corpus en lexicologie et terminologie… … en syntaxe et sémantique, les deux écoles survivent: Les jugements portés par les locuteurs natifs sur la grammaticalité dune phrase vs toute description doit se fonder sur des faits observables => Incidences sur la position par rapport aux stuctures figées vs libres dans la langue

16 Tournant en TAL Besoins très vastes en données lexicales et syntaxiques Besoins très vastes en données lexicales et syntaxiques Description syntaxique très précise Description syntaxique très précise Extraire les informations directement des données authentiques Extraire les informations directement des données authentiques Analyses quantitatives Analyses quantitatives

17 I. Définition Quest-ce qu un corpus?

18 Corpus Corpus Ensemble de textes dans une base de données sur support électronique... Ensemble de textes dans une base de données sur support électronique... Ensemble structuré de textes assemblés spécifiquement pour l analyse linguistique... Ensemble structuré de textes assemblés spécifiquement pour l analyse linguistique... Vaste ensemble de textes... Vaste ensemble de textes... Ensemble de textes représentatifs du langage en général... Ensemble de textes représentatifs du langage en général...

19 Mais... Historiquement, les premiers corpus nexistaient même pas sous forme électronique. Un corpus pouvant servir à létude linguistique na pas forcément été rassemblé dans ce but.

20 De plus... Un corpus na pas forcément besoin d être gigantesque, ni de constituer un échantillon représentatif de toute la langue. Sa taille et son contenu dépendent de l usage que lon veut en faire.

21 Un corpus peut être composé de: Texte complet Texte complet Ensemble de textes complets Ensemble de textes complets Echantillons extraits de textes complets Echantillons extraits de textes complets Ensembles de citations Ensembles de citations Dictionnaire Dictionnaire Gigantesque archive non structurée de textes Gigantesque archive non structurée de textes

22 Archives et Bases de données Corpus : compilation systématique et structurée Corpus : compilation systématique et structurée archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au hasard

23 Une archive est composée de Les oeuvres complètes dun ou de plusieurs auteurs Les oeuvres complètes dun ou de plusieurs auteurs Tous les numéros d un journal sur une ou plusieurs années Tous les numéros d un journal sur une ou plusieurs années Tous les textes connus dune période historique particulière Tous les textes connus dune période historique particulière Peut être utilisée dans les mêmes buts quun corpus Peut être utilisée dans les mêmes buts quun corpus

24 Définitions par les experts Sinclair 1994: A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language

25 Experts II Francis 1992: a collection of texts assumed to be representative of a given language, dialect, or other subset of language, to be used for linguistic analysis

26 Experts III Mc Ennery and Wilson 1996: (1) (loosely) any body of text; (2) (most commonly) a body of machine-readable text; (3) (more strictly) a finite collection of machine readable text, sampled to be maximally representative of a language or variety

27 Donc... Un corpus est sélectionné et assemblé à laide de critères explicites. Il est stocké sous forme électronique. Lusage pour lequel le corpus est prévu, peut parfois, plutôt que sa conception, servir à définir ce quest un corpus.

28 Corpus pré-électroniques Un peu dhistoire…

29 Tradition détudes de corpus Biblique ou littéraire Biblique ou littéraire Lexicologie Lexicologie Dialectologie Dialectologie Enseignement des langues Enseignement des langues Grammaire descriptive Grammaire descriptive

30 La Bible 1736 Alexander Cruden publie la première édition de concordances 1736 Alexander Cruden publie la première édition de concordances –mots à contenu sémantique plein –mots grammaticaux –mots composé (how long, how many) et expressions figées ? (all the nations) (collocations) Sur le même modèle: Oeuvres littéraires (Shakespeare) Sur le même modèle: Oeuvres littéraires (Shakespeare)

31 Lexicographie Début du 17e en Grande-Bretagne: Début du 17e en Grande-Bretagne: Dictionary of the English Language: entrées, citations sur fiches Oxford English Dictionary: environ 70 ans, dernier volume en 1928 Oxford English Dictionary: environ 70 ans, dernier volume en 1928 Oeuvres littéraires remontant jusqu à lan mille: entrées, 5 millions de citations

32 Dialectologie Récolte systématique de données du langage parlé Récolte systématique de données du langage parlé Textes écrits dans les variantes ou patois Textes écrits dans les variantes ou patois : Dictionnaire historique du parler neuchâtelois et suisse romand = premier dictionnaire différentiel scientifique de la francophonie

33 Lenseignement des langues Käding (1890): 11 millions de mots : informations statistiques sur la fréquence dapparition de lettres et de séquences de lettres => améliorer les performances des sténographes Käding (1890): 11 millions de mots : informations statistiques sur la fréquence dapparition de lettres et de séquences de lettres => améliorer les performances des sténographes Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l anglais aux natifs et non natifs Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l anglais aux natifs et non natifs

34 Grammaire descriptive Jespersen: journaux et romans Jespersen: journaux et romans Fries: précurseur en linguistique descriptive et sociolinguistique Fries: précurseur en linguistique descriptive et sociolinguistique –1940: American English Grammar (lettres envoyées au gouvernement des E.-U., toutes origines socio-culrturelles) –1952: The Structure of English retranscriptions de conversations téléphoniques enregistrées

35 Objectifs Corpus généraux ou à objectifs généraux Corpus généraux ou à objectifs généraux corpus équilibrés corpus équilibrés corpus spécialisés corpus spécialisés –corpus d entrainement –corpus de test –corpus régionaux, de dialectes, non standard –corpus d apprenants corpus écrits vs de langue parlée corpus écrits vs de langue parlée

36 . Corpus écrit Corpus écrit Corpus de langue parlée Corpus de langue parlée Corpus échantillonné Corpus échantillonné Corpus annoté vs non annoté (données brutes) Corpus annoté vs non annoté (données brutes) corpus statique vs dynamique (moniteur) corpus statique vs dynamique (moniteur) corpus saturé corpus saturé


Télécharger ppt "Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l étude des langues naturelles."

Présentations similaires


Annonces Google