La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.

Présentations similaires


Présentation au sujet: "Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la."— Transcription de la présentation:

1 Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la performance Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données

2  Ensemble de textes dans une base de données sur support électronique...  Ensemble structuré de textes assemblés spécifiquement pour l ’analyse linguistique...  Vaste ensemble de textes...  Ensemble de textes représentatifs du langage en général...

3 Historiquement, les premiers corpus n’existaient même pas sous forme électronique. Un corpus pouvant servir à l’étude linguistique n’a pas forcément été rassemblé dans ce but.

4 Un corpus n’a pas forcément besoin d ’être gigantesque, ni de constituer un échantillon représentatif de toute la langue. Sa taille et son contenu dépendent de l ’usage que l’on veut en faire.

5  Texte complet  Ensemble de textes complets  Echantillons extraits de textes complets  Ensembles de citations  Dictionnaire  Gigantesque archive non structurée de textes

6  Corpus : compilation systématique et structurée archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au hasard

7  Les oeuvres complètes d’un ou de plusieurs auteurs  Tous les numéros d ’un journal sur une ou plusieurs années  Tous les textes connus d’une période historique particulière  Peut être utilisée dans les mêmes buts qu’un corpus

8 Un corpus est sélectionné et assemblé à l’aide de critères explicites. Il est stocké sous forme électronique. L’usage pour lequel le corpus est prévu, peut parfois, plutôt que sa conception, servir à définir ce qu’est un corpus.

9 Un peu d’histoire…

10  Biblique ou littéraire  Lexicologie  Dialectologie  Enseignement des langues  Grammaire descriptive

11  1736 Alexander Cruden publie la première édition de concordances  mots à contenu sémantique plein  mots grammaticaux  mots composé ( how long, how many) et expressions figées ? (all the nations ) (collocations )  Sur le même modèle: Oeuvres littéraires (Shakespeare)

12  Début du 17e en Grande-Bretagne: Dictionary of the English Language : 40 000 entrées, 150 000 citations sur fiches  Oxford English Dictionary : environ 70 ans, dernier volume en 1928 Oeuvres littéraires remontant jusqu ’à l’an mille: 414 825 entrées, 5 millions de citations

13  Récolte systématique de données du langage parlé  Textes écrits dans les variantes ou patois 1921-1926: Dictionnaire historique du parler neuchâtelois et suisse romand = premier dictionnaire différentiel scientifique de la francophonie

14  Käding (1890): 11 millions de mots : informations statistiques sur la fréquence d’apparition de lettres et de séquences de lettres => améliorer les performances des sténographes  Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l ’anglais aux natifs et non natifs

15  Jespersen: journaux et romans  Fries: précurseur en linguistique descriptive et sociolinguistique  1940: American English Grammar (lettres envoyées au gouvernement des E.-U., toutes origines socio- culrturelles)  1952: The Structure of English retranscriptions de conversations téléphoniques enregistrées

16  Corpus généraux ou à objectifs généraux  corpus équilibrés  corpus spécialisés  corpus d ’entrainement  corpus de test  corpus régionaux, de dialectes, non standard  corpus d ’apprenants  corpus écrits vs de langue parlée

17  Corpus écrit  Corpus de langue parlée  Corpus échantillonné  Corpus annoté vs non annoté (données brutes)  corpus statique vs dynamique (moniteur)  corpus saturé


Télécharger ppt "Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la."

Présentations similaires


Annonces Google