Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.

Slides:



Advertisements
Présentations similaires
Exemple de conception d'un cours Thème abordé : LES RISQUES PROFESSIONNELS auteur(s) : Patrice HARDOUIN dernière modification le 04/11/2008 auteur(s) :
Advertisements

Règles de nommages Eric Bleuzet Philippe Terme.
Laure Degoul Jean-Noël Dupé Sabine Maisonnier Marie-George Merlin-Clément Les Les homophones grammaticaux.
Guide de l'enseignant SolidWorks, leçon 1 Nom de l'établissement Nom de l'enseignant Date.
La question sur corpus.
Cycle élémentaire Année scolaire: Classe :CE2 A / B Discipline:Français Éducatrice:Nada Sfeir.
Refonte du portail eaufrance Présentation du cadre de référence pour avis GCIB – 14/10/2014 – Anne Macaire.
Guide d’utilisation d’Europresse. Europresse : Qu’est-ce que c’est Un portail d’archives de presse Plus de 3000 sources disponibles dont environ 650 en.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
Brève histoire d’Internet
Recherche Summon - HINARI (Module 3)
Support et Maintenance SIAN : MDEL partenaires
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Google analytics.
Un autre problème principal dans l'utilisation des sources d'information terminologique est la prolifération de vocabulaire en constante expansion cause.
Quel bilan du dispositif de tutorat en psychiatrie en région ARA ?
Outils méthodologiques
Le commentaire de document(s)
Les Bases de données Définition Architecture d’un SGBD
Algorithmique demander jeu du pendu.

Enseigner l’histoire au cycle 3
DEFINITION DU CONCEPT DE MODÈLE DE PERFORMANCE
Centre Européen pour les Langues Vivantes et Commission Européenne
Activités algorithmiques
corpus spéciale et spécialisée
D'où vient tout ce Français ?
Mouvement harmonique simple
Apprendre des mots au cycle 2 Quelle progression ?
Tableau de bord des risques
Fractions et nombres décimaux
Le logiciel HYPERBASE-LATIN :
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Introduction aux statistiques Intervalles de confiance
Faculté d’éducation | Faculty of Education
Structuration du contenu
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Thèse pour le Doctorat en médecine Jessica Cerceau 15 novembre 2005
Diagrammes UML 420-KE2-LG.
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Programmation Android Première application Android
Thèmes de convergence 10/11/2018.
Filière Littéraire Littérature, langues, littérature étrangère en langue étrangère, philosophie, histoire-géographie, arts... le bac L est une série.
Programme financé par l’Union européenne
Outils de recherche d’informations scientifiques
Méthodologie de la dissertation
Régulation et transports
Introduction à l’utilisation des corpus
Outils de recherche d’informations scientifiques
Evaluation : mini-mémoires de recherche
Soutenance d'HDR - Université de Poitiers - 8 décembre 2003
Le Diplôme National du Brevet
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Bilan de projet pour [Nom du projet]
Affichage et tri des résultats
20 Données semi-structurées et XML
L’Histoire des arts à l’école
ANIMATIONS PEDAGOGIQUES OBLIGATOIRES
Travaux Pratiques de physique
Conduite d’une autoévaluation
Numérique et Sciences Informatiques
Les activités à l’écrit
Programmes de tronc commun 2de & 1re (générale et technologique)
Rentrée scolaire 2018 Test de positionnement de début de Seconde
COMMENT REDIGER UNE BIBLIOGRAPHIE?
Analyse des données et complémentarité des sources
Numérique et Sciences Informatiques
Sigle optionnel en français FBD
Les données structurées et leur traitement
Transcription de la présentation:

Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la performance Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données

 Ensemble de textes dans une base de données sur support électronique...  Ensemble structuré de textes assemblés spécifiquement pour l ’analyse linguistique...  Vaste ensemble de textes...  Ensemble de textes représentatifs du langage en général...

Historiquement, les premiers corpus n’existaient même pas sous forme électronique. Un corpus pouvant servir à l’étude linguistique n’a pas forcément été rassemblé dans ce but.

Un corpus n’a pas forcément besoin d ’être gigantesque, ni de constituer un échantillon représentatif de toute la langue. Sa taille et son contenu dépendent de l ’usage que l’on veut en faire.

 Texte complet  Ensemble de textes complets  Echantillons extraits de textes complets  Ensembles de citations  Dictionnaire  Gigantesque archive non structurée de textes

 Corpus : compilation systématique et structurée archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au hasard

 Les oeuvres complètes d’un ou de plusieurs auteurs  Tous les numéros d ’un journal sur une ou plusieurs années  Tous les textes connus d’une période historique particulière  Peut être utilisée dans les mêmes buts qu’un corpus

Un corpus est sélectionné et assemblé à l’aide de critères explicites. Il est stocké sous forme électronique. L’usage pour lequel le corpus est prévu, peut parfois, plutôt que sa conception, servir à définir ce qu’est un corpus.

Un peu d’histoire…

 Biblique ou littéraire  Lexicologie  Dialectologie  Enseignement des langues  Grammaire descriptive

 1736 Alexander Cruden publie la première édition de concordances  mots à contenu sémantique plein  mots grammaticaux  mots composé ( how long, how many) et expressions figées ? (all the nations ) (collocations )  Sur le même modèle: Oeuvres littéraires (Shakespeare)

 Début du 17e en Grande-Bretagne: Dictionary of the English Language : entrées, citations sur fiches  Oxford English Dictionary : environ 70 ans, dernier volume en 1928 Oeuvres littéraires remontant jusqu ’à l’an mille: entrées, 5 millions de citations

 Récolte systématique de données du langage parlé  Textes écrits dans les variantes ou patois : Dictionnaire historique du parler neuchâtelois et suisse romand = premier dictionnaire différentiel scientifique de la francophonie

 Käding (1890): 11 millions de mots : informations statistiques sur la fréquence d’apparition de lettres et de séquences de lettres => améliorer les performances des sténographes  Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l ’anglais aux natifs et non natifs

 Jespersen: journaux et romans  Fries: précurseur en linguistique descriptive et sociolinguistique  1940: American English Grammar (lettres envoyées au gouvernement des E.-U., toutes origines socio- culrturelles)  1952: The Structure of English retranscriptions de conversations téléphoniques enregistrées

 Corpus généraux ou à objectifs généraux  corpus équilibrés  corpus spécialisés  corpus d ’entrainement  corpus de test  corpus régionaux, de dialectes, non standard  corpus d ’apprenants  corpus écrits vs de langue parlée

 Corpus écrit  Corpus de langue parlée  Corpus échantillonné  Corpus annoté vs non annoté (données brutes)  corpus statique vs dynamique (moniteur)  corpus saturé