Le corpus de référence du français contemporain (CRFC)

Slides:



Advertisements
Présentations similaires
Leçon 34 La mode, c’est important pour vous ?
Advertisements

Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Test statistique : principe
Sud Ouest Est Nord Individuel 36 joueurs
Mercredi – le 13 janvier 1) Quest-ce que cest, le français? 2) ______________________________________ Cest la langue de la France et de tous les pays rouges.
Les Prepositions.
ELEMENTS POUR EVALUER LE RISQUE ROUTIER ENCOURU PAR LES SALARIES DANS L ’EVALUATION DES RISQUES PROFESSIONNELS.
Animation : Agir et s’exprimer avec son corps « Corps, mouvement et langage » Cycle 1 CPC EPS Amiens 2.
ETALONNAGE D’UN CAPTEUR
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
Nobodys Unpredictable Enquête réalisée par internet auprès de 602 parents ayant au moins un enfant de moins de 3 ans Juin 2009 Les parents et la lecture.
1 Résultats de lenquête de lectorat du magazine "Vivre la Meurthe-et-Moselle" Enquête réalisée par la société
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
La méthodologie………………………………………………………….. p3 Les résultats
Tarif et qualification des traducteurs : des indicateurs de qualité ?
Le Concours de Conaissance III Francais I fevrier 2013.
Écrit, animé et illustré par Sheila CartwrightTraduit par
Voici 36 bonnes raisons de preferer la biere à une femme blonde...
La haute tour sombre 3 Des actions
Lettre d'une femme au Seigneur Diapo à déroulement automatique
Practice à de rien.
Mon père, quand j'avais....
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1.2 COMPOSANTES DES VECTEURS
Le Concours de Conaissance Francais I novembre 2012.
MICROSOFT POWER POINT Fais « Enter » Par Danièle Lippé.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Ô PÈRE DU CIEL.
Cairn.info Chercher : Repérer : Progresser 13/01/ { } Revues et diffusion des savoirs scientifiques : retour d’expérience de Cairn.info
Commission Nationale des Parents - APF Mme M.M. CARBON Service Conseil Médical et Connaissance des Handicaps P.A ENQUÊTE FRERES ET SŒURS Commission Nationale.
La formation à distance à l’INRS 7ème congrès international CIST – ICOH Enseignement et formation en santé au travail pour tous et partout Strasbourg.
Louis la grenouille Paroles et musique: Matt Maxwell.
Graphe d ’interaction La réalisation du graphe d ’interaction permet d ’assurer l'uniformité des pages et de navigation qui rendent un projet plus fonctionnel.
Notre calendrier français MARS 2014
Forum des Industries de la Langue, 17 mars 2010
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Mémo De Ton Enfant Création: Amitie44F Avril 2006.
Mon école est le monde! Par Charlotte Diamond.
Introduction à l’algèbre
Les relations - Règles - Variables - Table de valeurs - Graphiques.
Réunion des directeurs
Conversation avec votre enfant intérieur
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Unité 25 – Unité 28. C’est ton tour? Oui, c’est mon tour.
Voici 36 bonnes raisons de preferer la biere à une femme blonde...
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Passé composé. Passé composé avec avoir 1. Tu as fini toute la pizza? 2. Elle a acheté une nouvelle robe. 3. J’ai rendu les livres à la bibliothèque.
Comenius 1 Projet européen Analyse de film euroculturelle Humanisme dans le nouveau cinéma européen.
Aufgabenstellung mündl. Matura
Résoudre mes problèmes...” “Mets ta confiance en moi”
1. La bière ne parle pas 2.La bière est toujours prête et humide.
CALENDRIER-PLAYBOY 2020.
La communication orale FLORENCE CAUHÉPÉ
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Exercice de vérification 1 p
Evangile selon St Jean 17, 11b-19
Les Chiffres Prêts?
1.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Practice for uses of: Je sais OU Je connais. 1. ____ Paris. Je sais OU Je connais.
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Formation instituteurs
MÊME PAS PEUR ? Départ.
Que des problèmes !!! J’ai de gros problèmes avec mon ordinateur; est-ce que c’est un virus peut-être??
Transcription de la présentation:

Le corpus de référence du français contemporain (CRFC)

Plan Point de départ : les corpus existants Présentation du CRFC Études de cas

Point de départ sérieux retard pris par la France en matière de corpus aucune grammaire des usages effectifs du français dans différents genres manque de statistiques fiables sur le lexique (etc.)

Corpus écrits existants Frantext (surtout littéraire) Leipziger corpus français (journaux) Kölner romanistische Korpusdatenbank/Varitext (journaux) Sketchengine: frWaC, FrTenTen (Web) corpus plus spécifiques: Varilex, Emolex, Manulex, etc. corpus de taille parfois impressionnante surreprésentation des genres littéraires et journalistiques

Corpus oraux disponibles Traitement de corpus oraux en français (TCOF): 70000 mots L'Enquête Socio-Linguistique à Orléans (ESLO 1 et 2): 6,5 millions de mots Corpus de LAngue Parlée en Interaction (CLAPI): 100000 mots Corpus de taille très modeste: p.ex. École Massy I et II, Rhapsodie, etc. Communication langagière chez le jeune enfant (CoLaJe): 3 millions de mots D‘autres corpus en accès restreint: Corp-Aix-2 (Cresti&Moneglia 2005): 300000 mots Ciel-F: ? taille de l‘ensemble des corpus < 10 millions de mots possibilité de faire des recherches syntaxiques et phonologiques (cf. le Groupe Aixois de Recherche en Syntaxe [GARS]) impossibilité de faire des recherches statistiques sur le lexique-grammaire (segments répétés, collocations, valence, …)

Vue d‘ensemble du CRFC français de France environ 310 millions de mots équilibre appréciable entre contrôle et naturel ~ 60-65 millions de mots de parole spontanée 14 genres corpus de suivi

Usages élaboration de grammaires et de dictionnaires fondés sur corpus lexicologie et phraséologie de l‘oral ouverture au grand public en 2018

  Section Taille oral formel 30 m informel pseudo-oral pièces de théâtre et scénarios de films sous-titres de films et de feuilletons télévisés 2,5 m SMS/chat forums de discussion 60 m 155 m écrit écrits scientifiques et techniques autres textes non-littéraires romans, nouvelles et contes journaux 45 m revues 10 m journaux intimes et blogs 5 m lettres et courriels 1 m textes divers 4 m

Corpus oral taille importante de la partie informelle: 30-35 millions de mots gamme étendue de situations langagières 75 pour cent: transcriptions provenant de 70 types d’émissions télévisées différentes (3000 h de parole) 25 pour cent: corpus existants; interviews du Figaro

Comparaison ESLO 2 – CRFC (occurrences par million de mots) Mot-forme ESLO CRFC (oral informel/théâtre = ~ 70 m de mots) CRFC (journaux = ~ 32 m de mots) con 2,6 86,1 (6024) 3,1 (100) flic 0,3 42,4 (2969) 3,0 (96) foutre 0,9 153,8 (10765) 0,9 (29) dragueur 2,8 (195) 0,18 (6) bidouill* 0,94 (66) 1,0 (34)

Désavantages des gros corpus Web pléthore de données => difficultés d‘identification de certains types de collocation présence de biais d‘échantillonage

Biais d‘échantillonage dans Fr-Ten-Ten

Études de cas I: néologismes vapoteur, bombasse, itinérance, agence de notation, mot-dièse, kéké, chelou, texter, …

Études de cas II: l‘oral (conceptionnel) dans les dictionnaires

Études de cas II: l‘oral (conceptionnel) dans les dictionnaires

Études de cas III: le subjonctif

Étude de cas III: le subjonctif (1) J‘aimais bien l‘idée de laisser un produit quelque part et qu‘une personne vienne et le demande gratuitement. (CRFC) (2) Ça bouge le larynx et la trachée pour ne pas faire de fausse route et que ça descende bien … (CRFC) (3) Ça permet aussi de faire que la confiture ne soit pas trop liquide. (CRFC) (4) Je me présente à Pau, j'essaierai de faire qu'il y ait autour de moi toutes les sensibilités républicaines de la ville. (CRFC) c‘est + ADJ (au lieu de il est); je m‘en fous; sympa; marrant; bien; pas mal; ça me fait chier; ça + me + étonner/inquiéter/faire plaisir/…; je trouve ça ADJ; il y a des chances/peu de chances/…; fais/faites gaffe/attention; pour pas/plus que (= pour que … ne … pas/plus) (5) Ça fait peur ? Oui, que mon fils puisse … (CRFC) (6) Tu veux quoi? Que je fasse la majorette ? (CRFC)

Fonctions spécifiques de que suivi du subjonctif (valeur volitive) : Qu’est-ce qu’il reste à améliorer ? Des petites choses, des petits accessoires à mettre, des boucles d’oreilles, qu’elle le fasse naturellement, que je lui dise pas qu’il manque quelque chose (valeur alternative) : Que vous ayez fait ce test ou non, les médecins recommandent de ne pas prendre d'ibuprofène en cas de mal de gorge. ; Aux Etats-Unis, le showbiz est vraiment la culture, que ce soit sur le plan cinématographique, de la danse, des spectacles … que = pour que (souvent avec l’impératif) Vous la renvoyez, que l'on < puisse > jouer avec. Remue bien, que les pommes < soient > couvertes de sucre. Soulève-moi ça que je < sente >. File-moi ton poing dans la figure, qu’on en < finisse >. que = assez/trop … pour que J’ai passé l’âge qu’on me dise …

Études de cas IV: différences d‘emploi par genre: avec pour + GN Genre (par ordre de fréquence relative) journaux textes scientifiques langue parlée soutenue magazines forums de discussion fiction théâtre films SMS langue parlée familière

Études de cas IV: différences d‘emploi par genre: avec pour + nom journaux langue parlée soutenue conséquence, effet, corollaire ; objectif, mission, horizon conséquence, effet, corollaire ; objectif, mission thème, slogan, répertoire, toile de fond, cadre, leitmotiv, support mannequin, égérie, animateur, invité, adjoint, vedette, moniteur avantage, supplément, symbole

Le corpus de référence du français contemporain (CRFC)