La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Le corpus de référence du français contemporain (CRFC) 1.

Présentations similaires


Présentation au sujet: "Le corpus de référence du français contemporain (CRFC) 1."— Transcription de la présentation:

1 Le corpus de référence du français contemporain (CRFC) 1

2 Plan 1.Point de départ : les corpus existants 2.Présentation du CRFC 3.Études de cas 2

3 Point de départ sérieux retard pris par la France en matière de corpus  aucune grammaire des usages effectifs du français dans différents genres  manque de statistiques fiables sur le lexique (etc.) 3

4 Corpus écrits existants Frantext (surtout littéraire) Leipziger corpus français (journaux) Kölner romanistische Korpusdatenbank/Varitext (journaux) Sketchengine: frWaC, FrTenTen (Web) corpus plus spécifiques: Varilex, Emolex, Manulex, etc.  corpus de taille parfois impressionnante  surreprésentation des genres littéraires et journalistiques 4

5 Corpus oraux disponibles Traitement de corpus oraux en français (TCOF): mots L'Enquête Socio-Linguistique à Orléans (ESLO 1 et 2): 6,5 millions de mots Corpus de LAngue Parlée en Interaction (CLAPI): mots Corpus de taille très modeste: p.ex. École Massy I et II, Rhapsodie, etc. Communication langagière chez le jeune enfant (CoLaJe): 3 millions de mots D‘autres corpus en accès restreint: Corp-Aix-2 (Cresti&Moneglia 2005): mots Ciel-F: ?  taille de l‘ensemble des corpus < 10 millions de mots  possibilité de faire des recherches syntaxiques et phonologiques (cf. le Groupe Aixois de Recherche en Syntaxe [GARS])  impossibilité de faire des recherches statistiques sur le lexique-grammaire (segments répétés, collocations, valence, …) 5

6 Vue d‘ensemble du CRFC français de France environ 310 millions de mots équilibre appréciable entre contrôle et naturel ~ millions de mots de parole spontanée 14 genres corpus de suivi 6

7 Usages élaboration de grammaires et de dictionnaires fondés sur corpus lexicologie et phraséologie de l‘oral ouverture au grand public en

8 SectionTaille oralformel30 m informel30 m pseudo-oral pièces de théâtre et scénarios de films 30 m sous-titres de films et de feuilletons télévisés 2,5 m SMS/chat2,5 m forums de discussion60 m 155 m écritécrits scientifiques et techniques30 m autres textes non-littéraires30 m romans, nouvelles et contes30 m journaux45 m revues10 m journaux intimes et blogs5 m lettres et courriels1 m textes divers4 m 155 m 8

9 Corpus oral taille importante de la partie informelle: millions de mots gamme étendue de situations langagières 75 pour cent: transcriptions provenant de 70 types d’émissions télévisées différentes (3000 h de parole) 25 pour cent: corpus existants; interviews du Figaro 9

10 Comparaison ESLO 2 – CRFC (occurrences par million de mots) Mot-formeESLOCRFC (oral informel/théâtre = ~ 70 m de mots) CRFC (journaux = ~ 32 m de mots) con2,686,1 (6024)3,1 (100) flic0,342,4 (2969)3,0 (96) foutre0,9153,8 (10765)0,9 (29) dragueur02,8 (195)0,18 (6) bidouill*00,94 (66)1,0 (34) 10

11 Désavantages des gros corpus Web pléthore de données => difficultés d‘identification de certains types de collocation présence de biais d‘échantillonage 11

12 Biais d‘échantillonage dans Fr- Ten-Ten 12

13 13

14 Études de cas I: néologismes vapoteur, bombasse, itinérance, agence de notation, mot-dièse, kéké, chelou, texter, … 14

15 Études de cas II: l‘oral (conceptionnel) dans les dictionnaires 15

16 Études de cas II: l‘oral (conceptionnel) dans les dictionnaires 16

17 Études de cas III: le subjonctif 17

18 Étude de cas III: le subjonctif (1) J‘aimais bien l‘idée de laisser un produit quelque part et qu‘une personne vienne et le demande gratuitement. (CRFC) (2) Ça bouge le larynx et la trachée pour ne pas faire de fausse route et que ça descende bien … (CRFC) (3) Ça permet aussi de faire que la confiture ne soit pas trop liquide. (CRFC) (4) Je me présente à Pau, j'essaierai de faire qu'il y ait autour de moi toutes les sensibilités républicaines de la ville. (CRFC) c‘est + ADJ (au lieu de il est); je m‘en fous; sympa; marrant; bien; pas mal; ça me fait chier; ça + me + étonner/inquiéter/faire plaisir/…; je trouve ça ADJ; il y a des chances/peu de chances/…; fais/faites gaffe/attention; pour pas/plus que (= pour que … ne … pas/plus) (5) Ça fait peur ? Oui, que mon fils puisse … (CRFC) (6) Tu veux quoi? Que je fasse la majorette ? (CRFC) 18

19 1)(valeur volitive) : Qu’est-ce qu’il reste à améliorer ? Des petites choses, des petits accessoires à mettre, des boucles d’oreilles, qu’elle le fasse naturellement, que je lui dise pas qu’il manque quelque chose 2)(valeur alternative) : Que vous ayez fait ce test ou non, les médecins recommandent de ne pas prendre d'ibuprofène en cas de mal de gorge. ; Aux Etats-Unis, le showbiz est vraiment la culture, que ce soit sur le plan cinématographique, de la danse, des spectacles … 3)que = pour que (souvent avec l’impératif) Vous la renvoyez, que l'on jouer avec. Remue bien, que les pommes couvertes de sucre. Soulève-moi ça que je. File-moi ton poing dans la figure, qu’on en. 4)que = assez/trop … pour que J’ai passé l’âge qu’on me dise …

20 Études de cas IV: différences d‘emploi par genre: avec pour + GN Genre (par ordre de fréquence relative) journaux textes scientifiques langue parlée soutenue magazines forums de discussion fiction théâtre films SMS langue parlée familière 20

21 Études de cas IV: différences d‘emploi par genre: avec pour + nom journauxlangue parlée soutenue conséquence, effet, corollaire ; objectif, mission, horizon conséquence, effet, corollaire ; objectif, mission thème, slogan, répertoire, toile de fond, cadre, leitmotiv, support mannequin, égérie, animateur, invité, adjoint, vedette, moniteur avantage, supplément, symbole 21

22 22

23 Le corpus de référence du français contemporain (CRFC) 23


Télécharger ppt "Le corpus de référence du français contemporain (CRFC) 1."

Présentations similaires


Annonces Google