La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus.

Présentations similaires


Présentation au sujet: "CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus."— Transcription de la présentation:

1 CORPUS Types

2 2 Plan I. Un corpus de transition II. Types de corpus

3 I. DU PAPIER A LOCTET.

4 4 I. Le SEU The Survey of English Usage (SEU) Corpus (R. Quirk 1968) = corpus papier le plus important récolté pour la description de la grammaire

5 5 SEU Objectif en 1959: récolter 200 échantillons de 5000 mots chacun représentatifs de langlais britannique écrit et parlé = mots mots dorigine écrite mots dorigine parlée

6 6. n Textes écrits(100) –Imprimés (46) n informatifs (28) –presse(8) –académiques(13) –administratifs(4) –juridiques(3) n instructions (6) n persuasifs(5) n fiction(7)

7 7. n Textes écrits –Manuscrits(36) n correspondance(21) –social(13) –non-social(8) n journaux intimes(4) n fiction(5) n informatifs(6)

8 8. n Textes écrits –Ecrits pour être dits (18) n discussions(6) n pièces de théâtre(4) n informations(3) n discours(3) n histoires(2)

9 9. n Retranscriptions danglais parlé (100) –Monologues (24) Spontanés(18) n discours(10) n commentaires sportifs(4) n commentaires (autres)(4) discours préparés mais non écrits (6)

10 10. n Anglais parlé –Dialogues(76) n conversations en face-à-face(60) –enregistrées à l insu des participants(34) –enregistrées ouvertement(26) n conversations téléphoniques(16)

11 11 Un corpus précurseur n Fiches papier de 15X10 cm consultables à University College London: une fiche contient: n une occurrence n 17 lignes de texte n exemplifie l un des 65 traits syntaxiques ou des 400 mots grammaticaux n traits prosodiques pour langlais parlé

12 II. CORPUS SPECIALISES.

13 13 II. Types de corpus Critères de distinction des corpus –objectifs –représentativité –organisation –format

14 14 Objectifs n n étude de la grammaire n n analyse terminologique n n création et test d'un système de reconnaissance de la parole (conversations téléphoniques) n n construction d'un dictionnaire d'une variante du français n n recherche de néologismes n n apprentissage par un programme d'étiquetage syntaxique (tagger) n n étude comparative pour la traduction automatique

15 15 Représentativité n n Englobe tous les domaines, toutes les situations etc... dans lesquels la langue est utilisée! n n écrit/parlé n n genre, type, domaine n n situation de communication n n sexe, age, origine socio-culturelle n n variantes n n influences sur la langue n n fréquence

16 16 Organisation n n textes complets/échantillons n n mono-, bi-, multilingues n n alignés n n statique / dynamique n n "tout-venant"

17 17 Format n n texte brut ou "nu" (anglais: raw text or data) n n texte annoté n n arboré n n écrit n n son n n images

18 18 Corpus généraux n n répondent à des questions sur la grammaire, le vocabulaire, les structures discursives du langage, etc. n n doivent être représentatifs

19 19 Ex: If-clauses n If + Past + Conditional I n If + Pluperfect + Conditional II n If + Present + Simple Future => If + Present + Present 1/3 If it travels through the air, it is called « virus » If she has toast, she spreads it with jam => If + Present + could, should If you dont know Glascow..., the...words...should have you on the first train If history is any guide, the Bank of england could force...

20 20 Corpus généraux équilibrés n n corpus équilibrés – –SEU Corpus, Brown Corpus : premiers corpus généraux: 1 million de mots – –BNC: seconde génération, mégacorpus: 100 millions de mots ï ï corpus de référence Collins-Cobuild, BNC,

21 21 Corpus spécialisés n n Compilés pour des objectifs spécifiques n n Taille et composition dépendent des objectifs n n Pas équilibrés => donnent une vision déformée du langage en général. n n Avantage: textes sélectionnés de telle manière que le phénomène à étudier survient beaucoup plus fréquemment que dans un corpus équilibré ê ê pas nécessairement gigantesque ( mots par exemple), mais précis

22 22 EX: anglais de l informatique n Syntaxe: comparatif d égalité as Adj as as well as (1450), as long as (330), as soon as (240), as far as (90), as large as (48), as simple as (39) n Acronymes AFAIK CU ;-)

23 23. n n Corpus dentrainement – –utilisés en TALN (Traitement Automatique des Langues Naturelles) par exemple pour "apprendre" à un étiqueteur les différentes étiquettes syntaxiques existantes (Air Traffic Control, TRAINS Spoken Dialogue Corpus )Air Traffic Control n n Corpus de test – –utilisés pour tester les sytèmes de TALN

24 24. n n Corpus régionaux, de dialectes, non standard – –étude de variantes d'une langue, cf. les variantes du français étude de la langue d'une certaine catégorie de population (SUISTEXT, BELTEXT, QUEBETEXT )

25 25 Variantes du français n Sam envoie Luc aux pelottes(F) n Sam envoie Luc à la moutarde(B) n Sam envoie Luc au balai(Q) n Sam envoie Luc aux pives(S) n Sam envoie Luc au diable (BFQS)

26 26. n n Corpus historiques – –permettent les études diachroniques sur l'évolution de la langue, rechercher des expressions vieillies en français standard, alors qu'elles sont utilisées dans des variantes exemple: le québécois "magané" = français "cassé"; le suisse "bouter le feu" = français "mettre le feu" (HELSINKY, LAMPETER -Old English Corpus )LAMPETER -Old English Corpus

27 27. n n Corpus dapprenants – –contiennent des productions écrites et/ou orales faites par des apprenants d'une langue seconde servent à décrire l'interlangue et donc les difficultés des apprenants servent aussi à élaborer une typologie des erreurs pour l'utilisation dans un système de vérification grammaticale

28 28. n n Corpus écrit, oral, de parole – –corpus de parole ou parlés = son corpus oral = retranscription de productions orales (LDC, London-Lund Corpus)LDC,London-Lund

29 29 Corpus échantillonné n n contiennent un ensemble fini de textes que l'on ne modifie plus par la suite n n composés d'échantillons de textes ou de textes complets

30 30 Corpus annotés n n les mots sont étiquetés n n les étiquettes peuvent fournir des informations de divers ordres: catégories syntaxiques, lemmes (forme canonique du mot fléchi), âge et sexe du locuteur, niveau d'études, etc...

31 31 Corpus arborés n n corpus parsés, contiennent des informations sur la structure de la phrase (Penn Treebank, SUZANNE)Penn Treebank SUZANNE)

32 32 Corpus concordancés n n ensemble de concordances sur un corpus Brown Corpus, London-Oslo-Bergen, London-Lund Corpus

33 33 Corpus dynamiques n n Corpus statique vs dynamique (moniteur) n n corpus statique = ensemble fini de textes n n corpus dynamique = corpus en expansion continue, reflétant et suivant l'évolution de la langue en temps réel (= corpus moniteur) n n COBUILD => Bank of English

34 34 Corpus comparables n n ensemble de corpus ayant été compilés selon les mêmes critères, mais dans des variantes différentes d'une même langue n n ensemble de corpus ayant été compilés selon les mêmes critères dans des langues différentes et en tenant compte des différences culturelles

35 35. ñ ñ ces corpus sont indispensable pour l'élaboration de dictionnaires bi- ou multilingues. (ELRA) Sur le modèle du Brown Corpus of American English: LOB (échantillon du London-Oslo- Bergen of British English), Kholapur Corpus of Indian English (échantillon), Wellington corpus of New Zealand English, Australian Corpus of English ICELOBKholapur ICE

36 36 Corpus parallèles n n couples de corpus dans des langues différentes et dont l'un est la traduction de l'autre -HANSARD-HANSARD, -WALL -Regeringsforklarungen corpus parallèles de l'OMS -Slovene-English Parallel CorpusWALL -RegeringsforklarungenOMS -Slovene-English Parallel Corpus

37 37 Corpus saturés n n corpus dans lequel le taux de croissance du vocabulaire arrête de décroître et se stabilise; le point de saturation est atteint lorsqu'il y a environ 8 nouveaux mot tous les mots additionnels.

38 38 Corpus opportuniste n n Archive ensemble de textes réunis sans critères précis Oxford text Archive Projet Gutenberg

39 39 Interface

40 40 exemple n Erreurs TR-DI: contre-sens (distorsion) [Il a droit aux]la-st-aw mêmes bénéfices sociaux et aux mêmes [réductions]tr-di fiscales que les travailleurs nationaux. He is entitled to the same social and tax benefits as national workers Il y bénéficie des mêmes avantages sociaux et fiscaux que les travailleurs nationaux. n Erreurs LA-TL-IN: erreur de langue, le terme est incorrect dans la langue cible The examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. L' examen peut être effectué soit par un [agent médical]la-tl-in de l' organisation, soit par un médecin généraliste choisi par la personne concernée Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).

41 41 Légal: contresens En He may be excluded from the management of bodies under public law and from the exercise of an office under public law. Fr[Il]la-hy-pu peut être exclu de la gestion d' [organismes]tr-om et [être démis de ses fonctions [au nom du droit public]tr-di. '.'. REF fr il peut être exclu de la participation à la gestion d'organismes de droit public et de l'exercice d'une fonction de droit public. En Any national of a Member State is entitled to take up and engage in gainful employment on the territory of another Member State in conformity with the relevant regulations applicable to national workers. Fr Tout [citoyen]la-tl-in d' un État membre a le droit d' exercer et de [conserver]tr-di un [emploi rémunéré]la-tl-ig sur le territoire d' un autre État membre conformément [aux [règlementations]la-ia-nu ]la-hy-ac en vigueur s' appliquant aux travailleurs [[locaux]tr-di ]la-tl-in REF frTout ressortissant d'un État membre a le droit d'accéder à une activité salariée et de l'exercer sur le territoire d'un autre État membre, conformément à la réglementation nationale pertinente applicable aux travailleurs nationaux.

42 42 Journalistique En the middle classes have been hard hit; and more than a third of the country's active population is either unemployed or under-employed. Fr les classes moyennes ont été terriblement touchées et plus d' un tiers de la population active du pays est soit au chômage, soit [[mal- payée]tr-di ]la-st-aw ]la-ia-nu REF Fr la classe moyenne a été laminée, plus de la moitié des 37 millions d'habitants vivent maintenant dans la pauvreté, et plus du tiers de la population active est sans travail ou sous-employée. En The application of the free market model has translated into a continuous structural adjustment process, and in all the countries concerned its social consequences have been disastrous. Fr L' application du [[modèle économique fondé sur le libre marché]tr-di ]la-tl-in [[a entraîné]tr-di ]la-tl-in des ajustements structurels continuels, [et dans]la-st-aw tous les pays concernés, les conséquences sociales de ces changements furent désastreuses. REF Fr L'application du modèle libéral s'est traduite par une sorte d'ajustement structurel permanent qui a entraîné, partout, des conséquences sociales désastreuses et se solde par un échec retentissant.

43 43 Technique En system must make it easy to attach extension work surfaces (horizontal extension) and a structure supporting the superstructure (vertical extension); it shall also allow computer peripherals to be attached on/under the work surfaces or laterally, to the cantilever legs, Fr le système doit rendre simple (TR-SI-TL: trop littéral) TR-OM (omission)lajout (LA-TL-IN) aux surfaces de travail (LA-TL-NT: terme traduit par non terme) dune rallonge, horizontale dune part, et verticale dautre part (structure supportant la structure dans son ensemble (TR-DI)) ; il doit également permettre le rattachement (LA- TL-IT: incohérence avec le TC) de périphériques(TR-OM) aux pieds en porte-à-faux(LA-TL-NT), que ce soit par le dessus, le dessous ou même sur le côté, Ref fr le système permet la fixation aisée de plateaux annexes (extension horizontale) et dune structure supportant les éléments du 3e niveau (extension verticale). Il permet aussi la fixation de périphériques informatiques sur/sous les plateaux ou latéralement aux piétements,

44 44 Administratif En If Officials and other servants wishing to be examined by one of the organisation's medical officers should apply to either of the medical offices. Fr1Les fonctionnaires et autres [employés]la-tl-it souhaitant être examinés par un [médecin d' entreprise]tr-di peuvent s' adresser à l' un des cabinets médicaux. Fr2Tout agent de la fonction publique désirant se faire examiner par l' un des [médecins de travail]la-tl-in agréés [devra]la-ia-ta [en notifier]tr-di l' un des [services]la-tl-in médicaux.. Ref frLes fonctionnaires et agents désireux de passer la visite médicale auprès de l'un des médecins-conseil peuvent s'adresser à l'un des cabinets médicaux. EnThe examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. Fr[Votre]tr-di médecin traitant ou un [médecin de travail]la-tl-in agréé par l'administration [[mènera]la-ia-ta ]la-tl-in ces [examens médicaux]la-tl-fc. Ref fr Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).


Télécharger ppt "CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus."

Présentations similaires


Annonces Google