La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus.

Présentations similaires


Présentation au sujet: "CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus."— Transcription de la présentation:

1 CORPUS Types

2 2 Plan I. Un corpus de transition II. Types de corpus

3 I. DU PAPIER A LOCTET.

4 4 I. Le SEU The Survey of English Usage (SEU) Corpus (R. Quirk 1968) = corpus papier le plus important récolté pour la description de la grammaire

5 5 SEU Objectif en 1959: récolter 200 échantillons de 5000 mots chacun représentatifs de langlais britannique écrit et parlé = mots mots dorigine écrite mots dorigine parlée

6 6. n Textes écrits(100) –Imprimés (46) n informatifs (28) –presse(8) –académiques(13) –administratifs(4) –juridiques(3) n instructions (6) n persuasifs(5) n fiction(7)

7 7. n Textes écrits –Manuscrits(36) n correspondance(21) –social(13) –non-social(8) n journaux intimes(4) n fiction(5) n informatifs(6)

8 8. n Textes écrits –Ecrits pour être dits (18) n discussions(6) n pièces de théâtre(4) n informations(3) n discours(3) n histoires(2)

9 9. n Retranscriptions danglais parlé (100) –Monologues (24) Spontanés(18) n discours(10) n commentaires sportifs(4) n commentaires (autres)(4) discours préparés mais non écrits (6)

10 10. n Anglais parlé –Dialogues(76) n conversations en face-à-face(60) –enregistrées à l insu des participants(34) –enregistrées ouvertement(26) n conversations téléphoniques(16)

11 11 Un corpus précurseur n Fiches papier de 15X10 cm consultables à University College London: une fiche contient: n une occurrence n 17 lignes de texte n exemplifie l un des 65 traits syntaxiques ou des 400 mots grammaticaux n traits prosodiques pour langlais parlé

12 II. CORPUS SPECIALISES.

13 13 II. Types de corpus Critères de distinction des corpus –objectifs –représentativité –organisation –format

14 14 Objectifs n n étude de la grammaire n n analyse terminologique n n création et test d'un système de reconnaissance de la parole (conversations téléphoniques) n n construction d'un dictionnaire d'une variante du français n n recherche de néologismes n n apprentissage par un programme d'étiquetage syntaxique (tagger) n n étude comparative pour la traduction automatique

15 15 Représentativité n n Englobe tous les domaines, toutes les situations etc... dans lesquels la langue est utilisée! n n écrit/parlé n n genre, type, domaine n n situation de communication n n sexe, age, origine socio-culturelle n n variantes n n influences sur la langue n n fréquence

16 16 Organisation n n textes complets/échantillons n n mono-, bi-, multilingues n n alignés n n statique / dynamique n n "tout-venant"

17 17 Format n n texte brut (anglais: raw text or data) n n texte annoté (tagged or annotated) n n arboré n n écrit n n son n n images

18 18 Corpus généraux n n répondent à des questions sur la grammaire, le vocabulaire, les structures discursives du langage, etc. n n Corpus de contrôle par rapport à des corpus plus spécifiques n n doivent être représentatifs dun état de langue, la plupart du temps à un moment donné

19 19 Ex: If-clauses n If + Past + Conditional I n If + Pluperfect + Conditional II n If + Present + Simple Future => If + Present + Present 1/3 If it travels through the air, it is called « virus » If she has toast, she spreads it with jam => If + Present + could, should If you dont know Glascow..., the...words...should have you on the first train If history is any guide, the Bank of england could force...

20 20 Corpus généraux équilibrés n n corpus équilibrés – –SEU Corpus, Brown Corpus : premiers corpus généraux: 1 million de mots – –BNC: seconde génération, mégacorpus: 100 millions de mots – –COCA: bien au-delà ï ï corpus de référence Collins-Cobuild, BNC, Leipzig Korpus,

21 21 Corpus français - Université de Leipzig Le Corpus français est une base de données composée de près de 37 millions de phrases, soit environ 700 millions de mots. Il a été extrait et constitué par le groupe de recherche TAL de l'Université de Leipzig / Allemagne, et aménagé avec le concours de Daniel Elmiger et Alain Kamber (Université de Neuchâtel / Suisse). Les interfaces et outils de recherche ont été développés dans le cadre du projet Leipzig Corpora Collection of Computer Science de l'Université de Leipzig. Le corpus, dédié à l'étude du français contemporain écrit, est composé de trois parties: groupe de recherche TALUniversité de NeuchâtelLeipzig Corpora Collectiongroupe de recherche TALUniversité de NeuchâtelLeipzig Corpora Collection Informations tirées de journaux francophones (plus de 19 millions de phrases) Pages web (plus de 11 millions de phrases) Wikipédia (près de 6 millions de phrases) © Deutscher Wortschatz · tous droits réservés ·

22 22 Corpus spécialisés n n Compilés pour des objectifs spécifiques (genres différents) n n Taille et composition dépendent des objectifs n n Pas équilibrés => donnent une vision déformée du langage en général. n n Avantage: textes sélectionnés de telle manière que le phénomène à étudier survient beaucoup plus fréquemment que dans un corpus équilibré ê ê pas nécessairement gigantesque ( mots par exemple), mais précis

23 23 EX: anglais de l informatique n Syntaxe: comparatif d égalité as Adj as as well as (1450), as long as (330), as soon as (240), as far as (90), as large as (48), as simple as (39) n Acronymes AFAIK CU ;-)

24 24. n n Corpus dentrainement – –utilisés en TALN (Traitement Automatique des Langues Naturelles) par exemple pour "apprendre" à un étiqueteur les différentes étiquettes syntaxiques existantes (Air Traffic Control, TRAINS Spoken Dialogue Corpus )Air Traffic Control n n Corpus de test – –utilisés pour tester les sytèmes de TALN

25 25. n n Corpus régionaux, de dialectes, non standard étude de variantes d'une langue, cf. les variantes du français (SUISTEXT, BELTEXT, QUEBETEXT ) ou de langlais (Kholapur corpus) étude de la langue d'une certaine catégorie de population (banlieue londonienne) étude de certains genres: sms (cf Grenoble)

26 26 Variantes du français n Sam envoie Luc aux pelottes(F) n Avoir le tournis(F) n Sam envoie Luc à la moutarde(B) n Sam envoie Luc au balai(Q) n Sam envoie Luc aux pives(S) n Avoir les étours(S) n Sam envoie Luc au diable (BFQS)

27 27. n n Corpus historiques – –permettent les études diachroniques sur l'évolution de la langue, rechercher des expressions vieillies en français standard, alors qu'elles sont utilisées dans des variantes exemple: le québécois "magané" = français "cassé"; le suisse "bouter le feu" = français "mettre le feu" (HELSINKY, LAMPETER -Old English Corpus )LAMPETER -Old English Corpus

28 28 Diachroniques=> néologismes (Renouf 2007) cyber 2000 cybertainmentcyber-squattingcyber-geekscyber-potentialcyberdreamcyberpicketed faux 2005 faux-ruefullyfaux-handwrittenfaux-autismfaux-clangerfaux-cringes uber 2005 uberpundits uber-waif uber-hyped uber-talkshow ubermogul uber-media-saturated techno 1996 techno-nerdish techno-glam techno-ambient technofreak techno-guru technoboffins

29 29 Diachroniques Néonymie (cf. terminologie économique, finance islamique) Emprunts: hedge funds, agence de rating, (Boutmgharine, N. Les emprunts dans la crise des subprimes, mémoire de Master LSCT, octobre 2010)

30 30. n n Corpus dapprenants – –contiennent des productions écrites et/ou orales faites par des apprenants d'une langue seconde servent à décrire l'interlangue et donc les difficultés des apprenants servent aussi à élaborer une typologie des erreurs pour l'utilisation dans un système de vérification grammaticale – –MeLLANGE: apprenants de la traduction:

31 31. n n Corpus écrit, oral, de parole – –Corpus de parole ou parlés = son corpus oral = retranscription de productions orales (LDC, London-Lund Corpus)LDC,London-Lund – –Corpus dapprenants à loral

32 32 Corpus annotés n n Annotation linguistique: PoS, morpho- syntaxiques, syntaxiques, sémantiques, etc… n n Méta-données; age, sexe, études, conditions de production du texte ou de la parole, langue maternelle, etc… (cf. MeLLANGE)

33 33 Corpus arborés n n corpus parsés (analysés syntaxiquement), contiennent des informations sur la structure de la phrase (Penn Treebank, SUZANNE) = type particulier de corpus annotéPenn Treebank SUZANNE)

34 34 Corpus concordancés n n ensemble de concordances sur un corpus Brown Corpus, London-Oslo-Bergen, London-Lund Corpus

35 35 Corpus dynamiques n n Corpus statique vs dynamique (moniteur) n n corpus statique = ensemble fini de textes n n corpus dynamique = corpus en expansion continue, reflétant et suivant l'évolution de la langue en temps réel (= corpus moniteur) n n COBUILD => Bank of English

36 36 Corpus comparables n n ensemble de corpus ayant été compilés selon les mêmes critères, mais dans des variantes différentes d'une même langue, dans des domaines ou des genres différents n n ensemble de corpus ayant été compilés selon les mêmes critères dans des langues différentes et en tenant compte des différences culturelles (spécialisés ou non): différents des corpus parallèles

37 37. ñ ñ ces corpus sont indispensable pour l'élaboration de dictionnaires bi- ou multilingues. (ELRA) Sur le modèle du Brown Corpus of American English: LOB (échantillon du London-Oslo- Bergen of British English), Kholapur Corpus of Indian English (échantillon), Wellington corpus of New Zealand English, Australian Corpus of English ICELOBKholapur ICE

38 38 n Indispensables en langues de spécialité pour élaborer des bases de données terminologique, des BD phraséologiques, cf. ARTES

39 39 Corpus parallèles n n couples de corpus dans des langues différentes et dont l'un est la traduction de l'autre -HANSARD-HANSARD, -WALLWALL - Regeringsforklarungen - Corpus parallèles de l'OMSOMS - Slovene-English Parallel Corpus - Compara, Europarl

40 40 Corpus saturés n n corpus dans lequel le taux de croissance du vocabulaire arrête de décroître et se stabilise; le point de saturation est atteint lorsqu'il y a environ 8 nouveaux mot tous les mots additionnels.

41 41 Interface

42 42 exemple n Erreurs TR-DI: contre-sens (distorsion) [Il a droit aux]la-st-aw mêmes bénéfices sociaux et aux mêmes [réductions]tr-di fiscales que les travailleurs nationaux. He is entitled to the same social and tax benefits as national workers Il y bénéficie des mêmes avantages sociaux et fiscaux que les travailleurs nationaux. n Erreurs LA-TL-IN: erreur de langue, le terme est incorrect dans la langue cible The examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. L' examen peut être effectué soit par un [agent médical]la-tl-in de l' organisation, soit par un médecin généraliste choisi par la personne concernée Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).

43 43 Légal: contresens En He may be excluded from the management of bodies under public law and from the exercise of an office under public law. Fr[Il]la-hy-pu peut être exclu de la gestion d' [organismes]tr-om et [être démis de ses fonctions [au nom du droit public]tr-di. '.'. REF fr il peut être exclu de la participation à la gestion d'organismes de droit public et de l'exercice d'une fonction de droit public. En Any national of a Member State is entitled to take up and engage in gainful employment on the territory of another Member State in conformity with the relevant regulations applicable to national workers. Fr Tout [citoyen]la-tl-in d' un État membre a le droit d' exercer et de [conserver]tr-di un [emploi rémunéré]la-tl-ig sur le territoire d' un autre État membre conformément [aux [règlementations]la-ia-nu ]la-hy-ac en vigueur s' appliquant aux travailleurs [[locaux]tr-di ]la-tl-in REF frTout ressortissant d'un État membre a le droit d'accéder à une activité salariée et de l'exercer sur le territoire d'un autre État membre, conformément à la réglementation nationale pertinente applicable aux travailleurs nationaux.

44 44 Journalistique En the middle classes have been hard hit; and more than a third of the country's active population is either unemployed or under-employed. Fr les classes moyennes ont été terriblement touchées et plus d' un tiers de la population active du pays est soit au chômage, soit [[mal- payée]tr-di ]la-st-aw ]la-ia-nu REF Fr la classe moyenne a été laminée, plus de la moitié des 37 millions d'habitants vivent maintenant dans la pauvreté, et plus du tiers de la population active est sans travail ou sous-employée. En The application of the free market model has translated into a continuous structural adjustment process, and in all the countries concerned its social consequences have been disastrous. Fr L' application du [[modèle économique fondé sur le libre marché]tr-di ]la-tl-in [[a entraîné]tr-di ]la-tl-in des ajustements structurels continuels, [et dans]la-st-aw tous les pays concernés, les conséquences sociales de ces changements furent désastreuses. REF Fr L'application du modèle libéral s'est traduite par une sorte d'ajustement structurel permanent qui a entraîné, partout, des conséquences sociales désastreuses et se solde par un échec retentissant.

45 45 Technique En system must make it easy to attach extension work surfaces (horizontal extension) and a structure supporting the superstructure (vertical extension); it shall also allow computer peripherals to be attached on/under the work surfaces or laterally, to the cantilever legs, Fr le système doit rendre simple (TR-SI-TL: trop littéral) TR-OM (omission)lajout (LA-TL-IN) aux surfaces de travail (LA-TL-NT: terme traduit par non terme) dune rallonge, horizontale dune part, et verticale dautre part (structure supportant la structure dans son ensemble (TR-DI)) ; il doit également permettre le rattachement (LA- TL-IT: incohérence avec le TC) de périphériques(TR-OM) aux pieds en porte-à-faux(LA-TL-NT), que ce soit par le dessus, le dessous ou même sur le côté, Ref fr le système permet la fixation aisée de plateaux annexes (extension horizontale) et dune structure supportant les éléments du 3e niveau (extension verticale). Il permet aussi la fixation de périphériques informatiques sur/sous les plateaux ou latéralement aux piétements,

46 46 Administratif En If Officials and other servants wishing to be examined by one of the organisation's medical officers should apply to either of the medical offices. Fr1Les fonctionnaires et autres [employés]la-tl-it souhaitant être examinés par un [médecin d' entreprise]tr-di peuvent s' adresser à l' un des cabinets médicaux. Fr2Tout agent de la fonction publique désirant se faire examiner par l' un des [médecins de travail]la-tl-in agréés [devra]la-ia-ta [en notifier]tr-di l' un des [services]la-tl-in médicaux.. Ref frLes fonctionnaires et agents désireux de passer la visite médicale auprès de l'un des médecins-conseil peuvent s'adresser à l'un des cabinets médicaux. EnThe examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. Fr[Votre]tr-di médecin traitant ou un [médecin de travail]la-tl-in agréé par l'administration [[mènera]la-ia-ta ]la-tl-in ces [examens médicaux]la-tl-fc. Ref fr Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).

47 47 Le Web comme corpus n WebCorp n Sketchengine n Bootcat


Télécharger ppt "CORPUS Types. 2 Plan I. Un corpus de transition II. Types de corpus."

Présentations similaires


Annonces Google