La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Corpus et concordances

Présentations similaires


Présentation au sujet: "Corpus et concordances"— Transcription de la présentation:

1 Corpus et concordances

2 Qu'est ce qu'un corpus ? « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair cité par B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Paris, Armand Colin, 1997, p. 144)

3 Taille des corpus Gigantesque : British National Corpus (100 millions de mots), The Bank of English (320 millions de mots) de taille moyenne (milliers de mots)

4 Une concordance C. de Laclos Les liaisons dangereuses

5 Co-occurrence – Collocation- Concordance
Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. (ex. salaire de base) Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.”  Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue. La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

6 Types de corpus (1a) corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

7 Types de corpus (1b) corpus annotés ou enrichis : indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute) Pour l’annotation des corpus consultez le site Text Encoding Initiative Consortium (

8 Extrait corpus TALANA (avec syntagmes) TALANA (Traitement Automatique du Langage Naturel – Univ. Paris 7 ) <S> <PP>Au_cours_de:P <NP> la:Dfs conférence_de_presse:NC-fs <Srel> <NP>qui:PROR-3fs </NP> <VP> a:VP-3s clos:VK-ms </VP> <NP> cette:D-fs rencontre:NC-fs </NP> </Srel> </NP> </PP> ,:PONCT <NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP> <VP> est:VP-3s revenu:VK-ms </VP> <PP> sur:P <NP> les:D-mp incidents:NC-mp <PP> de:P lundi:NC-ms soir:NC-ms </PP> <Srel> <PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP> <NP>:de-les:D-mp manifestants:NC-mp </NP> <VP> ont:VP-3p mis_à_sac:VK-ms </VP> <NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP> <PP> de:P la:D-fs Stasi:NP-fs </PP> </NP> </Srel> </NP> </PP> </S>

9 Types de corpus (2) Monolingues (BNC…) Bilingues ou multilingues
Languée parlée (CLAPI…) /langue écrite (CORIS/CORDIS)

10 Types de corpus (3) « Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair, Preliminary recommendations on Corpus Typology. Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards), 1996. Un corpus spécialisé est un corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

11 Types de corpus (4) corpus comparables : ensemble de corpus ayant été compilés selon les mêmes critères mais: - dans des variantes différentes d’une même langue - dans des langues différentes et en tenant compte des différences culturelles corpus parallèles : couples de corpus dans des langues différentes et dont l’un est la traduction de l’autre. (Voir Natalie KÜBLER, Introduction à la linguistique des corpus

12 Corpus parallèle Canadian Hansard Corpus (2001)
1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (

13 Corpus parallèle MULTEXT (1996) a cura di vito pirrelli
5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) parole allineate a livello di frase (inglese come lingua “pivot”) a cura di vito pirrelli

14 Types de corpus (5) corpus d’apprenants : corpus qui contiennent des productions écrites et/ou orales des apprenants d’une langue seconde et sont utilisés - pour décrire l’interlangue et donc les difficultés des apprenants - élaborer une typologie des erreurs (Voir Natalie KÜBLER, Introduction à la linguistique des corpus Learner Corpus around the World Learner Corpus Data

15 Représentativité domaines, situations… sexe, âge… variantes… fréquence
(Voir Natalie KÜBLER, Introduction à la linguistique des corpus

16 Software per l’analisi dei testi
Metasiti Centre for Corpus Research Corpora for Language Learning and Teaching Alphabit.net Sito di Federico Zanettin

17 Rôle des corpus étude de la grammaire analyse terminologique
construction des dictionnaires étude sémantique études comparatives pour la traduction assistée (Voir Natalie KÜBLER, Introduction à la linguistique des corpus

18 Où trouver les corpus ? Web Cd-rom Créer soi même


Télécharger ppt "Corpus et concordances"

Présentations similaires


Annonces Google