Corpus et concordances
Qu'est ce qu'un corpus ? « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair cité par B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Paris, Armand Colin, 1997, p. 144)
Taille des corpus Gigantesque : British National Corpus (100 millions de mots), The Bank of English (320 millions de mots) de taille moyenne (milliers de mots)
Une concordance C. de Laclos Les liaisons dangereuses
Co-occurrence – Collocation- Concordance Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. (ex. salaire de base) Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.” Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue. La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)
Types de corpus (1a) corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)
Types de corpus (1b) corpus annotés ou enrichis : indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute) Pour l’annotation des corpus consultez le site Text Encoding Initiative Consortium (www.tei-c.org)
Extrait corpus TALANA (avec syntagmes) TALANA (Traitement Automatique du Langage Naturel – Univ. Paris 7 ) <S> <PP>Au_cours_de:P <NP> la:Dfs conférence_de_presse:NC-fs <Srel> <NP>qui:PROR-3fs </NP> <VP> a:VP-3s clos:VK-ms </VP> <NP> cette:D-fs rencontre:NC-fs </NP> </Srel> </NP> </PP> ,:PONCT <NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP> <VP> est:VP-3s revenu:VK-ms </VP> <PP> sur:P <NP> les:D-mp incidents:NC-mp <PP> de:P lundi:NC-ms soir:NC-ms </PP> <Srel> <PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP> <NP>:de-les:D-mp manifestants:NC-mp </NP> <VP> ont:VP-3p mis_à_sac:VK-ms </VP> <NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP> <PP> de:P la:D-fs Stasi:NP-fs </PP> </NP> </Srel> </NP> </PP> </S> http://www.li.univ-tours.fr/taln-recital-2001/actes_taln01.html
Types de corpus (2) Monolingues (BNC…) Bilingues ou multilingues Languée parlée (CLAPI…) /langue écrite (CORIS/CORDIS)
Types de corpus (3) « Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair, Preliminary recommendations on Corpus Typology. Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards), 1996. Un corpus spécialisé est un corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)
Types de corpus (4) corpus comparables : ensemble de corpus ayant été compilés selon les mêmes critères mais: - dans des variantes différentes d’une même langue - dans des langues différentes et en tenant compte des différences culturelles corpus parallèles : couples de corpus dans des langues différentes et dont l’un est la traduction de l’autre. (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Corpus parallèle Canadian Hansard Corpus (2001) 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (http://transsearch.iro.umontreal.ca/)
Corpus parallèle MULTEXT (1996) a cura di vito pirrelli http://aune.lpl.univ-aix.fr/projects/multext/ 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) 800.000 parole allineate a livello di frase (inglese come lingua “pivot”) a cura di vito pirrelli
Types de corpus (5) corpus d’apprenants : corpus qui contiennent des productions écrites et/ou orales des apprenants d’une langue seconde et sont utilisés - pour décrire l’interlangue et donc les difficultés des apprenants - élaborer une typologie des erreurs (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt) Learner Corpus around the World http://leo.meikai.ac.jp/~tono/lcorpuslist.html Learner Corpus Data http://www.eng.ritsumei.ac.jp/asao/lcorpus/
Représentativité domaines, situations… sexe, âge… variantes… fréquence (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Software per l’analisi dei testi Metasiti Centre for Corpus Research http://www.corpus.bham.ac.uk/links.htm Corpora for Language Learning and Teaching http://www.corpora4learning.net/resources/materials.html Alphabit.net http://www.alphabit.net/Corsi/IUlinks/Concwarelist.htm Sito di Federico Zanettin http://www.federicozanettin.net/sslmit/cl.htm
Rôle des corpus étude de la grammaire analyse terminologique construction des dictionnaires étude sémantique études comparatives pour la traduction assistée (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Où trouver les corpus ? Web Cd-rom Créer soi même