Corpus et concordances

Slides:



Advertisements
Présentations similaires
1 INTRODUCTION Les 3 livres que nous avons produit au cours des années à l'intérieur de l'Association des Immigrés de Pordenone sont les suivants: 1. Parlare.
Advertisements

DÉFINITION DU DOMAINE D’ÉVALUATION (DDE) CONTENU DE LA PRÉSENTATION
Terminologie, glossaires et banques de données. Quest-ce que la terminologie? La terminologie est l'ensemble des termes relatifs à un système notionnel.
CREPUQ - Atelier sur les données numériques 1 Les données numériques : atelier d'information (et de démystification) - Le rôle des données numériques Québec,
Olivier Kraif, Agnès Tutin LIDILEM
selon : Anastasia Koralli et Julie-Sarah Gluckstein , le 7 mars 2007.
Scenari-Plateform Module Audio / Ircam Développé par Paul Rouget
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Le documentaliste, un professeur d'histoire et un professeur de SES cherchent des documents afin de mettre en œuvre une activité autour de la lecture.
Exercices Recherche dinformation. Méthodo ? Connaissance des ressources Prise dindices (mots clès, type de doc, langue,...) Connaître les opérateurs /
INTRODUCTION Définition : Cordial c’est un correcteur orthographique et grammaticaux des textes. Les pluspart des logiciels de traitement de texte possèdent.
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Girard Pia & Laffont Caroline
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Apprendre à lire.
DOSSIER TICE 2006 MASSON Wendy 1 ère année sciences du langage
L'architecture du dictionnaire bilingue et le métier du lexicographe
Le Portfolio Numérique
Pourquoi apprendre l’anglais ?
Lutilisation de la langue est liée à laction et donc à des capacités de faire.
Cours 16 LA BIBLIOGRAPHIE
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Cadre européen commun de référence
Introduction à la sociolinguistique
Project de la langue française
GROUPE ICOR
Organiser le vocabulaire FLS 2581/ FLS 3581 Cours dimmersion.
Web sémantique : Web de demain
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Introduction théorie et pratique
Le projet de terminologie
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
l'information sur Internet
Les conduites discursives à l'école maternelle
LANGUE ET COMMUNICATION
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Internet WEB.
Projet de Recherche Nathalie GORMEZANO Directrice générale de l’ISIT
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
Traitement de la parole : Synthèse et reconnaissance
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
Praxiling – UMR Université de Montpellier 3 - CNRS Sciences du langage. Moujahed AL SABRI NEDEP juin 2009 Evaluation d’un support numérique.
LANGUES ET POLITIQUES LINGUISTIQUES DES ETATS FRANCOPHONES Kuitche, Francese II- Scienze Politiche Unisi GILLES KUITCHE, Ph.D
Dictionnaires, lexicographie, lexicographes
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Épreuve de compréhension orale pour l’examen final clemi 3
Ressources pour enseigner le vocabulaire à l’école maternelle :
Module : Langage XML (21h)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
Méthodes linguistiques : linguistique de terrain 14 novembre 2014 Aimée Lahaussois
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à l’utilisation des corpus
Transcription de la présentation:

Corpus et concordances

Qu'est ce qu'un corpus ? « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair cité par B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Paris, Armand Colin, 1997, p. 144)

Taille des corpus Gigantesque : British National Corpus (100 millions de mots), The Bank of English (320 millions de mots) de taille moyenne (milliers de mots)

Une concordance C. de Laclos Les liaisons dangereuses

Co-occurrence – Collocation- Concordance Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. (ex. salaire de base) Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.”  Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue. La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Types de corpus (1a) corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Types de corpus (1b) corpus annotés ou enrichis : indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute) Pour l’annotation des corpus consultez le site Text Encoding Initiative Consortium (www.tei-c.org)

Extrait corpus TALANA (avec syntagmes) TALANA (Traitement Automatique du Langage Naturel – Univ. Paris 7 ) <S> <PP>Au_cours_de:P <NP> la:Dfs conférence_de_presse:NC-fs <Srel> <NP>qui:PROR-3fs </NP> <VP> a:VP-3s clos:VK-ms </VP> <NP> cette:D-fs rencontre:NC-fs </NP> </Srel> </NP> </PP> ,:PONCT <NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP> <VP> est:VP-3s revenu:VK-ms </VP> <PP> sur:P <NP> les:D-mp incidents:NC-mp <PP> de:P lundi:NC-ms soir:NC-ms </PP> <Srel> <PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP> <NP>:de-les:D-mp manifestants:NC-mp </NP> <VP> ont:VP-3p mis_à_sac:VK-ms </VP> <NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP> <PP> de:P la:D-fs Stasi:NP-fs </PP> </NP> </Srel> </NP> </PP> </S> http://www.li.univ-tours.fr/taln-recital-2001/actes_taln01.html

Types de corpus (2) Monolingues (BNC…) Bilingues ou multilingues Languée parlée (CLAPI…) /langue écrite (CORIS/CORDIS)

Types de corpus (3) « Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair, Preliminary recommendations on Corpus Typology. Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards), 1996. Un corpus spécialisé est un corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Types de corpus (4) corpus comparables : ensemble de corpus ayant été compilés selon les mêmes critères mais: - dans des variantes différentes d’une même langue - dans des langues différentes et en tenant compte des différences culturelles corpus parallèles : couples de corpus dans des langues différentes et dont l’un est la traduction de l’autre. (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Corpus parallèle Canadian Hansard Corpus (2001) 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (http://transsearch.iro.umontreal.ca/)

Corpus parallèle MULTEXT (1996) a cura di vito pirrelli http://aune.lpl.univ-aix.fr/projects/multext/ 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) 800.000 parole allineate a livello di frase (inglese come lingua “pivot”) a cura di vito pirrelli

Types de corpus (5) corpus d’apprenants : corpus qui contiennent des productions écrites et/ou orales des apprenants d’une langue seconde et sont utilisés - pour décrire l’interlangue et donc les difficultés des apprenants - élaborer une typologie des erreurs (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt) Learner Corpus around the World http://leo.meikai.ac.jp/~tono/lcorpuslist.html Learner Corpus Data http://www.eng.ritsumei.ac.jp/asao/lcorpus/

Représentativité domaines, situations… sexe, âge… variantes… fréquence (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Software per l’analisi dei testi Metasiti Centre for Corpus Research http://www.corpus.bham.ac.uk/links.htm Corpora for Language Learning and Teaching http://www.corpora4learning.net/resources/materials.html Alphabit.net http://www.alphabit.net/Corsi/IUlinks/Concwarelist.htm Sito di Federico Zanettin http://www.federicozanettin.net/sslmit/cl.htm

Rôle des corpus étude de la grammaire analyse terminologique construction des dictionnaires étude sémantique études comparatives pour la traduction assistée (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Où trouver les corpus ? Web Cd-rom Créer soi même