Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Slides:



Advertisements
Présentations similaires
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Advertisements

Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
BCDI MODE D’EMPLOI. Qu’est ce que BCDI ? BCDI est un logiciel de recherche: c’est catalogue des documents présent au CDI du collège.
FAIRE SA BIBLIOGRAPHIE DE THESE AVEC ZOTERO Traitements de texte pris en compte: Word et LibreOffice.
INITIATION A LA RECHERCHE EC151 ET EC251 COMMENT REUSSIR SON MEMOIRE DE M2 : Aide et méthode pour le construire.
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
A la fin de ton année de 4 ème, tu dois être capable d’utiliser parfaitement un Mais d’abord qu’est-ce qu’un TABLEUR ? ???? TABLEUR- GRAPHEUR Page suivante.
AID - Recherches - Stéphanie Vial & Patrick Johner Page 1 Journée 6 Pour une veille documentaire ou bibliographique.
De l’implicite à l’explicite
Le travail écrit Niveau Moyen. EN QUOI CONSISTE CETTE EPREUVE ? Le travail écrit est basé sur un des sujets du tronc commun : communications et médias.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Droites remarquables d'un triangle en 4e. ● Objectifs : Rappels, découverte des définitions et des propriétés des droites remarquables d'un triangle :
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
La résolution de problèmes ouverts au cycle 2 et cycle 3 « Mettre les élèves en situation d’essayer, conjecturer, tester, prouver. » (IREM de Lyon)
Livre numérique augmenté
Du plan de diagnostic à la planification des études
Correspondance B2i - Technologie
Téléchargement de fichiers
Les tables de multiplication au ce1 « Une construction réfléchie des tables favorise-t-elle leur mémorisation et leurs transferts ? » DOUARCHE Vaéa.
Rechercher des articles et des sites web
Construire des requêtes
Deviens un « Booktubeur »
Séance 2 Expression écrite.
Rechercher des articles et des sites web
Forum des Industries de la Langue, 17 mars 2010
Le rapport de laboratoire
Présentation v1 Semiosys Elie Naulleau
Qu’est-ce que lire?.
corpus spéciale et spécialisée
Cyber-Sphinx Séance 2.
Conclusions: Il comprend l’aspect qui implique l’étude des principal techniques utilisé dans le traduction des textes économiques de divulgation (Français.
poser des questions n’a jamais été aussi facile…
Ondes et signaux périodiques
Joseph Larmarange – Atelier d’écriture – Abidjan – Octobre 2017
Méthodologie de la recherche Programme du module.
Traduction de site vers l’anglais
Module 1: Généralités sur les systèmes informatiques Chapitre 1: Définitions et notions de base.
QU’EST-CE QUE LA LEXICOLOGIE ?
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
II- Les annotations des productions écrites
- Méthodologie - Rédiger une fiche de lecture -
</Présentation de solutions documentaires>
LA BIBLE A-T’ELLE ÉTÉ CHANGÉE? 17 ième PARTIE.
LES PROGRAMMES DE LANGUES ANCIENNES AU COLLEGE
Présentation de la base Frantext
Cours Organisation administrative
La synthèse de documents
Les points que nous avons retenus
Introduction à l’utilisation des corpus
Les différences articulatoires et acoustiques chez les hommes et les femmes dans la réalisation des voyelles successives en anglais américain Adrian P.
LA SYNTHESE ANGLAIS.
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Lycée Pierre Mendes-France, vitrolles Stéphane Vigouroux Marc Perez
CREATION DES RESSOURCES PEDAGOGIQUES NUMERIQUES INTERACTIVES
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
À quoi ressemble l’apprentissage électronique au Northeastern Catholic
Tableau de bord d’un système de recommandation
L’élaboration d’une fiche de lecture : éléments méthodologiques
Travaux de terrain Dr André Misombo Kalabela FETP Intermédiaire /AFENET/Togo 1er août 2019.
1 Trois éléments essentiels de l’affiche scientifique 1. Format général de l’affiche 2. Format spécifique de l’affiche 3. Contenu scientifique 4. Langue.
Le Brevet Informatique et Internet
Apprentissage de la lecture au cycle 2
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Comment aller plus loin avec Zotero? Comité d’Aide à la Publication, FMT Zotero worshop Hand’s on session Zotero worshop Hand’s on session 12h-12h30.
LE SYSTÈME D’INFORMATION LE (SI). Définition Qu’es ce que c’est une entreprise ■L’entreprise rassemble l’ensemble des activités d’une personnes ou d’un.
Transcription de la présentation:

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra VOLANSCHI 1

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement/l’effort nécessaire pour les construire ? 2

Questions abordées Qu'est-ce qu'un corpus ? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? Dans quel but doit-on constituer des corpus dans le cadre du Master ? Ou trouver du corpus ? Comment stocker le corpus ? 3

Questions abordées Les prochaines séances Comment trouver du corpus? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel sur les formats de fichiers) De quels outils dispose-t-on pour exploiter les corpus? Outils d’interrogation des corpus Outils d’annotation 4

Evaluation 1/3 DST  Novembre 1/3 Rapport sur l’utilisation du corpus 1/3 Qualité du corpus 5

Questions abordées 1. Qu'est-ce qu'un corpus? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? A quoi ça va servir dans le cadre du Master ? 6

Qu’est-ce qu’un corpus? Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques rassemblées selon des critères spécifiques collectées sous format électronique. 7

Corpus et concordanciers Format électronique  les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) mais interrogés (concordanciers) La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc, ou .pdf. Un concordancier est un logiciel qui construit des concordances. ET A QUOI RESSEMBLE UNE CONCORDANCE? 8

Concordances monolingues Exemple 1 Exemple 2 comparer les divers emplois|sens d'un même terme observer la fréquence des mots identifier des collocation, définitions observer des propriétés distributionnelles de certains mots. (exemple : les Voisins de le Monde, Word Sketch) 9

Concordances bi-lingues Exemple 1 Exemple 2 la traduction des passages correspondant à la requête résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés??? méthodes d'alignement qui établissent automatiquement des liens entre les segments correspondants de textes traduits entrée aux systèmes de traduction automatique basés sur des mémoires de traduction (unités de traduction extraites à partir d'un corpus parallèle). 10

Quels types de corpus existe-t-il? support : papier, électronique, oral, vidéo version langagière : monolingue, bilingue (comparable ou alignés), multilingue originaux, traductions locuteurs natifs ou apprenants de la langue état de la langue : synchronique ou diachronique but : corpus de référence ou de spécialité. ouvert // ferme  présence d'annotation : textes bruts ou annotés QUEL TYPE D’ANNOTATION???? 11

Quel type d’annotation ? les attributs de formatage : paragraphes, sections, titres, etc. l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple l'analyse linguistique du contenu du texte : étiquetage morpho-syntaxique (tagging) Exemple lemmatisation Exemple analyse syntaxique Exemple marquage prosodique des corpus oraux transcrits Exemple annotation des erreurs dans les corpus des apprenants Exemple ET A QUOI PEUT SERVIR L’ANNOTATION ??? 12

Dans quels domaines on les utilise? Lexicographie (aide a la constitution de dictionnaires) Apprentissage des langues Études sociolinguistiques Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Terminologie, traduction, rédaction technique  analyser les caractéristiques des textes traduits. aide à la traduction. 13

Quels sont les avantages des corpus par rapport aux Réflexion Quels sont les avantages des corpus par rapport aux Textes imprimes Dictionnaire (hint) Expert WWW  Intuition 14

 Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec l’information dans le BNC 15