Introduction à l’utilisation des corpus

Slides:



Advertisements
Présentations similaires
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Advertisements

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Mondialiser la solidarité Une stratégie de participation sur Internet.
La base de données de jurisprudence francophone.  Juricaf est composé de deux parties : - Le menu de gauche avec les différentes fonctions - La partie.
Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6.
B2I ( Premiers textes : BO n°42 du 23/11/2000) Rappel des objectifs du B2I À Rouen le 23 et 24 novembre 2006 L’objectif de ce brevet est de certifier un.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
La question sur corpus.
Refonte du portail eaufrance Présentation du cadre de référence pour avis GCIB – 14/10/2014 – Anne Macaire.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
Cahier des charges.
Acquisition Rapide Multivoies
Présenté par M. Anis DIALLO
Correspondance B2i - Technologie
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Conseils pour l’exposé oral
Le rapport de laboratoire
Un autre problème principal dans l'utilisation des sources d'information terminologique est la prolifération de vocabulaire en constante expansion cause.
ASSURER LE SUIVI DES MESSAGES TELEPHONIQUES
Forum des Industries de la Langue, 17 mars 2010
Les Bases de données Définition Architecture d’un SGBD
Politique linguistique pour le plurilinguisme

FENIX Aperçu GLOBALE DU Système
DEFINITION DU CONCEPT DE MODÈLE DE PERFORMANCE
corpus spéciale et spécialisée
Comment bien communiquer avec un diaporama
Analyse du bulletin officiel Structuration des sujets,
D'où vient tout ce Français ?
Apprendre des mots au cycle 2 Quelle progression ?
L’analyse de pratique Quelques pistes de réflexion pour vous guider dans votre analyse.
Tableau de bord des risques
ARTS PLASTIQUES OU HISTOIRE DES ARTS
D3 – Produire, traiter, exploiter et diffuser des documents numériques
Animation Val/Bruay le 05 décembre 2017
Problèmes terminologiques et Utilisation de systran
Le logiciel HYPERBASE-LATIN :
Les grandes étapes de la recherche
Introduction à l'évaluation d'accessibilité des sites Web
II- Les annotations des productions écrites
Rapport sur l'état d'avancement
Les facteurs travail et capital sont-ils les seules sources de la croissance économique ? TES - Correction DS E.1.1.
Plan 1- C’est quoi le commerce électronique ??
Faculté d’éducation | Faculty of Education
Comment faire une recherche info-documentaire ?
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Concentration, lecture et mémorisation
GUIDE DE MISE EN ŒUVRE d’une PRESENTATION
Exploiter le Web Etape 2.
Formation sur les bases de données relationnelles.
Techniques de diffusion électronique : L’annuaire statistique
Programmation Android Première application Android
Enregistrement des informations
LES PROGRAMMES DE LANGUES ANCIENNES AU COLLEGE
LES TRACES ECRITES Explorer le monde, enseigner les sciences à la maternelle Dakar du 11 au 13 avril 2018.
Organisation et évaluation
Outils de recherche d’informations scientifiques
4. Les techniques de recherche documentaire
Présenté par M. Anis DIALLO
La recherche avancée.
Conduite d’une autoévaluation
La gestion des pilotes de périphériques
Panorama of Recommender Systems to Support Learning
Principales stratégies de compréhension en lecture
Sigle optionnel en français FBD
UC : Diagramme des cas d’utilisation Req : Diagramme d’exigence
Observation Réfléchie de la Langue.
Les données structurées et leur traitement
Introduction RESULTATS Discussions Méthodes Conclusion
Transcription de la présentation:

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra MESTIVIER alexa.mestivier@gmail.com

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement/l’effort nécessaire pour les construire ?

Questions abordées Qu'est-ce qu'un corpus ? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? Dans quel but doit-on constituer des corpus dans le cadre du Master ? Comment stocker le corpus ?

Questions abordées Les prochaines séances Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel sur les formats de fichiers) De quels outils dispose-t-on pour exploiter les corpus? Outils d’interrogation des corpus

Qu’est-ce qu’un corpus? Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques rassemblées selon des critères spécifiques collectées sous format électronique.

Corpus et concordanciers Format électronique  les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) mais interrogés (concordanciers) Un concordancier est un logiciel qui construit des concordances. La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc, ou .pdf. ET A QUOI RESSEMBLE UNE CONCORDANCE ?

Concordances monolingues Exemple 1 Exemple 2 comparer les divers emplois|sens d'un même terme observer la fréquence des mots identifier des collocation, définitions observer des propriétés distributionnelles de certains mots. Outils dérivés : les Voisins de le Monde, Word Sketch

Concordances bi-lingues Exemple 1 Exemple 2 la traduction des passages correspondant à la requête résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés??? méthodes d'alignement Mémoires de traduction Entrée aux systèmes de traduction automatique

Quels types de corpus existe-t-il? support : papier, électronique, oral, vidéo version langagière : monolingue, bilingue (comparable ou alignés), multilingue originaux, traductions locuteurs natifs ou apprenants de la langue état de la langue : synchronique ou diachronique but : corpus de référence ou de spécialité. ouvert // ferme  présence d'annotation : textes bruts ou annotés QUEL TYPE D’ANNOTATION????

Quel type d’annotation ? les attributs de formatage : paragraphes, sections, titres, etc. l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple l'analyse linguistique du contenu du texte : étiquetage morpho-syntaxique (tagging) Exemple lemmatisation Exemple analyse syntaxique Exemple

Dans quels domaines on les utilise? Lexicographie (aide a la constitution de dictionnaires) Apprentissage des langues Études sociolinguistiques Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Terminologie, traduction, rédaction technique  analyser les caractéristiques des textes traduits. aide à la traduction.

Quels sont les avantages des corpus par rapport aux Réflexion Quels sont les avantages des corpus par rapport aux Textes imprimes Dictionnaire (hint) Expert WWW  Intuition

Ø Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec l’information dans le BNC