Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI

Slides:



Advertisements
Présentations similaires
Extraction de synonymes à partir d’un corpus multilingue aligné
Advertisements

LANGUES VIVANTES à l’Ecole Primaire
Module lexicographie II
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Enseigner l'anglais : ce que préconisent les Instructions Officielles
Olivier Kraif, Agnès Tutin LIDILEM
De la mise en page à la mise en écran : le cas des colonnes
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Chapitre 4 : la gestion électronique des documents
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
La trace écrite Patricia MULLER
Initiation à la conception de systèmes d'information
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Recherche Documentaire et traitement de l’information
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
(A. Meurant - UCL )1 Grammaire de base et lecture de textes latins ( ) Premier baccalauréat en Philosophie et Lettres (Langues et littératures.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Le projet de terminologie
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Les techniques des moteurs de recherche
La monarchie absolue en France
La veille numérique : un outil pour s'informer intelligemment &
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
Licence de Libre Diffusion des Documents -- LLDD version 1 Ce document peut être librement lu, stocké, reproduit, diffusé, traduit et cité par tous moyens.
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Corpus et concordances
LA RECHERCHE DOCUMENTAIRE
Dictionnaires, lexicographie, lexicographes
Méthodes et techniques
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Éducation. Éducation definition L'éducation est, étymologiquement, l'action de « guider hors de », c'est-à-dire développer, faire produire. Il signifie.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
1 PAM – HTML5 - Sémantique. 2 Contexte Groupe IHE-PAM-Fr publie annuellement au format Pdf l’annexe française du profil PAM. Ce document contient la spécification.
LES PROGRAMMES DE LANGUES ANCIENNES AU COLLEGE S’inscrivent dans la logique du socle commun de connaissances et de compétences Dominique BAUDOUIN IA-IPR.
Recherche Documentaire et traitement de l’information
Le projet de terminologie
( ) Collège de Maisonneuve
ETI Département de traitement informatique multilingue Présentation ASTTI Neuchâtel, 7 juin 2011 Les outils d’aide à la traduction: peut-on s’équiper à.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Présentation des outils de recherche d’informations scientifiques.
L ’opérationnalisation des objectifs
Mémoire de fin d’études
Dreamweaver Séance 1.
INF2005– Programmation web– A. Obaid Variantes de HTML.
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Correspondance B2i - Technologie
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à l’utilisation des corpus
Transcription de la présentation:

Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI

Question ouverte Est-il bien utile dutiliser les corpus comme aide à la traduction étant donné linvestissement/leffort nécessaire pour les construire ?

Qu'est-ce qu'un corpus ? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? Dans quel but doit-on constituer des corpus dans le cadre du Master ? Ou trouver du corpus ? Comment stocker le corpus ? Questions abordées

Les prochaines séances Sous quelle forme faut-il le stocker pour quil soit facilement utilisable ? (rappel sur les f ormats de fichiers) De quels outils dispose-t-on pour exploiter les corpus? Outils dinterrogation des corpus

Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques rassemblées selon des critères spécifiques collectées sous format électronique. Quest-ce quun corpus?

Corpus et concordanciers Format électronique les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) mais interrogés (concordanciers) La plupart des logiciels danalyse textuelle sont bases sur le format texte brut (.txt). Pas de.doc, ou.pdf. Un concordancier est un logiciel qui construit des concordances. ET A QUOI RESSEMBLE UNE CONCORDANCE?

Concordances monolingues Exemple 1Exemple 2 comparer les divers emplois|sens d'un même terme observer la fréquence des mots identifier des collocation, définitions observer des propriétés distributionnelles de certains mots. (exemple : les Voisins de le Monde, Word Sketch)Voisins de le MondeWord Sketch

Concordances bi-lingues la traduction des passages correspondant à la requête résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés??? méthodes d'alignement Mémoires de traduction Entrée aux systèmes de traduction automatique Exemple 1 Exemple 2

Quels types de corpus existe-t-il? support : papier, électronique, oral, vidéo version langagière : monolingue, bilingue (comparable ou alignés), multilingue originaux, traductions locuteurs natifs ou apprenants de la langue état de la langue : synchronique ou diachronique but : corpus de référence ou de spécialité. ouvert // ferme présence d'annotation : textes bruts ou annotés QUEL TYPE DANNOTATION????

Quel type dannotation ? les attributs de formatage : paragraphes, sections, titres, etc. l'information textuelle : date de publication, auteur, type de texte, registre, etc. ExempleExemple l'analyse linguistique du contenu du texte : étiquetage morpho-syntaxique (tagging) ExempleExemple lemmatisation ExempleExemple analyse syntaxique ExempleExemple ET A QUOI PEUT SERVIR LANNOTATION ???

Dans quels domaines on les utilise? Lexicographie (aide a la constitution de dictionnaires) Apprentissage des langues Études sociolinguistiques Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Terminologie, traduction, rédaction technique analyser les caractéristiques des textes traduits. aide à la traduction.

Réflexion Quels sont les avantages des corpus par rapport aux Textes imprimes Dictionnaire (hint)hint Expert WWW Intuition

Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec linformation dans le BNCBNC