Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Slides:



Advertisements
Présentations similaires
Multilingual eLearning in LANGuage Engineering
Advertisements

Extraction de synonymes à partir d’un corpus multilingue aligné
Aides logicielles à l'écriture
Module lexicographie II
DÉFINITION DU DOMAINE D’ÉVALUATION (DDE) CONTENU DE LA PRÉSENTATION
Amendements à la NIMP No Steward: John Hedley.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Constitution de produits terminologiques à partir de corpus
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Olivier Kraif, Agnès Tutin LIDILEM
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
LA GESTION DE PROJETS APPLIQUÉE AU SECTEUR DE LA TRADUCTION
Exemple : Itinéraire de lecture.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Cartes Conceptuelles Daniel Peraya
Chapitre 4 : la gestion électronique des documents

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Plate-forme d’enseignement Moodle
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
La monarchie absolue en France
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Corpus et concordances
Dictionnaires, lexicographie, lexicographes
Sylwia Ozdowska1, Vincent Claveau2
Méthodes et techniques
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Comment se documenter sur un sujet Méthodologie de la traduction I.
LES PROGRAMMES DE LANGUES ANCIENNES AU COLLEGE S’inscrivent dans la logique du socle commun de connaissances et de compétences Dominique BAUDOUIN IA-IPR.
3.3 Communication et réseaux informatiques
Recherche Documentaire et traitement de l’information
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Le projet de terminologie
L’Ergonomie dans la conception
( ) Collège de Maisonneuve
ETI Département de traitement informatique multilingue Présentation ASTTI Neuchâtel, 7 juin 2011 Les outils d’aide à la traduction: peut-on s’équiper à.
Video.
Présentation des outils de recherche d’informations scientifiques.
L ’opérationnalisation des objectifs
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Mémoire de fin d’études
Mais d’abord rappelez-vous!!
Dreamweaver Séance 1.
Unité N°1: Système Informatique
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
Évaluation sommative de la traduction pragmatique en dernière année de formation : expérience en cours à Lille III afin d’allier critères universitaires.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à l’utilisation des corpus
Transcription de la présentation:

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra VOLANSCHI

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement/l’effort nécessaire pour les construire ?

Questions abordées Qu'est-ce qu'un corpus ? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? Dans quel but doit-on constituer des corpus dans le cadre du Master ? Ou trouver du corpus ? Comment stocker le corpus ?

Questions abordées Les prochaines séances Comment trouver du corpus? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel sur les formats de fichiers) De quels outils dispose-t-on pour exploiter les corpus? Outils d’interrogation des corpus Outils d’annotation

Evaluation 1/3 DST  Novembre 1/3 Rapport sur l’utilisation du corpus 1/3 Qualité du corpus

Questions abordées 1. Qu'est-ce qu'un corpus? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? A quoi ça va servir dans le cadre du Master ?

Qu’est-ce qu’un corpus? Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques rassemblées selon des critères spécifiques collectées sous format électronique.

Corpus et concordanciers Format électronique  les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) mais interrogés (concordanciers) La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc, ou .pdf. Un concordancier est un logiciel qui construit des concordances. ET A QUOI RESSEMBLE UNE CONCORDANCE?

Concordances monolingues Exemple 1 Exemple 2 comparer les divers emplois|sens d'un même terme observer la fréquence des mots identifier des collocation, définitions observer des propriétés distributionnelles de certains mots. (exemple : les Voisins de le Monde, Word Sketch)

Concordances bi-lingues Exemple 1 Exemple 2 la traduction des passages correspondant à la requête résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés??? méthodes d'alignement qui établissent automatiquement des liens entre les segments correspondants de textes traduits entrée aux systèmes de traduction automatique basés sur des mémoires de traduction (unités de traduction extraites à partir d'un corpus parallèle).

Quels types de corpus existe-t-il? support : papier, électronique, oral, vidéo version langagière : monolingue, bilingue (comparable ou alignés), multilingue originaux, traductions locuteurs natifs ou apprenants de la langue état de la langue : synchronique ou diachronique but : corpus de référence ou de spécialité. ouvert // ferme  présence d'annotation : textes bruts ou annotés QUEL TYPE D’ANNOTATION????

Quel type d’annotation ? les attributs de formatage : paragraphes, sections, titres, etc. l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple l'analyse linguistique du contenu du texte : étiquetage morpho-syntaxique (tagging) Exemple lemmatisation Exemple analyse syntaxique Exemple marquage prosodique des corpus oraux transcrits Exemple annotation des erreurs dans les corpus des apprenants Exemple ET A QUOI PEUT SERVIR L’ANNOTATION ???

Dans quels domaines on les utilise? Lexicographie (aide a la constitution de dictionnaires) Apprentissage des langues Études sociolinguistiques Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Terminologie, traduction, rédaction technique  analyser les caractéristiques des textes traduits. aide à la traduction.

Quels sont les avantages des corpus par rapport aux Réflexion Quels sont les avantages des corpus par rapport aux Textes imprimes Dictionnaire (hint) Expert WWW  Intuition

Ø Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec l’information dans le BNC