Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Slides:



Advertisements
Présentations similaires
Multilingual eLearning in LANGuage Engineering
Advertisements

Extraction de synonymes à partir d’un corpus multilingue aligné
Aides logicielles à l'écriture
Module lexicographie II
DÉFINITION DU DOMAINE D’ÉVALUATION (DDE) CONTENU DE LA PRÉSENTATION
Terminologie, glossaires et banques de données. Quest-ce que la terminologie? La terminologie est l'ensemble des termes relatifs à un système notionnel.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Faculté des Sciences, Service des Langues
Olivier Kraif, Agnès Tutin LIDILEM
De la mise en page à la mise en écran : le cas des colonnes
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Chapitre 4 : la gestion électronique des documents
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Initiation à la conception de systèmes d'information
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Plate-forme d’enseignement Moodle
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction théorie et pratique
Introduction théorie et pratique
Le projet de terminologie
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Les techniques des moteurs de recherche
La monarchie absolue en France
La veille numérique : un outil pour s'informer intelligemment &
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Corpus et concordances
Dictionnaires, lexicographie, lexicographes
Sylwia Ozdowska1, Vincent Claveau2
Méthodes et techniques
Dominique LAURENT Patrick SEGUELA
Recherche d’information
B2i école : domaines, aptitudes et pistes d’activités
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Éducation. Éducation definition L'éducation est, étymologiquement, l'action de « guider hors de », c'est-à-dire développer, faire produire. Il signifie.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
1 PAM – HTML5 - Sémantique. 2 Contexte Groupe IHE-PAM-Fr publie annuellement au format Pdf l’annexe française du profil PAM. Ce document contient la spécification.
LES PROGRAMMES DE LANGUES ANCIENNES AU COLLEGE S’inscrivent dans la logique du socle commun de connaissances et de compétences Dominique BAUDOUIN IA-IPR.
Recherche Documentaire et traitement de l’information
Le projet de terminologie
ETI Département de traitement informatique multilingue Présentation ASTTI Neuchâtel, 7 juin 2011 Les outils d’aide à la traduction: peut-on s’équiper à.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Présentation des outils de recherche d’informations scientifiques.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Mémoire de fin d’études
Dreamweaver Séance 1.
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
Évaluation sommative de la traduction pragmatique en dernière année de formation : expérience en cours à Lille III afin d’allier critères universitaires.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Correspondance B2i - Technologie
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à l’utilisation des corpus
Transcription de la présentation:

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra VOLANSCHI avolansk@eila.univ-paris-diderot.fr 1

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement/l’effort nécessaire pour les construire ? 2

Questions abordées Qu'est-ce qu'un corpus ? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? Dans quel but doit-on constituer des corpus dans le cadre du Master ? Ou trouver du corpus ? Comment stocker le corpus ? 3

Questions abordées Suite … Comment trouver du corpus? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel sur les formats de fichiers) De quels outils dispose-t-on pour exploiter les corpus? Outils d’interrogation des corpus Outils d’annotation 4

Evaluation 1/2 DST  Decembre 1/2 Qualité du corpus, présence et activité en cours 5

Questions abordées 1. Qu'est-ce qu'un corpus? Quels types de corpus y a-t-il ? Quelques exemples. A quoi peut servir un corpus ? A quoi ça va servir dans le cadre du Master ? 6

Qu’est-ce qu’un corpus? Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques rassemblées selon des critères spécifiques collectées sous format électronique. 7

ET A QUOI RESSEMBLE UNE CONCORDANCE? Corpus et concordanciers Format électronique  les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) mais interrogés (concordanciers) La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc, ou .pdf. Un concordancier est un logiciel qui construit des concordances. ET A QUOI RESSEMBLE UNE CONCORDANCE? 8

Concordances monolingues Exemple 1 Exemple 2 comparer les divers emplois|sens d'un même terme observer la fréquence des mots identifier des collocation, définitions observer des propriétés distributionnelles de certains mots. (exemple : les Voisins de le Monde, Word Sketch) 9

Concordances bi-lingues Exemple 2 Exemple 1 la traduction des passages correspondant à la requête résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés??? méthodes d'alignement entrée aux systèmes de traduction automatique basés sur des mémoires de traduction . 10

QUEL TYPE D’ANNOTATION???? Quels types de corpus existe-t-il? support : papier, électronique, oral, vidéo version langagière : monolingue, bilingue (comparable ou alignés), multilingue originaux, traductions locuteurs natifs ou apprenants de la langue état de la langue : synchronique ou diachronique but : corpus de référence ou de spécialité. ouvert // ferme  présence d'annotation : textes bruts ou annotés QUEL TYPE D’ANNOTATION???? 11

Quel type d’annotation ? les attributs de formatage : paragraphes, sections, titres, etc. l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple l'analyse linguistique du contenu du texte : étiquetage morpho-syntaxique (tagging) Exemple lemmatisation Exemple analyse syntaxique Exemple 12

Dans quels domaines on les utilise? Lexicographie (aide a la constitution de dictionnaires) Apprentissage des langues Études sociolinguistiques Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Terminologie, traduction, rédaction technique  analyser les caractéristiques des textes traduits aide à la traduction 13

Quels sont les avantages des corpus par rapport aux Réflexion Quels sont les avantages des corpus par rapport aux Textes imprimes Dictionnaire (hint) Expert WWW  Intuition 14

 Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec l’information dans le BNC 15