corpus spéciale et spécialisée

Slides:



Advertisements
Présentations similaires
Activité 1 OBJECTIF : Réalisation de tâches dites complexes pour identifier différentes dimensions qui permettent de rendre compte de la complexité de.
Advertisements

Règles de nommages Eric Bleuzet Philippe Terme.
Présentation du projet JAVA Système de messagerie instantanée cryptée.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Des outils pour travailler la compréhension au cycle 2 Je lis, je comprends CE1.
La question sur corpus.
Le Bug Tracking Pourquoi chasser les insectes? Théotim Delannay Aymeric Boisard.
LES OBSERVATIONS DES OSCILLATIONS DES BÂTIMENTS EXISTANTS, PENDANT L'ENFONCEMENT D'UN PIEU DANS LES CONDITIONS DE LA VILLE DE DNEPROPETROVSK. FACULTÉ DU.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
annuités, mensualités remboursements constants VPM pendant une période ininterrompue
ARCHITECTURE RESEAUX.
Recherche Summon - HINARI (Module 3)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
épreuve E6 questionnement possible
Utiliser la vidéoprojection en SES
Objectifs pédagogiques et structuration des contenus d’enseignement
Division de la Planification et de la Recherche en Collecte
Table passage en caisse
Tunis (Tunisie), 3 – 6 Octobre 2017
MOT Éditeur de modèles de connaissances par objets typés
BEN AMMAR Mouadh Master 2 PLS IHM
à la production industrielle
Démarche qualité sur les chantiers du génie civil
Le logiciel HYPERBASE-LATIN :
Titre du projet scientifique
Formation ELAN Fonctions avancées 2
Regroupement contextuel de cimes dans les images aéroportées
II- Les annotations des productions écrites
BTS Support à l’Action Managériale
Faculté d’éducation | Faculty of Education
Exploiter le Web Etape 2.
Formation sur les bases de données relationnelles.
Rentrée scolaire 2018 Test de positionnement de début de Seconde
du rouge à levre et -personnalite/
L ’acheteur organisationnel
Programme financé par l’Union européenne
Le processus dans “Base Elèves premier degré”
A l’aide du triangle pédagogique de Jean Houssaye
Ch.2-Dynamique des échanges-Diapo1
CHAPITRE 10 Temps et évolution chimique Cinétique et catalyse
Épreuve écrite E4.1 BTS CG Session /02/2017.
Introduction à l’utilisation des corpus
Analyse de la pluralité linguistique :
Outils de recherche d’informations scientifiques
Guide n° 1 Formation initiale
Les mesures dans les enquêtes
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Affichage et tri des résultats
Je clique sur l’icône Kiosk en page d’accueil de E-SIDOC sur le site du cdi : pour un accès découverte. Les revues.
Explorer le monde Se repérer dans le temps et dans l'espace
Présentation 4 : Sondage stratifié
L’Histoire des arts à l’école
MATHÉMATIQUES FINANCIÈRES I
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Reconnaissance de formes: lettres/chiffres
Présentation du B2i école Références : B.O. n° 42 du 16 novembre 2006
Administrer le site des théâtres de Compiègne
Les calculs usuels sur les prix
Elles contiennent des informations autre que géométriques
Les activités à l’écrit
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Formation « Utiliser un site Internet école »
Panorama of Recommender Systems to Support Learning
FINLANDE : Nov 2017 Adihainaut 30/01/2018
Formation ELAN Fonctions avancées 2
Exploitation de vos données
Sigle optionnel en français FBD
MOT Éditeur de modèles de connaissances par objets typés
Les données structurées et leur traitement
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

corpus spéciale et spécialisée Corpus spécialisés se caractérise par être homogène plus petits et sont faits avec un but précis. Meyer et Mackintosh Browker (1996) et Pearson (1998); les caractéristiques que nous devons prendre en considération pour développer un corpus d'espécialisée sont:

Corpus d'espécialisée 1. Taille du corpus 3. chronologie des textes 2. domaine de spécialisation 1. Taille du corpus 3. chronologie des textes 10. type de texte et récepteurs Corpus d'espécialisée 4. Mode de production 9. degré de technicité 5. factualité 8. les éléments relatifs à la publication 7. auteur et caractéristiques 6. qualité des textes

Pearson établit une classification des situations de communication divers textes nature Entre experts entre les experts et les initiés entre les demi experts et non-initiés entre l'enseignant et l'élève

corpus de textes en différentes langues corpus bilingue ou multilingue Les textes sont sélectionné selon critères de natures différentes Disponibilité des textes, genre et temps corpus bilingue ou multilingue corpus qui rassemble des textes originaux et des traductions originaux dans une langue d'autres textes similaires corpus comparable corpus parallèle textes dans une langue et traduit en une ou plusieurs langues.

Traitements corpus: texte d'annotation et outils d'analyse sont des groupements textuelles qui peuvent être: Nus (collections textuelles en format électronique) Enregistré (sont collections textuelles dans laquelle ajoutent une série de notes de diverse nature)

Leech (1993) les caractéristiques général de las annotations du corpus peuvent être résumé en sept points: 1. élimination facile d'étiquettes pour obtenir la version originale du texte 4. Indication du système d'entrée de las annotations et les auteurs 2. extraction des annotations pour établir un base de données indépendante du texte 5. Indication de la possible existence d'erreurs dans l'annotation. 6. Utilisation des systèmes d'annotation neutre et largement acceptée 3. utilisation des normes utilisées pour les annotations afin qu'elles peuvent être connus par l'utilisateur et interpréter sans problème 7. accepter l'existence d'autres normes et systèmes annotation

Type d’ annotations possible différencier en deux groupes principaux: avec information extralinguistique linguistique l'information dans l'en-tête du corpus intra-textuelle et peut être de diffèrent type Origène du texte (langue, date, auteur, domaine à laquelle il appartient morphologique Syntactique Structurel Lemmatisation Aliénation données que permet classer le texte (genre fonction, etc)