Corpus parallèles et textométrie

Slides:



Advertisements
Présentations similaires
André Salem Montréal 2004 Approches quantitatives des corpus textuels André Salem Systèmes linguistiques, énonciation et discursivité (SYLED - EA 2290)
Advertisements

À lécoute de vos consommateurs sur la blogosphère Une nouvelle source de connaissance.
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)
Utilisation de Microsoft Excel
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
ANDRE Marine DABIN Julie WATERLOT Amandine
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Outil de statistique textuelle FALLET Justine CRUAUD Marion
Programmation et projet encadré
Discours et TAL TAL et discours
TP coordonnés de 3ème année (UFR de Pharmacie, Nantes)
Complexité et Classification
Un regard sur les méthodes mobilisables pour la géoprospective
Réanimation et infections nosocomiales
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
L’information scientifique et technique
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Une approche du cinéma en classe de FLE en utilisant les TIC. VI e CONGRÈS INTERNATIONAL DE LINGUISTIQUE FRANÇAISE Université de Grenade, novembre.
Exploration textuelle dinteractions verbales entre un adulte et un enfant avec Lexico3 Luiggi Sansonetti Université Paris 3 – ILPGA EA2290 – SYLED CLA2T.
Utilisation de corpus de langage oral avec d’autres logiciels
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Segmentation thématique de textes : au-delà de la récurrence lexicale
La statistique textuelle et ses logiciels
Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining
Textométrie : point de vue linguistique des données
Apprentissages scolaires
Thibault ROY Laboratoire GREYC Université de Caen / Basse-Normandie Une plate-forme logicielle dédiée à la cartographie de corpus Journées portes ouvertes.
Claire Gélinas-Chebat
Campus Numérique « Économie Sociale et Solidaire » Un outil de découverte et de compréhension de léconomie sociale et solidaire.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Finance organisationnelle : un essai de représentation Stéphane TREBUCQ, Université de Bordeaux (JADT 2004) Recherche : synthèse d’un corpus théorique.
Technologies pour lApprentissage et lEducation Colloque de prospective Paris, 25 novembre © ENST Lactivité dapprentissage.
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
École de bibliothéconomie et des sciences de l’information 1 Gestion de l’information électronique (GIE) Maîtrise en sciences de l’information EBSI Université.
Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Projet de Recherche Nathalie GORMEZANO Directrice générale de l’ISIT
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
1 Réconciliation de références LRI (UMR 8623 CNRS) / INRIA-Futurs, équipe IASI/Gemo Université Paris-Sud XI.
Atelier 1.1: Outils numériques pour l’opérationnalisation de la relation universités-entreprises - Conception d’une offre pertinente - Mise en œuvre d’une.
La Qualité dans les Systèmes d’Information
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
L’historien, le texte et l’ordinateur novembre 2006 – École Normale LSH de Lyon U.M.R. 6039, CNRS – ILF – UNSA L’apport de l’Analyse de Données.
Docteur en Sciences et Techniques des Activités Physiques et Sportives
La Grille STARD à l’interface Anglais / LCA
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
André Salem Dourdan 2005 Approches quantitatives des corpus textuels André Salem Systèmes linguistiques, énonciation et discursivité (SYLED - EA 2290)
Sylwia Ozdowska1, Vincent Claveau2
Recherche d’information
23 Nov. 2005Colloque Médiathèques1 Nouvelles méthodes d’accès assisté à l’information Approches sémantiques Documents textuels et multimédia Patrice Enjalbert.
Un processus pour la prise de décision spatiale.
5 La grammaire dans les méthodes multimédia
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni.
Le projet de terminologie
TEXT MINING Fouille de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
DYNI DYNamiques de l'Information [DYNI – UMR LSIS] Activité en traitement image resp. Pr. GLOTIN Inst. Univ de France & USTV - Contexte.
XML et modules passerelles Un juste compromis Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO – ED268 – Paris 3 Journée ATALA – 12 février 2005 – Paris.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
André Salem Société de linguistique de Paris - ENS 20/01/07 L’approche textométrique des corpus textuels André Salem Systèmes linguistiques, énonciation.
Transcription de la présentation:

Corpus parallèles et textométrie JADT'04 Corpus parallèles et textométrie Maria ZIMINA EA 2290 SYLED Université de la Sorbonne nouvelle  Paris 3 zimina@msh-paris.fr

Textométrie parallèle JADT'04 Textométrie parallèle Les méthodes quantitatives apportent un éclairage précieux sur des régularités dans la structuration de discours parallèles. L’approche textométrique de corpus parallèles permet d’envisager la conception de nouvelles procédures informatisées pour le traitement automatique de l’information bi-textuelle.

Approches quantitatives de corpus de traduction JADT'04 Approches quantitatives de corpus de traduction Types de tâches Méthodes privilégiées Extraction de ressources traductionnelles Segments répétés Spécificités Alignement de corpus Réseaux de cooccurrences Vérification de l’alignement CAH Synthèse de l’information bi-textuelle AFC Navigation dans le bi-texte Topographie bi-textulle

Exemple : la carte bi-textuelle (i) JADT'04 volet français volet anglais fonctionnaires Lexico3

Exemple : la carte bi-textuelle (ii) JADT'04 volet français volet anglais fonctionnaires servants Lexico3

Perspectives ouvertes par l’approche topographique du bi-texte JADT'04 Perspectives ouvertes par l’approche topographique du bi-texte Navigation interactive dans les textes parallèles ; Repérages automatiques d’équivalences de traduction ; Découverte de structures lexicales parallèles ; Synthèse d’information bi-textuelle ; …

Pour en savoir plus… JADT'04 Lamalle C., Martinez W., Fleury S., Salem A. et al. (2003). Lexico3 – Outils de statistique textuelle. Syled-CLA2T, Université de la Sorbonne nouvelle – Paris 3 : http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW Martinez W., Zimina M. (2002). Utilisation de la méthode des cooccurrences pour l'alignement des mots de textes bilingues. In Actes des JADT’02, Saint-Malo. Zimina M. (2002). Repérages lexicométriques des équivalences à basse fréquence dans les corpus bilingues. In Véronis J. (Ed.), Lexicometrica, n° spécial Corpus alignés : http://www.cavi.univ-paris3.fr/lexicometrica/thema/thema6.htm Zimina M. (2000). Alignement de textes bilingues par classification ascendante hiérarchique. In Actes des JADT’00, Lausanne.