Extraction de synonymes à partir d’un corpus multilingue aligné

Slides:



Advertisements
Présentations similaires
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Advertisements

Echanges de Données Informatisées LABOratoires-commanditaires
Données du réseau sismique de lOVPF Réseau sismique de lOVPF 5 éruptions sur la période étudiée 07/1999 à 12/2000 Différents types de signaux : Comment.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Olivier Kraif, Agnès Tutin LIDILEM
STATISTIQUES GÉNÉRALES. Identification du diaporama Thème :Statistiques Sous thème ou activité :Statistiques générales 2008 Public :tout Rédacteur :Y.Salliou.
Analyse et structuration thématiques
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Indexation textuelle : Systèmes de recherche d’informations
Emois – mars 2001 Indicateurs de qualité de codage dans une base régionale de RSA. JM Cauvin, D Laigo, M Le Berre, JL Scheydeker Association Bretonne de.
Reconnaissance de la parole
Cordial, le TAL et les aides à la rédaction
MISE AU POINT D’ANALYSES RAPIDES EN CHROMATOGRAPHIE GAZEUSE
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
Vers une ontologie du domaine de l’astronomie
Impact maximum entre la 1 ere et la 15 e année (lancement en 2021) 1.1. Augmentation de la facture deau pour le projet de Cénomanien Mise en service de.
Alexandria, cest quoi ?. Des mots aux idées… Voici un dictionnaire multilingue pour votre site web. Il s'appelle Alexandria. C'est le premier du genre.
CAS DE RECHERCHE SUR LES BASES - Mme Nafissa BELCAID (OMPIC) -
1 Application de la méthodologie Standard Cost Model (SCM) à la tutelle des pouvoirs locaux.
Aide personnalisée Gestion d’Ateliers En Ligne
Moteur de recherche d’information
Moteur de recherche d’information
Reconnaissance Vocale
PRIÈRE ŒCUMÉNIQUE Seigneur, nous te louons pour ta volonté de nous accueillir tous dans ton unique maison malgré nos différences. Aide-nous à ouvrir.
Algorithme pour le web Géraldine Schneider
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Trésorerie Générale du Royaume
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI Jean-Jacques DUMÉRY -1-
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Octobre Période 11 Les icônes dans les environnements informatiques standardis é s Daniel Peraya M. Viera, M. Acosta TECFA Universit é de Gen.
Heg Haute école de gestion de Neuchâtel Gestionnaire d'exception Procédures stockées PL/SQL.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Presenter les résultats de la capitalisation
Heg Haute école de gestion de Neuchâtel 07/12/00Paramétrage des filtres V0-01 Paramétrage des formulaires de filtre (Query)
Jacques Vergne GREYC - Université de Caen
TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
Projet : Automatiser la découverte de moyens mnémotechniques
Dictionnaires, lexicographie, lexicographes
Organisation administrative
LA COMPOSANTE INTERCULTURELLE
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Suivi de trajectoires par vision Y. Goyat, T. Chateau, L. Trassoudaine 1.
1 Sébastien Comos Avancement SOA et framework ISICIL 21 Septembre 2009.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Formulaires exercices.
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Les dictionnaires français Part 3 Ce qu’il faut savoir et ce qu’il faut éviter Developed by Céline Benoit, Aston University.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Extraction de synonymes à partir d’un corpus multilingue aligné Lonneke Van der PLAS Jörg TIEDEMANN Jean-Luc MANGUIN

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Introduction Traitement automatique d’un corpus. Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés. Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Qui fait quoi ? (ou : le plan) Alignement mot à mot du corpus multilingue (J. Tiedemann) Extraction de synonymes (L. van der Plas) Evaluation par comparaison avec un dictionnaire de référence (JL Manguin) Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Le corpus utilisé Corpus Europarl : actes du parlement européen (Ph. Koehn) 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois) Partie française : 33 millions d’occurrences dans 1 million de phrases Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 L’alignement Premier alignement par phrases (nécessaire avant l’étape suivante) Alignement mot à mot avec l’outil Open Source GIZA++ (F.J. Och) Lemmatisation Pas de détection préalable des unités composées Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Les vecteurs caractéristiques Un exemple en néerlandais : automne_FR outono_PT autumn_EN fall_EN herfst 102 92 75 67 najaar 89 78 90 69 La fréquence est utilisée pour les traitements. On impose un double seuil sur les colonnes et les lignes. Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Les traitements La similarité est calculée avec l’indice de Dice « pondéré » : La pondération est faite par l’information mutuelle spécifique : Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Exemple de résultats accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Évaluation : méthode Filtrage catégoriel (avec dictionnaire externe) Mesures sur les synonymes proposés pour une liste de 950 mots Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les mesures Couverture Précision Rappel Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les résultats (1) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les résultats (2) Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007 Bilan et perspectives Technique améliorable par la prise en compte des unités composées Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe Importantes perspectives lexicographiques Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Merci de votre attention ! Des questions ? Any questions ? ¿ Preguntas ? Irgendwelche Fragen ? Vragen ? Domande ? Alguma pergunta ? Van der Plas, Tiedemann, Manguin - JLC Lorient 2007