Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier

Slides:



Advertisements
Présentations similaires
Théorie des graphes.
Advertisements

A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Calculs de complexité d'algorithmes
Olivier Kraif, Agnès Tutin LIDILEM
LA GESTION DE PROJETS APPLIQUÉE AU SECTEUR DE LA TRADUCTION
GEF 435 Principes des systèmes d’exploitation
Inférence statistique
3. Analyse et estimation du mouvement dans la vidéo
Dr DEVILLE Emmanuelle J D V 12/07/2006
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Reconnaissance de la parole
Programmes du cycle terminal
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Introduction à l’Intelligence Artificielle
Algorithmique et Programmation
Décodage des informations
Optimisation et Complexité
RECONNAISSANCE DE FORMES
Algorithmique et Programmation
Reconnaissance Vocale
IFT Complexité et NP-complétude
Courbes de Bézier.
Gestion de Fichiers Tri Interne Efficace et Tri Externe.

Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Algorithmes d ’approximation
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Leçon 1 : notion dobjet IUP Génie Informatique Besançon Méthode et Outils pour la Programmation Françoise Greffier Université de Franche-Comté.
GPA750 – Gestion de Projets
Pour le chemin le plus court pour tous les couples
Recherche heuristique dans les bases de données L’algorithme BLAST
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
Programmation créative – Les vecteurs
LE FLOT MAXIMAL et LA COUPE MINIMALE
STATISTIQUES – PROBABILITÉS
Tutorat en bio-informatique Le 14 novembre Au programme… Les objets –Propriétés (attributs) –Constructeurs –Méthodes.
C++ L’HERITAGE Fayçal BRAÏKI DUT INFORMATIQUE.
Université Pierre et Marie Curie Laboratoire d’Informatique de Paris VI Département ASIM Analyse et résultats sur le dimensionnement des mémoires pour.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Du discours aux modèles… Une tentative d’articulation
Optimisation pour la Conception de Systèmes Embarqués
2005/2006 Structures de Données Introduction à la complexité des algorithmes.
Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Programmation créative – Les vecteurs
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
Memoire.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Techniques d’Optimisation Chapitre 2: Problème de flôt Dr TARI Abdelkamel Mars 2014.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Complexité algorithmique
Transcription de la présentation:

Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier

Eric Gaussier / 09-Jan-2001 / page 2 / Séminaire LIMSI Plan de la présentation Extraction de lexiques bilingues de corpus parallèlesExtraction de lexiques bilingues de corpus parallèles –De l’alignement de mots (problématique et méthodes) –À l’alignement de termes Deux classes d’applicationsDeux classes d’applications –Aide à la traduction automatique –Recherche d’information multilingue

Eric Gaussier / 09-Jan-2001 / page 3 / Séminaire LIMSI Du corpus parallèle à l’alignement de mots … …

Eric Gaussier / 09-Jan-2001 / page 4 / Séminaire LIMSI ExempleExemple Section 1.4 introduces the status of existing satellite communications systems. Le 1.4 expose l’état des systèmes de télécommunications par satellite. --- Examples of link budget calculations are given in annex II. Des exemples de calcul de bilan de liaison sont donnés dans l’annexe II. … Section 1.4 introduces the status of existing satellite communications systems.  Le 1.4 expose l’état des systèmes de télécommunications par satellite.

Eric Gaussier / 09-Jan-2001 / page 5 / Séminaire LIMSI Bref historique des travaux en extraction de lexiques bilingues Au niveau du corpusAu niveau du corpus –Comparaison des distributions des mots sur l’ensemble des phrases alignées –Kay & Röscheisen, 1988; Brown et al., 1988; Church & Gale, 1991; Au niveau des phrasesAu niveau des phrases –Affinement des paramètres avec ajout de contraintes et recherche du meilleur alignement entre mots (filtrage des associations indirectes) –Brown et al., 1993; Vögel et al., 1996; –Dagan et al., 1993; Melamed, 1997; Hiemstra, 1997; Gaussier, 1998;

Eric Gaussier / 09-Jan-2001 / page 6 / Séminaire LIMSI Principes généraux de l’extraction bilingue Méthode intuitive (Dagan, Church & Gale)Méthode intuitive (Dagan, Church & Gale) –Extraction de lexiques bilingues pondérés au niveau du corpus –Programmation dynamique pour l’alignement, de type 1-1 –Estimation initiale (?), alignements complexes (?) Alignements – variables cachées (Brown)Alignements – variables cachées (Brown) –Utilisation de l’algorithme EM sur des modèles de complexité croissante –Taille du corpus d’apprentissage (?), sens privilégié (?), complexité (?) Méthodes mixtes (Melamed, Hiemstra, Gaussier) Méthodes mixtes (Melamed, Hiemstra, Gaussier) –E-step: meilleur alignement (ou approximation) –IPFP – approximation (?), alignements complexes (?), positions relatives (?) –Graphes bipartis – alignements complexes (?), positions relatives (?) –Flots et réseaux – positions relatives (?)

Eric Gaussier / 09-Jan-2001 / page 7 / Séminaire LIMSI Flots et réseaux: présentation intuitive The first geostationary satellite was launched in Le premier satellite géostationnaire fut lancé en [0;1]

Eric Gaussier / 09-Jan-2001 / page 8 / Séminaire LIMSI Flots et réseaux: concepts Soit G=(N,A) un graphe connexe orientéSoit G=(N,A) un graphe connexe orienté –un flot  dans G satisfait:   (i + ) =   (i - ) –si l’on munit les arcs de G d’intervalles de capacité [b u ;c u ],  est compatible si b u   u  c u –si de plus l’on munit les arcs de G d’un coût , un flot de coût minimal est un flot compatible pour lequel  x  est minimal (  x  =  u  u ) –si de plus l’on munit les arcs de G d’un coût  u, un flot de coût minimal est un flot compatible pour lequel  x  est minimal (  x  =  u  u x  u ) En choisissant :  u = - ln(p(e i,f i )), le flot decoût minimal correspond au meilleur alignement (le plus probable)En choisissant :  u = - ln(p(e i,f i )), le flot de coût minimal correspond au meilleur alignement (le plus probable) Remarque : avec des bornes de capacité entières, le flot sur chaque arc est un entierRemarque : avec des bornes de capacité entières, le flot sur chaque arc est un entier

Eric Gaussier / 09-Jan-2001 / page 9 / Séminaire LIMSI Algorithme général 1.Initialisation des paramètres (coûts) 2.Pour chaque couple de phrases, calcul du flot de coût minimum (meilleur alignement), et mise à jour des comptes correspondants 3.Normalisation des comptes (probabilités) 4.Retour en 2 jusqu’à satisfaction d’une condition d’arrêt (vraisemblance stable)

Eric Gaussier / 09-Jan-2001 / page 10 / Séminaire LIMSI Paramètres généraux Probabilités d’associationProbabilités d’association –Associations directes entre mots Positions absolues, informations morpho-syntaxiquesPositions absolues, informations morpho-syntaxiques –Associations dépendent de la position et/ou des parties du discours des mots en correspondance Associations dérivées de ressources existantesAssociations dérivées de ressources existantes –Dictionnaires, thésaurus, ontologies Alignements complexes (n-p) / “fertilité” des motsAlignements complexes (n-p) / “fertilité” des mots –Intervalles de capacité sur les flots entrant et sortant –Intervalles plus larges sur les connexions interlangues Pas de positions relativesPas de positions relatives

Eric Gaussier / 09-Jan-2001 / page 11 / Séminaire LIMSI Extraction de terminologie bilingue Méthode analyse-analyse (Kupiec, 93; Gaussier, 95)Méthode analyse-analyse (Kupiec, 93; Gaussier, 95) –Extraction des termes dans chacune des langues puis alignement –Unités extraites diffèrent (grammaires monolingues différentes) Méthode analyse-analyse étendue (Debili & Zribi, 96;  Hull, 98)Méthode analyse-analyse étendue (Debili & Zribi, 96;  Hull, 98) –Alignement des mots, puis utilisation de dépendances syntaxiques Qualité de l’alignement de mots (Debili & Zribi), pb. ci-dessus (Hull) Méthode analyse-aligne (Gaussier, 98)Méthode analyse-aligne (Gaussier, 98) –Extraction des termes dans une langue, alignement avec des séquences de l’autre langue –Peu adaptée à des unités libres Méthode analyse parallèle (Wu, 97)Méthode analyse parallèle (Wu, 97) –Construction d’une analyse grammaticale bilingue des phrases –Moins robuste car plus ambitieuse

Eric Gaussier / 09-Jan-2001 / page 12 / Séminaire LIMSI Terminologie informatique – généralités Caractérisation morpho-syntaxique (étiquetage, lemmatisation)Caractérisation morpho-syntaxique (étiquetage, lemmatisation) Hypothèse de contiguïté des termesHypothèse de contiguïté des termes Complexité dépend de la langue : de l’anglais vers le françaisComplexité dépend de la langue : de l’anglais vers le français Termes anglaisTermes anglais –Deux patrons de base : N N, Adj N –Quatre opérations de composition Juxtaposition satellite propagation delay Juxtaposition satellite propagation delay Subsitution digital circuit multiplication Subsitution digital circuit multiplication Modification adjectivale ou adverbiale Modification adjectivale ou adverbiale nearly circular polarization nearly circular polarization Coordination time or frequency division Coordination time or frequency division

Eric Gaussier / 09-Jan-2001 / page 13 / Séminaire LIMSI Modèle, conflits et alignements désambiguïsés … bandwidth used in [FSS telecommunications]… … largeur de bande utilisée dans les télécommunications SFS … A BC … … [0;2] [0;1] [1;3] 2[1;4] 1 3 [1;3] D 2

Eric Gaussier / 09-Jan-2001 / page 14 / Séminaire LIMSI Expérience : méthodologie Test sur un corpus bilingue de 1000 phrasesTest sur un corpus bilingue de 1000 phrases 1.Étiquetage, lemmatisation en anglais et français, repérage des candidats termes anglais 2.Initialisation des paramètres 3.Pour chaque couple de phrases, désambiguïsation des alignements 4.Extraction et “figement” des 100 meilleures associations 5.Retour en 2

Eric Gaussier / 09-Jan-2001 / page 15 / Séminaire LIMSI RésultatsRésultats Nbre d’assoc. Préc (flots) Référence (97) (94)

Eric Gaussier / 09-Jan-2001 / page 16 / Séminaire LIMSI ExemplesExemples new satellite system nouveau système de satellite système de satellite nouveau système de satellite nouveau système de satellite entièrement nouveau système de satellite entièrement nouveau free-space attenuation affaiblissament en espace libre wavelength longueur d’onde offer proposer, offrir satellite system transmission plan système de transmission par satellite devant système de transmission par satellite devant

Eric Gaussier / 09-Jan-2001 / page 17 / Séminaire LIMSI Applications – aide à la traduction Constitution de bases terminologiques multilinguesConstitution de bases terminologiques multilingues Utilisation dans les systèmes de mémoire de traductionUtilisation dans les systèmes de mémoire de traduction –Appariement de la phrase à traduire avec les phrasees traduites stockées –Dans le cas d’un appariement non exact, travail de correction –Exploitation plus fine des terminologies bilingues dans la mémoire, termes alignés deviennent des variables dans la mémoire, termes alignés deviennent des variables appariement opère sur les suqelettes obtenus appariement opère sur les suqelettes obtenus les variables sont remplacés par les termes adéquats les variables sont remplacés par les termes adéquats Proceed with customization. Passez à l’étape de personnalisation. Proceed with T1. Passez à l’étape de Tt1. Proceed with installation checking. Passez à l’étape de vérification de l’installation.

Eric Gaussier / 09-Jan-2001 / page 18 / Séminaire LIMSI Applications – recherche d’information multilingue Terminologies bilingues pour la traduction des requêtesTerminologies bilingues pour la traduction des requêtes –Adaptées au corpus (corpus comparables) –“When Better is Worse” (Brown, 1998) Utilisation directe de corpus parallèlesUtilisation directe de corpus parallèles D1 D2 Dp T1T2T’n 01…0 10…1 …… 11…1 TpT’1 AB sim(Aq,Bd) q: langue source d: langue cible

Eric Gaussier / 09-Jan-2001 / page 19 / Séminaire LIMSI ConclusionsConclusions Alignement de mots et de termes dans des corpus parallèlesAlignement de mots et de termes dans des corpus parallèles –Degré de maturité, performances raisonables –Aide à la traduction automatique (précision primordiale) –Recherche d’information multilingue (rappel) Extraction de lexiques bilingues de corpus comparablesExtraction de lexiques bilingues de corpus comparables –Recherche en développement