La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier

Présentations similaires


Présentation au sujet: "Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier"— Transcription de la présentation:

1 Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier Eric.Gaussier@xrce.xerox.com

2 Eric Gaussier / 09-Jan-2001 / page 2 / Séminaire LIMSI Plan de la présentation Extraction de lexiques bilingues de corpus parallèlesExtraction de lexiques bilingues de corpus parallèles –De l’alignement de mots (problématique et méthodes) –À l’alignement de termes Deux classes d’applicationsDeux classes d’applications –Aide à la traduction automatique –Recherche d’information multilingue

3 Eric Gaussier / 09-Jan-2001 / page 3 / Séminaire LIMSI Du corpus parallèle à l’alignement de mots … …

4 Eric Gaussier / 09-Jan-2001 / page 4 / Séminaire LIMSI ExempleExemple Section 1.4 introduces the status of existing satellite communications systems. Le 1.4 expose l’état des systèmes de télécommunications par satellite. --- Examples of link budget calculations are given in annex II. Des exemples de calcul de bilan de liaison sont donnés dans l’annexe II. … Section 1.4 introduces the status of existing satellite communications systems.  Le 1.4 expose l’état des systèmes de télécommunications par satellite.

5 Eric Gaussier / 09-Jan-2001 / page 5 / Séminaire LIMSI Bref historique des travaux en extraction de lexiques bilingues Au niveau du corpusAu niveau du corpus –Comparaison des distributions des mots sur l’ensemble des phrases alignées –Kay & Röscheisen, 1988; Brown et al., 1988; Church & Gale, 1991; Au niveau des phrasesAu niveau des phrases –Affinement des paramètres avec ajout de contraintes et recherche du meilleur alignement entre mots (filtrage des associations indirectes) –Brown et al., 1993; Vögel et al., 1996; –Dagan et al., 1993; Melamed, 1997; Hiemstra, 1997; Gaussier, 1998;

6 Eric Gaussier / 09-Jan-2001 / page 6 / Séminaire LIMSI Principes généraux de l’extraction bilingue Méthode intuitive (Dagan, Church & Gale)Méthode intuitive (Dagan, Church & Gale) –Extraction de lexiques bilingues pondérés au niveau du corpus –Programmation dynamique pour l’alignement, de type 1-1 –Estimation initiale (?), alignements complexes (?) Alignements – variables cachées (Brown)Alignements – variables cachées (Brown) –Utilisation de l’algorithme EM sur des modèles de complexité croissante –Taille du corpus d’apprentissage (?), sens privilégié (?), complexité (?) Méthodes mixtes (Melamed, Hiemstra, Gaussier) Méthodes mixtes (Melamed, Hiemstra, Gaussier) –E-step: meilleur alignement (ou approximation) –IPFP – approximation (?), alignements complexes (?), positions relatives (?) –Graphes bipartis – alignements complexes (?), positions relatives (?) –Flots et réseaux – positions relatives (?)

7 Eric Gaussier / 09-Jan-2001 / page 7 / Séminaire LIMSI Flots et réseaux: présentation intuitive The first geostationary satellite was launched in 1963. Le premier satellite géostationnaire fut lancé en 1963. 1 1 1 11 1 111 1 1 [0;1]

8 Eric Gaussier / 09-Jan-2001 / page 8 / Séminaire LIMSI Flots et réseaux: concepts Soit G=(N,A) un graphe connexe orientéSoit G=(N,A) un graphe connexe orienté –un flot  dans G satisfait:   (i + ) =   (i - ) –si l’on munit les arcs de G d’intervalles de capacité [b u ;c u ],  est compatible si b u   u  c u –si de plus l’on munit les arcs de G d’un coût , un flot de coût minimal est un flot compatible pour lequel  x  est minimal (  x  =  u  u ) –si de plus l’on munit les arcs de G d’un coût  u, un flot de coût minimal est un flot compatible pour lequel  x  est minimal (  x  =  u  u x  u ) En choisissant :  u = - ln(p(e i,f i )), le flot decoût minimal correspond au meilleur alignement (le plus probable)En choisissant :  u = - ln(p(e i,f i )), le flot de coût minimal correspond au meilleur alignement (le plus probable) Remarque : avec des bornes de capacité entières, le flot sur chaque arc est un entierRemarque : avec des bornes de capacité entières, le flot sur chaque arc est un entier

9 Eric Gaussier / 09-Jan-2001 / page 9 / Séminaire LIMSI Algorithme général 1.Initialisation des paramètres (coûts) 2.Pour chaque couple de phrases, calcul du flot de coût minimum (meilleur alignement), et mise à jour des comptes correspondants 3.Normalisation des comptes (probabilités) 4.Retour en 2 jusqu’à satisfaction d’une condition d’arrêt (vraisemblance stable)

10 Eric Gaussier / 09-Jan-2001 / page 10 / Séminaire LIMSI Paramètres généraux Probabilités d’associationProbabilités d’association –Associations directes entre mots Positions absolues, informations morpho-syntaxiquesPositions absolues, informations morpho-syntaxiques –Associations dépendent de la position et/ou des parties du discours des mots en correspondance Associations dérivées de ressources existantesAssociations dérivées de ressources existantes –Dictionnaires, thésaurus, ontologies Alignements complexes (n-p) / “fertilité” des motsAlignements complexes (n-p) / “fertilité” des mots –Intervalles de capacité sur les flots entrant et sortant –Intervalles plus larges sur les connexions interlangues Pas de positions relativesPas de positions relatives

11 Eric Gaussier / 09-Jan-2001 / page 11 / Séminaire LIMSI Extraction de terminologie bilingue Méthode analyse-analyse (Kupiec, 93; Gaussier, 95)Méthode analyse-analyse (Kupiec, 93; Gaussier, 95) –Extraction des termes dans chacune des langues puis alignement –Unités extraites diffèrent (grammaires monolingues différentes) Méthode analyse-analyse étendue (Debili & Zribi, 96;  Hull, 98)Méthode analyse-analyse étendue (Debili & Zribi, 96;  Hull, 98) –Alignement des mots, puis utilisation de dépendances syntaxiques Qualité de l’alignement de mots (Debili & Zribi), pb. ci-dessus (Hull) Méthode analyse-aligne (Gaussier, 98)Méthode analyse-aligne (Gaussier, 98) –Extraction des termes dans une langue, alignement avec des séquences de l’autre langue –Peu adaptée à des unités libres Méthode analyse parallèle (Wu, 97)Méthode analyse parallèle (Wu, 97) –Construction d’une analyse grammaticale bilingue des phrases –Moins robuste car plus ambitieuse

12 Eric Gaussier / 09-Jan-2001 / page 12 / Séminaire LIMSI Terminologie informatique – généralités Caractérisation morpho-syntaxique (étiquetage, lemmatisation)Caractérisation morpho-syntaxique (étiquetage, lemmatisation) Hypothèse de contiguïté des termesHypothèse de contiguïté des termes Complexité dépend de la langue : de l’anglais vers le françaisComplexité dépend de la langue : de l’anglais vers le français Termes anglaisTermes anglais –Deux patrons de base : N N, Adj N –Quatre opérations de composition Juxtaposition satellite propagation delay Juxtaposition satellite propagation delay Subsitution digital circuit multiplication Subsitution digital circuit multiplication Modification adjectivale ou adverbiale Modification adjectivale ou adverbiale nearly circular polarization nearly circular polarization Coordination time or frequency division Coordination time or frequency division

13 Eric Gaussier / 09-Jan-2001 / page 13 / Séminaire LIMSI Modèle, conflits et alignements désambiguïsés … bandwidth used in [FSS telecommunications]… … largeur de bande utilisée dans les télécommunications SFS … A BC … … [0;2] [0;1] [1;3] 2[1;4] 1 3 [1;3] D 2

14 Eric Gaussier / 09-Jan-2001 / page 14 / Séminaire LIMSI Expérience : méthodologie Test sur un corpus bilingue de 1000 phrasesTest sur un corpus bilingue de 1000 phrases 1.Étiquetage, lemmatisation en anglais et français, repérage des candidats termes anglais 2.Initialisation des paramètres 3.Pour chaque couple de phrases, désambiguïsation des alignements 4.Extraction et “figement” des 100 meilleures associations 5.Retour en 2

15 Eric Gaussier / 09-Jan-2001 / page 15 / Séminaire LIMSI RésultatsRésultats Nbre d’assoc. Préc (flots) Référence 100 98 (97) 90 200 97 (94) 87 3009684 4009582 5009080

16 Eric Gaussier / 09-Jan-2001 / page 16 / Séminaire LIMSI ExemplesExemples new satellite system nouveau système de satellite système de satellite nouveau système de satellite nouveau système de satellite entièrement nouveau système de satellite entièrement nouveau free-space attenuation affaiblissament en espace libre wavelength longueur d’onde offer proposer, offrir satellite system transmission plan système de transmission par satellite devant système de transmission par satellite devant

17 Eric Gaussier / 09-Jan-2001 / page 17 / Séminaire LIMSI Applications – aide à la traduction Constitution de bases terminologiques multilinguesConstitution de bases terminologiques multilingues Utilisation dans les systèmes de mémoire de traductionUtilisation dans les systèmes de mémoire de traduction –Appariement de la phrase à traduire avec les phrasees traduites stockées –Dans le cas d’un appariement non exact, travail de correction –Exploitation plus fine des terminologies bilingues dans la mémoire, termes alignés deviennent des variables dans la mémoire, termes alignés deviennent des variables appariement opère sur les suqelettes obtenus appariement opère sur les suqelettes obtenus les variables sont remplacés par les termes adéquats les variables sont remplacés par les termes adéquats Proceed with customization. Passez à l’étape de personnalisation. Proceed with T1. Passez à l’étape de Tt1. Proceed with installation checking. Passez à l’étape de vérification de l’installation.

18 Eric Gaussier / 09-Jan-2001 / page 18 / Séminaire LIMSI Applications – recherche d’information multilingue Terminologies bilingues pour la traduction des requêtesTerminologies bilingues pour la traduction des requêtes –Adaptées au corpus (corpus comparables) –“When Better is Worse” (Brown, 1998) Utilisation directe de corpus parallèlesUtilisation directe de corpus parallèles D1 D2 Dp T1T2T’n 01…0 10…1 …… 11…1 TpT’1 AB sim(Aq,Bd) q: langue source d: langue cible

19 Eric Gaussier / 09-Jan-2001 / page 19 / Séminaire LIMSI ConclusionsConclusions Alignement de mots et de termes dans des corpus parallèlesAlignement de mots et de termes dans des corpus parallèles –Degré de maturité, performances raisonables –Aide à la traduction automatique (précision primordiale) –Recherche d’information multilingue (rappel) Extraction de lexiques bilingues de corpus comparablesExtraction de lexiques bilingues de corpus comparables –Recherche en développement


Télécharger ppt "Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier"

Présentations similaires


Annonces Google