Sylwia Ozdowska1, Vincent Claveau2

Slides:



Advertisements
Présentations similaires
Extraction de synonymes à partir d’un corpus multilingue aligné
Advertisements

L-System et modélisation de plantes…
Contrôle des processus : Introduction au Contrôle Qualité
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Inférence statistique
Application de réseaux bayésiens à la détection de fumées polluantes
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Équipe TexMex, IRISA, Rennes
OLST — Université de Montréal
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
Continuité des apprentissages Ecole-Collège mars 2008 J Borréani IA-IPR mathématiques.
Continuité des apprentissages Ecole-CollègePavilly Novembre 2007.
Reconnaissance de la parole
Recherche Sémantique d’Information
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
L’observation réfléchie de la langue au cycle 3
Décodage des informations
Programmation logique Démonstrateur automatique
Project de la langue française
Corpus parallèles et textométrie
Vers des composants TAL réutilisables
Reconnaissance Vocale
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
TRAITEMENT INSTRUMENTÉ DE CORPUS
Katia Walker et Philip Walker
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
L’enseignement des compétences grammaticales
Master 1 – Sciences du Langage –
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Les tests adaptatifs en langue: quel est leur avenir ? Michel D. LAURIER Université de Montréal Colloque ACFAS 2006 Solutions apportées et problèmes engendrés.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide personnalisée Démarche Constat : Eléments d’évaluation, puis la différenciation s’avère une aide insuffisante. Définition d’objectifs s’inspirant.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Initiation à la conception des systèmes d'informations
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Dominique LAURENT Patrick SEGUELA
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Modélisation N-morphes en classification des textes de Wikipedia
CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique d’Information.
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.
CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique d’Information.
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
GPA-779 Application des systèmes experts et des réseaux de neurones.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
A. Ce qui vous est demandé Analyse de la consigne officielle.
Consolidation de grands réseaux lexicaux
1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Eric Gaussier / 09-Jan-2001 / page 1 / Séminaire LIMSI Extraction de terminologie bilingue Méthodes et Applications Éric Gaussier
Un modèle flexible d'édition intelligente de documents structurés basé sur des techniques de "chart-parsing" Marc Dymetman Exposé LIMSI, 14 déc
Transmodalité – Multimodalité Fabrice Maurel IRIT – Toulouse Directeur : Luis Fariñas Del Cerro Équipe DIAMANT – Nadine Vigouroux Concours CNRS CR
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Sylwia Ozdowska1, Vincent Claveau2 Alignement de mots par apprentissage artificiel de règles de propagation syntaxique en corpus de taille restreinte Sylwia Ozdowska1, Vincent Claveau2 1ERSS – Université de Toulouse le Mirail ozdowska@univ-tlse2.fr 2OLST – Université de Montréal vincent.claveau@umontreal.ca Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Alignement – késako ? Mise en correspondance dans un corpus parallèle de segments textuels qui sont potentiellement la traduction les uns des autres Prise en compte de différents niveaux de segmentation textuelle paragraphes, phrases, syntagmes, mots Intérêts de l’alignement (Véronis 00) traduction automatique acquisition de ressources multilingues Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Alignement de mots – comment ? Utilisation dominante de modèles statistiques (Brown et al. 93) nécessite de grandes quantités de données Quelques techniques basées sur la syntaxe analyse en constituants/dépendances (Wu 00 ; Ozdowska 04) connaissances/outils linguistiques Dans notre cas analyse en dépendances anglais/français peu de données d’entrainement Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Alignement basé sur la syntaxe Hypothèse de Debili & Zribi (1996) : partir de deux mots en relation de traduction dans des phrases alignées – le "couple amorce" propager le lien d'équivalence vers d'autres mots de la phrase à l'aide des relations de dépendance syntaxique le couple amorce Community/Comunauté permet d’aligner les mots ban/interdire grâce à la relation sujet propagation syntaxique suj The Community banned imports of ivory. La Communauté a interdit l'importation d'ivoire. suj Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Règles de propagation syntaxique suj The Community banned imports of ivory. La Communauté a interdit l'importation d'ivoire. suj Règle de propagation utilisée V suj Nom / V suj Nom propagation à partir d'un couple amorce de régis Community / Communauté vers un couple de verbes recteurs ban/interdire Critères de définition type de relation syntaxique direction de la relation (partie du discours) Comment ? manuellement (Ozdowska, 2004) automatiquement  apprentissage artificiel Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Programmation Logique Inductive PLI : technique d’apprentissage artificiel supervisée à partir d’ exemples E+ d’un concept… … et d’un ensemble B de connaissances externes… … apprendre un ensemble H de règles (clauses de Horn)… … tel que B  H  E+╞/= □ et B  H ╞= E+ Dans notre cas concept = règles d’alignement syntaxique E+ = exemples d’alignements corrects dans des phrases B = couples amorces et relations syntaxiques connues dans les biphrases exemples Intérêts de la PLI règles inférées interprétables => comparaison modélisation naturelle des dépendances syntaxiques par des prédicats (eg. M1 est sujet de M2 => sujet(M1,M2)) Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Constitution d'exemples Couples amorces = exemples d'alignements valides nécessaires à l'apprentissage (E+) Détection des couples amorces projection d'un lexique bilingue extrait de chaque corpus par calcul de fréquences de cooccurrence des mots dans les biphrases repérage de cognats par calcul de la sous-chaîne maximale commune à deux mots Détection en moyenne de 4 à 6 couples amorces (selon les corpus) par biphrase Taux d'erreur d'environ 5% Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Apprentissage de règles de propagation Soient la biphrase …private sector companies / …les entreprises du secteur privé les relations syntaxiques det(entreprises, les). prep(du, secteur). prep_de(entreprises, du). adj(secteur, privé). nn(compagnies, sector). adj(sector, private). le couple amorce ca(sector, secteur). Si companies/entreprises sont alignés (amorce), la règle inférée à partir de cet exemple est align(MEn, MFr) :- nn(MEn, E1), prep_de(MFr, F1), prep(F1,F2), ca(E1,F2). MEn nn E1 / MFr prep_de F1 prep F2 E1 MEn MFr F1 F2 Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

En résumé… Détection des couples amorces E+ Biphrases etiquetées syntaxiquement Algo de PLI Corpus etiqueté syntaxiquement align(MEn, MFr) :- nn(MEn, E1), prep_de(MFr, F1), prep(F1,F2), ca(E1,F2). Alignements Application des règles Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Données d'apprentissage Corpus d'entraînement HANSARD : débats parlementaires canadiens ARCADE : questions-réponses traitées à la Commission Européenne INRA : recherche agronomique influence du corpus d'apprentissage sur les règles inférées ? Utilisation d'une portion de chaque corpus variant de 10 à 1000 biphrases  influence de la taille du corpus d'apprentissage sur les performances ? Relations de dépendance syntaxique repérées par SYNTEX (Bourigault & Fabre, 2000) Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Données d'évaluation Données de la campagne HLT 2003 (Mihalcea & Pedersen, 2003 ; Och & Ney, 2003) comparaison avec les modèles statistiques (notamment ceux basés sur GIZA++) Corpus de test 447 biphrases extraites du HANSARD ( corpus d'entraînement) Jeu de référence (2 annotateurs) alignement S (accord inter-annotateurs) alignement P (ambigu  expressions figées, traductions libres) : tous les autres cas Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Règles inférées Inférence  30 règles pour chaque corpus avec 1000 phrases Productivité des règles isomorphismes parfaits, i.e. même structure syntaxique dans les deux langues ( 50% des règles) non-isomorphismes plus ou moins standard, e.g. structure N N de l'anglais et N de N du français peu de différences dans les règles d'un corpus à l'autre Comparaison avec (Ozdowska 04) très peu de différences règles non produites manuellement Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Résultats (1) Évaluation (alignements S) Peu de variation en fonction du corpus d'apprentissage Performances comparables à celles offertes par les systèmes statistiques en terme de f-mesure meilleure précision… …rappel relativement plus bas Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Résultats (2) Évolution des performances selon la taille des corpus d'entraînement nombre de phrases qui servent à produire les exemples pour l'apprentissage variant de 10 à 1000 exemple du corpus HANSARD 300 à 1000 phrases : quasiment aucune variation de P et R < 300 phrases : P augmente et R décroît seules les règles de propagation les plus sûres sont trouvées 10 phrases : inférence de règles suffisamment pertinentes pour avoir une f-mesure de 65% Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Résultats (2) Évolution des performances selon la taille du corpus d'entraînement (10 à 1000 phrases) Corpus HANSARD Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Examen des résultats Alignements non détectés densité de couples amorces insuffisante absence de relations de dépendance Alignements détectés à tort erreurs d'étiquetage syntaxique règles inférées trop génériques relations de dépendance sujet et objet : les règles ne prennent pas en charge les changements de voix d'une langue à l'autre good legislation has been brought in by liberal governments les gouvernements libéraux ont apporté de bonnes mesures législatives  alignement legislation / gouvernement reformulations the Government must implement the recommandations of the Commisionner of Official Languages le gouvernement se doit de respecter les recommandations du Commissaire aux langues officielles  alignement implement / respecter annoté comme non valide dans le jeu de test HLT Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Examen des résultats Alignements non détectés densité de couples amorces insuffisante absence de relations de dépendance Alignements détectés à tort erreurs d'étiquetage syntaxique règles inférées trop génériques relations de dépendance sujet et objet : les règles ne prennent pas en charge les changements de voix d'une langue à l'autre - good legislation has been brought in by liberal governments - les gouvernements libéraux ont apporté de bonnes mesures législatives  alignement legislation / gouvernement reformulations - the Government must implement the recommandations of the Commisionner of Official Languages - le gouvernement se doit de respecter les recommandations du Commissaire aux langues officielles  alignement implement / respecter annoté comme non valide dans le jeu de test HLT Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Conclusion Alignement de mots basé sur la syntaxe et l'apprentissage semi-supervisé repérage d'exemples de couples de mots alignés par une technique automatique d'amorçage apprentissage de règles de propagation à partir des exemples  Complète autonomie Résultats comparables à ceux obtenus par les meilleurs systèmes statistiques Peu de données nécessaires à l'apprentissage  Alignements 1-1 Analyseurs syntaxiques pour les deux langues Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan

Perspectives Introduction d'informations de type catégoriel portant sur les parties du discours Utilisation d'exemples négatifs pour éviter des généralisations excessives et donc des règles pas suffisamment précises Adaptation à d'autres paires de langues proximité morpho-syntaxique suffisante disponibilité d'outils d'analyse morpho-syntaxique Étude de cas d'isomorphismes et de non-isomorphismes Sylwia Ozdowska & Vincent Claveau TALN'05 Dourdan