1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Les apports du co-enseignement
le responsable documentaire
Constitution de produits terminologiques à partir de corpus
Présentation des programmes de terminale STG Juin 2006.
Ce que nous dit le BO BO n°20 du 20 mai 2010
LA SITUATION SIGNIFICATIVE D’INTEGRATION
Urbanisation de Systèmes d'Information
Urbanisation des Systèmes d'Information - Henry Boccon-Gibod 1 Urbanisation des SI Alignement Stratégique et optimisation dun Système dInformation.
DEME - La méthode d’enquête – introduction
E 1 MANAGEMENT DES ORGANISATIONS Lépreuve de certification Séminaire national sur les nouveaux programmes de la série « Sciences et technologies du management.
Enseigner le management ….en STMG
Documents investigation
Introduction : Compilation et Traduction
Document d’accompagnement
1 Statistiques Séance 5 – 9 Nov Résumé séance précédente Lécart-type σ ou s. Comment le calculer? Les propriétés numériques de la courbe normale.
L’observation réfléchie de la langue au cycle 3
ORGANISATION INTERNATIONALE DU TRAVAIL Service des conditions de travail et demploi (TRAVAIL) 2012 Module 13: Evaluation de la protection de la maternité
TPE Les élèves mènent à bien une production originale, concrète et choisie par eux Ils développent des compétences individuelles à travers un travail de.
Pour un système formel de description linguistique
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Introduction à la conception de Bases de Données Relationnelles
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Le langage oral en maternelle
ÉPREUVE - ÉCONOMIE DROIT
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Les langues anciennes au lycée
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Mesures de performance organisationnelle Cours ICO 810 Professeur: Michel Pérusse Hiver 2005 Session 9.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Forum des Industries de la Langue, 17 mars 2010
Intégration des nouveaux enseignants
La pratique des problèmes ouverts
E5 - MANAGEMENT ET GESTION D’ACTIVITÉS TECHNICO-COMMERCIALES (Coef. 4)
TRAITEMENT INSTRUMENTÉ DE CORPUS
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
MARKETING 4 : LE MARKETING MIX
Master 1 – Sciences du Langage –
Algorithmes et Programmation
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Les épreuves du BTS Systèmes photoniques
Les Techniques d’enquête quantitative
TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.
Intégration de schémas
Initiation à la conception des systèmes d'informations
Sylwia Ozdowska1, Vincent Claveau2
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et.
1 Vers la gestion de la cohérence dans les processus multi-modèles métier Wolfgang THEURER Ecole Nationale Supérieure d’Ingénieurs des Etudes et Techniques.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Le Traitement Automatique des Langues (TAL)
PROJET D’ECOLE Réunion des directeurs du 14 mai 2009.
Mise à distance de la formation dans les IUFM. Troyes Janvier 2002 DT/SDTICE Préambule Une double ambition : Donner un regard sur l’activité de mise à.
Société de l’information et régions Politique régionale 1 Les stratégies régionales pour la société de l ’information Jean-Bernard Benhaiem,
INTRODUCTION AUX BASES DE DONNEES
La situation : Clément et Zoé ont schématisé le circuit ci-dessous :
Bilan du cours Information Spécialisée M1 RETIC. Objectifs du cours (annoncés) Acquérir une culture informationnelle en SIC ; Acquérir une culture informationnelle.
Démarche d’enseignement de l’APL : analyser
Modélisation des Actions Mécaniques Première sti2d
1 Reconstruction des événements Top enregistrés avec le détecteur ATLAS Apport des techniques multi-variables Diane CINCA Stage de Master 2 ème année.
Progressivité des compétences cycle 3 « sciences et technologie »
ANALYSE SUJETS BAC COMMUNICATION ET GRH PARTIE ECRITE Rénovation STG – Année 2007/2008.
Transcription de la présentation:

1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004

2 Syntex : un analyseur syntaxique de corpus français/anglais ( Bourigault, Fabre, 2000 )  En entrée, corpus étiqueté (Treetagger, Cordial)  Calcule des relations de dépendance entre mots dans la phrase (sujet, objet direct, complément prépositionnel, épithète…)  Identifie des syntagmes nominaux (transfert de gènes), verbaux (prélever des cellules)  Construit un réseau de mots et syntagmes  Elaboration de ressources lexicales spécialisées (terminologie, ontologie, lexique…) ( Bourigault et Lame, 2002, Le Moigno et al )

3 Apprentissage endogène (Bourigault, 1994)  Acquisition en corpus d’informations de sous-catégorisation  Résolution ambiguïtés de rattachement syntaxique (adjectival, prépositionnel)  Utilisation délicate de ressources lexico-syntaxiques génériques  Propriétés syntaxiques de sous-catégorisation inédites (Basili et al. 1997, Basili et al. 1999, Fabre, Bourigault, 2001) - Comportement imprédictible  données établies en langue - Variation inter-corpus  « Capter » la réalisation d’un mot en corpus

4 Limites d’une approche « tout endogène »  Ambiguïtés résiduelles : prépositions régies par des verbes  Mesures endogènes basées sur la productivité  Exploitation d’indices bruités  Données non supervisées  Propagation des erreurs d’acquisition au calcul des indices endogènes  Champ d’action de l’analyseur élargi  Textes spécialisés  textes « tout venant »  Réapprentissage sur chaque nouveau corpus

5 Hypothèse de travail – problématique  Approche endogène : spécificités du corpus traité  Optimisable par des ressources exogènes  Données de sous-catégorisation verbale  « Très ténus quantitativement » ( Habert, Zweigenbaum, 2002 ) en corpus, banals en langue - Non (mal) captés par l’endogène basé sur la productivité Sous-catégorisation verbale à distance pour de : numériquement infime ( remplir le tiroir de documents )  Régulières et « transportables » inter-corpus

6 Quelles ressources exogènes ? Ressources construites vs à construire  Utilisation de ressources existantes  Lexique-grammaire (LG) - Constituées a priori, démarche introspective, indépendamment de tout corpus et tout domaine - Objectif d’exhaustivité, français « standard »  Acquisition à partir de corpus - Le Monde Exploitation des deux types (intersection)

7 Quelle collaboration endogène/exogène ? « Déclinaisons » possibles 1.Filtrage : données exogènes vont conforter (reévaluer) les indices endogènes 2. « Relais » : indice supplémentaire (données non redondantes « insensibles » à l’acquisition en corpus) Enjeu : proposer des critères de désambiguïsation exogènes compatibles avec des procédures endogènes

8 Expérience d’intégration de ressources exogènes dans Syntex  Description de l’ambiguïté structurelle à résoudre  Constitution des ressources exogènes (lexique grammaire, acquisition en corpus)  Corpus annotés pour l’évaluation  Stratégies de désambiguïsation  Résultats  Confrontation avec résultats obtenus sur de

9 Description de l’ambiguïté à résoudre  Configuration syntaxique V SN SP(à, dans, sur)  V:verbe à l’actif, SN : nom simple, composé, adjectif, participe passé  La préposition régit un nom  Rattachements possibles V:informer les automobilistes sur les conditions de circulation, envoyer la feuille de soins aux caisses d’assurance maladie, plonger le thermocouple dans la lave chaude, injecter des particules de sulfate dans la stratosphère N:accorder des aides individuelles au reclassement, assurer un lent travail de sensibilisation à la culture, condamner un éventuel recours à la force A:procurer des informations relatives à l’article 1.2, verser une rémunération supérieure au salaire minimum Ppa:rappeler la faculté offerte à l’handicapé, définir les modalités visées à l’article

10 Exploitation du lexique-grammaire  Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur  Appartenance à la forme canonique N 0 V N 1 Prep N 2  Filtrage des données : on exclut les restrictions de sélection  Nature sémantique du syntagme prépositionnel non encodée dans analyseur (traits humain, non humain…)  Total : 1637 couples (verbe, prep) - liste LG

11 Acquisition à partir de corpus Choix du corpus  Corpus d’apprentissage : Le Monde (40 millions de mots)  Taille et hétérogénéité thématique  Acquisition de données relativement génériques Méthode d’acquisition  Résultats de l’analyse syntaxique sur Le Monde (LM)  Contextes d’acquisition non ambigus Vb au passif : les logiciels ont été installés sur la machine  (installer, sur, machine) Ppa épithète : les logiciels installés sur la machine  (installer, sur, machine) Objet à distance : on a installé sur la machine un logiciel  (installer, sur, machine)  triplets filtrés par fréquence et productivité  Total : 1261 couples (verbe, prep) - liste LM Recouvrement listes LM et LG : 501 couples – liste EXO

12 Corpus annotés pour l’évaluation (1)  Cohérence avec la variabilité syntaxique des corpus  Stratégies et règles sur corpus diversifiés  Limiter les biais d’implémentation (approche mono-corpus)  Base d’annotation : 3000 cas  Règles d’annotation  Stratégies de désambiguïsation évaluées sur trois corpus  VOLC corpus scientifique, en volcanologie  CTRA corpus juridique, Code du Travail  MOND corpus journalistique, Le Monde

13 Corpus annotés pour l’évaluation (2) VNAPpa  Occurrences des recteurs impliqués dans les cas validés VNAPpa VOLC VOLC CTRA CTRA MOND MOND  Types de recteurs impliqués dans les cas validés CTRA CTRA258 couples (recteur, prep) VOLC VOLC553~ MOND MOND501~ Redondance lexicale CTRA > VOLC et MOND : endogène plus performant

14 Stratégies de désambiguïsation (1)  Quatre stratégies  Pas de décision par défaut  Rattachements motivés par indices linguistiques 1.Stratégie exogène : si verbe dans LG, choix verbe argprod 2.Stratégie endogène : deux indices, arg et prod arg indice arg : si le candidat est recteur d’une préposition ayant le même régi ailleurs dans le corpus dans un contexte non ambigu  son indice arg vaut 1 Ex : le gouvernement a accordé une aide supplémentaire aux sinistrés Contexte ambigu : c1:supplémentaire, c2:aide, c3:accorder Contexte non ambigu : un montant identique a été accordé aux sinistrés  indice arg : accorder : 1 - (accorder, à, sinistré)

15 Stratégies de désambiguïsation (2) prod indice prod : productivité d’un couple (recteur, prep) : nb noms différents régis par la préposition dans un contexte non ambigu Contextes non ambigus : un montant identique a été accordé à la population sinistrée, le gouvernement a accordé aux habitants les montants espérés prod (accorder, à) : 2 – (accorder, à) (population, habitants) + si candidat, vb ou nom déverbal, productivité et celle de son déverbal (lexique Verbaction)  indice prod du candidat vaut 1 si valeur > seuil Si candidat avec arg, l’analyseur le choisit Sinon, il choisit le candidat avec prod En cas de concurrence, l’analyseur choisit le candidat avec valeur prod maximale.

16 Stratégies de désambiguïsation (3) 3.Stratégie mixte 1 : mesure apport endogène verbal vs exogène verbal  Stratégie endogène SAUF aucune mesure endogène pour les verbes  Si verbe dans EXO, indice prod pour vb vaut 1 4.Stratégie mixte 2 : exploite conjointement informations endogènes et exogènes  Stratégie endogène ET liste EXO  Si valeur > seuil ou si verbe dans EXO, indice prod pour vb vaut 1

17 Résultats Taux de précision : nb cas correctement rattachés/nb cas rattachés Taux de rappel : nb cas correctement rattachés/nb cas à rattacher  Stabilité des performances  Gain exogène sur rappel  Disparités inter-corpus : VOLC mix2 vs CTRA mix2  Résultats dégradés : VOLC exo vs VOLC endo  Cas mal résolus  Conflits indiciels, concurrence forte avec prod Ex : accorder des aides individuelles au reclassement, reporter sa visite à Meudon Stratégie exoendomix 1mix 2exoendomix 1mix 2exoendomix1mix 2 Précision Rappel CorpusVOLCCTRAMOND

18 Rattachement verbal à distance de la préposition « de »  Comportement syntaxique de  à, dans, sur  Rattachement verbal à distance : Le Monde : de : 10%, à, dans, sur : 59%  Projection lexique verbal (LG) en corpus (stratégie exogène)  Ressource « catégorique » inefficace  Capter l’optionalité du 2nd argument remplir [V] [les tiroirs [obj] de la commode] [SN] [Ø] [SP]  Polysémie A. cerner l’attente du clientB. cerner la ville de troupes  Nécessité de probabiliser les évènements linguistiques