1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004
2 Syntex : un analyseur syntaxique de corpus français/anglais ( Bourigault, Fabre, 2000 ) En entrée, corpus étiqueté (Treetagger, Cordial) Calcule des relations de dépendance entre mots dans la phrase (sujet, objet direct, complément prépositionnel, épithète…) Identifie des syntagmes nominaux (transfert de gènes), verbaux (prélever des cellules) Construit un réseau de mots et syntagmes Elaboration de ressources lexicales spécialisées (terminologie, ontologie, lexique…) ( Bourigault et Lame, 2002, Le Moigno et al )
3 Apprentissage endogène (Bourigault, 1994) Acquisition en corpus d’informations de sous-catégorisation Résolution ambiguïtés de rattachement syntaxique (adjectival, prépositionnel) Utilisation délicate de ressources lexico-syntaxiques génériques Propriétés syntaxiques de sous-catégorisation inédites (Basili et al. 1997, Basili et al. 1999, Fabre, Bourigault, 2001) - Comportement imprédictible données établies en langue - Variation inter-corpus « Capter » la réalisation d’un mot en corpus
4 Limites d’une approche « tout endogène » Ambiguïtés résiduelles : prépositions régies par des verbes Mesures endogènes basées sur la productivité Exploitation d’indices bruités Données non supervisées Propagation des erreurs d’acquisition au calcul des indices endogènes Champ d’action de l’analyseur élargi Textes spécialisés textes « tout venant » Réapprentissage sur chaque nouveau corpus
5 Hypothèse de travail – problématique Approche endogène : spécificités du corpus traité Optimisable par des ressources exogènes Données de sous-catégorisation verbale « Très ténus quantitativement » ( Habert, Zweigenbaum, 2002 ) en corpus, banals en langue - Non (mal) captés par l’endogène basé sur la productivité Sous-catégorisation verbale à distance pour de : numériquement infime ( remplir le tiroir de documents ) Régulières et « transportables » inter-corpus
6 Quelles ressources exogènes ? Ressources construites vs à construire Utilisation de ressources existantes Lexique-grammaire (LG) - Constituées a priori, démarche introspective, indépendamment de tout corpus et tout domaine - Objectif d’exhaustivité, français « standard » Acquisition à partir de corpus - Le Monde Exploitation des deux types (intersection)
7 Quelle collaboration endogène/exogène ? « Déclinaisons » possibles 1.Filtrage : données exogènes vont conforter (reévaluer) les indices endogènes 2. « Relais » : indice supplémentaire (données non redondantes « insensibles » à l’acquisition en corpus) Enjeu : proposer des critères de désambiguïsation exogènes compatibles avec des procédures endogènes
8 Expérience d’intégration de ressources exogènes dans Syntex Description de l’ambiguïté structurelle à résoudre Constitution des ressources exogènes (lexique grammaire, acquisition en corpus) Corpus annotés pour l’évaluation Stratégies de désambiguïsation Résultats Confrontation avec résultats obtenus sur de
9 Description de l’ambiguïté à résoudre Configuration syntaxique V SN SP(à, dans, sur) V:verbe à l’actif, SN : nom simple, composé, adjectif, participe passé La préposition régit un nom Rattachements possibles V:informer les automobilistes sur les conditions de circulation, envoyer la feuille de soins aux caisses d’assurance maladie, plonger le thermocouple dans la lave chaude, injecter des particules de sulfate dans la stratosphère N:accorder des aides individuelles au reclassement, assurer un lent travail de sensibilisation à la culture, condamner un éventuel recours à la force A:procurer des informations relatives à l’article 1.2, verser une rémunération supérieure au salaire minimum Ppa:rappeler la faculté offerte à l’handicapé, définir les modalités visées à l’article
10 Exploitation du lexique-grammaire Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur Appartenance à la forme canonique N 0 V N 1 Prep N 2 Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans analyseur (traits humain, non humain…) Total : 1637 couples (verbe, prep) - liste LG
11 Acquisition à partir de corpus Choix du corpus Corpus d’apprentissage : Le Monde (40 millions de mots) Taille et hétérogénéité thématique Acquisition de données relativement génériques Méthode d’acquisition Résultats de l’analyse syntaxique sur Le Monde (LM) Contextes d’acquisition non ambigus Vb au passif : les logiciels ont été installés sur la machine (installer, sur, machine) Ppa épithète : les logiciels installés sur la machine (installer, sur, machine) Objet à distance : on a installé sur la machine un logiciel (installer, sur, machine) triplets filtrés par fréquence et productivité Total : 1261 couples (verbe, prep) - liste LM Recouvrement listes LM et LG : 501 couples – liste EXO
12 Corpus annotés pour l’évaluation (1) Cohérence avec la variabilité syntaxique des corpus Stratégies et règles sur corpus diversifiés Limiter les biais d’implémentation (approche mono-corpus) Base d’annotation : 3000 cas Règles d’annotation Stratégies de désambiguïsation évaluées sur trois corpus VOLC corpus scientifique, en volcanologie CTRA corpus juridique, Code du Travail MOND corpus journalistique, Le Monde
13 Corpus annotés pour l’évaluation (2) VNAPpa Occurrences des recteurs impliqués dans les cas validés VNAPpa VOLC VOLC CTRA CTRA MOND MOND Types de recteurs impliqués dans les cas validés CTRA CTRA258 couples (recteur, prep) VOLC VOLC553~ MOND MOND501~ Redondance lexicale CTRA > VOLC et MOND : endogène plus performant
14 Stratégies de désambiguïsation (1) Quatre stratégies Pas de décision par défaut Rattachements motivés par indices linguistiques 1.Stratégie exogène : si verbe dans LG, choix verbe argprod 2.Stratégie endogène : deux indices, arg et prod arg indice arg : si le candidat est recteur d’une préposition ayant le même régi ailleurs dans le corpus dans un contexte non ambigu son indice arg vaut 1 Ex : le gouvernement a accordé une aide supplémentaire aux sinistrés Contexte ambigu : c1:supplémentaire, c2:aide, c3:accorder Contexte non ambigu : un montant identique a été accordé aux sinistrés indice arg : accorder : 1 - (accorder, à, sinistré)
15 Stratégies de désambiguïsation (2) prod indice prod : productivité d’un couple (recteur, prep) : nb noms différents régis par la préposition dans un contexte non ambigu Contextes non ambigus : un montant identique a été accordé à la population sinistrée, le gouvernement a accordé aux habitants les montants espérés prod (accorder, à) : 2 – (accorder, à) (population, habitants) + si candidat, vb ou nom déverbal, productivité et celle de son déverbal (lexique Verbaction) indice prod du candidat vaut 1 si valeur > seuil Si candidat avec arg, l’analyseur le choisit Sinon, il choisit le candidat avec prod En cas de concurrence, l’analyseur choisit le candidat avec valeur prod maximale.
16 Stratégies de désambiguïsation (3) 3.Stratégie mixte 1 : mesure apport endogène verbal vs exogène verbal Stratégie endogène SAUF aucune mesure endogène pour les verbes Si verbe dans EXO, indice prod pour vb vaut 1 4.Stratégie mixte 2 : exploite conjointement informations endogènes et exogènes Stratégie endogène ET liste EXO Si valeur > seuil ou si verbe dans EXO, indice prod pour vb vaut 1
17 Résultats Taux de précision : nb cas correctement rattachés/nb cas rattachés Taux de rappel : nb cas correctement rattachés/nb cas à rattacher Stabilité des performances Gain exogène sur rappel Disparités inter-corpus : VOLC mix2 vs CTRA mix2 Résultats dégradés : VOLC exo vs VOLC endo Cas mal résolus Conflits indiciels, concurrence forte avec prod Ex : accorder des aides individuelles au reclassement, reporter sa visite à Meudon Stratégie exoendomix 1mix 2exoendomix 1mix 2exoendomix1mix 2 Précision Rappel CorpusVOLCCTRAMOND
18 Rattachement verbal à distance de la préposition « de » Comportement syntaxique de à, dans, sur Rattachement verbal à distance : Le Monde : de : 10%, à, dans, sur : 59% Projection lexique verbal (LG) en corpus (stratégie exogène) Ressource « catégorique » inefficace Capter l’optionalité du 2nd argument remplir [V] [les tiroirs [obj] de la commode] [SN] [Ø] [SP] Polysémie A. cerner l’attente du clientB. cerner la ville de troupes Nécessité de probabiliser les évènements linguistiques