La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,

Présentations similaires


Présentation au sujet: "1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,"— Transcription de la présentation:

1 1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004

2 2 Syntex : un analyseur syntaxique de corpus français/anglais ( Bourigault, Fabre, 2000 )  En entrée, corpus étiqueté (Treetagger, Cordial)  Calcule des relations de dépendance entre mots dans la phrase (sujet, objet direct, complément prépositionnel, épithète…)  Identifie des syntagmes nominaux (transfert de gènes), verbaux (prélever des cellules)  Construit un réseau de mots et syntagmes  Elaboration de ressources lexicales spécialisées (terminologie, ontologie, lexique…) ( Bourigault et Lame, 2002, Le Moigno et al. 2002 )

3 3 Apprentissage endogène (Bourigault, 1994)  Acquisition en corpus d’informations de sous-catégorisation  Résolution ambiguïtés de rattachement syntaxique (adjectival, prépositionnel)  Utilisation délicate de ressources lexico-syntaxiques génériques  Propriétés syntaxiques de sous-catégorisation inédites (Basili et al. 1997, Basili et al. 1999, Fabre, Bourigault, 2001) - Comportement imprédictible  données établies en langue - Variation inter-corpus  « Capter » la réalisation d’un mot en corpus

4 4 Limites d’une approche « tout endogène »  Ambiguïtés résiduelles : prépositions régies par des verbes  Mesures endogènes basées sur la productivité  Exploitation d’indices bruités  Données non supervisées  Propagation des erreurs d’acquisition au calcul des indices endogènes  Champ d’action de l’analyseur élargi  Textes spécialisés  textes « tout venant »  Réapprentissage sur chaque nouveau corpus

5 5 Hypothèse de travail – problématique  Approche endogène : spécificités du corpus traité  Optimisable par des ressources exogènes  Données de sous-catégorisation verbale  « Très ténus quantitativement » ( Habert, Zweigenbaum, 2002 ) en corpus, banals en langue - Non (mal) captés par l’endogène basé sur la productivité Sous-catégorisation verbale à distance pour de : numériquement infime ( remplir le tiroir de documents )  Régulières et « transportables » inter-corpus

6 6 Quelles ressources exogènes ? Ressources construites vs à construire  Utilisation de ressources existantes  Lexique-grammaire (LG) - Constituées a priori, démarche introspective, indépendamment de tout corpus et tout domaine - Objectif d’exhaustivité, français « standard »  Acquisition à partir de corpus - Le Monde Exploitation des deux types (intersection)

7 7 Quelle collaboration endogène/exogène ? « Déclinaisons » possibles 1.Filtrage : données exogènes vont conforter (reévaluer) les indices endogènes 2. « Relais » : indice supplémentaire (données non redondantes « insensibles » à l’acquisition en corpus) Enjeu : proposer des critères de désambiguïsation exogènes compatibles avec des procédures endogènes

8 8 Expérience d’intégration de ressources exogènes dans Syntex  Description de l’ambiguïté structurelle à résoudre  Constitution des ressources exogènes (lexique grammaire, acquisition en corpus)  Corpus annotés pour l’évaluation  Stratégies de désambiguïsation  Résultats  Confrontation avec résultats obtenus sur de

9 9 Description de l’ambiguïté à résoudre  Configuration syntaxique V SN SP(à, dans, sur)  V:verbe à l’actif, SN : nom simple, composé, adjectif, participe passé  La préposition régit un nom  Rattachements possibles V:informer les automobilistes sur les conditions de circulation, envoyer la feuille de soins aux caisses d’assurance maladie, plonger le thermocouple dans la lave chaude, injecter des particules de sulfate dans la stratosphère N:accorder des aides individuelles au reclassement, assurer un lent travail de sensibilisation à la culture, condamner un éventuel recours à la force A:procurer des informations relatives à l’article 1.2, verser une rémunération supérieure au salaire minimum Ppa:rappeler la faculté offerte à l’handicapé, définir les modalités visées à l’article

10 10 Exploitation du lexique-grammaire  Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur  Appartenance à la forme canonique N 0 V N 1 Prep N 2  Filtrage des données : on exclut les restrictions de sélection  Nature sémantique du syntagme prépositionnel non encodée dans analyseur (traits humain, non humain…)  Total : 1637 couples (verbe, prep) - liste LG

11 11 Acquisition à partir de corpus Choix du corpus  Corpus d’apprentissage : Le Monde (40 millions de mots)  Taille et hétérogénéité thématique  Acquisition de données relativement génériques Méthode d’acquisition  Résultats de l’analyse syntaxique sur Le Monde (LM)  Contextes d’acquisition non ambigus Vb au passif : les logiciels ont été installés sur la machine  (installer, sur, machine) Ppa épithète : les logiciels installés sur la machine  (installer, sur, machine) Objet à distance : on a installé sur la machine un logiciel  (installer, sur, machine)  215 693 triplets filtrés par fréquence et productivité  Total : 1261 couples (verbe, prep) - liste LM Recouvrement listes LM et LG : 501 couples – liste EXO

12 12 Corpus annotés pour l’évaluation (1)  Cohérence avec la variabilité syntaxique des corpus  Stratégies et règles sur corpus diversifiés  Limiter les biais d’implémentation (approche mono-corpus)  Base d’annotation : 3000 cas  Règles d’annotation  Stratégies de désambiguïsation évaluées sur trois corpus  VOLC corpus scientifique, en volcanologie  CTRA corpus juridique, Code du Travail  MOND corpus journalistique, Le Monde

13 13 Corpus annotés pour l’évaluation (2) VNAPpa  Occurrences des recteurs impliqués dans les cas validés VNAPpa VOLC VOLC710280 32 84 CTRA CTRA488296110153 MOND MOND591329 28 59  Types de recteurs impliqués dans les cas validés CTRA CTRA258 couples (recteur, prep) VOLC VOLC553~ MOND MOND501~ Redondance lexicale CTRA > VOLC et MOND : endogène plus performant

14 14 Stratégies de désambiguïsation (1)  Quatre stratégies  Pas de décision par défaut  Rattachements motivés par indices linguistiques 1.Stratégie exogène : si verbe dans LG, choix verbe argprod 2.Stratégie endogène : deux indices, arg et prod arg indice arg : si le candidat est recteur d’une préposition ayant le même régi ailleurs dans le corpus dans un contexte non ambigu  son indice arg vaut 1 Ex : le gouvernement a accordé une aide supplémentaire aux sinistrés Contexte ambigu : c1:supplémentaire, c2:aide, c3:accorder Contexte non ambigu : un montant identique a été accordé aux sinistrés  indice arg : accorder : 1 - (accorder, à, sinistré)

15 15 Stratégies de désambiguïsation (2) prod indice prod : productivité d’un couple (recteur, prep) : nb noms différents régis par la préposition dans un contexte non ambigu Contextes non ambigus : un montant identique a été accordé à la population sinistrée, le gouvernement a accordé aux habitants les montants espérés prod (accorder, à) : 2 – (accorder, à) (population, habitants) + si candidat, vb ou nom déverbal, productivité et celle de son déverbal (lexique Verbaction)  indice prod du candidat vaut 1 si valeur > seuil Si candidat avec arg, l’analyseur le choisit Sinon, il choisit le candidat avec prod En cas de concurrence, l’analyseur choisit le candidat avec valeur prod maximale.

16 16 Stratégies de désambiguïsation (3) 3.Stratégie mixte 1 : mesure apport endogène verbal vs exogène verbal  Stratégie endogène SAUF aucune mesure endogène pour les verbes  Si verbe dans EXO, indice prod pour vb vaut 1 4.Stratégie mixte 2 : exploite conjointement informations endogènes et exogènes  Stratégie endogène ET liste EXO  Si valeur > seuil ou si verbe dans EXO, indice prod pour vb vaut 1

17 17 Résultats Taux de précision : nb cas correctement rattachés/nb cas rattachés Taux de rappel : nb cas correctement rattachés/nb cas à rattacher  Stabilité des performances  Gain exogène sur rappel  Disparités inter-corpus : VOLC mix2 vs CTRA mix2  Résultats dégradés : VOLC exo vs VOLC endo  Cas mal résolus  Conflits indiciels, concurrence forte avec prod Ex : accorder des aides individuelles au reclassement, reporter sa visite à Meudon Stratégie exoendomix 1mix 2exoendomix 1mix 2exoendomix1mix 2 Précision 82.781.878.382.478.686.882.085.984.186.884.386.0 Rappel 43.139.153.853.452.375.268.292.347.154.055.765.5 CorpusVOLCCTRAMOND

18 18 Rattachement verbal à distance de la préposition « de »  Comportement syntaxique de  à, dans, sur  Rattachement verbal à distance : Le Monde : de : 10%, à, dans, sur : 59%  Projection lexique verbal (LG) en corpus (stratégie exogène)  Ressource « catégorique » inefficace  Capter l’optionalité du 2nd argument remplir [V] [les tiroirs [obj] de la commode] [SN] [Ø] [SP]  Polysémie A. cerner l’attente du clientB. cerner la ville de troupes  Nécessité de probabiliser les évènements linguistiques


Télécharger ppt "1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,"

Présentations similaires


Annonces Google