Utilisation et utilité d’un extracteur de dépendances Claude Roux
Analyse Syntaxique L’analyse syntaxique représente traditionnellement l’information sous la forme d’un arbre. La configuration de l’arbre est aussi une interprétation sémantique. Difficulté de représenter une information dispersée (Latin) Pulchram domina rosam amat
Représentation sous la forme d’un graphe de dépendance Qu’est qu’une dépendance ? C’est une relation entre les mots d’une phrase, indépendemment de la position de ces mots. La maîtresse aime la belle rose Pulchram domina rosam amat Épithète(rose,belle) Épithète(rosam,pulchram) Sujet(aime,maîtresse) Sujet(amat, domina)
Extraction de dépendances Première phase: le groupage La dame aime la belle rose Pulchram domina rosam amat
Extraction de dépendances Deuxième phase: l’extraction Par configuration de noeuds épithète(rose,belle) Sur la base de traits semblables épithète(rosam,pulcram)
Différentes générations d’outils IFSP (Incremental Finite-State Parser) Salah Ait-Mokhtar & Jean-Pierre Chanod (1998) Anglais Français Espagnol XIP (Xerox Incremental Parser) Salah Ait-Mokhtar, Jean-Pierre Chanod, Claude ROUX (2001)
Désambiguïsation sémantique Frédérique Segond, Caroline Brun XRCE Grenoble Définition (cf. (Ide&Véronis98)) Associer à un mot dans un texte une définition ou un sens qui se distingue des autres sens potentiellement associables à ce mot. 2 étapes sont nécessaires : déterminer tous les sens d’un mot assigner le sens approprié à ce mot dans le contexte du discours
Désambiguïsation sémantique United State federal agents seized a surface-to-air rocket launcher, a rocket motor, rangefinders and a variety of military manuals. Analyse syntaxique donne: SUJET(seize,agent) COD(seize,launcher) Règle (construite grâce au dictionnaire): Si Sujet(seize,humain) et COD(seize,arme) Alors SENS(I.4)=saisir seize Sens I Verb. Trans. 4. Jur saisir [arm,drugs]
Extraction d’information Campagne Amaryllis (2000) David Hull, Eric Gaussier, Gregory Greffenstette, Claude Roux Recherche d’information en français et traitement automatique des langues (TAL 2000) Utilisation d’information syntaxique dans la recherche d’information Les documents sont indexés sur la base des mots qu’ils contiennent plus les dépendances qui lient ces mots entre eux. Exemple: Les joueurs convient les membres de leur équipe. Indexation sur les chaînes suivantes: joueur, convier, membres, équipe, SUJET(convier,joueur), COD(convier,membre), COMPNOM(membre,équipe)
Extraction d’information Campagne Amaryllis (2000) David Hull, Eric Gaussier, Gregory Greffenstette, Claude Roux Recherche d’information en français et traitement automatique des langues (TAL) Mesure de rappel et de précision n’est pas vraiment améliorée. En revanche, un résultat important: L’examen des dix premiers documents montre que l’utilisation de cette méthode d’indexation augmente la pertinence de ceux-ci. Autrement dit, dans le cadre d’une recherche d’information, on améliore la présentation des documents, en propulsant en tête, les documents les plus pertinents. Cela correspond aux habitudes des utilisateurs des moteurs de recherche qui examinent rarement les pages situées au-delà du premier écran de réponse.
Munnin Denys Proux (Thèse de doctorat 2000) Extraction de faits sur la génétique à partir d’articles sicentifiques dans le domaine (en anglais) Les gènes et les protéines peuvent être identifiées en fonction de leur contexte syntaxique Utilisation de patrons syntaxiques
Munnin Denys Proux Synthesis: Sélection d’un extrait d’un article scientifique: “Pka-C1 is a component of the signalling pathway that represses dpp expression in the anterior compartment in appendage imaginal discs and anterior to the morphogenetic furrow in eye discs. ” Extraction d’information repress (Acteur) (Cible) dpp ? (relier_à) (Lieu) imaginal disc eye Pka-C1 Synthesis: Action: repress Acteur: Pka-C1 Cible: dpp Lieu : imaginal disc Lieu: eye disc
Conclusion L’analyse syntaxique permet d’affiner la recherche d’information Elle offre aussi un concours précieux dans le cadre de l’extraction d’information en offrant des patrons plus raffinés que le simple pattern matching Démonstration de Xerox Incremental Parser