Anne-Laure Ligozat Séminaire LIR 22 novembre 2005

Slides:



Advertisements
Présentations similaires
Conférence « Compétences Informatiques » 10 avril 2006
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
24510, AND PROJECT STANDARDS TEST IN TWO MOROCCAN CITIES LOCAL ACTION – 4th WORLD WATER FORUM, MEXICO 2006 SERVICE DE NORMALISATION INDUSTRIELLE.
Module 8- Les étapes de la démarche d'évaluation
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
TD METHODOLOGIE : RÉUSSIR LA PARTIE ANALYTIQUE
Analyse et innovation curriculaires de lEducation Pour Tous en Afrique Subsaharienne I. Rappel de la structure de loutil première version II. Rappel des.
Evaluer: un exemple au cycle 2
Système formel Nous avons introduit : signes de variables (x, y, z, …), de constantes (0, 1), d’opérations (+, ), de relations (=, ) Axiomes : ce sont.
Apprendre à lire.
Les Ateliers de Génie Logiciel
Présentation du stage Lieu : Groupe Paul KROELY Automobiles
Évaluer pour faire apprendre dans une approche par compétences
Rendre utile la consigne sans nuire à l’autonomie
L'apprentissage de l'abstraction Faire acquérir des concepts Animation pédagogique 12 décembre 2012 LRO.
Pour un système formel de description linguistique
Démarche de résolution de problèmes
Algorithmique et Programmation
Besoin et fonctionnement
Initiation à la conception de systèmes d'information
Un concept pour la modélisation de la recherche qualitative, pp
UE : 3.4. S4 Initiation à la démarche de recherche
Introduction à la conception de Bases de Données Relationnelles
2 mai 2011 – Johannesburg, Afrique du Sud Atelier de lancement Transparency and Accountability Program (Programme pour la transparence et la responsabilisation)
Un exemple d’évolution de pratique pédagogique.
Bases de données lexicales
SOCLE COMMUN LIRE ET COMPRENDRE
MOT Éditeur de modèles de connaissances par objets typés
BIO1530 Lab2 Littérature scientifique. Objectifs de lexercice Après avoir complété cet exercice, vous devriez être en mesure de: Déterminer si une publication.
Les 6 étapes de la recherche…
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Algorithmes d ’approximation
Systeme Question-Reponse SQR
SEMINAIRE DE CONTACT novembre 2008 Outils de gestion de projet.
Création et notation « questions ouvertes Licence 66 »
Chaînes de Résultats Conservation Coaches Network Formation des coachs Tester la logique de vos stratégies.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Supports de formation au SQ Unifié
GSD langue française - Boumerdès 19 et 30 avril 2013
2003 (revisé 2008)SEG Chapitre 11 Chapitre 1 “The Systems Engineering Context” Le contexte du génie de systèmes.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Amélioration de la Performance des Systèmes d’Information de Routine (SISR) et de l’Utilisation de l’Information pour la Gestion des Systèmes de Santé.
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
LES DEMARCHES PEDAGOGIQUES
DOUX Mathilde 3ème2 Rapport de stage en entreprise.
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Mustapha Hamidou Vendredi 20 août Stage Contour Matching.
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Introduction et Généralités sur l’Algorithmique
Identifier le problème de la recherche
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
METHODE POUR LE PARAGRAPHE ARGUMENTE
Le Traitement Automatique des Langues (TAL)
Modélisation de l’inférence et application à un système de question-réponse Anne-Laure Ligozat Groupe LIR Directrice : Michèle Jardino Encadrante : Isabelle.
Appariement syntaxique question-réponse Séminaire groupe LIR 21/10/2003.
La situation : Clément et Zoé ont schématisé le circuit ci-dessous :
Loi des intensités et des tensions dans les circuits électriques
Démarche d’enseignement de l’APL : analyser
Comment faire un résumé d’article ?
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
PETITE FABRIQUE SUD-VENDEE 21/11/2012. LE NOUVEAU DNB 2013 ( Une banque de sujets par le groupe académique) a) L'ESPRIT DU B.O. b) LES PRINCIPES GENERAUX.
MES STRATÉGIES DE LECTURE
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Formalisation de la temporalité en vietnamien pour la traduction automatique Nicolas Boffo Nicolas Boffo Directeurs de thèse : Jacques BRES (PRAXILING)
25 mai 2012 Professeurs de Sections européennes.
Transcription de la présentation:

Anne-Laure Ligozat Séminaire LIR 22 novembre 2005 Etat des lieux Anne-Laure Ligozat Séminaire LIR 22 novembre 2005

Ma thèse Question-Réponse: Au-delà de la phrase pour une meilleure exploitation des documents Rendre un système plus fiable En vérifiant au maximum les réponses données En présentant à l’utilisateur des éléments de contexte Tirer parti au maximum des documents/Aller au-delà de la phrase pour répondre Répliquer une recherche de réponse manuelle Agrandir ou rétrécir la question Rendre un système plus fiable En vérifiant au maximum les réponses données En présentant à l’utilisateur des éléments de contexte

Comment tout a commencé… Stage de DEA: Appariement syntaxique pour le système de Question-Réponse du groupe LIR But Améliorer l’extraction de la réponse en prenant en compte les relations syntaxiques Etapes Evaluation des outils syntaxiques disponibles Grammaire des questions françaises Premiers tests d’appariement Difficultés Qualité des analyseurs en particulier sur les questions Choix des relations à rechercher Prise en compte des variantes

Question-Réponse multi-phrases

Question-Réponse multi-phrases Modélisation de l’inférence et application à un système de Question-Réponse (QR) Constat: pour répondre à certaines questions, il est nécessaire de rassembler des éléments provenant de plusieurs phrases Actuellement les systèmes de QR ne trouvent la réponse que si sa justification est dans une petite portion de texte

Quelques précisions phrase réponse réponse justification Nommez un film qui a gagné un Ours d’Or au Festival du Film de Berlin. phrase réponse réponse ‘Music Box' gagne l’Ours d’Or au 40ème Festival du Film de Berlin Le film américain "Music Box" justification

Motivations Nécessité de travailler sur plusieurs phrases: [Burger et al., 2001] et [Moldovan et al., 2003] Considérée pour les questions «à listes» (“Citez un ...”) ou instructions (“ Comment faire pour…”) Point de vue un peu différent : on s’intéresse aux questions factuelles dont les éléments de justification sont répartis sur plusieurs phrases, et non pas aux questions attendant une réponse longue

Pertinence de l’approche De nombreuses questions ont des justifications réparties sur plusieurs phrases Par exemple, la phrase réponse peut ne pas contenir: Le type attendu de la réponse: Dans quelle vallée le Traité de paix entre la Jordanie et Israël a-t-il été signé ? Le contexte temporel: Simple: dépêches  souvent dans le titre Complexe: Qui a félicité Indurain pour sa « capacité de sacrifice, sa clase et son sain esprit de compétition lorsqu’il a remporté le Tour de France pour la 4ème fois ? D’autres informations comme la nationalité: « Quel coureur espagnol a gagné une étape du Tour de France en 2003 ? » Pour toutes les questions on peut être amené à traiter ce type de réponses

Questions multi-phrases Définition: Question considérée multi-phrases si dans la phrase réponse manquent: Un contexte (temporel, spatial, événementiel…) Le type attendu de la réponse Une relation syntaxique Remarques: On considère que les anaphores sont étiquetées dans notre corpus Cette définition dépend à la fois de la question ET de la réponse Remarque : dans « LA » phrase réponse = dans toutes les phrases réponses en fait ? Ou au moins une ?

Corpus Etude de corpus pour distinguer les informations pouvant manquer dans la phrase réponse Corpus: Questions d’Equer et AnswerBus Documents de CLEF Objectif: éliminer biais Entre questions et documents Des connaissances des organisateurs des campagnes d’évaluation

Catégories de questions multi-phrases Catégories détectées précédemment, pour lesquelles manquent Type attendu de la réponse Contexte temporel simple ou complexe Mais également Questions sous-spécifiées par rapport au corpus Contexte temporel sous-spécifié A qui des prix Nobel ont-ils été attribués pendant la seconde guerre mondiale ? Liste de prix Nobel + dates de la seconde guerre mondiale Type attendu (au sens large) Quel âge a le président français ? Le président français François Mitterrand + Mitterrand, 78 ans Quand est né le 42ème président des Etats-Unis ? Bill Clinton, 42ème président des Etats-Unis + né en juillet 1946, George W. a six mois de plus que Bill Clinton Questions « doubles » Qui a été désigné comme prix Nobel mais a dû le refuser ? Le lauréat russe du prix Nobel (…) Boris Pasternak + Boris Pasternak, soviétique (obligé de refuser le prix)

Travaux sur les questions « complexes » Peu de systèmes gèrent les réponses multi-phrases, mais des éléments de traitement multi-phrases peuvent être trouvés dans plusieurs travaux Validation du type attendu en utilisant connaissances ou redondance [Schlobach et al., 2004] Which is the biggest city in the world ? Contexte temporel simple recherché sur plusieurs phrases [Moldovan et al., 2005] What country controlled Syria in 1930? Contexte temporel complexe par décomposition des questions [Saquete et al., 2004] Where did Bill Clinton study before going to Oxford University? Questions « sous-spécifiées » décomposées en fonction de syntaxe et connaissances linguistiques [Katz et al., 2005] When was the 20th President of the U.S. born? Mais Pas de stratégie unifiée Pas de définition des questions considérées comme complexes Traitements indépendants du corpus

Notre système Analyse des questions Normalisation de certaines questions Pour analyse syntaxique et traduction Etiquetage morpho-syntaxique Analyse syntaxique Ecriture de grammaires spécifiques aux questions Repérage des contextes temporels Questions restreintes temporellement de CLEF 05 Reconnaissance du type attendu et de la catégorie de la question Complétion des lexiques existant pour la reconnaissance du type attendu Création de lexiques et patrons dépendant de la langue des questions Création de catégories de questions ad hoc

Notre système (2) Appariement question-réponse Travail avec Vincent sur l’appariement question-réponse: sélection des phrases et extraction de la réponse Algorithme de sélection des phrases réponses en fonction d’une distance syntaxique et non plus linéaire Sélection d’un arbre syntaxique élagué contenant chaque terme de la question ou une variante et une entité nommée du type attendu

Travail réalisé ou en cours 1er objectif: Définir un cadre unificateur pour la décomposition des questions Définition et classification des questions « complexes » Décomposition de ces questions Idée: réduire la question en un ensemble de propriétés que la réponse devra vérifier: Type attendu, action effectuée… en respectant les différents contextes Which liberal politician was Italy's Health Minister from 1989 to 1993? Contexte temporel: from 1989 to 1993 Type attendu: politician (PERSON) Autres relations: liberal, Italy's Health Minister Problèmes: Quelle granularité de ces propriétés ? Prendre en compte toutes les relations ?

Travail réalisé ou en cours (2) Algorithme en cascade pour répondre à des questions à réponses complexes Essayer de trouver les propriétés dans un même segment de texte Sinon utiliser la décomposition de la question jusqu’à sa complète résolution Difficultés (entre autres…): Ordre des relations à vérifier Quel âge a le président français ? = Qui est le président français ? +> Quel âge a François Mitterrand ? Dans quelle vallée a été signé le traité de paix entre Israël et la Jordanie ? = Où a été signé le traité de paix entre Israël et la Jordanie +> Est-ce que Wadi-Araba est une vallée ? Imprécision possible des questions à prendre en compte: Quelle entreprise américaine a introduit un médicament générique dans un pays européen ?  3 inconnues interdépendantes Reconnaissance des différentes formulations des réponses nécessaire

Justification contextuelle des réponses

Justification contextuelle des réponses Hypothèse en QR: un utilisateur préfèrerait avoir une réponse précise plutôt qu’une liste de documents Problème: pas d’élément d’évaluation des réponses Quel contexte donner ? Evaluations: phrases ou référence du document. Assez ? Trop ? « Taj Mahal problem »  nécessité de plus d’informations

Justification contextuelle de la réponse Question: quel éléments d’information donner à l’utilisateur ? Hypothèse de travail: un ensemble d’informations précises Qui a découvert la tombe de Toutankhamon ? Howard Carter et Lord Carvanon Quand ? En 1922 Où ? Dans la Vallée des Rois en Egypte Justification de la réponse En détaillant les raisonnements effectués En donnant un contexte de validité de la réponse

Justification temporelle Restriction aux aspects temporels Justification temporelle d’une réponse: indication temporelle sur cette réponse sous la forme d’une date ou d’une période Exemple: Combien d’habitants la France compte-t-elle ? 58 millions en 1994 Plus ou moins utile selon les questions: « Quel âge a Bill Clinton ? » vs. « Où est la couche d’ozone ? »

Classifications des questions Selon un critère temporel Questions temporelles i.e. comportant une indication temporelle Sous forme d’une date ou d’une période: « en 1994 », « depuis 1972 » Sous forme d’un événement « avant d’être paralysé » Questions attendant une réponse temporelle: Quand/En quelle année… Questions sans contrainte temporelle Problèmes: Ne rejette pas « Où est la couche d’ozone ? » Pas d’analyse de la relation entre la réponse et son contexte temporel

Classification des questions Classification utilisée dans les évaluations Questions de définition Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance? Questions factuelles Instances: Name a university in Berlin. Personnes: What is the Serbian President's name? Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Alabama University discover? Descriptives: Which genes regulate the immune system?

Contexte temporel Relation entre la réponse et son contexte Date de l’événement pour événementielles Date/Période à laquelle la réponse est vraie pour les autres Place du contexte Dans la même phrase que la réponse Dans le même paragraphe Dans les méta-données

Travail en cours Module d’exploitation des contextes temporels Création d’un corpus de questions et de documents réponses associés Etiquetage des dates dans les documents Marquage des contextes temporels => Corpus de test Algorithme de reconnaissance du contexte temporel en fonction de la catégorie de la question Définition d’une nouvelle tâche pour CLEF

Merci !