La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Un dérivé de l’Extraction d’Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction)

Présentations similaires


Présentation au sujet: "1 Un dérivé de l’Extraction d’Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction)"— Transcription de la présentation:

1 1 Un dérivé de l’Extraction d’Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction)

2 2 Tâche : Interroger une base documentaire (web, base « métier »…) pour obtenir des information « on line » Exemples de Requêtes (1) « Qui est l’auteur de ‘ Annie Hall ’, Quels autres films a-t-il réalisé récemment ? » (2) « Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ » Corpus Documents sur le Web / Manuels techniques (ou autre docs spécialisés)… Résultat de l ’analyse - La « réponse » (question answering): Woody Allen —Break Point, Vicky Cristina Barcelona - ou : Des phrases ou passages (fenêtres de n mots) contenant la (une) réponse (answer extraction)

3 3 Différents types de requêtes Simples : QUI/OU/QUAND -Où est le Taj Mahal ? -Quelle est la population actuelle de Tucson ? -Qui était le premier secrétaire d'Etat de Nixon ? Listes -Nommer 30 personnes ayant participé au cabinet de G.W. Bush. -Quels sont les acteurs du film Z ? -Nommer 4 pays producteurs de diamants.

4 4 Ouvertes - Biographie résumée de Colin Powell (personnage public) ? nom, surnoms, adresse, date de naissance, formation… - Que savons nous de la société Y ? structures organisationnelle, lignes de produits, dirigeants… - Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ « Contexte » -Quelle cépage est utilisé dans le Château Petrus ? combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ? quel domaine possède-t-il en Califormie ? - Combien existe-t-il d'espèces d'araignées ? combien sont venimeuses ? quel pourcentage de piqûres sont fatales ?

5 5 Test 1) sur Google who directed Annie Hall / les petits mouchoirs, Little Budha Last palme d’or à Cannes Palme d’or in1988 Who was the president of usa in 1940? 2) Sites spécifiques http://bossy.appspot.com/ http://www.wolframalpha.com/ http://www.trueknowledge.com/ http://bossy.appspot.com/ http://www.wolframalpha.com/ http://www.trueknowledge.com/

6 6 Méthodes Deux types (± combinées éventuellement) : - type EI : compréhension assez complète de la question et analyse linguistique du texte type RD : appariement basé sur de cooccurrence de mots

7 7 Exemple 1 : Méthodes de RD + analyse simple de la question « A question answering System Supported by Information Extraction », R. Srihari, W. Li « Who won the 1998 Peace Nobel Prize » þPattern : Asking point : PERSON Key words : {won, 1998, Peace,Nobel Prize} þRepérage dans le texte d’un entité PERSON dans un contexte contenant les mots-clés.

8 8 Exemple 2 : Analyse plus structurelle de la question et du texte - Reconnaissance de motifs QUALC (B. Grau, LIMSI) Motif (patron) à reconnaître dans le texte Entité : Personne « Annie Hall » Connecteur ≈‘ réaliser ’ Qui a réalisé le Annie Hall ?

9 9 Exemple 3 : Méthodes proches de la compréhension automatique « Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs : D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich) - Manuels techniques. P. ex. Man Unix : « Comment fait-on pour changer les droits d’accès? que fait la commande ‘cp’ » - Analyse sémantique du texte cp copies files holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2) - Appariement « logique » avec la question Does cp coies files ? ?- evt(copy,E,[X,Y]) & object(cp,X) & object(file,Y)

10 Conclusion Un tâche ambitieuse –Lang Nat –Connaissances –Raisonnement (cf. True Knowledge) Accéder à l’information faiblement structurée –EI : pour fabriquer de l’information structurée BD, Web Sémantique (RDF, OWL…) – –QA : traiter les Bases Documentaire « comme » une BD Degré de faisabilité ? Avenir ? Domaines d’application « réalistes » ? 10

11 Interrogation « on line » ou remplissage de BdeK ? Question Answering and Information Extraction have been studied over the past decade; however evaluation has generally been limited to isolated targets or small scopes (i.e., single documents). The Knowledge Base Population (KBP) Track at TAC 2010 will explore extraction of information about entities with reference to an external knowledge source. Using basic schema for persons, organizations, and locations, nodes in an ontology must be created and populated using unstructured information found in text. A collection of Wikipedia Infoboxes will serve as a rudimentary initial knowledge representation. (TAC 2010)TAC 2010Wikipedia Infoboxes 11

12 Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC http://www.nist.gov/tac/publications/2008/index.html Document Understanding Conferences (DUC) : entre MUC et TAC : http://duc.nist.gov/ Et site général sur la recherche d’informations (Conférences TREC) http://trec.nist.gov/ 12


Télécharger ppt "1 Un dérivé de l’Extraction d’Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction)"

Présentations similaires


Annonces Google