La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Dominique LAURENT Patrick SEGUELA

Présentations similaires


Présentation au sujet: "Dominique LAURENT Patrick SEGUELA"— Transcription de la présentation:

1 Dominique LAURENT Patrick SEGUELA
QRISTAL Questions-Réponses Intégrant un Système de Traitement Automatique des Langues Dominique LAURENT Patrick SEGUELA Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

2 Indexation et extraction de réponse
QRISTAL, fondé sur la technologie Cordial d’analyse de la langue française, est un moteur complet de questions-réponses. Il indexe les corpus sur disque dur ou sur réseau. Son indexation est sémantique et conceptuelle. Il extrait les réponses à partir des index ou à partir du Web (via un métamoteur). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

3 Indexation sémantique et conceptuelle
L’une des spécificités de QRISTAL est son utilisation massive du TALN dès l’indexation : analyse syntaxique, correction automatique, et désambiguïsation sémantique des fichiers indexés indexation de têtes de dérivation (cf DESFA mais sur plus de 8 000 têtes) indexation des concepts de l’ontologie et des domaines indexation des mots-clés et des types de questions-réponses L’indexation s’effectue par blocs, actuellement de 1 Ko. La vitesse d’indexation est d’environ 300 Mo/heure. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

4 Architecture modulaire
Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

5 Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT
Question Réponse(s) Documents Indexation Traitement Question Extraction réponse Découpage des blocs Correction orthographe Extraction réponse(s) Correction orthographe Analyse syntaxique Ontologie générale Cohérence, justification Analyse syntaxique Analyse conceptuelle Tri des phrases Analyse conceptuelle Extraction mots-clés Sélection phrase(s) Résolution anaphores Type de la question Dico des formes dérivées Détection des métaphores Index entités nommées Traduction si multilingue Résolution des anaphores Index têtes dérivation Recherche dans Index Mots-clés du bloc Index des concepts Synonymes + converses Type de la réponse Ontologie des types questions Index des domaines Sélection des blocs Analyse conceptuelle Index mots-clés blocs Ordonnancement blocs Analyse syntaxique Index des types de questions-réponses Extraction des blocs Correction orthographe Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

6 Extraction de réponses
Pour une question donnée, après correction éventuelle, analyse syntaxique, sémantique et conceptuelle, puis détection du type de la question, les têtes de dérivation, entités nommées, concepts, domaines, types de question-réponse, sont comparés aux index pour ces différents types. Les blocs les mieux placés sont analysés et les réponses extraites. Pour EQUER, les 40 blocs les mieux placés ont été analysés. Pour les 500 questions, la bonne réponse figurait dans les 40 blocs pour 85% des cas. Pour le corpus médical de 200 questions, la bonne réponse figurait dans les 40 premiers blocs pour 76% des cas. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

7 run Synapse1 et run Synapse2
Synapse Développement a participé à EQUER à travers deux runs : le run 1 a extrait les réponses à partir des 40 premiers blocs de 1 ko retournés par l ’indexation de QRISTAL. le run 2 a extrait les réponses à partir des 40 premiers textes de la liste Pertimm. Le MRR global est de 0,70 sur les passages avec le run 1. Il est de 0,64 avec le run 2. Pour les réponses courtes, il est de 0,58 avec le run 1, de 0,48 avec le run 2. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

8 Résultats de la tâche générale
Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

9 Résultats de la tâche spécialisée
Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

10 Quelques données techniques
L’ensemble des 500 questions du corpus général est examiné par le moteur en 23 minutes et 17 secondes, soit un peu moins de 3 secondes par question. La vitesse d’analyse linguistique des blocs est d’environ 400 Mo/heure à l ’indexation, soit mots/seconde. La vitesse d ’analyse et d’extraction de réponse est d ’environ 230 Mo/heure, soit mots/seconde. Ces tests de vitesse ont été effectués sur Pentium 3 GHz avec 1 Go de mémoire vive. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

11 Analyse des résultats bruts
Nos résultats reflètent l’état de la bêta version en juillet 2004, alors que l’extraction de réponse était encore en cours de finalisation. La différence entre le run 1 et le run 2 indique que notre indexation conceptuelle améliore de 10% à 15% la liste des blocs retournés. Les résultats montrent une grande homogénéité entre les types de questions (factuel, binaire, définition, liste). A noter que, sur notre ontologie de 86 types de questions, le corpus ne couvre que 46 de ces types. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

12 Analyse comparative des résultats
Les résultats d ’EQUER sont difficiles à comparer à ceux de TREC ou de CLEF, les types de questions et les calculs de coefficients résultats n’étant pas homogènes. Par comparaison avec les résultats de TREC sur l’anglais, nous trouvons 57% de passages corrects en 1e position alors que LCC a obtenu 68,5% et le second 41,9% en 2003. A CLEF 2004, le meilleur système monolingue a obtenu 45,5% pour un mode d’évaluation similaire (passage correct en première position). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

13 Perspectives Nos résultats sur le corpus médical sont insuffisants puisque nous trouvons à peine la moitié de passages justes. Nos efforts vont maintenant vers l’amélioration de nos résultats sur les questions complexes et sur les corpus spécialisés. Nous pensons également valider les réponses via le Web. Nous améliorons l’ensemble des composants mais, selon nos premiers tests, l’ontologie des questions-réponses apparaît capitale (MRR de .46 contre .70 sans la typologie). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

14 Quelques retours après commercialisation
QRISTAL est commercialisé depuis novembre 2004 dans le réseau grand public (Fnac, Surcouf, etc.) A notre connaissance, il s’agit du premier moteur de questions-réponses commercialisé au monde. Quels retours ? l’utilisateur refuse d’attendre une réponse plus de trois secondes QRISTAL est un logiciel qui ne laisse pas indifférent. Les métamoteurs sont à améliorer, en particulier sur le plan de la reformulation des requêtes. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT


Télécharger ppt "Dominique LAURENT Patrick SEGUELA"

Présentations similaires


Annonces Google