Dominique LAURENT Patrick SEGUELA

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

La sécurité des systèmes informatiques
Image et apprentissage
Bienvenue dans le programme de formation rapide à NSIS Date : 20 novembre 2003 Intervenant : Julien VICTOR Interlocuteurs : Ingénieurs 2000 Informatique.
Exemple : Itinéraire de lecture.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Reconnaissance de la parole
Cordial, le TAL et les aides à la rédaction
Sélection automatique d’index et de vues matérialisées
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
GED Masters: Gestion Électronique de Documents
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Concours Recrutement d’administrateurs linguistes dans le domaine de la traduction.
Les systèmes de Question-Réponse
Annotations sémantiques pour le domaine des biopuces
Le Travail Collaboratif ...
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
Larry Hope Jack McMaster Jeannie McMaster. Définir et évaluer des stratégies ainsi que des méthodes denseignement et dévaluation de la communication orale.
Doctorat/Web of Science Les nouveautés du Web of Science Formations Master et Doctorants Voir aussi
Les fichiers indexés (Les B-arbres)
MOT Éditeur de modèles de connaissances par objets typés
Colloque IC-2012– Montréal 6-7 juin 2012
Moteur de recherche d’information
Moteur de recherche d’information
Reconnaissance Vocale
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Systeme Question-Reponse SQR
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Recherche par mots-clés vs recherche en langue naturelle.
Projet de Master première année 2007 / 2008
Les techniques des moteurs de recherche
Ontologies pour l’astronomie
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Centre de RessourcesRechercheravecInternet Aide. Centre de Ressources Rechercher avec Internet 1.Les différentes fonctions du navigateur 1.Les différentes.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
1 BEP métiers de l’électronique Déroulement de l’examen (Candidats scolarisés)
MEMOIRE INDUSTRIEL ESIEA
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Projet : Automatiser la découverte de moyens mnémotechniques
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Recherche d’information
Présentation février 2002 Relations Visiblement Meilleures.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
TALN 08 juin 2005  ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA.
Observus - ENEIDE 28 novembre Pertimm : la société  Pertimm SAS : Fondée en 1997 en France, Présente en France et aux Etats-Unis, Start-up innovante.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Initiation aux SGBD Frédéric Gava (MCF)
Le Traitement Automatique des Langues (TAL)
Formation « C A F E R U I S » Promotion 1 ( )
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
Introduction à la Recherche
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
1 Mise en correspondance des données Sandre et Covadis avec les thèmes d’Inspire A.FATIHI GIGE Vincennes, le 04/06/2013.
Forum des Industries de la Langue, 17 mars 2010
Transcription de la présentation:

Dominique LAURENT Patrick SEGUELA QRISTAL Questions-Réponses Intégrant un Système de Traitement Automatique des Langues Dominique LAURENT Patrick SEGUELA Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Indexation et extraction de réponse QRISTAL, fondé sur la technologie Cordial d’analyse de la langue française, est un moteur complet de questions-réponses. Il indexe les corpus sur disque dur ou sur réseau. Son indexation est sémantique et conceptuelle. Il extrait les réponses à partir des index ou à partir du Web (via un métamoteur). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Indexation sémantique et conceptuelle L’une des spécificités de QRISTAL est son utilisation massive du TALN dès l’indexation : analyse syntaxique, correction automatique, et désambiguïsation sémantique des fichiers indexés indexation de têtes de dérivation (cf DESFA mais sur plus de 8 000 têtes) indexation des concepts de l’ontologie et des domaines indexation des mots-clés et des types de questions-réponses L’indexation s’effectue par blocs, actuellement de 1 Ko. La vitesse d’indexation est d’environ 300 Mo/heure. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Architecture modulaire Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT Question Réponse(s) Documents Indexation Traitement Question Extraction réponse Découpage des blocs Correction orthographe Extraction réponse(s) Correction orthographe Analyse syntaxique Ontologie générale Cohérence, justification Analyse syntaxique Analyse conceptuelle Tri des phrases Analyse conceptuelle Extraction mots-clés Sélection phrase(s) Résolution anaphores Type de la question Dico des formes dérivées Détection des métaphores Index entités nommées Traduction si multilingue Résolution des anaphores Index têtes dérivation Recherche dans Index Mots-clés du bloc Index des concepts Synonymes + converses Type de la réponse Ontologie des types questions Index des domaines Sélection des blocs Analyse conceptuelle Index mots-clés blocs Ordonnancement blocs Analyse syntaxique Index des types de questions-réponses Extraction des blocs Correction orthographe Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Extraction de réponses Pour une question donnée, après correction éventuelle, analyse syntaxique, sémantique et conceptuelle, puis détection du type de la question, les têtes de dérivation, entités nommées, concepts, domaines, types de question-réponse, sont comparés aux index pour ces différents types. Les blocs les mieux placés sont analysés et les réponses extraites. Pour EQUER, les 40 blocs les mieux placés ont été analysés. Pour les 500 questions, la bonne réponse figurait dans les 40 blocs pour 85% des cas. Pour le corpus médical de 200 questions, la bonne réponse figurait dans les 40 premiers blocs pour 76% des cas. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

run Synapse1 et run Synapse2 Synapse Développement a participé à EQUER à travers deux runs : le run 1 a extrait les réponses à partir des 40 premiers blocs de 1 ko retournés par l ’indexation de QRISTAL. le run 2 a extrait les réponses à partir des 40 premiers textes de la liste Pertimm. Le MRR global est de 0,70 sur les passages avec le run 1. Il est de 0,64 avec le run 2. Pour les réponses courtes, il est de 0,58 avec le run 1, de 0,48 avec le run 2. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Résultats de la tâche générale Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Résultats de la tâche spécialisée Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Quelques données techniques L’ensemble des 500 questions du corpus général est examiné par le moteur en 23 minutes et 17 secondes, soit un peu moins de 3 secondes par question. La vitesse d’analyse linguistique des blocs est d’environ 400 Mo/heure à l ’indexation, soit 18 000 mots/seconde. La vitesse d ’analyse et d’extraction de réponse est d ’environ 230 Mo/heure, soit 10 000 mots/seconde. Ces tests de vitesse ont été effectués sur Pentium 3 GHz avec 1 Go de mémoire vive. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Analyse des résultats bruts Nos résultats reflètent l’état de la bêta version en juillet 2004, alors que l’extraction de réponse était encore en cours de finalisation. La différence entre le run 1 et le run 2 indique que notre indexation conceptuelle améliore de 10% à 15% la liste des blocs retournés. Les résultats montrent une grande homogénéité entre les types de questions (factuel, binaire, définition, liste). A noter que, sur notre ontologie de 86 types de questions, le corpus ne couvre que 46 de ces types. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Analyse comparative des résultats Les résultats d ’EQUER sont difficiles à comparer à ceux de TREC ou de CLEF, les types de questions et les calculs de coefficients résultats n’étant pas homogènes. Par comparaison avec les résultats de TREC sur l’anglais, nous trouvons 57% de passages corrects en 1e position alors que LCC a obtenu 68,5% et le second 41,9% en 2003. A CLEF 2004, le meilleur système monolingue a obtenu 45,5% pour un mode d’évaluation similaire (passage correct en première position). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Perspectives Nos résultats sur le corpus médical sont insuffisants puisque nous trouvons à peine la moitié de passages justes. Nos efforts vont maintenant vers l’amélioration de nos résultats sur les questions complexes et sur les corpus spécialisés. Nous pensons également valider les réponses via le Web. Nous améliorons l’ensemble des composants mais, selon nos premiers tests, l’ontologie des questions-réponses apparaît capitale (MRR de .46 contre .70 sans la typologie). Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT

Quelques retours après commercialisation QRISTAL est commercialisé depuis novembre 2004 dans le réseau grand public (Fnac, Surcouf, etc.) A notre connaissance, il s’agit du premier moteur de questions-réponses commercialisé au monde. Quels retours ? l’utilisateur refuse d’attendre une réponse plus de trois secondes QRISTAL est un logiciel qui ne laisse pas indifférent. Les métamoteurs sont à améliorer, en particulier sur le plan de la reformulation des requêtes. Présentation TALN 2005, 7 juin 2005, Synapse Développement, D. LAURENT