Projet Lucene 22 avril 2011 Acquisition de Connaissances 2

Slides:



Advertisements
Présentations similaires
Les solutions de recherche avec Drupal
Advertisements

Les formateurs en documentation Rectorat de Lille Maîtrise de linformation au collège Compétences informationnelles et disciplines partenaires.
Rechercher sur SUPERDOC
Quelle stratégie adopter pour la recherche en Entreprise ?
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
JérOli Media Player Auteurs : J.FELLUS & O.NESTY.
Stratégie Microsoft sur la Recherche en Entreprise.
TER Gestionnaires de contenu en ligne
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Architecture Technique de la plate-forme CASTOR Projet Castor © Ecole des Mines de Nantes
PLAN CECIAA Origines du projet Objectifs Solutions Techniques
Interfaces de recherche usager
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
Groupe de travail Veille collective
UNIVERSITE CHOUAIB DOUKKALI Département des mathématiques
Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université
Les étapes de la recherche documentaire
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet 29 Product Tagger Tuteur : Michel Benoît Groupe : - Simon Giron - Vincent Reuss - Jérémie Simian Annee :
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Edudoc.ch Le Serveur suisse de documents pour léducation et la formation: des services à votre disposition.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Réseau BD 11/12/08 Hibernate Search Réunion dunité – 23/10/2008 Erik Kimmel.
Maîtriser Ariane 2.0 Module 5 Déroulement : Souhaiter la bienvenue
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Moteur de RechercheMoteur de recherche "from scratch"
Moteur de recherche d’information
Moteur de recherche d’information
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Principes de programmation (suite)
Moteur de recherche Hélène Turcotte Direction des inforoutes et de linformation documentaire MRCI.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Démonstrateur Lingway
CloudView Architecture
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
Les techniques des moteurs de recherche
La veille numérique : un outil pour s'informer intelligemment &
MONTRÉAL, October , 2014 Cliquez pour ajouter le titre de la présentation.
Organisation de l’entrepôt edot
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
Mission DSI du 23 au 24 Juin 2011 CRB I GNAME DGIS : D IOSCOREA G ERMPLASM I NFORMATION S YSTEM.
Création d’une communauté web scénarisée : le projet Crealys
Balzac, L’auberge rouge, 1831.
COMPTE-RENDU DE LA JOURNEE DU MERCREDI 24 NOVEMBRE 2010.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Réseau BD 11/12/08 Fonctionnalités et limites d’outils d’indexation et de recherche.
Rédaction d’un dossier SVT 3eme.
Gestion de documents XML hétérogènes
Arbre GénéalogiqueDiagramme de Classes Comment la visualisation d’une hiérarchie de classes facilitera le travail de notre client ?
Portail des PGDE Meilleures pratiques pour recherches efficaces 9 septembre 2014 Valerie Footz Alberta Legislature Library.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
1 Search::Indexer Indexation plein-texte en Perl
Recherche d’information
MODULE 1 OÙ CHERCHER? 1 La recherche simple Catalogue de la bibliothèque Koha Moteur de recherche La recherche avancée Catalogue de la bibliothèque Koha.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Rapports M1 Terrain Géophysique Le rapport doit tenir en 25 pages maximum ; les tableaux de mesures peuvent être en annexe (non comprises dans les 25 pages).
Toolkit WEB de contrôle en SVG Equipe Koala d’ILOG Encadré par Colas Nahaboo Isabelle LAFAYE.
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
Irium Support Knowledge Base. Développement d’un outil de
Moteurs et métamoteurs de recherche
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Titre Question. Titre du document 1 Mettre le document 1 ICI.
Tuteur : Jean-Philippe Prost Soutenance de Projet Licence Professionnelle Assistant de Projet Informatique Développement d’Applications E-Business Année.
Travail Collaboratif & Open Source Etat de l’art - Solutions - Méthodes.
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
TITRE CONTENU.
Transcription de la présentation:

Projet Lucene 22 avril 2011 Acquisition de Connaissances 2 Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI 22 avril 2011 Acquisition de Connaissances 2

Sommaire I. Présentation de Lucene II. Améliorations Conclusion Démo Gestion des synonymes Intégration des stemmers Conclusion Démo

I - Présentation de Lucene Projet open-source développé en JAVA 1 Indexation IndexWriter Analyser Document Field Directory Moteur de recherche pour documents textuels 2 Recherche IndexSearcher Term Query Hits Deux phases

I - Présentation de Lucene Ce que Lucene propose : Indexation « intelligente » (filtre sur les mots) Recherche par champs (titre, auteur, contenu) Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité Ce qu’il manque à Lucene : Interface graphique Recherche de synonymes Mise en place de stemmers non anglais

II – Améliorations Synonymes (1/2) : Principe et mise en œuvre Utiliser à l’indexation et/ou à la recherche un dictionnaire des synonymes pour augmenter le nombre de résultats. Base de synonymes Filtre Analyseur Lucene Recherche Synonym Filter XML (V1) WordNet (V2) Synonym Analyzer <synonyms> <group> <syn>fast</syn> <syn>quick</syn> <syn>rapid</syn> </group> ... Indexation

II – Améliorations Synonymes (2/2) : Résultats Requêtes simples sur quelques fichiers Requêtes complexes sur un grand nombre de fichiers Requête Documents matchés (sans synonyme) Occurrences exactes Documents matchés avec synonymes Occurrences des synonymes Test 2 72 8 121 Document 4 242 7 136 Company 1 9 66 Occurrences exactes Occurrences des synonymes % de mots trouvés en plus Documents matchés (sans synonyme) Documents matchés avec synonymes % de documents trouvés en plus 73 725 25268 34,2% 88 121 37,5%

II – Améliorations Stemmers (1/2) : Principe et mise en œuvre Recherche Stemmer Analyzer Languages StemFilter French Stemmer English Stemmer Lucene Analyseur Filtre Stemmers Indexation « La racinisation est le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot » Stemmers anglais déjà disponibles dans Lucene Objectif : stemmatisation de 15 autres langages Implémentation à l’indexation et à la recherche Récupération des stemmers de l’API Snowball Ajout d’un filtre sur le choix du langage à stemmatiser // Mathieu et Alexandre vous feront une petite démo

II – Améliorations Stemmers (2/2) : Résultats Stemmatisation d’une phrase (français) Stemmatisation sur une collection (anglais) Enter query: fonctionner   Searching for: fonction Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt 2 x fonction Frequency : 2 Total frequency : 2 1 total matching documents Enter query: fonctionner   Searching for: fonctionner Total frequency : 0 0 total matching documents Occurrences exactes Occurrences des mots stemmatisés % de mots trouvés en plus Documents matchés (sans stemmatisation) Documents matchés avec stemmatisation % de documents trouvés en plus 73 725 39190 53,1% 88 157 78,4%

Quelques idées d’améliorations Quelques difficultés rencontrées Conclusion Quelques idées d’améliorations Quelques difficultés rencontrées Correcteur d’orthographe Formation à Lucene Améliorations des expressions régulières Choix des fonctionnalités Recherche contextuelle Organisation du groupe