Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parRainier Durieux Modifié depuis plus de 10 années
1
Moteur de RechercheMoteur de recherche "from scratch"
01/04/2017 Projet AcqDeCo2 Moteur de recherche 4ième année Informatique INSA Rennes BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010
2
Moteur de RechercheMoteur de recherche "from scratch"
Plan Introduction Présentation de l’application Présentation de l’application - fonctionnement Le nettoyeur Le parseur L’élagueur Le stemmer L’application globale Conclusion 01/04/2017
3
Moteur de RechercheMoteur de recherche "from scratch"
01/04/2017 Introduction Moteur de recherche Logiciel permettant de retrouver des ressources associées à des mots quelconques Objectif Conception et programmation integrale d’un moteur de recherche d’information Fichier contenant une collection de 1460 articles 01/04/2017
4
Présentation de l'application
Plusieurs étapes Nettoyeur Fichiers d'entrée → XML Parseur XML → YAML Élagueur Stop-list + YAML → YAML 01/04/2017
6
Présentation de l'application Fonctionnement
IN : Query en langage naturel What is information science? Give definitions where possible. Stop liste MDR - Interprète le Query - Regarde le Dico Inversé et la Stop Liste - Génère le résultat Stemmer Dico inversé OUT : Réponses Les articles [...] peuvent vous intéresser 01/04/2017
7
Le nettoyeur Liste de caractères à retirer (?,!,<,>,...)
Prise d'un fichier En entrée Liste de caractères à retirer (?,!,<,>,...) 1 2 3 4 5 Sortie d'un Fichier XML Standardisé pour notre application 01/04/2017
8
Nettoyeur 1 Nettoyeur 2 Nettoyeur 3
9
Le parseur Script PERL Entrée : fichier XML Sortie
Dictionnaire inversé Comptage d'occurrences de chaque mot dans chaque document A cette étape aucun élagage n'a été fait Format de sortie mot: id_article : nb_occurences 01/04/2017
10
L’élagueur But : enlever les mots inutiles dans le fichier YAML précédemment généré Stop-list : liste des mots inutiles 01/04/2017
11
Le stemmer Regroupe les mots avec une racine commune
Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process » Utilisé dans la requête et dans la recherche 01/04/2017
12
L’application globale
Module globale qui fait appel à chaque parties précédemment présentées Traitement de la requête (même traitement que pour les articles) 01/04/2017
13
Conclusion Points atteints: Améliorations:
Utiliser un système de tokenisation sur le corpus de documents Générer un dictionnaire inversé Utiliser une stop-list Accepter des requêtes en langage naturel Appliquer un stemmer sur le système initial. Améliorations: Utiliser des poids globaux différents et une normalisation Ajouter l'utilisation du coefficient de Dice Utilisation dans le dictionnaire inversé des termes d'indexation uniquement 01/04/2017
14
Merci de votre attention!
Questions? Merci de votre attention! 01/04/2017
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.