La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Moteur de RechercheMoteur de recherche "from scratch"

Présentations similaires


Présentation au sujet: "Moteur de RechercheMoteur de recherche "from scratch""— Transcription de la présentation:

1 Moteur de RechercheMoteur de recherche "from scratch"
01/04/2017 Projet AcqDeCo2 Moteur de recherche 4ième année Informatique INSA Rennes BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

2 Moteur de RechercheMoteur de recherche "from scratch"
Plan Introduction Présentation de l’application Présentation de l’application - fonctionnement Le nettoyeur Le parseur L’élagueur Le stemmer L’application globale Conclusion 01/04/2017

3 Moteur de RechercheMoteur de recherche "from scratch"
01/04/2017 Introduction Moteur de recherche Logiciel permettant de retrouver des ressources associées à des mots quelconques Objectif Conception et programmation integrale d’un moteur de recherche d’information Fichier contenant une collection de 1460 articles 01/04/2017

4 Présentation de l'application
Plusieurs étapes Nettoyeur Fichiers d'entrée → XML Parseur XML → YAML Élagueur Stop-list + YAML → YAML 01/04/2017

5

6 Présentation de l'application Fonctionnement
IN : Query en langage naturel What is information science? Give definitions where possible. Stop liste MDR - Interprète le Query - Regarde le Dico Inversé et la Stop Liste - Génère le résultat Stemmer Dico inversé OUT : Réponses Les articles [...] peuvent vous intéresser 01/04/2017

7 Le nettoyeur Liste de caractères à retirer (?,!,<,>,...)
Prise d'un fichier En entrée Liste de caractères à retirer (?,!,<,>,...) 1 2 3 4 5 Sortie d'un Fichier XML Standardisé pour notre application 01/04/2017

8 Nettoyeur 1 Nettoyeur 2 Nettoyeur 3

9 Le parseur Script PERL Entrée : fichier XML Sortie
Dictionnaire inversé Comptage d'occurrences de chaque mot dans chaque document A cette étape aucun élagage n'a été fait Format de sortie mot: id_article : nb_occurences 01/04/2017

10 L’élagueur But : enlever les mots inutiles dans le fichier YAML précédemment généré Stop-list : liste des mots inutiles 01/04/2017

11 Le stemmer Regroupe les mots avec une racine commune
Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process » Utilisé dans la requête et dans la recherche 01/04/2017

12 L’application globale
Module globale qui fait appel à chaque parties précédemment présentées Traitement de la requête (même traitement que pour les articles) 01/04/2017

13 Conclusion Points atteints: Améliorations:
Utiliser un système de tokenisation sur le corpus de documents Générer un dictionnaire inversé Utiliser une stop-list Accepter des requêtes en langage naturel Appliquer un stemmer sur le système initial. Améliorations: Utiliser des poids globaux différents et une normalisation Ajouter l'utilisation du coefficient de Dice Utilisation dans le dictionnaire inversé des termes d'indexation uniquement 01/04/2017

14 Merci de votre attention!
Questions? Merci de votre attention! 01/04/2017


Télécharger ppt "Moteur de RechercheMoteur de recherche "from scratch""

Présentations similaires


Annonces Google