Moteur de RechercheMoteur de recherche "from scratch" 01/04/2017 Projet AcqDeCo2 Moteur de recherche 4ième année Informatique INSA Rennes BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010
Moteur de RechercheMoteur de recherche "from scratch" Plan Introduction Présentation de l’application Présentation de l’application - fonctionnement Le nettoyeur Le parseur L’élagueur Le stemmer L’application globale Conclusion 01/04/2017
Moteur de RechercheMoteur de recherche "from scratch" 01/04/2017 Introduction Moteur de recherche Logiciel permettant de retrouver des ressources associées à des mots quelconques Objectif Conception et programmation integrale d’un moteur de recherche d’information Fichier contenant une collection de 1460 articles 01/04/2017
Présentation de l'application Plusieurs étapes Nettoyeur Fichiers d'entrée → XML Parseur XML → YAML Élagueur Stop-list + YAML → YAML 01/04/2017
Présentation de l'application Fonctionnement IN : Query en langage naturel --------------- What is information science? Give definitions where possible. Stop liste MDR ----------------- - Interprète le Query - Regarde le Dico Inversé et la Stop Liste - Génère le résultat Stemmer Dico inversé OUT : Réponses --------------- Les articles 60 95 114 [...] peuvent vous intéresser 01/04/2017
Le nettoyeur Liste de caractères à retirer (?,!,<,>,...) Prise d'un fichier En entrée Liste de caractères à retirer (?,!,<,>,...) 1 2 3 4 5 Sortie d'un Fichier XML Standardisé pour notre application 01/04/2017
Nettoyeur 1 Nettoyeur 2 Nettoyeur 3
Le parseur Script PERL Entrée : fichier XML Sortie Dictionnaire inversé Comptage d'occurrences de chaque mot dans chaque document A cette étape aucun élagage n'a été fait Format de sortie mot: id_article : nb_occurences 01/04/2017
L’élagueur But : enlever les mots inutiles dans le fichier YAML précédemment généré Stop-list : liste des mots inutiles 01/04/2017
Le stemmer Regroupe les mots avec une racine commune Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process » Utilisé dans la requête et dans la recherche 01/04/2017
L’application globale Module globale qui fait appel à chaque parties précédemment présentées Traitement de la requête (même traitement que pour les articles) 01/04/2017
Conclusion Points atteints: Améliorations: Utiliser un système de tokenisation sur le corpus de documents Générer un dictionnaire inversé Utiliser une stop-list Accepter des requêtes en langage naturel Appliquer un stemmer sur le système initial. Améliorations: Utiliser des poids globaux différents et une normalisation Ajouter l'utilisation du coefficient de Dice Utilisation dans le dictionnaire inversé des termes d'indexation uniquement 01/04/2017
Merci de votre attention! Questions? Merci de votre attention! 01/04/2017