La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010.

Présentations similaires


Présentation au sujet: "BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010."— Transcription de la présentation:

1 BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

2 Introduction Présentation de lapplication Présentation de lapplication - fonctionnement Le nettoyeur Le parseur Lélagueur Le stemmer Lapplication globale Conclusion 31/05/20142

3 Moteur de recherche Logiciel permettant de retrouver des ressources associées à des mots quelconques Objectif Conception et programmation integrale dun moteur de recherche dinformation Fichier contenant une collection de 1460 articles 31/05/20143

4 Plusieurs étapes Nettoyeur Fichiers d'entrée XML Parseur XML YAML Élagueur Stop-list + YAML YAML 31/05/20144

5

6 6 Stemmer Stop liste Dico inversé MDR Interprète le Query - Regarde le Dico Inversé et la Stop Liste - Génère le résultat IN : Query en langage naturel What is information science? Give definitions where possible. OUT : Réponses Les articles [...] peuvent vous intéresser

7 31/05/20147 Liste de caractères à retirer (?,!,,...) Prise d'un fichier En entrée Sortie d'un Fichier XML Standardisé pour notre application

8 Nettoyeur 3 Nettoyeur 2 Nettoyeur 1

9 Script PERL Entrée : fichier XML Sortie Dictionnaire inversé Comptage d'occurrences de chaque mot dans chaque document A cette étape aucun élagage n'a été fait Format de sortie mot: id_article : nb_occurences 31/05/20149

10 But : enlever les mots inutiles dans le fichier YAML précédemment généré Stop-list : liste des mots inutiles 31/05/201410

11 Regroupe les mots avec une racine commune Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process » Utilisé dans la requête et dans la recherche 31/05/201411

12 Module globale qui fait appel à chaque parties précédemment présentées Traitement de la requête (même traitement que pour les articles) 31/05/201412

13 Points atteints: Utiliser un système de tokenisation sur le corpus de documents Générer un dictionnaire inversé Utiliser une stop-list Accepter des requêtes en langage naturel Appliquer un stemmer sur le système initial. Améliorations: Utiliser des poids globaux différents et une normalisation Ajouter l'utilisation du coefficient de Dice Utilisation dans le dictionnaire inversé des termes d'indexation uniquement 31/05/201413

14 Questions? 31/05/201414


Télécharger ppt "BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010."

Présentations similaires


Annonces Google