Moteur de recherche d’information Indexation et Recherche de l’Information Projet Moteur de recherche d’information Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan
Plan de présentation: Objectif Approche technique Approche fonctionnelle Démo Conclusion.
Moteur de recherche d’information Objectif Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER). 1- indexation des termes du corpus dans une base de donné relationnelle. 2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans l’ordre décroissant sur le score de pertinence.
Moteur de recherche d’information Approche technique 1- indexation des termes Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant qu’on ne garde pas tous ce qui est ponctuation (on s’est servie de la colonne CAT) On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête
Moteur de recherche d’information Approche technique Pondération des termes La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus. Le poids est calculé par la formule vue en TD: Wi = tfi * log (dfi/N)
Moteur de recherche d’information Approche technique Architecture de la base de données On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables: -dictionnaire -mot_fichier_inverse -poids -position -url -urls_sortants
Moteur de recherche d’information Approche technique Architecture de la base de données La table dictionnaire:
Moteur de recherche d’information Approche technique Architecture de la base de données La table mot_fichier_inverse
Moteur de recherche d’information Approche technique Architecture de la base de données La table poids:
Moteur de recherche d’information Approche technique Architecture de la base de données La table position:
Moteur de recherche d’information Approche technique Architecture de la base de données La table url
Moteur de recherche d’information Approche technique Architecture de la base de données La table urls_sortants
Moteur de recherche d’information Approche technique Remarque Le temps d’indexation =
Moteur de recherche d’information Démo
Moteur de recherche d’information basé sur les termes 6. Schéma de fonctionnement (mode interactif)
Moteur de recherche d’information basé sur les termes 6. Schéma de fonctionnement (mode d’évaluation)
Moteur de recherche d’information basé sur les termes 7. Perspectives Plusieurs améliorations sont envisageables afin augmenter la pertinence de nos résultats de recherche : L’ajout de nouveaux patrons afin d’optimiser l’extraction des termes. L’insertion de nouvelles métarègles pour Fastr afin d’améliorer la recherche des variantes des termes. L’ajout des variantes des termes (reconnues par Fastr) au fichier de requêtes afin d’augmenter le score de pertinence des documents contenant ces variantes.