Moteur de recherche d’information Indexation et Recherche de l’Information Projet Moteur de recherche d’information Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan
Plan de présentation: Objectif Approche technique Approche fonctionnelle Démo Perspectives
Moteur de recherche d’information Objectif Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER). 1- indexation des termes du corpus dans une base de donné relationnelle. 2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans l’ordre décroissant sur le score de pertinence.
Moteur de recherche d’information Approche technique 1- indexation des termes Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant qu’on ne garde pas tous ce qui est ponctuation (on s’est servie de la colonne CAT) On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête
Moteur de recherche d’information Approche technique Pondération des termes La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus. Le poids est calculé par la formule vue en TD: Wi = tfi * log (dfi/N)
Moteur de recherche d’information Approche technique Architecture de la base de données On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables: -dictionnaire -mot_fichier_inverse -poids -position -url -urls_sortants
Moteur de recherche d’information Approche technique Architecture de la base de données La table dictionnaire:
Moteur de recherche d’information Approche technique Architecture de la base de données La table mot_fichier_inverse
Moteur de recherche d’information Approche technique Architecture de la base de données La table poids:
Moteur de recherche d’information Approche technique Architecture de la base de données La table position:
Moteur de recherche d’information Approche technique Architecture de la base de données La table url J’attend la nouvelle avec les chemins de fichiers
Moteur de recherche d’information Approche technique Architecture de la base de données La table urls_sortants
Moteur de recherche d’information Approche technique Remarque Le temps d’indexation = pas encore tester sur les 7400 fichiers
Moteur de recherche d’information Approche fonctionnelle La Recherche -Script: PHP5 -modèle utilisé : Booléen -On a créé 2 scripts chacun traitant un type de requête 1-Recherche exacte pour les chaines délimitées par des guillemets, exemple: ’’victoire de la France’’ 2-Recherche simple pour les autres requêtes
Moteur de recherche d’information Schéma de fonctionnement
Moteur de recherche d’information Démo
Moteur de recherche d’information Démo
Moteur de recherche d’information Perspectives Plusieurs améliorations sont envisageables afin d’augmenter la pertinence de nos résultats de recherche : prendre en compte les textes des balises <a href=’… ’> texte </a> implémenter le Page Rank pour pouvoir prendre en compte la célébrité des pages améliorer les scripts pour avoir un temps de réponse plus petit