La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan.

Présentations similaires


Présentation au sujet: "Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan."— Transcription de la présentation:

1 Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

2 Plan de présentation: Objectif Approche technique Approche fonctionnelle Démo Perspectives

3 Moteur de recherche dinformation Objectif Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER). 1- indexation des termes du corpus dans une base de donné relationnelle. 2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans lordre décroissant sur le score de pertinence.

4 Moteur de recherche dinformation 1- indexation des termes Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant quon ne garde pas tous ce qui est ponctuation (on sest servie de la colonne CAT) On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête Approche technique

5 Moteur de recherche dinformation Approche technique Pondération des termes La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus. Le poids est calculé par la formule vue en TD: Wi = tfi * log (dfi/N)

6 Moteur de recherche dinformation Architecture de la base de données On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables: -dictionnaire -mot_fichier_inverse -poids -position -url -urls_sortants Approche technique

7 Moteur de recherche dinformation Architecture de la base de données La table dictionnaire: Approche technique

8 Moteur de recherche dinformation Architecture de la base de données La table mot_fichier_inverse Approche technique

9 Moteur de recherche dinformation Architecture de la base de données La table poids: Approche technique

10 Moteur de recherche dinformation Architecture de la base de données La table position: Approche technique

11 Moteur de recherche dinformation Architecture de la base de données La table url Jattend la nouvelle avec les chemins de fichiers Approche technique

12 Moteur de recherche dinformation Architecture de la base de données La table urls_sortants Approche technique

13 Moteur de recherche dinformation Remarque Le temps dindexation = pas encore tester sur les 7400 fichiers Approche technique

14 Moteur de recherche dinformation La Recherche -Script: PHP5 -modèle utilisé : Booléen -On a créé 2 scripts chacun traitant un type de requête 1-Recherche exacte pour les chaines délimitées par des guillemets, exemple: victoire de la France 2-Recherche simple pour les autres requêtes Approche fonctionnelle

15 Schéma de fonctionnement Moteur de recherche dinformation

16 Démo

17 Moteur de recherche dinformation Démo

18 Perspectives Plusieurs améliorations sont envisageables afin daugmenter la pertinence de nos résultats de recherche : prendre en compte les textes des balises texte implémenter le Page Rank pour pouvoir prendre en compte la célébrité des pages améliorer les scripts pour avoir un temps de réponse plus petit Moteur de recherche dinformation


Télécharger ppt "Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan."

Présentations similaires


Annonces Google