La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan.

Présentations similaires


Présentation au sujet: "Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan."— Transcription de la présentation:

1 Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

2 Plan de présentation: Objectif Approche technique Approche fonctionnelle Démo Conclusion.

3 Moteur de recherche dinformation Objectif Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER). 1- indexation des termes du corpus dans une base de donné relationnelle. 2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans lordre décroissant sur le score de pertinence.

4 Moteur de recherche dinformation 1- indexation des termes Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant quon ne garde pas tous ce qui est ponctuation (on sest servie de la colonne CAT) On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête Approche technique

5 Moteur de recherche dinformation Approche technique Pondération des termes La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus. Le poids est calculé par la formule vue en TD: Wi = tfi * log (dfi/N)

6 Moteur de recherche dinformation Architecture de la base de données On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables: -dictionnaire -mot_fichier_inverse -poids -position -url -urls_sortants Approche technique

7 Moteur de recherche dinformation Architecture de la base de données La table dictionnaire: Approche technique

8 Moteur de recherche dinformation Architecture de la base de données La table mot_fichier_inverse Approche technique

9 Moteur de recherche dinformation Architecture de la base de données La table poids: Approche technique

10 Moteur de recherche dinformation Architecture de la base de données La table position: Approche technique

11 Moteur de recherche dinformation Architecture de la base de données La table url Approche technique

12 Moteur de recherche dinformation Architecture de la base de données La table urls_sortants Approche technique

13 Moteur de recherche dinformation Remarque Le temps dindexation = Approche technique

14 Moteur de recherche dinformation Démo

15 Moteur de recherche d information bas é sur les termes 6. Schéma de fonctionnement (mode interactif)

16 Moteur de recherche d information bas é sur les termes 6. Schéma de fonctionnement (mode dévaluation)

17 Moteur de recherche d information bas é sur les termes 7. Perspectives Plusieurs améliorations sont envisageables afin augmenter la pertinence de nos résultats de recherche : Lajout de nouveaux patrons afin doptimiser lextraction des termes. Linsertion de nouvelles métarègles pour Fastr afin daméliorer la recherche des variantes des termes. Lajout des variantes des termes (reconnues par Fastr) au fichier de requêtes afin daugmenter le score de pertinence des documents contenant ces variantes.


Télécharger ppt "Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan."

Présentations similaires


Annonces Google