La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Moteur de recherche d’information

Présentations similaires


Présentation au sujet: "Moteur de recherche d’information"— Transcription de la présentation:

1 Moteur de recherche d’information
Indexation et Recherche de l’Information Projet Moteur de recherche d’information Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

2 Plan de présentation: Objectif Approche technique
Approche fonctionnelle Démo Perspectives

3 Moteur de recherche d’information
Objectif Objectif : réaliser un moteur de recherche sur un corpus local composé de fichiers (HTML, TEXTE, sortie TREE-TAGGER). 1- indexation des termes du corpus dans une base de donné relationnelle. 2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans l’ordre décroissant sur le score de pertinence.

4 Moteur de recherche d’information
Approche technique 1- indexation des termes Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant qu’on ne garde pas tous ce qui est ponctuation (on s’est servie de la colonne CAT) On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête

5 Moteur de recherche d’information
Approche technique Pondération des termes La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus. Le poids est calculé par la formule vue en TD: Wi = tfi * log (dfi/N)

6 Moteur de recherche d’information
Approche technique Architecture de la base de données On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables: -dictionnaire -mot_fichier_inverse -poids -position -url -urls_sortants

7 Moteur de recherche d’information
Approche technique Architecture de la base de données La table dictionnaire:

8 Moteur de recherche d’information
Approche technique Architecture de la base de données La table mot_fichier_inverse

9 Moteur de recherche d’information
Approche technique Architecture de la base de données La table poids:

10 Moteur de recherche d’information
Approche technique Architecture de la base de données La table position:

11 Moteur de recherche d’information
Approche technique Architecture de la base de données La table url J’attend la nouvelle avec les chemins de fichiers

12 Moteur de recherche d’information
Approche technique Architecture de la base de données La table urls_sortants

13 Moteur de recherche d’information
Approche technique Remarque Le temps d’indexation = pas encore tester sur les 7400 fichiers

14 Moteur de recherche d’information
Approche fonctionnelle La Recherche -Script: PHP5 -modèle utilisé : Booléen -On a créé 2 scripts chacun traitant un type de requête 1-Recherche exacte pour les chaines délimitées par des guillemets, exemple: ’’victoire de la France’’ 2-Recherche simple pour les autres requêtes

15 Moteur de recherche d’information
Schéma de fonctionnement

16 Moteur de recherche d’information
Démo

17 Moteur de recherche d’information
Démo

18 Moteur de recherche d’information
Perspectives  Plusieurs améliorations sont envisageables afin d’augmenter la pertinence de nos résultats de recherche : prendre en compte les textes des balises <a href=’… ’> texte </a> implémenter le Page Rank pour pouvoir prendre en compte la célébrité des pages améliorer les scripts pour avoir un temps de réponse plus petit


Télécharger ppt "Moteur de recherche d’information"

Présentations similaires


Annonces Google