La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.

Présentations similaires


Présentation au sujet: "La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003."— Transcription de la présentation:

1 La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003

2 Historique Premier moteur de recherche Architext (Lycos) 100 000 documents indexés Deuxième génération Inktomi Altavista 10 millions de documents indexés Troisième génération Google Fast (AlltTheWeb.com) >1 milliard de documents indexés

3 Infrastructure

4 Quelques concepts importants Précision Couverture (recall) « Fraîcheur »

5 Importance de la précision Dans le contexte dun site Web ou dune entreprise, la précision est, de loin, lélément le plus important dans le choix dun moteur de recherche.

6 Méthodes détablissement de la pertinence Fréquences des mots clés Popularité des pages Langage naturel « Feedback » des utilisateurs Analyse linguistique du contenu

7 Importance de la « fraîcheur » Les utilisateurs veulent de linformation à jour. Linformation désuète a peu de valeur. Façons daméliorer celle-ci: Lindexation à fréquence variable Lindexation « active » Lindexation « forcée » Les requêtes temporelles

8 Quest-ce que les gens recherchent? Sites ou micro-sites importants Documents spécifiques Informations spécifiques Personnes ou des postes Un service en ligne Données de recherche

9 Méta-données Les métas donnés contiennent de linformation qui améliorent grandement la précision. Il est important de pouvoir les indexer ex.: auteur, date, sujet, catégorie Déjà, plusieurs logiciels génèrent ces informations. (ex. Microsoft Word) Il faut être en mesure de générer des requêtes sur les méta-données

10 Problématique des méta-données Peuvent êtres utilisées à des fins de spamming sur le Net Pas assez fréquemment utilisées (25%) Inconsistance des données Duplication (documents modèles)

11 Lutilisateur dun moteur de recherche Effectue des requêtes de faible qualité Courtes (2,35 mots, en moyenne) Termes imprécis Syntaxe simpliste (80% des cas sans opérateur) 85% ne consultent que la première page de résultats 78% des requêtes erronées ne sont pas modifiées Études intéressantes: CHI, Hypertext, SIGIR, etc.

12 Divers trucs pour améliorer lindexation du contenu Utiliser des titres et des résumés descriptifs Utiliser les méta-données Utiliser XML Créer vos propres modèles de donnés

13 Divers trucs pour améliorer lindexation du contenu (suite) Utiliser des URLs et noms de fichiers significatifs www.xyz.com/pricelist/december2002.html La structure du site à un impact pour plusieurs indexeurs (et aide les usagers) : www.xyz.com/hr/politiques/teletravail.htm vs www.xyz.com/hr/polit/tt.htm

14 Divers trucs pour améliorer lindexation du contenu (suite) Les pages dynamiques sont difficiles à indexer (ASP, JSP, CGI, pages gen. BD, pages personnalisées) Solution: Utiliser un indexeur compatible avec ce type de page Créer un profil utilisateur par défaut Faire attention aux fichier témoin (cookies) obligatoires -> le trou noir des moteurs de recherche

15 Divers trucs pour améliorer lindexation du contenu (suite) Les pages HTML incluant des liens référencés en JavaScript sont souvent non indexées Solution: Inclure une balise qui fournit un lien HREF

16 Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne gèrent pas la balise META REFRESH Solution: Inclure un liens normal HREF à la nouvelle page

17 Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne « verront » pas les liens contenus dans un cadre (frame) Solution: Inclure un lien dans une section Inclure la nouvelle page dans la page du plan du site

18 Critères de sélection dun moteur de recherche Solution flexible et personnalisable Outil dadministration flexible et puissant Performance et extensibilité (scalability) Facile à utiliser pour lusager final Mise à jour des index en temps réel Algorithmes de pertinence à la fine pointe de la technologie Compatibilité avec du contenu multilingue Gestion des « doublons » API flexible et documenté Qualité des résultats de recherche

19 Périodes de question

20


Télécharger ppt "La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003."

Présentations similaires


Annonces Google