Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parArman Tournier Modifié depuis plus de 10 années
1
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003
2
Historique Premier moteur de recherche Architext (Lycos) 100 000 documents indexés Deuxième génération Inktomi Altavista 10 millions de documents indexés Troisième génération Google Fast (AlltTheWeb.com) >1 milliard de documents indexés
3
Infrastructure
4
Quelques concepts importants Précision Couverture (recall) « Fraîcheur »
5
Importance de la précision Dans le contexte dun site Web ou dune entreprise, la précision est, de loin, lélément le plus important dans le choix dun moteur de recherche.
6
Méthodes détablissement de la pertinence Fréquences des mots clés Popularité des pages Langage naturel « Feedback » des utilisateurs Analyse linguistique du contenu
7
Importance de la « fraîcheur » Les utilisateurs veulent de linformation à jour. Linformation désuète a peu de valeur. Façons daméliorer celle-ci: Lindexation à fréquence variable Lindexation « active » Lindexation « forcée » Les requêtes temporelles
8
Quest-ce que les gens recherchent? Sites ou micro-sites importants Documents spécifiques Informations spécifiques Personnes ou des postes Un service en ligne Données de recherche
9
Méta-données Les métas donnés contiennent de linformation qui améliorent grandement la précision. Il est important de pouvoir les indexer ex.: auteur, date, sujet, catégorie Déjà, plusieurs logiciels génèrent ces informations. (ex. Microsoft Word) Il faut être en mesure de générer des requêtes sur les méta-données
10
Problématique des méta-données Peuvent êtres utilisées à des fins de spamming sur le Net Pas assez fréquemment utilisées (25%) Inconsistance des données Duplication (documents modèles)
11
Lutilisateur dun moteur de recherche Effectue des requêtes de faible qualité Courtes (2,35 mots, en moyenne) Termes imprécis Syntaxe simpliste (80% des cas sans opérateur) 85% ne consultent que la première page de résultats 78% des requêtes erronées ne sont pas modifiées Études intéressantes: CHI, Hypertext, SIGIR, etc.
12
Divers trucs pour améliorer lindexation du contenu Utiliser des titres et des résumés descriptifs Utiliser les méta-données Utiliser XML Créer vos propres modèles de donnés
13
Divers trucs pour améliorer lindexation du contenu (suite) Utiliser des URLs et noms de fichiers significatifs www.xyz.com/pricelist/december2002.html La structure du site à un impact pour plusieurs indexeurs (et aide les usagers) : www.xyz.com/hr/politiques/teletravail.htm vs www.xyz.com/hr/polit/tt.htm
14
Divers trucs pour améliorer lindexation du contenu (suite) Les pages dynamiques sont difficiles à indexer (ASP, JSP, CGI, pages gen. BD, pages personnalisées) Solution: Utiliser un indexeur compatible avec ce type de page Créer un profil utilisateur par défaut Faire attention aux fichier témoin (cookies) obligatoires -> le trou noir des moteurs de recherche
15
Divers trucs pour améliorer lindexation du contenu (suite) Les pages HTML incluant des liens référencés en JavaScript sont souvent non indexées Solution: Inclure une balise qui fournit un lien HREF
16
Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne gèrent pas la balise META REFRESH Solution: Inclure un liens normal HREF à la nouvelle page
17
Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne « verront » pas les liens contenus dans un cadre (frame) Solution: Inclure un lien dans une section Inclure la nouvelle page dans la page du plan du site
18
Critères de sélection dun moteur de recherche Solution flexible et personnalisable Outil dadministration flexible et puissant Performance et extensibilité (scalability) Facile à utiliser pour lusager final Mise à jour des index en temps réel Algorithmes de pertinence à la fine pointe de la technologie Compatibilité avec du contenu multilingue Gestion des « doublons » API flexible et documenté Qualité des résultats de recherche
19
Périodes de question
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.