La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003
Historique Premier moteur de recherche Architext (Lycos) documents indexés Deuxième génération Inktomi Altavista 10 millions de documents indexés Troisième génération Google Fast (AlltTheWeb.com) >1 milliard de documents indexés
Infrastructure
Quelques concepts importants Précision Couverture (recall) « Fraîcheur »
Importance de la précision Dans le contexte dun site Web ou dune entreprise, la précision est, de loin, lélément le plus important dans le choix dun moteur de recherche.
Méthodes détablissement de la pertinence Fréquences des mots clés Popularité des pages Langage naturel « Feedback » des utilisateurs Analyse linguistique du contenu
Importance de la « fraîcheur » Les utilisateurs veulent de linformation à jour. Linformation désuète a peu de valeur. Façons daméliorer celle-ci: Lindexation à fréquence variable Lindexation « active » Lindexation « forcée » Les requêtes temporelles
Quest-ce que les gens recherchent? Sites ou micro-sites importants Documents spécifiques Informations spécifiques Personnes ou des postes Un service en ligne Données de recherche
Méta-données Les métas donnés contiennent de linformation qui améliorent grandement la précision. Il est important de pouvoir les indexer ex.: auteur, date, sujet, catégorie Déjà, plusieurs logiciels génèrent ces informations. (ex. Microsoft Word) Il faut être en mesure de générer des requêtes sur les méta-données
Problématique des méta-données Peuvent êtres utilisées à des fins de spamming sur le Net Pas assez fréquemment utilisées (25%) Inconsistance des données Duplication (documents modèles)
Lutilisateur dun moteur de recherche Effectue des requêtes de faible qualité Courtes (2,35 mots, en moyenne) Termes imprécis Syntaxe simpliste (80% des cas sans opérateur) 85% ne consultent que la première page de résultats 78% des requêtes erronées ne sont pas modifiées Études intéressantes: CHI, Hypertext, SIGIR, etc.
Divers trucs pour améliorer lindexation du contenu Utiliser des titres et des résumés descriptifs Utiliser les méta-données Utiliser XML Créer vos propres modèles de donnés
Divers trucs pour améliorer lindexation du contenu (suite) Utiliser des URLs et noms de fichiers significatifs La structure du site à un impact pour plusieurs indexeurs (et aide les usagers) : vs
Divers trucs pour améliorer lindexation du contenu (suite) Les pages dynamiques sont difficiles à indexer (ASP, JSP, CGI, pages gen. BD, pages personnalisées) Solution: Utiliser un indexeur compatible avec ce type de page Créer un profil utilisateur par défaut Faire attention aux fichier témoin (cookies) obligatoires -> le trou noir des moteurs de recherche
Divers trucs pour améliorer lindexation du contenu (suite) Les pages HTML incluant des liens référencés en JavaScript sont souvent non indexées Solution: Inclure une balise qui fournit un lien HREF
Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne gèrent pas la balise META REFRESH Solution: Inclure un liens normal HREF à la nouvelle page
Divers trucs pour améliorer lindexation du contenu (suite) Certains indexeurs ne « verront » pas les liens contenus dans un cadre (frame) Solution: Inclure un lien dans une section Inclure la nouvelle page dans la page du plan du site
Critères de sélection dun moteur de recherche Solution flexible et personnalisable Outil dadministration flexible et puissant Performance et extensibilité (scalability) Facile à utiliser pour lusager final Mise à jour des index en temps réel Algorithmes de pertinence à la fine pointe de la technologie Compatibilité avec du contenu multilingue Gestion des « doublons » API flexible et documenté Qualité des résultats de recherche
Périodes de question