Les moteurs de recherche Paul de Theux
Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites
Domination de Google en France
Moindre aux Etats-Unis
Google ne domine pas partout Pays où Google n’est pas leader: -Chine -Russie -République tchèque
Google ne domine pas partout Pays où Google n’est pas leader: -Japon -Corée du Sud Les japonais préfèrent les portails Les Coréens préfèrent questions-réponses
Fonctionnement des moteurs de recherche
Fonctionnement simplifié Trois composants d ’un moteur –Le « spider » (fouineur) qui référence les sites –L ’« index », qui organise les informations collectées –Le « moteur » proprement dit, qui répond aux requêtes Spider Moteur Index
Fonctionnement plus détaillé
Traces de la base de données: le cache
Le classement C’est le défi de tous les moteurs de recherche. Google se base sur de multiples critères dont: la présence du mot dans la page le pagerank, c’est à dire la popularité de la page La popularité est un critère de satisfaction mais aussi de nivellement
Principe du Pagerank Une multitude de petits sites (verts) à faible PR vont mettre un lien vers un autre site (bleu) qui verra son PR augmenter. Un site à fort Pagerank (jaune) possède des liens provenant vers des sites à faible, moyen et fort Pagerank. Un site peut posséder un Pagerank important, alors qu’un seul lien mène à lui. Pagerank: valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement
Problème du Pagerank Les résultats se modifient de temps à autre, ce qui provoque la colère du secteur Le Pagerank, trop complexe, serait remplacé par un Pagerank allégé, moins précis Google lutte contre la triche, sans détailler ses méthodes Bref: manque de transparence
Comment faire les requêtes Utiliser plusieurs mots; l’ordre des mots est important Utiliser les guillemets pour obtenir une expression exacte Éliminer certains mots en utilisant le - Utiliser la recherche avancée Note: 1000 liens maximum…
Les limites Il est impossible de tout indexer: -pages dynamiques qui se renouvellent constamment -Bases de données accesibles avec des outils spécfiques -etc Google a mis en place les « actualités » pour coller à l’évolution de l’information
Comparer les moteurs Exemple: seeky
Les métamoteurs Des outils qui utilisent les moteurs existants Limites: les syntaxes et le classement ne concordent pas
Pour en savoir plus ? Abondance.com ? Une entreprise spécialisée dans le référencement Des informations synthétiques gratuites Une newletter pour le grand public
Comment référencer un site dans un travail L’auteur, le titre, l’adresse URL, la date de mise à jour ou de consultation Exemple: Gingras François-Pierre, Comment citer des sources sur Internet dans un travail scientifique, ml, mis à jour le 24 septembre 1999.
L’auteur Pas toujours facile à déterminer De nombreuses pages ne sont pas signées Beaucoup de pages institutionnelles
Le titre Titre de la fenêtre ou de la page ? –Exemple:
Adresse URL Sans ou avec (utile pour cliquer sur le lien) Problème des sites n’utilisant qu’une adresse
La date Date de mise à jour: pas toujours présente ou exacte Date de consultation: repère imprécis Choisir la moins mauvaise solution
Les six thématiques Producteurs Publics Langages Technologies Représentations Typologies = qui, pourquoi, quand, où = quoi, pourquoi = comment = pourquoi, pour qui = comment
Analyse critique de sites ancinfo/validite/index.html