Moteurs de recherche Modex Web Modex Web 441 professeur Go 10 matches found. Results in relevance order: 1/ Dominique Rossin
Historique 1990 : Archie (BD des noms de fichiers d’un ftp) 1993 : WWW Wanderer / 1994 : Webcrawler / Lycos / InfoSeek 1995 : Altavista 1998 : Google 2004 : Yahoo
Méthodologie Crawler Indexeur Moteur WEB BD Recherche
Recherche Search : Dominique Rossin 1/ Recherche des pages se rapportant à Dominique Rossin 2/ Classement des pages par ordre d’importance 3/ Affichage des résultats
Préhistoire (93 – 98) BD de tous les mots contenus dans une page Recherche dans la base de donnée Score attribué dépendant du nombre d’occurrence des mots Affichage par score PB : modex web, modex web, modex web, modex web …
PageRank et Google L’importance des pages ne dépend pas seulement du contenu (Brin et Page) L’importance des pages ne dépend pas seulement du contenu L’importance des pages ne dépend pas seulement du contenu Ex : Si Wikipedia parle du Modex Web, il sera référencé en 1. Si Wikipedia fait un lien sur ma page du modex Web alors ma page Prendra beaucoup d’importance
PageRank Permet un classement des sites Web Indépendant du contenu Site A Site B Liens Site C Système de Vote
PageRank (2) PageRank Site A Site B 4.5 4.5 1.2 1.2 1.2 Liens Lien A->C : A participe pour C: Pr(C) += d*Pr(A)/2 Lien B->C : B participe pour C: Pr(C) += d*Pr(B)/3 Initialisation: d = 0.85, Pr = 1-d Site C 5.6 5.6 5.6
PageRank (Calcul 1) P(A) = .15+.85(1) = 1 P(B) = .15+.85(1) = 1 P(C) = .15+.85(1/2+1+1) = 2.275 P(D) = .15 P(A) = .15+.85(2.275) = 2.083 P(C) = .15+.85(1/2+1+2.275) =3.36 … Ca converge … B B B B B B A A A A A A A A D D D D D D D C C C C C C C PA = 1.49 PB = 0.78 PC = 1.58 PD = 0.15
Miserable Failure ============ Georges Bush Google Pour la recherche des mots On prend en compte: Titre page + chemin d’accès Balise META X fois dans Corps du document Mais aussi : Titre du lien qui pointe vers la page Miserable Failure ============ Georges Bush GOOGLE BOMBING
Pages SPAM Augmenter son rang Ajouter des mots clés dans les balises META : Movie, MP3, … même si ces mots ne relèvent pas du contenu de la page LinkFarm : Il s’agit de créer le maximum de pages qui pointent vers votre site ou de polluer les autres sites comme les blogs Pages SPAM
Modèle économique Quels sont les financements d’un moteur de recherche ? Indexation des pages rapide (1 jour vs 1mois) Publicité, liens payants (à droite dans google) Revente de profil utilisateur (iGoogle) aux entreprises Service requête pour les entreprises
Futur Web sémantique Multimédia Projet européen QUAERO