JL Ferrier Google Exemple de fonctionnement d’un moteur.

Slides:



Advertisements
Présentations similaires
Bien visible sur internet 
Advertisements

Skooiz Montréal 22 octobre après-midi Olivier Andrieu Le référencement, c'est quoi ?
Concevoir un site dans une optique de référencement Sébastien Billard Consultant référencement.
Sébastien Billard - Consultant SEO Identifier et corriger ce qui bloque un référencement - Structure - Contenu - Popularité
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Aperçu des architectures des systèmes d’information web
Concevoir un site dans une optique de référencement.
Référencement dun site Internet Les annuaires Les moteurs Positionnement.
Inférence statistique
Principe d identification des internautes Au service du dataWebhouse Philippe Holland :
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Le référencement des pages web
Conception et mise en page
Longue Traîne en Liens Sponsorisés.
Le lexique de la société de linformation 1. Mod. B : Le lexique de la société de linformation.1 Les TICE, quest-ce que cest?
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
PubMed Trucs et astuces…
Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles.
Le Référencement en Savoie Historique
– Search Marketing et Marketing Interactif 1 ère Position – David Degrelle Tel : ou
Présenté par Maxime Boivin Aude Dufresne Les filtres à la communication sur Internet
Identifier ce qui peut gêner ou bloquer votre référencement Sébastien Billard, consultant référencement.
Annuaires et moteurs de recherche d’information sur Internet
1. Société à but lucratif 2 Trois étapes Traiter beaucoup d informations Stoker beaucoup de pages web Fonctionnement dun moteur de recherche Google Explorer.
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Google, un moteur de recherche comme les autres ?
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Webmarketing solutions 2 rue Louise Possoz Clamart : Tél : 09 Contact : Marc BREEN
Web sémantique : Web de demain
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 1: notions de base.
1.Définition sémantique du thème 2.Lenvironnement Internet 3.Quest ce que Google? 4.Les 10 astuces dor pour optimiser une recherche sur Google 5.Linterêt.
Moteurs de recherche Modex Web Modex Web 441 professeur Go
Le référencement et l optimisation pour les moteurs de recherche WebÉducation 31 janvier 2002 Présentation dÉric Baillargeon Consultant en Marketing Web.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Lindexation et le répertoriage de sites Web Lutilisation des balises métas WebÉducation 16 novembre 2000 Présentation de Claudette Voyer.
1 Référencer ses pages web Principes – Référencement passif (SEO) – Référencement actif (SEM) – Maîtrise des outils [Source : formation au référencement.
1 Référencement (phase 2) Rappel SEO (acquis) Analytics (suivi daudience) SEM (liens sponsorisés)
« Google, un moteur de recherche comme les autres ? »
La veille numérique : un outil pour s'informer intelligemment &
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Page 1 M. Dozois, M.Sc., S. Prom Tep, M.Sc. HEC Montréal, Tous droits réservés Conception de sites Web Préparé par: Martin Dozois, M.Sc.
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
L’ ACCESSIBILITE « C’est mettre le Web et ses services à la disposition de tous les individus, quels que soient leur matériel ou logiciel, leur infrastructure.
Le monde de Patrick Plante est le moteur de recherche le plus utilisé au monde. Détient de serveurs à travers le monde. Répond à plus.
Bureautique M1 Mise en forme évoluée 2.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Mensuelle spéciale « Écriture Web » 3 février 2015
Recherche d’information
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
SEO le Référencement Naturel
Les fils RSS Utilisation élémentaire et avancée Benoît Girard, conseiller stratégique au réseau des webmestres DAPC, MSG WebÉducation – 18 mars 2010.
Google - La recherche de données
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Présentation nouveau site marchand
LA RECHERCHE D’INFORMATIONS SUR internet
Les clés du référencement naturel Atelier du 21/9/2015 à Moissac.
Search Engine Optimization
Dreamweaver Séance 1.
5 – La e-publicité 5.1 – Formes publicitaires Search Display
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
Cocon sémantique Coup marketing ou révolution TRIKAYA Communication SAS 2016.
LES OUTILS DE LA RECHERCHE SUR INTERNET LES MOTEURS LES MOTEURS Les moteurs sont des robots qui « lisent » le contenu des sites et comptent le nombre de.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

JL Ferrier Google Exemple de fonctionnement d’un moteur

JL Ferrier Que sont les moteurs ? Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer tout le web : Google – AltaVista – Alltheweb – Inktomi Microsoft, AOL … travaillent au développement et/ou à l’achat de moteurs L’annuaire Yahoo a acquis Overture, Fast/Alltheweb, AltaVista, and Inktomi

JL Ferrier Qu’est Google ? Né à l’université de Stanford Googol = Nombre absurde (il y a particules dans l’univers). Illustre l’intention d’indexer à très grande échelle. Basé sur des principes nouveaux à l’époque pour indexer les pages.

JL Ferrier Indexation - Définition « tortue » ……… tortillon… tortue… tortue… tortue…universdelulue.free.fr/ tortue... torture... L’index ordonne l’information pour la retrouver très vite. Structures de données très complexes. Indexation = construction des tables d’index

JL Ferrier Indexation - Principe Les index sont en fait basés sur des lexiques. Google possédait au départ un lexique de 14 millions de mots. Google indexe de plus la proximité des mots dans une matrice.

JL Ferrier Indexation - Principe Une page doit être proposée au robot pour être indexée (soumission). Les robots « lisent » le contenu et indexent les mots. Ils suivent les liens, reconstituent le site et l’indexent. L’indexation est lexicale, et pas sémantique.

JL Ferrier

Indexation - Principe La balise keywords a été mise en place pour faciliter le travail d’indexation des robots.

JL Ferrier Indexation - Limite Le détournement des mots-clés. Exemples dans la jurisprudence : Itineris et SFR. Nombreux « spamdexing » autour des mots-clés. Le spamdexing marque la limite définitive des moteurs.

JL Ferrier Principes de Google Ne tient pas compte des mots-clés. Applique une indexation basée sur la proximité des mots (donc de leur ordre) : Indexe les liens, pour plusieurs raisons. Introduit la notion de popularité d’un site.

JL Ferrier Abandon des mots-clés Google préfère le texte dans les balises de titre : Les menus d’automne. Il prend aussi en compte la taille de la police, les caractères gras. Il considère le texte des liens pointant sur une page comme autant de mots- clés !!!

JL Ferrier Indexation des liens - 1 Le texte des liens est censé remplacer avantageusement les mots-clés. Exemple sur la daube provençale >>daube provençale >> Ceci a une conséquence sur la manière d’être indexé !!! C’est un moyen de faire du spamdexing et du « google bombing ».

JL Ferrier Indexation des liens - 2 Comment estimer la POPULARITÉ d’un site ? Nombre de visites ? Estimable grâce aux log files. Inaccessible pour un moteur. Idée force de Google : bâtir un indice de popularité basé sur les liens.

JL Ferrier PageRank - 1 Exprime la popularité d’une page en calculant la manière dont elle est pointée par d’autres pages. Indice objectif d’inspiration libérale (« le talent finit toujours par être reconnu »). Incompatible avec d’autres formes de systèmes politiques et/ou économiques. Google est-il inscrit dans un système libéral ?

JL Ferrier PageRank – 2 Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) Chezmomo.com Chez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boite (…)

JL Ferrier PageRank – 2 PR(Chezdede.com)=7 PR(Chezmomo.com)=1 Menu d'automne Menu d'automne Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons… - 5k - En cache - Pages similaires En cache Pages similaires [… et bien plus loin, on trouve …  ] automne automne Chez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boîte … - 9k - En cache - Pages similairesEn cachePages similaires

JL Ferrier PageRank – 3 Le PR positionne la page dans les réponses de Google Les liens ne se valent pas tous. Une lien provenant d’une page qui est très populaire (PR élevé) donne plus de points.

JL Ferrier PageRank – 3 Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) Bonsplans.com Trifouilli-les-oies.com yahoo.com

JL Ferrier PageRank – 3 PR(chezdede.com) =PR(bonsplans.com)+PR(trifouilli-les- oies.com)+PR(yahoo.com) = Indice de popularité intéressant. Besoin d’affiner la valeur du « lien »

JL Ferrier PageRank – 4 Les liens ne se valent pas tous. Une page qui n’a qu’un seul lien est considérée comme étant un référent (authority page) Une page qui en a beaucoup est un « moyeu » (hub page). Ses liens ont moins de « valeur » (ex des annuaires) car expriment moins la popularité.

JL Ferrier PageRank – 4 Cotebleue.com La côte bleue vous attend en toute occasion (…) Le meilleur resto de la côte >> Rendez-vous est pris avec tous les motards dès que (….) Chezdede.com Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…) TousLesRestos.com Chez Marcel >> Chez Dédé >> Chez Totoche >> Le rendez-vous de la Méduse >>

JL Ferrier PageRank – 4 C(cotebleue.com)=1 C(touslesrestos.com)=4 Fonction C() : donne le nombre de liens pointés par une page. PR(Chezdede.com) = PR(cotebleue.com)/ C(cotebleue.com) + PR(touslesrestos.com)/ C(touslesrestos.com)

JL Ferrier PageRank – 4 Soit une page A ayant N liens pointant vers elle, provenant de N pages. Le page rank de A vaut : La valeur de d (coef d’amortissement) est de 0,85

JL Ferrier Explication intuitive Le PageRank peut se voir comme une loi de probabilité. Un internaute clique au hasard et suit les liens sans revenir en arrière, mais peut zapper sur une autre page. Le PR est la probabilité qu’il tombe sur la page en question

JL Ferrier Connaître le PR Par une recherche link: Par la Google ToolBar (attention elle affiche TAF : quel est le réel intérêt de la Google ToolBar ?

JL Ferrier It’s non sense ! Les failles des moteurs tels que Google sont liés à l’absence de traitement sémantique des contenus informationnels Cette carence est comblée partiellement par le programme adwords. Google intégrera des technos à base d’ontologies. L’idée est de comprendre la requête de l’internaute, de lui apporter les BONS résultats.

JL Ferrier Biblio Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd « The PageRank Citation Ranking: Bringing Order to the Web », Stanford Digital Library Technologies Project 1998 Sergey Brin and Lawrence Page, "The anatomy of a large-scale hypertextual search engine", in Computer Networks and ISDN Systems, vol 30,1998. Junghoo Cho, Hector Garcia-Molina, « Synchronizing a database to Improve Freshness » Stanford Press (2000)