Dans la peau d’un moteur de recherche : le PageRank

Slides:



Advertisements
Présentations similaires
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Advertisements

Search Engine Optimization
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2011 septembre/octobre 2011 Denis Roura,
1- Des lors qu’une ressource est créée, elle est protégée automatiquement par le code de la propriété intellectuelle. 2- Dans la réutilisation d’une ressource,
Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –
1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source.
SITC 10 rue de la libération Bâtiment C Neuilly-sur-Marne Processus création et envoi de newsletter changement du mot de passe.
SECONDE G HISTOIRE-GÉOGRAPHIE/DOCUMENTATION SÉQUENCE 2 : SÉANCE 1 Comment fonctionne Google ?
Présentation Framasoft Wikipédia Tous experts ?
Le référencement gratuit Référencer gratuitement Licence Creative Common by SA Matthieu GIROUX Développeur en informatique de gestion libre
La veille Dans Tous ses états. La veille Principes et outils ● Définition ● Son organisation ( Schéma ) ● Quelques incontournables de la recherche documentaire.
Qu'est-ce que c'est pour vous la veille informationnelle ?
Octobre 2013 Smartweb Refonte des sites Internet AIDE – K-Sup v6.
Le bureau Windows (XP) Bureau Windows Icônes Menu démarrer
Créer un site web avec WordPress
Téléchargement de fichiers
SEO : Search Engine Optimization Référencement Naturel
Bien visible sur internet 
Les nouveaux critères de pertinence Google
Contexte et discours liés à la nouvelle répartition des audiences clients 18/01/2016.
Je collecte l’information Je mets en place une veille informationnelle
Plateforme CountrySTAT Aperçu global des métadonnées dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME CountrySTAT.
Politique de dépôt et de services dans ProdInra
Domaine Ruisseau Château nouveau site web 2011
3 devient.
Wikipédia : un outil pour le monde universitaire ?
Problématique N°1 Comment s’y prendre pour trouver des informations sur Internet ? -Comment être sûr de leur fiabilité ? Essayons de répondre à ces questions.
La spécialité math en TS
Michel Ange Partie 1 Clique sur l’icône sur le bureau
Évaluer un site internet
Séminaire CRI & communicants régionaux
Références.
Master Réseaux et Systèmes Distribués (RSD)
Temps 1 :Que fait-on sur internet ?
Recherche sur le web : efficacité et qualité
Veille technologique Nassima Mahcer 17 MAI 2017.
Conseils pour préparer efficacement un TPE
La spécialité math en TS
Faire sa veille informationnelle
Structurer un site web pour le SEO…
Gestion du cours Aissa Boulmerka.
Optimisation des sites web : Le référencement
Le site FORUM liste de diffusion DROPBOX GESTAPRC Travail collaboratif
Structure D’une Base De Données Relationnelle
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Utiliser des images trouvées sur le web
1 RECURSIVITE PRESENTATION Ch. PAUL ALGORITHMIQUE Présentation de la récursivité.
Cours de référencement : méthodologie et synthèse
Cours de référencement : liens commerciaux et Web Analytics
Cours de référencement : mots-clés et écriture de page
ACP Analyse en Composantes Principales
Cours de référencement : optimisation
Assemblée Générale de l’OJD Maroc
Référencement local : quelle stratégie déployer sur Google ?
Qui peut concurrencer Google en 2009 ?
Présentation de la base Frantext
Éventail des méthodes de collecte de données
Cours de référencement : les fondamentaux
Comment personnaliser Microsoft SharePoint Site web
Séminaire UCL - 22 février 2005
Le Créateur de site le plus simple
Information, Calcul, Communication
Internet : Informations personnelles et identité numérique
REFERENCEMENT NATUREL
MARKETING DIGITAL GOOGLE AFRICA
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
Qu’est ce qu’une page web? Comment fonctionne un site web?
App Inventor trucs Afficher une image depuis le Web ou Google Drive.
Comment aller plus loin avec Zotero? Comité d’Aide à la Publication, FMT Zotero worshop Hand’s on session Zotero worshop Hand’s on session 12h-12h30.
Transcription de la présentation:

Dans la peau d’un moteur de recherche : le PageRank Mise à jour du 11 novembre 2018 Rémi Bachelet La dernière version de ce cours est ici : calcul du PageRank. Cette formation est également enregistrée en vidéo Cours distribué sous licence Creative Commons, selon les conditions suivantes : Source des images indiquées au-dessous ou en cliquant sur l’image Image : Source

Les algorithmes de classement des pages Le PageRank Modalités de calcul Fiabilité : Le TrustRank Réponse à une requête : Le SERP Rank Qu’avez-vous retenu ? Quiz rush

Le PageRank « Vote » d’une page pour une autre PR (C) > PR (E), même avec moins de liens ! Échelle logarithmique 0-10 Avoir un PR de 3-4 c’est déjà beaucoup Un processus de calcul récursif Pour éviter que le PR →∞, il faut un amortissement = Damping factor (typ. 85% - ici il est de 90%). Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, Source : article PageRank de Wikipédia Image : Source Wikimedia Commons

L’algorithme du PR : un secret bien gardé Un nombre important de facteurs est pris en compte dans le PageRank. Leur nature et leur pondération sont secrets pour limiter les chances de manipulations (et la concurrence des autres moteurs de recherche…). Le terme "PageRank" est une marque déposée et a été l’objet de brevets, à commencer par (U.S. Patent 6,285,999). Le brevet appartient à Stanford University et Google en a l’usage exclusif, mais l’algorithme a beaucoup évolué depuis le dépôt en 98. Beaucoup de spéculations sur ce sujet, voyons quelques-uns des paramètres connus…

Quelques-uns des 200 paramètres du ranking Sur la page (« onpage ») Ancienneté / Fréquence d’actualisation Texte = visible sur la page / Code = Meta tags = non visibles sur la page Sur le site (« onsite ») Lien internes, arborescence, fil d’ariane (« Breadcrumbs ») Paramétrage sur Google Console (Sitemap..) Hors du site (« offsite ») Liens entrants en (petite) partie visibles via une recherche Google link:http://fr.wikipedia.org Leur PageRank, Âge, TrustRank de la page Social bookmaking, tweets… Un débat : Google utilise t-il les données qu’il stocke sur le comportement des internautes pour le calcul du PageRank ? Temps passé sur le site, statistiques renvoyées par la barre d’outil google, citations d’URL dans gmail, requêtes avec l’URL du site, marque-pages Google, âge/sexe/localisation des internautes, leurs recherches précédentes …. les licences de ces services précisent souvent que non..

Le PageRank c’est fini ? Les mécanismes qui comptent dans l’algorithme actuel Hummingbird sont nombreux et variés Un « Colibri » qui s’alimente à diverses sources selon les situations RankBrain, basé sur l’apprentissage statistique (machine learning) Panda : selon la qualité globale d’un site Penguin : anti « black hat » Pigeon : recherches locales, Top Heavy : pages contenant trop de pubs Mobile Friendly : Mobilegeddon Pirate : copyright .. et toujours PageRank : liens entrants

Le TrustRank Méthode semi-automatique pour détecter les pages de spam = classification "spam ou pas spam" (Trust = confiance - Le terme TrustRank vient de Yahoo!). Principe : une page « propre » ne propose pas de liens vers des pages de spam Amorçage : établir une liste de pages « propres » de référence Après une analyse « humaine ». On n’a pas forcément besoin d’une grande liste (p.e 200 sites). Suivi récursif des liens de la liste d’amorçage Degré de confiance que l'on peut attribuer à la page : un indice Plus les liens sont forts avec des pages de référence, plus leur degré de confiance est élevé C’est le TrustRank (ou TR), indice entre 0 (=spam) et 1 (=page de référence) Le TrustRank peut être utilisé : pour filtrer l'index d'un moteur de recherche, pour classer les résultats d'une recherche.

Le SERP Rank C’est l’ordre de présentation des liens lorsque l’on entre des mots-clés dans un moteur de recherche La page de résultats présente une liste ordonnée de liens vers des pages/images/vidéos, associés à des textes courts (snippets) Le SERP Rank est fonction du PageRank, mais aussi de facteurs liés aux mots-clés. Voir le chapitre 6 sur les mots-clés et leur mise en valeur SERP = Search Engine Results Page

Google Universal Search Depuis mai 2007, une recherche sur Google propose sur sa search engine results page (SERP) des résultats mixant : Certes des Pages web Des liens sponsorisés Mais aussi Actualités, Images, Livres Cartes Blogs Vidéos Définitions (define:) Avec Universal Search, des contenus auparavant séparés sont présentés simultanément Résultat : encore plus de candidats à la première page Des stratégies alternatives pour y figurer Une évolution incessante : nouvelles versions régulièrement

Questions ? Outils d’analyse https://rankinity.com EdgeRank de Facebook Plus d’informations sur les lien-retours/backlinks Mathématiquement, le PageRank est la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web[1],[2] SEO /3 PageRank [Quiz rush] https://goo.gl/GzNXzV

Les thèmes et chapitres du cours Origine du SEO, Google … et ses concurrents La fréquentation d’un site : les fondamentaux Dans la peau d’un moteur de recherche : le PageRank Web Analytics et liens commerciaux Optimisation du référencement “Onpage” “Onsite” “Offsite” Trouver et optimiser les mots-clés Méthodologie de référencement et avenir du SEO