Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles.

Slides:



Advertisements
Présentations similaires
Les Réseaux Sociaux : Facebook
Advertisements

Probabilités et statistiques au lycée
Collecte de données F. Kohler.
Inférence statistique
Autour d’une expérience aléatoire simple:
Les tests d’hypothèses
PROBABILITÉS en 3ème  .
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Le référencement des pages web
variable aléatoire Discrète
12 novembre 2012 Grégory Petit
Commission scolaire des Laurentides
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
ONRN V2 Guide de contribution. Organisation des documents Listes de valeurs Ce répertoire contient les listes de valeurs qui sont utilisées pour qualifier.
Chapitre VII :Commande par retour d’état
Fluctuations d’une fréquence selon les échantillons, Probabilités
Formation Microsoft® Office Access 2007
Quelques calculs de probabilités
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
PubMed Trucs et astuces…
Qu'est-ce que Spip? Spip est un système de publication pour Internet (CMS Content Management System) En français, un système de gestion de contenu Il en.
2. Expériences aléatoires et modélisation
Structures de données linéaires
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
Résumé présention excel
Les lois des probabilités
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Calcul de probabilités
Création d'un diaporama Création d'un diaporama
Régression linéaire simple
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 01/12/2000.
Systèmes d’équations du premier degré à deux variables
LES ARBRES IUP 2 Génie Informatique
Algorithme de Bellman-Ford
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Algorithmes probabilistes
VOUS ALLEZ ASSISTER A UNE DEMONSTRATION DU FONCTIONNEMENT DE LA BASE DE DONNEES DIPOUEST OUBLIEZ SOURIS ET CLAVIER ET LAISSEZ-VOUS GUIDER.
Vous allez assister à une démonstration de la base de données Mémorable en vue doptimiser son utilisation Oubliez souris et clavier et laissez vous guider.
Créer son propre BLOG/Site web pédagogique
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Les mécanismes du référencement naturel Comment être visible sur la toile et le rester? Tous avec Ben Ali.
GPA750 – Gestion de Projets
CONSOMMATEURS ET SUBSTITUTION
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Physique 3 Vibrations et ondes mécaniques
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Le menu « Agenda / Calendrier » © Michel DURIEUX – Février 2007.
CRÉER ET ALIMENTER UN BLOG A PARTIR DE LA PLATE FORME OVER BLOG
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
Les Techniques d’enquête quantitative
Diffusion Nationale TOULOUSE – Décembre 2008 STS Web Services libres Gérer les services libres.
DESIGN MULTIMÉDIA Initiation aux bases de La scénarisation multimédia
Utilisation table mixage Audacity Oubliez quelque peu vos réflexes d’utilisateur de matériel son !
POWERPOINT.
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
Théorie de Files d’Attente
Thème: statistiques et probabilités Séquence 6: Probabilités (Partie 1) Capacités : Déterminer la probabilité d’événements dans des situations d’équiprobabilité.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
1 Pyrène conseil Prenez de la hauteur avec vos données.
Échantillonnage aléatoire simple
Chapitre 4 Variables aléatoires discrètes
La pile de crêpes.
Introduction à la recherche en science politique
Utilisation des formules de base
Formation.
ECHANTILLONAGE ET ESTIMATION
Famille A La famille A a cinq enfants – Patricia – Mary – Susan – Helen – Kathleen – Quelle est la probabilité que le prochain enfant soit un garçon ?
Test du Cola Chanson 1. Qui peut faire la différence ? Comment déterminer si quelqu’un est capable de distinguer les deux boissons ? Combien de réponses.
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
Transcription de la présentation:

Promotion Ranking

Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles. Exemple : PageRank, HITS

Pourquoi Les nouvelles page font partie du « IN » dans le WebGraph. Elles ne possèdent pas de liens qui les référencent. Il est donc très difficiles de connaître leurs « qualité ». Il faut attendre quelles fassent partie du « core » du « WebGraph ». Ceci demande un facteur temps important.

Objectif Trouver un moyen dinclure les nouvelles pages (de qualité) dans les résultats des moteurs de recherches avant quelles ne fassent parties du « core » du « WebGraph »

Idée : Rank Promotion Promouvoir les pages lointaines de la liste des résultats dun moteur de recherche Pour cela on les fait artificiellement grimper au sommet de la liste. Résultat 1 1 Résultat 2 2 Résultat 3 3 Résultat 4 4 Résultat 5 5 Résultat 6 6 Résultat

Expérience Site Internet dans lequel se trouve plusieurs milliers de pages au contenu amusant ou comique. Presque un millier de « surfeurs », qui navaient aucune connaissance préalable du sujet dexpérience.

Expérience : pages du site Les pages ont été créées dynamiquement à partir dune base de données contenant des blagues. La qualité des pages est le degré de « funniness ». Des pages contenant des citations ont été ajoutées pour que lensemble des pages du site ait une distribution par PageRank normale. Cest à dire, que la distribution ressemble à celle de nimporte quel autre site Internet.

Expérience : la page principale du site La homepage du site présente les blagues et citations à la manière dune moteur de recherche, par groupe de dix et en ordre descendant de « funniness ». Le niveau de « funniness » est établi par les utilisateurs. Ils ont le choix de cliquer sur les boutons « drôle », « neutre » et « pas drôle ». Pour limiter la fraude, une fois que lutilisateur a cliqué sur un bouton, ils disparaissent.

Expérience : les utilisateurs La publicité faite pour le site a attiré un total de 962 visiteurs pendant 45 jours. Chaque surfeur qui visite le site pour la première fois se voit attribué un numéro de groupe: 1 ou 2. Pour le 1er groupe, les blagues sont présentées en ordre descendant de popularité. Pour le 2ième groupe, les blagues sont également présentées en ordre descendant de popularité. Mais les pages qui nont pas été évaluées sont insérées dans la page principale par Rank Promotion.

Expérience : rotation du contenu Pour chaque visiteur, le maximum de pages accessibles est fixé à mille. La durée de vie des page est fixée au hasard de 1 à 30 jours. Pour simuler un état stationnaire dans lequel chaque page a une durée de vie réelle de 30 jours, chaque page qui disparaît est remplacée par une page de même qualité avec une durée de vie fixée à 30 jours et une popularité de zéro.

Evaluation Le site est capable de « monitorer » lactivité de 10% des utilisateurs. Ceci permet dutiliser deux indices pour évaluer les effets du promotion ranking. TBP => Time To Become Popular QPC => Quality Per Click

TBP Temps que met une page de bonne qualité à devenir populaire dans un moteur de recherche. Cest à dire, quelle va figurer au début de la liste des résultats pour un mot clef donné.

QPC Mesure la qualité moyenne des pages visionnées par les « surfeurs » sur une grande période de temps.

Qualité intrinsèque de la page « p » Nombre de visiteurs de la page « p » pendant sa durée de vie « tl » Somme de toute les pages du site Sur une durée infinie Normalisation QPC

Evaluation : Constats Le but du du Promotion Ranking est de diminuer TBP et daugmenter QPC. Plus une page est référencée tôt dans un moteur de recherche, plus sa popularité va devenir importante. Pour promouvoir une nouvelle page, il faut donc linsérer au début de la liste des résultats du moteur de recherche.

Promotion Ranking : Méthodes Pour le promotion ranking, il existe plusieurs méthodes. Ici, il y en a deux : 1) Randomized Rank Promotion 2) Selective Randomized Rank Promotion.

Randomized Rank Promotion Instanciation de 3 listes : L, Ld, et Lp. Ld contient lensemble des pages de résultats suite à une requête lancée dans un moteur de recherche. Lp contient la liste des pages à promouvoir. L est la liste finale, présentée à lutilisateur.

Randomized Rank Promotion suite Les k-1 premiers éléments de Ld sont insérés dans L. Les k+i éléments de L sont pris soit de Ld, soit de Lp. Ce choix dépend de la valeur probabiliste dune variable aléatoire r. Exemple : la variable r peut être le résultat du jet dune pièce de monnaie (pile ou face).

Selective Randomized Rank Promotion Différences avec le modèle précédant : 1)Toutes les pages nont pas les mêmes chances dêtre choisies. Seul le pages avec une « awareness » de 0 sont promues. Méthode : 1)Utiliser les informations supplémentaires fournies par les visiteurs « monitorés » du moteur de recherche. 2)Utiliser la relation entre la popularité dune page et son nombre attendu de visiteurs.

Selective Randomized Rank Promotion (suite) La relation popularité par rapport au nombre de visiteur sexprime par : F2 = nombre de visiteurs attendus. F1 = popularité de la page.

Selective Randomized Rank Promotion (suite 1) F2 est déduite empiriquement par les résultats fournis par le moteur de recherche AltaVista (loi de puissance). Teta = cte de normalisation v = nombre de visteurs par unité de temps

Selective Randomized Rank Promotion (suite 2 ) La popularité F1(x) dune page sexprime par la relation : m = nombre dutilisateurs « monitorés » Q(p) = Qualité intrinsèque de la page F1 = 1 + toutes les autres pages dont la popularité surpasse x. « awareness »

Selective Randomized Rank Promotion (suite 3) Formule finale: Si F1(x) < k Autrement z = pages avec une « awareness » de zéro F1 = formule précédente

Selective Randomized Rank Promotion (suite 4 ) F1 étant une formule approximative : 1)On ignore les effets de valeurs proches en popularité. 2)On oublie de compter une page. On combine F1 avec la formule suivante, par « curve fitting » (simulation par régression non- linéaire): x = popularité de la page

Selective Randomized Rank Promotion (suite 5) Question : Quelles valeurs faut-il donner à k (point dentrée dans la liste), r (degré de hasard) et Wp (pages à promouvoir). Réponse par simulation

Effet sur TBP -no promotion - uniform promotion - selective promotion k=1 and r=0.2

Ajustement de k et r

Résultats (par simulation)

Résultat final (réel)