Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parZéphyrine Chartier Modifié depuis plus de 11 années
1
Le rôle des mesures de similarité dans l'algorithme de Google
SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp
2
L'association SEO Camp Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 Constituée en mars 2008 Uniquement des membres personnes physiques 85 cotisants – 225 sympathisants
3
L'association SEO Camp : les membres
Amateurs passionnés par le référencement Salariés d'agences spécialisées ou d'agences horizontales Indépendants – free lance Webmasters Référenceurs in house
4
L'association SEO Camp : les activités
Organiser des rencontres conviviales "SEO Camp", Repas, Apéros SEO Camp
5
L'association SEO Camp : les activités
Les évènements précédemment organisés Paris Toulouse Marseille Nantes
6
L'association SEO Camp : l'emploi et la formation
Matinales de l’APEC Etude sur l’emploi dans le référencement
7
L'association SEO Camp : promotion de la profession
Interventions dans les évènements destinés aux webmasters (salons emarketing, ecommerce) Articles dans la presse économique Projet de certification et de formation SEO Campus
8
Algorithmes de classement : Les grands principes
La pertinence : notion fondamentale La recherche full text à l’aide des opérateurs booléens Comment classer les pages ? Comment mesurer le poids des termes 5. Utilisation d’une mesure de similarité : le poids des termes 6. L’apport et le rôle exact du pagerank 7. Conclusion
9
La question de la pertinence
10
La pertinence Une notion intimement liée au jugement de l’utilisateur
relative subjective Une notion intimement liée au jugement de l’utilisateur Il existe un « socle commun » des critères d’appréciation de La pertinence
11
Focus sur l'indexation
12
Trouvé ici ! Document numéro 2
La recherche "full text" RECHERCHE CLASSIQUE DANS UN INDEX INVERSE Chercher dans l’index inversé : “extraction” report algebraic international preliminary language computers repeated digital roots subtractions extraction techniques Trouvé ici ! Document numéro 2
13
Comment classer les pages : première idée
Nombre d’occurrences du terme dans la page : Extraction Extraction Poids = 1 Poids = 3
14
Comment classer les pages : première idée
AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE <TITLE> ... <H1><H2><strong> ... <TABLE><DIV> ... Alt, title, <a href>, anchor text proximité ...
15
Comment classer les pages : première idée
Problème : les documents ne contiennent pas le même nombre de mots Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document
16
Comment classer les pages : première idée
Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 2 110 000 000 Combien de pages contiennent le mot clé globicéphale d’après Google ? 9 530
17
Vers un meilleur critère de poids
tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent
18
Le principe du Cosinus de Salton
CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT tf*idf Exemple de formule réellement utilisée
19
Exemple de calcul sans et avec tf*idf
Internet 1000 mots Globicéphale 1000 mots Densité 3 pour mille Densité 1 pour mille
20
Exemple de calcul sans et avec tf*idf
Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages DF[internet] = 2 x 10^9 / 20 x 10^9 = 0,1 DF[globicephale] = 10^4 / 20 x 10^9 = 5 x 10^-7
21
Exemple de calcul sans et avec tf*idf (simplifié)
Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages TF*iDF[globicephale] = 0,001/5 x 10^7= 2000 ! TF*iDF[internet] = 0,003 / 0,1 = 0,03 2000 >>>> 0,03
22
Pourquoi il faut abandonner la densité de mots clés
C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable
23
Focus sur les critères de qualité d'un moteur
Bruit et silence : mesurer la qualité d’un moteur
24
La recherche booléenne et ses défauts
25
Le principe du Cosinus de Salton
Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire
26
Le principe du Cosinus de Salton
Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index
27
Le principe du Cosinus de Salton
Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton
28
Le principe du Cosinus de Salton
Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…
29
Le principe du Cosinus de Salton
30
Le principe du Cosinus de Salton
En réalité, il y’a autant de dimensions que de “termes” C’est un espace à n dimensions
31
Les bases théoriques de l’alignement sémantique
L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.