La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition.

Présentations similaires


Présentation au sujet: "Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition."— Transcription de la présentation:

1 Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de lassociation SEOCamp

2 L'association SEO Camp Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 Constituée en mars 2008 Uniquement des membres personnes physiques 85 cotisants – 225 sympathisants

3 L'association SEO Camp : les membres Amateurs passionnés par le référencement Salariés d'agences spécialisées ou d'agences horizontales Indépendants – free lance Webmasters Référenceurs in house

4 L'association SEO Camp : les activités Organiser des rencontres conviviales "SEO Camp", Repas, Apéros SEO Camp

5 L'association SEO Camp : les activités Les évènements précédemment organisés Paris Toulouse Marseille Nantes

6 L'association SEO Camp : l'emploi et la formation Matinales de lAPEC Etude sur lemploi dans le référencement

7 L'association SEO Camp : promotion de la profession Interventions dans les évènements destinés aux webmasters (salons emarketing, ecommerce) Articles dans la presse économique Projet de certification et de formation SEO Campus

8 Algorithmes de classement : Les grands principes 1.La pertinence : notion fondamentale 2.La recherche full text à laide des opérateurs booléens 3.Comment classer les pages ? 4.Comment mesurer le poids des termes 5. Utilisation dune mesure de similarité : le poids des termes 6. Lapport et le rôle exact du pagerank 7. Conclusion

9 La question de la pertinence

10 La pertinence Une notion intimement liée au jugement de lutilisateur Il existe un « socle commun » des critères dappréciation de La pertinence

11 Focus sur l'indexation

12 RECHERCHE CLASSIQUE DANS UN INDEX INVERSE Chercher dans lindex inversé : extraction report algebraic international preliminary language computers repeated digital roots subtractions extraction techniques La recherche "full text" Trouvé ici ! Document numéro 2

13 Nombre doccurrences du terme dans la page : Comment classer les pages : première idée Extraction Poids = 1Poids = 3

14 Comment classer les pages : première idée AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE... Alt, title,, anchor text proximité...

15 Problème : les documents ne contiennent pas le même nombre de mots Comment classer les pages : première idée Extraction 100 mots Extraction 100 mots Extraction 1000 mots Extraction 1000 mots Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre doccurrences divisé par le nombre de mots du document Poids = 0,01Poids = 0,003

16 Problème : les mots nont pas la même fréquence dapparition dans la langue Comment classer les pages : première idée Combien de pages contiennent le mot clé internet daprès Google ? Combien de pages contiennent le mot clé globicéphale daprès Google ? 9 530

17 tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent Vers un meilleur critère de poids

18 CALCULER LE POIDS DUN TERME DANS UN DOCUMENT tf*idf Exemple de formule réellement utilisée Le principe du Cosinus de Salton

19 Exemple de calcul sans et avec tf*idf Internet 1000 mots Internet 1000 mots Globicéphale 1000 mots Globicéphale 1000 mots Densité 3 pour milleDensité 1 pour mille

20 Exemple de calcul sans et avec tf*idf Internet 1000 mots Internet 1000 mots Globicéphale 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages DF[internet] = 2 x 10^9 / 20 x 10^9 = 0,1 DF[globicephale] = 10^4 / 20 x 10^9 = 5 x 10^-7

21 Exemple de calcul sans et avec tf*idf (simplifié) Internet 1000 mots Internet 1000 mots Globicéphale 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages TF*iDF[internet] = 0,003 / 0,1 = 0,03 TF*iDF[globicephale] = 0,001/5 x 10^7= 2000 ! 2000 >>>> 0,03

22 Pourquoi il faut abandonner la densité de mots clés Cest un critère qui nest plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable

23 Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la qualité dun moteur

24 La recherche booléenne et ses défauts

25 Les documents proches dans lespace ont un contenu similaire Documents dans un espace à 3 dimensions : Le principe du Cosinus de Salton

26 Tout document peut être situé dans lespace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de lindex

27 Le principe du Cosinus de Salton Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans lespace de Salton

28 Le principe du Cosinus de Salton Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…

29 Le principe du Cosinus de Salton

30 En réalité, il ya autant de dimensions que de termes Cest un espace à n dimensions Le principe du Cosinus de Salton

31 Les bases théoriques de lalignement sémantique Lalignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête


Télécharger ppt "Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition."

Présentations similaires


Annonces Google