Le rôle des mesures de similarité dans l'algorithme de Google

Slides:



Advertisements
Présentations similaires
/07 1 certification EFQM dun réseau de santé mentale 9 ème JIQH - Atelier 7 Paris, 11 XII 2007 Dr. Guy GOZLAN Directeur médical Saïd ACEF Ingénieur.
Advertisements

Structures de données avancées : MLH (Multidimensional linear hashing)
Définitions Analyse documentaire
Bien visible sur internet 
Les différents profils Les fourchettes de salaires Implantation géographique Les candidats David Durand Pichard, SEO-Camp.org.
Clément Massé – Université Charles de Gaulle Lille3.
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Synthèses de la législation européenne: une introduction 2009.
RECONNAISSANCE DE FORMES
L’absentéisme des salariés en France
BCDI UTILISER LE THESAURUS POUR FAIRE UNE RECHERCHE
L’action des pouvoirs publics
Recherche d’information sur le web
Entre construction théorique et mise en œuvre opérationnelle
Premier Comité de Pilotage
Le REFEDD : qu’est-ce que c’est?
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Indexation textuelle : Systèmes de recherche d’informations
Les moteurs de recherche Par Pauline RAUDET
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Interfaces de recherche usager
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
Le Référencement en Savoie Historique
Ordre du jour Présentation de Lambersart En Mouvement (LEM)
Recherche d’information & Représentation des Connaissances
Comment trouver sur Internet?
Annuaires et moteurs de recherche d’information sur Internet
Annotations sémantiques pour le domaine des biopuces
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
Les 10 règles pour choisir ses mots clefs pour son référencement internet? © ©
Vous présentent leurs meilleurs vœux pour Dr Pierre Le Sourd Président du Leem En 2006, nous voulons faire reconnaître la dimension stratégique.
Google, un moteur de recherche comme les autres ?
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Réseau BD 11/12/08 Hibernate Search Réunion dunité – 23/10/2008 Erik Kimmel.
Le référencement en 2008 : Etat des lieux et perspectives Sébastien Billard -
SCIENCES DE L ’INGENIEUR
Analogique-numérique
MEN-MESR/STSI-SDTICE 1 Économie-Gestion – 16 et 17 décembre 2008 – Gaëlle Pennetier et Christophe Goidin Service dInformation et dAnalyse des Logiciels.
Moteur de recherche d’information
Moteur de recherche d’information
La distribution normale
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Catalogage de données Notions, enjeux et initiatives actuelles.
1 Référencer ses pages web Principes – Référencement passif (SEO) – Référencement actif (SEM) – Maîtrise des outils [Source : formation au référencement.
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
Référencement naturel
Projet Session CC6 Action ENS Constantine : du 20 Mars au 24 Mars 2009 Michèle Drechsler Utilisation de Google.
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
L’ ACCESSIBILITE « C’est mettre le Web et ses services à la disposition de tous les individus, quels que soient leur matériel ou logiciel, leur infrastructure.
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
1 ASCAME Nouvelles perspectives 2009 – INDEX: NOUVELLES PERSPECTIVES
Recherche d’information
SEO le Référencement Naturel
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Moteurs et métamoteurs de recherche
Présentation nouveau site marchand
CDI du lycée Jean Jaurès / La recherche dans BCDI.
IndexationIndexation sémantique de documents XMLsémantiqueXML Haïfa ZARGAYOUNA Laboratoire LIMSI/CNRS Groupe Architectures et Modèles pour l'Interaction.
Comment faire une recherche documentaire?
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
LE SIMULATEUR DE MARCHE UN OUTIL APEC POUR EXPLORER SON MARCHE Le simulateur marché est un outil exclusif Apec, qui permet d’analyser ses débouchés en.
Transcription de la présentation:

Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp

L'association SEO Camp Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 Constituée en mars 2008 Uniquement des membres personnes physiques 85 cotisants – 225 sympathisants

L'association SEO Camp : les membres Amateurs passionnés par le référencement Salariés d'agences spécialisées ou d'agences horizontales Indépendants – free lance Webmasters Référenceurs in house

L'association SEO Camp : les activités Organiser des rencontres conviviales "SEO Camp", Repas, Apéros SEO Camp

L'association SEO Camp : les activités Les évènements précédemment organisés Paris Toulouse Marseille Nantes

L'association SEO Camp : l'emploi et la formation Matinales de l’APEC Etude sur l’emploi dans le référencement

L'association SEO Camp : promotion de la profession Interventions dans les évènements destinés aux webmasters (salons emarketing, ecommerce) Articles dans la presse économique Projet de certification et de formation SEO Campus

Algorithmes de classement : Les grands principes La pertinence : notion fondamentale La recherche full text à l’aide des opérateurs booléens Comment classer les pages ? Comment mesurer le poids des termes 5. Utilisation d’une mesure de similarité : le poids des termes 6. L’apport et le rôle exact du pagerank 7. Conclusion

La question de la pertinence

La pertinence Une notion intimement liée au jugement de l’utilisateur relative subjective Une notion intimement liée au jugement de l’utilisateur Il existe un « socle commun » des critères d’appréciation de La pertinence

Focus sur l'indexation

Trouvé ici ! Document numéro 2 La recherche "full text" RECHERCHE CLASSIQUE DANS UN INDEX INVERSE Chercher dans l’index inversé : “extraction” 1 0.66611 report 1 0.71866 algebraic 1 1.00000 international 1 0.86409 preliminary 1 0.40147 language 2 0.47467 computers 2 0.90061 repeated 2 0.49718 digital 2 0.66983 roots 2 1.00000 subtractions 2 0.84247 extraction 3 0.51141 techniques Trouvé ici ! Document numéro 2

Comment classer les pages : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Poids = 1 Poids = 3

Comment classer les pages : première idée AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE <TITLE> ... <H1><H2><strong> ... <TABLE><DIV> ... Alt, title, <a href>, anchor text proximité ...

Comment classer les pages : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document

Comment classer les pages : première idée Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 2 110 000 000 Combien de pages contiennent le mot clé globicéphale d’après Google ? 9 530

Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent

Le principe du Cosinus de Salton CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT tf*idf Exemple de formule réellement utilisée

Exemple de calcul sans et avec tf*idf Internet 1000 mots Globicéphale 1000 mots Densité 3 pour mille Densité 1 pour mille

Exemple de calcul sans et avec tf*idf Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages DF[internet] = 2 x 10^9 / 20 x 10^9 = 0,1 DF[globicephale] = 10^4 / 20 x 10^9 = 5 x 10^-7

Exemple de calcul sans et avec tf*idf (simplifié) Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages TF*iDF[globicephale] = 0,001/5 x 10^7= 2000 ! TF*iDF[internet] = 0,003 / 0,1 = 0,03 2000 >>>> 0,03

Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable

Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la qualité d’un moteur

La recherche booléenne et ses défauts

Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire

Le principe du Cosinus de Salton Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index

Le principe du Cosinus de Salton Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton

Le principe du Cosinus de Salton Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…

Le principe du Cosinus de Salton

Le principe du Cosinus de Salton En réalité, il y’a autant de dimensions que de “termes” C’est un espace à n dimensions

Les bases théoriques de l’alignement sémantique L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique