Google - La recherche de données 09 mars 2006 Sébastien Forner Sébastien Forner Sébastien Péron Sébastien Péron Ruben Zamblé-bi Ruben Zamblé-bi Master A.S.S
Présentation Générale Table des matières Présentation Générale Fonctionnement du moteur Google Structure déployée Services offerts Une approche de Datamining Trustrank Conclusion
Aboutissement d’un projet universitaire Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Sources: barometre.secrets2moteurs.com
Aboutissement d’un projet universitaire Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Géant de l’informatique - Buisness model innovant - Introduite en bourse en Mai 2004 Résultats (en M$) 2002 2003 2004 2005 chiffre d'affaires 440 1466 3189 6139 bénéfices 100 106 399 1465 Sources: wikipedia.org
Sobriété et valorisation des mots Fonctionnement du moteur Google (1 / 3) Sobriété et valorisation des mots - Page simpliste Accueil spécialement dédié à la recherche Service accessible en bas débit - Valorisation des mots Mise en place d’un système de vente d’espace publicitaire associé au mot recherché Profilage des utilisateurs déjà mis en évidence
Le système de classement « PageRank » Fonctionnement du moteur Google (2 / 3) Le système de classement « PageRank » - Principe de fonctionnement Critère d’évaluation de la qualité d’une page Échelle de notation variant de 0 à 10 - Dérive liée au PageRank Apparition du « bombardement Google » (Google Bombing) La « Google Dance » - Mise à jour du PageRank - Généralement 1 fois par mois
Le processus d’indexation Fonctionnement du moteur Google (3 / 3) Le processus d’indexation - Les « GoogleBot » FreshCrawler DeepCrawler - Les « GoogleBot MediaPartner » Gestion des liens publicitaires - Les « GoogleAdWords » - Les « GoogleAdSense »
Le Googleplex La Structure déployée (1 / 3) - Une boite à outils logiciels - Deux approches de sa structure
Le Googleplex La Structure déployée (1 / 3) - Technologies importantes a : Noyau linux b : Une architecture distribuée permettant la connexion rapide de sources variées c : une architecture technique identique à chaque niveau d : Le réseau Internet
Le Googleplex La Structure déployée (1 / 3) - Google se base sur la fusion de deux activités a : L’ingénierie logicielle b : L’ingénierie matérielle
Le Googleplex La Structure déployée (1 / 3) - Google se base sur la fusion de deux activités
Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - On distingue 6 principaux types de serveur « Google Web » serveurs « Data-Gathering » serveurs « Index » serveurs « Document » serveurs « Ad» serveurs « Spelling » serveurs
Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - Stockage des serveurs dans les « Data centers » Sources: www.webrankinfo.com
Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - Les serveurs et centres de données dans le Googleplex
Architecture d’indexation La Structure déployée (3 / 3) Architecture d’indexation - Description des principales étapes permettant l’indexation
Orientés indexation / référencement de données Les services offerts Orientés indexation / référencement de données Mis œuvre par le « Google Labs » - Google Web Accès principal au service de recherche - Google Desktop Search - Google Mini & Search Appliance - Google Images - Google Search Book - Google Video Store - Google Earth …….
Google et les entreprises Google vous surveille (1 / 4) Google et les entreprises - Google est synonyme de puissance - Une grande promesse : ne plus perdre de documents stratégiques - 2 outils : Google Mini et Appliance: À partir de 2995 euros Indexe jusqu'à 15 millions de documents Google Appliance peut accéder aux Bds et serveurs de fichiers Gère 150 requêtes à la minute
Google chez les particuliers Google vous surveille (1 / 4) Google chez les particuliers - La Google Toolbar au service de Google Desktop Correcteur d'orthographe Blocage des fenêtres indésirables Recherches améliorées avec suggestions en temps réel - L'espion qui m'aimait Que se passe t'il lors d'une navigation à travers le web?
Google vous surveille (1 / 4) - Indication du PageRank de la page visitée Adresse IP du poste de départ Adresse de la page visitée - Création d'une BD à partir des différentes requêtes Les sites préférés d'un utilisateur L'utilisation des résultats proposés par Google - Une arme fatale car elle est infalsifiable - Exemples d'applications possibles : Estimation de la qualité d'un site Vérifier la qualité des résultats de Google Identifier les spammeurs
Vers une publicité intelligente Google vous surveille (1 / 4) Vers une publicité intelligente - Création d'un portrait plus vrai que nature de l'utilisateur - Extension au géomarketing par l'intermédiaire de Google Earth - Buts recherchés : Vendre des liens publicitaires ciblés aux annonceurs Augmenter le taux de transformation Une justification pour la hausse des tarifs - Que dit la législation? Toute personne peut s'opposer à l'utilisation de ses données personnelles Exportation de données vers les Etats-Unis : le Safe Harbor
La guerre contre le spamdexing TrustRank (1 / 5) La guerre contre le spamdexing - Marque déposé par Google en mars 2005 - Introduit une année plus tôt par un article publié à Standford - Principes : Sélectionner un échantillon de page Détection du spamdexing parmi l'échantillon (appel de l'Oracle) Propagation du principe bonne page / mauvaise page à travers le web
Vision du web TrustRank (2 / 5) - le web est modélisé comme un graphe G = (V , E) - Chaque page possède des liens entrant et des liens sortants Pas de liens entrant = “page sans référence” Pas de liens sortant = “page ne référençant pas” Pas de liens = “page isolée”
Sélection de l'échantillon TrustRank (3 / 5) Sélection de l'échantillon - Aléatoirement - PageRank inversé Sélectionner les pages ayant de nombreux liens sortants Optimiser le nombre de liens sortants par pages - PageRank élevé Sélectionner des pages de fort PageRank Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance
« Isolation approximative » des bonnes pages TrustRank (4 / 5) Appel de l'Oracle - Séparation en deux sous-ensembles de l'échantillon : 1 pour les bonnes pages 0 pour les mauvaises pages 0,5 pour les pages n'appartenant pas à l'échantillon - C'est le principe de la confiance ignorante « Isolation approximative » des bonnes pages - Une bonne page pointe rarement vers une mauvaise - Attention la réciproque est fausse
Propagation de la confiance TrustRank (5 / 5) Propagation de la confiance - Confiance à M étapes C'est un mélange de la confiance ignorante et de l'isolation approximative Exemple avec N = 3 : { 1, 3, 6 } Amortissement de la confiance Confiance fractionnée Confiance atténuée
Google s’est imposé comme une référence Conclusion Google s’est imposé comme une référence Google instaure un modèle économique révolutionnaire Google a su utiliser au mieux le Data Mining La numérisation de la culture, le nouveau défi à relever Une logique professionnel ambitieuse : - Anticiper nos besoins pour mieux y répondre…