La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Google - La recherche de données

Présentations similaires


Présentation au sujet: "Google - La recherche de données"— Transcription de la présentation:

1 Google - La recherche de données
09 mars 2006 Sébastien Forner Sébastien Forner Sébastien Péron Sébastien Péron Ruben Zamblé-bi Ruben Zamblé-bi Master A.S.S

2 Présentation Générale
Table des matières Présentation Générale Fonctionnement du moteur Google Structure déployée Services offerts Une approche de Datamining Trustrank Conclusion

3 Aboutissement d’un projet universitaire
Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Sources: barometre.secrets2moteurs.com

4 Aboutissement d’un projet universitaire
Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Géant de l’informatique - Buisness model innovant - Introduite en bourse en Mai 2004 Résultats (en M$) 2002 2003 2004 2005 chiffre d'affaires 440 1466 3189 6139 bénéfices 100 106 399 1465 Sources: wikipedia.org

5 Sobriété et valorisation des mots
Fonctionnement du moteur Google (1 / 3) Sobriété et valorisation des mots - Page simpliste Accueil spécialement dédié à la recherche Service accessible en bas débit - Valorisation des mots Mise en place d’un système de vente d’espace publicitaire associé au mot recherché Profilage des utilisateurs déjà mis en évidence

6 Le système de classement « PageRank »
Fonctionnement du moteur Google (2 / 3) Le système de classement « PageRank » - Principe de fonctionnement Critère d’évaluation de la qualité d’une page Échelle de notation variant de 0 à 10 - Dérive liée au PageRank Apparition du « bombardement Google » (Google Bombing) La « Google Dance » - Mise à jour du PageRank - Généralement 1 fois par mois

7 Le processus d’indexation
Fonctionnement du moteur Google (3 / 3) Le processus d’indexation - Les « GoogleBot » FreshCrawler DeepCrawler - Les « GoogleBot MediaPartner » Gestion des liens publicitaires - Les « GoogleAdWords » - Les « GoogleAdSense »

8 Le Googleplex La Structure déployée (1 / 3)
- Une boite à outils logiciels - Deux approches de sa structure

9 Le Googleplex La Structure déployée (1 / 3) - Technologies importantes
a : Noyau linux b : Une architecture distribuée permettant la connexion rapide de sources variées c : une architecture technique identique à chaque niveau d : Le réseau Internet

10 Le Googleplex La Structure déployée (1 / 3)
- Google se base sur la fusion de deux activités a : L’ingénierie logicielle b : L’ingénierie matérielle

11 Le Googleplex La Structure déployée (1 / 3)
- Google se base sur la fusion de deux activités

12 Les Serveurs et centres de données
La Structure déployée (2 / 3) Les Serveurs et centres de données - On distingue 6 principaux types de serveur « Google Web » serveurs « Data-Gathering » serveurs « Index » serveurs « Document » serveurs « Ad» serveurs « Spelling » serveurs

13 Les Serveurs et centres de données
La Structure déployée (2 / 3) Les Serveurs et centres de données - Stockage des serveurs dans les « Data centers » Sources:

14 Les Serveurs et centres de données
La Structure déployée (2 / 3) Les Serveurs et centres de données - Les serveurs et centres de données dans le Googleplex

15 Architecture d’indexation
La Structure déployée (3 / 3) Architecture d’indexation - Description des principales étapes permettant l’indexation

16 Orientés indexation / référencement de données
Les services offerts Orientés indexation / référencement de données Mis œuvre par le « Google Labs » - Google Web Accès principal au service de recherche - Google Desktop Search - Google Mini & Search Appliance - Google Images - Google Search Book - Google Video Store - Google Earth …….

17 Google et les entreprises
Google vous surveille (1 / 4) Google et les entreprises - Google est synonyme de puissance - Une grande promesse : ne plus perdre de documents stratégiques - 2 outils : Google Mini et Appliance: À partir de 2995 euros Indexe jusqu'à 15 millions de documents Google Appliance peut accéder aux Bds et serveurs de fichiers Gère 150 requêtes à la minute

18 Google chez les particuliers
Google vous surveille (1 / 4) Google chez les particuliers - La Google Toolbar au service de Google Desktop Correcteur d'orthographe Blocage des fenêtres indésirables Recherches améliorées avec suggestions en temps réel - L'espion qui m'aimait Que se passe t'il lors d'une navigation à travers le web?

19 Google vous surveille (1 / 4)
- Indication du PageRank de la page visitée Adresse IP du poste de départ Adresse de la page visitée - Création d'une BD à partir des différentes requêtes Les sites préférés d'un utilisateur L'utilisation des résultats proposés par Google - Une arme fatale car elle est infalsifiable - Exemples d'applications possibles : Estimation de la qualité d'un site Vérifier la qualité des résultats de Google Identifier les spammeurs

20 Vers une publicité intelligente
Google vous surveille (1 / 4) Vers une publicité intelligente - Création d'un portrait plus vrai que nature de l'utilisateur - Extension au géomarketing par l'intermédiaire de Google Earth - Buts recherchés : Vendre des liens publicitaires ciblés aux annonceurs Augmenter le taux de transformation Une justification pour la hausse des tarifs - Que dit la législation? Toute personne peut s'opposer à l'utilisation de ses données personnelles Exportation de données vers les Etats-Unis : le Safe Harbor

21 La guerre contre le spamdexing
TrustRank (1 / 5) La guerre contre le spamdexing - Marque déposé par Google en mars 2005 - Introduit une année plus tôt par un article publié à Standford - Principes : Sélectionner un échantillon de page Détection du spamdexing parmi l'échantillon (appel de l'Oracle) Propagation du principe bonne page / mauvaise page à travers le web

22 Vision du web TrustRank (2 / 5)
- le web est modélisé comme un graphe G = (V , E) - Chaque page possède des liens entrant et des liens sortants Pas de liens entrant = “page sans référence” Pas de liens sortant = “page ne référençant pas” Pas de liens = “page isolée”

23 Sélection de l'échantillon
TrustRank (3 / 5) Sélection de l'échantillon - Aléatoirement - PageRank inversé Sélectionner les pages ayant de nombreux liens sortants Optimiser le nombre de liens sortants par pages - PageRank élevé Sélectionner des pages de fort PageRank Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance

24 « Isolation approximative » des bonnes pages
TrustRank (4 / 5) Appel de l'Oracle - Séparation en deux sous-ensembles de l'échantillon : 1 pour les bonnes pages 0 pour les mauvaises pages 0,5 pour les pages n'appartenant pas à l'échantillon - C'est le principe de la confiance ignorante « Isolation approximative » des bonnes pages - Une bonne page pointe rarement vers une mauvaise - Attention la réciproque est fausse

25 Propagation de la confiance
TrustRank (5 / 5) Propagation de la confiance - Confiance à M étapes C'est un mélange de la confiance ignorante et de l'isolation approximative Exemple avec N = 3 : { 1, 3, 6 } Amortissement de la confiance Confiance fractionnée Confiance atténuée

26 Google s’est imposé comme une référence
Conclusion Google s’est imposé comme une référence Google instaure un modèle économique révolutionnaire Google a su utiliser au mieux le Data Mining La numérisation de la culture, le nouveau défi à relever Une logique professionnel ambitieuse : - Anticiper nos besoins pour mieux y répondre…


Télécharger ppt "Google - La recherche de données"

Présentations similaires


Annonces Google