Google - La recherche de données

Slides:



Advertisements
Présentations similaires
INTRODUCTION AU E-BUSINESS
Advertisements

Aperçu des architectures des systèmes d’information web
INTRODUCTION Grande quantité de données
Guide rapide pour le gestionnaire Etape
Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.
Analyse du système d’information
Mats Carduner Google Inc. Nov Les débuts à Stanford 1995 : Google, un projet de recherche de l'université de Stanford.
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Système de stockage réseaux NAS - SAN
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Procédure de commande des ressources
Le Téléphone Russe Le Téléphone Russe. Le Téléphone Russe Le Téléphone Russe.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Campagne de Communication
EVALUATION DU COUPLE PRODUIT/MARCHÉ.
Vue générale de Sharpdesk
Spécialiste de la localisation sur Google Maps Prévisions ,8 Milliards Smartphones 467 Millions de Tablettes 271 Millions de PC *
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Les instructions PHP pour l'accès à une base de données MySql
1. Société à but lucratif 2 Trois étapes Traiter beaucoup d informations Stoker beaucoup de pages web Fonctionnement dun moteur de recherche Google Explorer.
CAMPAGNE DE COMMUNICATION DE LA GOOGLE CAR
Les relations clients - serveurs
Présentation de NAVIGATEURS INTERNET
Développement d’un réseau social professionnel
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
1.Définition sémantique du thème 2.Lenvironnement Internet 3.Quest ce que Google? 4.Les 10 astuces dor pour optimiser une recherche sur Google 5.Linterêt.
Moteurs de recherche Modex Web Modex Web 441 professeur Go
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
27 Octobre 2004Exposé Google1 Google, Un moteur de recherche comme les autres ? 27 Octobre 2004 Google, Un moteur de recherche comme les autres.
1 Référencement (phase 2) Rappel SEO (acquis) Analytics (suivi daudience) SEM (liens sponsorisés)
La veille numérique : un outil pour s'informer intelligemment &
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Atelier technique SAS – 19 juin 2001
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Lyda tourisme Process en PHP. Objectif Il s’agit de construire un segment de process dans un système d’information touristique.
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
SOLUTION DE VIDEOSURVEILLANCE SUR IP
WEBMARKETING « n.m. – Outils et techniques pour Réussir sur Internet » Votre correspondant :
Agence fédérale pour la Sécurité de la Chaîne alimentaire Un nouveau site pour l’AFSCA ? CC du 28 mai 2008 Agence fédérale pour la Sécurité de la Chaîne.
INTERNET Un réseau informatique mondial : ce sont des millions d'ordinateurs en permanence allumés (reliés entre-eux par des lignes téléphoniques, fibres.
27/05/2008© 1 présente Les sites WEB Les premiers pas.
Développement d’application Web.  Internet  WWW  Client/Serveur  HTTP.
Site Web IUT 2 V3.0 Réunion WEB 24 mars 2005 Présentation du site Formations à la publication Les étapes suivantes Questions / remarques.
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Plan de la présentation
Combating Web Spam with TrustRank. OSINI Aurélien.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Moteurs et métamoteurs de recherche
V- Identification des ordinateurs sur le réseau
Service commun de documentation 1 Validation d’informations sur Internet Des outils pour vérifier la validité des informations.
INTRODUCTION. INTRODUCTION Adaptation du Marketing avec l’arrivée d’Internet qui touche tout le monde 2002 : Transaction du e-commerce en Europe de.
Le teen-marketing.
Présentation nouveau site marchand
Analyse automatique des sites Web Lionel LOUIS-ROSE Lamine NIANG Alexandre MAUGER Radouane MEDJDOUB.
Lellouche Aaron ITIC Paris
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
L’interlocuteur unique des TPE/PME
Historique L’évolution des architectures du début à nos jours.
Compete, qu’est ce que c’est ? Compete est une entreprise de Kantar Media. Elle aide les grandes marques du monde entier à améliorer leur marketing basé.
Page 1 Le nouvel outil d’écoute clients dédié aux professionnels de l’évènementiel E vent S at.
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Projet Consultant ORANGE
Progrès techniques et croissance économique : enseignez les enjeux des brevets et des marques.
9 – Les médias sociaux – Définition Ensemble des technologies mettant l’individu (ou une organisation : entreprise, marque, …) au cœur des interactions.
Violation de Gestion d’authentification et de Session
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

Google - La recherche de données 09 mars 2006 Sébastien Forner Sébastien Forner Sébastien Péron Sébastien Péron Ruben Zamblé-bi Ruben Zamblé-bi Master A.S.S

Présentation Générale Table des matières Présentation Générale Fonctionnement du moteur Google Structure déployée Services offerts Une approche de Datamining Trustrank Conclusion

Aboutissement d’un projet universitaire Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Sources: barometre.secrets2moteurs.com

Aboutissement d’un projet universitaire Présentation générale Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Géant de l’informatique - Buisness model innovant - Introduite en bourse en Mai 2004 Résultats (en M$) 2002 2003 2004 2005 chiffre d'affaires 440 1466 3189 6139 bénéfices 100 106 399 1465 Sources: wikipedia.org

Sobriété et valorisation des mots Fonctionnement du moteur Google (1 / 3) Sobriété et valorisation des mots - Page simpliste Accueil spécialement dédié à la recherche Service accessible en bas débit - Valorisation des mots Mise en place d’un système de vente d’espace publicitaire associé au mot recherché Profilage des utilisateurs déjà mis en évidence

Le système de classement « PageRank » Fonctionnement du moteur Google (2 / 3) Le système de classement « PageRank » - Principe de fonctionnement Critère d’évaluation de la qualité d’une page Échelle de notation variant de 0 à 10 - Dérive liée au PageRank Apparition du « bombardement Google » (Google Bombing) La « Google Dance » - Mise à jour du PageRank - Généralement 1 fois par mois

Le processus d’indexation Fonctionnement du moteur Google (3 / 3) Le processus d’indexation - Les « GoogleBot » FreshCrawler DeepCrawler - Les « GoogleBot MediaPartner » Gestion des liens publicitaires - Les « GoogleAdWords » - Les « GoogleAdSense »

Le Googleplex La Structure déployée (1 / 3) - Une boite à outils logiciels - Deux approches de sa structure

Le Googleplex La Structure déployée (1 / 3) - Technologies importantes a : Noyau linux b : Une architecture distribuée permettant la connexion rapide de sources variées c : une architecture technique identique à chaque niveau d : Le réseau Internet

Le Googleplex La Structure déployée (1 / 3) - Google se base sur la fusion de deux activités a : L’ingénierie logicielle b : L’ingénierie matérielle

Le Googleplex La Structure déployée (1 / 3) - Google se base sur la fusion de deux activités

Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - On distingue 6 principaux types de serveur « Google Web » serveurs « Data-Gathering » serveurs « Index » serveurs « Document » serveurs « Ad» serveurs « Spelling » serveurs

Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - Stockage des serveurs dans les « Data centers » Sources: www.webrankinfo.com

Les Serveurs et centres de données La Structure déployée (2 / 3) Les Serveurs et centres de données - Les serveurs et centres de données dans le Googleplex

Architecture d’indexation La Structure déployée (3 / 3) Architecture d’indexation - Description des principales étapes permettant l’indexation

Orientés indexation / référencement de données Les services offerts Orientés indexation / référencement de données Mis œuvre par le « Google Labs » - Google Web Accès principal au service de recherche - Google Desktop Search - Google Mini & Search Appliance - Google Images - Google Search Book - Google Video Store - Google Earth …….

Google et les entreprises Google vous surveille (1 / 4) Google et les entreprises - Google est synonyme de puissance - Une grande promesse : ne plus perdre de documents stratégiques - 2 outils : Google Mini et Appliance: À partir de 2995 euros Indexe jusqu'à 15 millions de documents Google Appliance peut accéder aux Bds et serveurs de fichiers Gère 150 requêtes à la minute

Google chez les particuliers Google vous surveille (1 / 4) Google chez les particuliers - La Google Toolbar au service de Google Desktop Correcteur d'orthographe Blocage des fenêtres indésirables Recherches améliorées avec suggestions en temps réel - L'espion qui m'aimait Que se passe t'il lors d'une navigation à travers le web?

Google vous surveille (1 / 4) - Indication du PageRank de la page visitée Adresse IP du poste de départ Adresse de la page visitée - Création d'une BD à partir des différentes requêtes Les sites préférés d'un utilisateur L'utilisation des résultats proposés par Google - Une arme fatale car elle est infalsifiable - Exemples d'applications possibles : Estimation de la qualité d'un site Vérifier la qualité des résultats de Google Identifier les spammeurs

Vers une publicité intelligente Google vous surveille (1 / 4) Vers une publicité intelligente - Création d'un portrait plus vrai que nature de l'utilisateur - Extension au géomarketing par l'intermédiaire de Google Earth - Buts recherchés : Vendre des liens publicitaires ciblés aux annonceurs Augmenter le taux de transformation Une justification pour la hausse des tarifs - Que dit la législation? Toute personne peut s'opposer à l'utilisation de ses données personnelles Exportation de données vers les Etats-Unis : le Safe Harbor

La guerre contre le spamdexing TrustRank (1 / 5) La guerre contre le spamdexing - Marque déposé par Google en mars 2005 - Introduit une année plus tôt par un article publié à Standford - Principes : Sélectionner un échantillon de page Détection du spamdexing parmi l'échantillon (appel de l'Oracle) Propagation du principe bonne page / mauvaise page à travers le web

Vision du web TrustRank (2 / 5) - le web est modélisé comme un graphe G = (V , E) - Chaque page possède des liens entrant et des liens sortants Pas de liens entrant = “page sans référence” Pas de liens sortant = “page ne référençant pas” Pas de liens = “page isolée”

Sélection de l'échantillon TrustRank (3 / 5) Sélection de l'échantillon - Aléatoirement - PageRank inversé Sélectionner les pages ayant de nombreux liens sortants Optimiser le nombre de liens sortants par pages - PageRank élevé Sélectionner des pages de fort PageRank Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance

« Isolation approximative » des bonnes pages TrustRank (4 / 5) Appel de l'Oracle - Séparation en deux sous-ensembles de l'échantillon : 1 pour les bonnes pages 0 pour les mauvaises pages 0,5 pour les pages n'appartenant pas à l'échantillon - C'est le principe de la confiance ignorante « Isolation approximative » des bonnes pages - Une bonne page pointe rarement vers une mauvaise - Attention la réciproque est fausse

Propagation de la confiance TrustRank (5 / 5) Propagation de la confiance - Confiance à M étapes C'est un mélange de la confiance ignorante et de l'isolation approximative Exemple avec N = 3 : { 1, 3, 6 } Amortissement de la confiance Confiance fractionnée Confiance atténuée

Google s’est imposé comme une référence Conclusion Google s’est imposé comme une référence Google instaure un modèle économique révolutionnaire Google a su utiliser au mieux le Data Mining La numérisation de la culture, le nouveau défi à relever Une logique professionnel ambitieuse : - Anticiper nos besoins pour mieux y répondre…