Groupe de discussion - 15/12/ Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC
Groupe de discussion - 15/12/ Contexte de l’exposé Recherches appliquées menées au Cetic : –Technologies Open Source de crawl et d’indexation –Technologies Retroweb d’extraction Web (pages HTML) Exploration de diverses pistes de valorisation : –Outils de migration semi-automatique de sites Internet statiques –Outils personnalisés de veille –Moteurs de recherche « grand public » –Moteurs de recherche professionnels (Intranet, Extranet, thèmes) Les exposés découlent des travaux en matière de développement d’outils de recherche sur mesure.
Groupe de discussion - 15/12/ De quoi parle-t-on ? Sujet : moteurs de recherche Web Assemblages de plusieurs technologies : –Pour la collecte des données (crawler / spider / robot) –Pour l’indexation –Pour l’interrogation –Pour la présentation des résultats Source : LIFL
Groupe de discussion - 15/12/ Le marché de la recherche grand public… Acteurs internationaux –Google –Yahoo –MSN Acteurs régionaux –Ask Jeeves(en) –Seekport(eu) Acteurs locaux (fr-fr) –Voilà(lié à France Telecom) –Exalead(fonctions sémantiques) –Kartoo(cartographie des résultats) Constats : –La position de Google est très forte auprès du grand public... surtout francophone. –Des acteurs plus petits peuvent croître et prospérer, grâce à de nouveaux angles d’attaque (techniques et marketing) du marché.
Groupe de discussion - 15/12/ Et ses chiffres Part de marché - France –Google69,18% –Yahoo 7,05% –Voila 6,05% –Msn 5,93% Part de marché - Monde –Google44.8% –Yahoo!23.05% –MSN12.09% –AOL 6.1% –Ask Jeeves 6.1% Part des médias –Google 2,28 annonces par semaine –Yahoo! 0,96 annonces par semaine –MSN Search0,74 annonces par semaine –Exalead 0,07 annonces par semaine oActeur français : performant mais trop discret !
Groupe de discussion - 15/12/ Spécialisation des outils de recherche Shopping –Froogle(développé par Google) –Kelkoo(français, acheté par Yahoo!) –Gooster(indépendant, initié par Netbooster en France) Actualités –Google News(développé par Google) –Moreover (acheté par MSN) –Feedster(USA, indépendant, « univers » RSS) Livres –Google Book(développé par Google, ex-Google Print) –Amazon A9(antérieur à Google Print) –Quaero(réaction européenne à Google Print) Vidéo / audio –Google Vidéo(développé par Google) –Blinkx(indépendant, reconnaissance vocale) Constat : la compétition reste ouverte !
Groupe de discussion - 15/12/ Apports technologiques des outils spécialisés Intégration de multiples sources d'information (Web, XML, RSS, bases de données,...) –évolution des méta-moteurs Web –demande des entreprises, aussi => Prise en charge partielle par Retroweb Post-structuration de l'information Web crawlée –utilisé par les moteurs d’actualités, les comparateurs de prix,... => Pris en charge par Retroweb Extension à de nouveaux types de données (PDF, « Office », MP3, AVI, PDF,…) => Architecture de greffons (plug-ins)
Groupe de discussion - 15/12/ Forces et faiblesses de Google (1) Forces –Part de marché dans la recherche Web (visibilité) –Couverture médiatique importante, image de marque –Forte tradition d'innovation –Infrastructure matérielle (réactivité) Faiblesses –Fraîcheur et profondeur (dans certains domaines) –Manque d'intégration des projets –Peu d'innovation sur le moteur Web Exemples Google répond vite à de mauvaises questions (pas d’aide à la formulation de requêtes). Google ne catégorise pas les résultats (pas de distinction entre la voiture Jaguar, le Mac OS Jaguar, le Jaguar de Francis Weber, le félin Jaguar,…).
Groupe de discussion - 15/12/ Forces et faiblesses de Google (2) Faiblesses (suite) : –Limites du PageRank atteintes oProblèmes de spam (Google bombing, fermes à liens) –« miserable failure » donne « Biography of President George W. Bush » –Comment ? Coalitions de webmestres ! –Formes « douces » : échanges de liens massifs, fermes à liens,… oProblèmes liés aux blogs (par exemple) –Les moteurs de blogs sont optimisés pour le référencement et fortement interconnectés (bon pour le Pagerank). Conséquence La pertinence de Google n’apparaît plus comme une référence. oL’algorithme du Pagerank perd sa force en cas de maillage faible Conséquence L’algorithme perd de sa pertinence en entreprise. oPar extension : inadéquation hors de la structure Web classique –Problème pour les actualités, le shopping, etc –Solution proposée par Google : TrustRank
Groupe de discussion - 15/12/ Pourquoi cette domination ? Le moteur reste globalement rapide et pertinent (peu de raison de changer) La concurrence se démarque peu Sortie d’applications « tendances » (blogs, RSS, Ajax, etc) –Bon en terme d’image –Voir l’engouement populaire pour l’IPO de Google ! Lenteur des concurrents à attaquer sur le marché des liens contextuels –Position très forte de Google sur le marché de publicité en ligne Valorisation de la publicité contextuelle sur le moteur et sur un réseau étendu de sites affiliés –Très forte rentabilité, permettant le financement du marketing et de la recherche appliquée
Groupe de discussion - 15/12/ Exemple d’outsiders (1) Clusty –fonctionnement en métamoteur –catégorisation des résultats –Trafic : 3.807ème site mondial Exalead –requêtes sémantiques –catégorisation des résultats –Trafic : ème site mondial A9 / Amazon –personnalisation de l'interface + Ajax –recherches dans le contenu des livres –Trafic : 1.369ème site mondial Blinkx –indexation d'audio (dont podcasts) et de vidéo –reconnaissance de la parole –Trafic : ème site mondial
Groupe de discussion - 15/12/ Exemple d’outsiders (2) Ujiko –fonctionnement en métamoteur –interface riche en Flash –personnalisation –dimension ludique (niveaux) –Trafic : ème site mondial Technorati –recherche de blogs –« tracking » des messages –Trafic : 735ème site mondial Seekport –moteur de recherche européen –recherche thématique –Trafic : o67.874ème site mondial (.de) o ème site mondial (.co.uk) Constats : ces outsiders bénéficient souvent d’une popularité appréciable.
Groupe de discussion - 15/12/ Modèles d’affaires des moteurs de recherche Positionnement payant –Marginal Inclusion XML –Marginal Publicité contextuelle –Modalité : oCPClic oCPCall (=> VoIP) –Appliqué par Google, Yahoo!, MSN, Ask Jeeves,… Autres : –Commissions sur les ventes (produits) –Services en entreprise (Exalead, FAST, Antidot,…)
Groupe de discussion - 15/12/ Quelques perspectives (1) Web sémantique –Enjeux : ocomprendre ce que l'utilisateur cherche ocomprendre ce que contient l’information –Formes : oreformulation des requêtes ocrawlers « intelligents » ocatégorisation automatique Web 2.0 –Interactivité (Ajax) oExemples : –A9 (affichage dynamique d'informations sur chaque site de résultats) –Google Suggest (suggestion de requêtes en temps réel) oPar extension : interfaces riches (Kartoo et, surtout, Ujiko) –Coopération entre les utilisateurs oAjouter l'intelligence de l'humain à l'automatisme du moteur oExemple : –« folksonomies » –Communautés
Groupe de discussion - 15/12/ Quelques perspectives (2) Moteurs P2P –Exemple : JXTA Search (Sun) –Questions en suspens : oRéactivité ? oBonne solution pour du crawl multimédia (partage de bande passante et de puissance de calcul) ? Algorithmes Open Source –Idée : Algorithme de ranking intrinsèquement robuste –Problème : infrastructure –Exemple : Mozdex.com Personnalisation –Personnalisation de l’interface –Géolocalisation de l’internaute => contenu local mis en avant Divers : –Ouverture (API) –Ranking complexe : TrustRank, contextualisation,… –Intégration (avec poste de travail notamment) –Prise en charge de nouveaux types de documents
Groupe de discussion - 15/12/ La suite… Présentation des technologies développées et maîtrisées par le Cetic dans le domaine de l’extraction, de la structuration et de l’indexation de contenus Web Exemples de références et de prototypes La « surprise » du groupe de discussion : le moteur de recherche des contacts du Cetic
Groupe de discussion - 15/12/ Questions ?