Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC.

Slides:



Advertisements
Présentations similaires
Les outils marketing développés par Tendance Presquîle.
Advertisements

26 mai La Route des Territoires – Conlie – jeudi 26 mai 2011 Un programme de formations innovantes pour les professionnels du tourisme.
Le web 2.0 L'Internet deuxième génération ? Moussay Jérôme - Master 2LCE1/16.
TRANSACTIONS IMMOBILIERES PAR INTERNET Le modèle Américain Voyage détude CETELEM Immobilier San Francisco Septembre 2008 Présentation Alain Roure : Directeur.
Projet extranet My.Eolas
Référencement dun site Internet Les annuaires Les moteurs Positionnement.
Construire une communauté avec SharePoint Server 2007 Blogs, Wikis, et flux RSS.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser laccès aux ressources scientifiques en éducation » Outils de veille.
CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.
Réunion dinterlocuteurs documentation Mardi 31 janvier 2006 SDTICE - DUI Programme « Qualité, veille et diffusion » Jean-François PILLOU Chef de programme.
Médias classiques et Internet : Complémentarité ou substitution ? 1.
Mats Carduner Google Inc. Nov Les débuts à Stanford 1995 : Google, un projet de recherche de l'université de Stanford.
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
POUR LES ANIMATEURS EPN
Le référencement des sites internet par les principaux moteurs de recherche Adrien Rimélé Alice Laurent 25 septembre
Médiathèque de Sélestat - 5 mars 2005 Olivier Andrieu Les nouvelles voies de la recherche dinformation.
Musée national dart moderne George Pompidou Quelles nouvelles technologies internet à lhorizon ?
Groupe de travail Veille collective
Agence conseil en communication et création de sites Internet
Le Référencement en Savoie Historique
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
Dimension sociale Commerce Contenu Pouvoir et influence Technologie Partage du pouvoir Participation collective étendue Sites institutionnels.
Utilisation des médias sociaux pour la veille stratégique.
Lycée Louis Vincent Séance 1
Annuaires et moteurs de recherche d’information sur Internet
DEVELOPPEMENT DURABLE » « Penser global, agir local »
LE REFERENCEMENT NATUREL S.E.O. (Search Engine Optimisation)
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.
Assises du GDR- I3 Présentation du GRCE Groupe de Recherche en communication Ecrite.
LE LIVRE BLANC SUR UNE COMMUNICATION EUROPENNE Présentation par lAgence FSE Charleroi, le 1 er juin 2006.
Google, un moteur de recherche comme les autres ?
Le référencement en 2008 : Etat des lieux et perspectives Sébastien Billard -
Panorama des réseaux sociaux
Moteurs de recherche Modex Web Modex Web 441 professeur Go
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Nouveaux Composants pour Joomla Auteurs El Khalil El MOUNTASSIR Yassine BENCHEKROUN 08 Janvier 2008 I.U.P. G.M.I. d'Avignon Tuteur Michel BENOIT.
P. Giroux & D. Martel19 mars 2009 Stratégies 2.0 pour l'autoformation des enseignants Patrick Giroux - Professeur, UQAC David Martel - Étudiant, UQAC.
1 Référencement (phase 2) Rappel SEO (acquis) Analytics (suivi daudience) SEM (liens sponsorisés)
Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.
pierre.denes.free.fr blog CV
La veille numérique : un outil pour s'informer intelligemment &
Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.
Projet éditorial multimédia sur le web
Groupe de discussion CETIC - 15/12/ De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)
PLATEFORME ELECTRONIQUE DES ASSOCIATIONS PROFESSIONNELLE ET DES SPL [PROJET]
Donner du sens aujourd’hui pour agir sur le futur
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
l’Internet sur les Mobiles
Tirer le meilleur parti d’Office /10/ Vincent Bippus IT/OIS 07 octobre 2014.
Référencement naturel
Formation ADBS – septembre 2014 – 1 Approfondir son expertise en recherche d'information 3-4 & 5 septembre 2014.
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
WEBMARKETING « n.m. – Outils et techniques pour Réussir sur Internet » Votre correspondant :
Daniel Peraya Choï Jenni TECFA – Université de Genève.
AJAX.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Développement et design Web Awaves academy Stockholm 2006.
Karine Vallin - Dorian Baysset
Moteurs et métamoteurs de recherche
 Web 2 et Projet éditorial Janvier 2012– Eric Giraudin.
L’interlocuteur unique des TPE/PME
ICF – 10 MARS 2015 Utiliser Internet et les réseaux sociaux dans un cadre PROFESSIONNEL Internet et les réseaux sociaux - 10/03/ ICF 1 PRÉSENTATION.
PROGRAMMES DE FORMATION EN E-PUBLICITÉ Par Jean-Gérard ANFOSSI Agence de pub et de formation en e-publicité ALATERE WEB SAS.
COMMENT AUGMENTER SA VISIBILITÉ SUR INTERNET ?
Compete, qu’est ce que c’est ? Compete est une entreprise de Kantar Media. Elle aide les grandes marques du monde entier à améliorer leur marketing basé.
Webmarketing 13 octobre 2015.
PROGRAMMES DE FORMATION E-PUBLICITÉ Par Jean-Gérard ANFOSSI Agence de pub et de formation en e-publicité ALATERE WEB SAS
7 – La génération de trafic 1 Les opérations de génération de trafic désignent les actions marketing ayant pour but de générer du passage ou trafic dans.
Transcription de la présentation:

Groupe de discussion - 15/12/ Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/ Contexte de l’exposé Recherches appliquées menées au Cetic : –Technologies Open Source de crawl et d’indexation –Technologies Retroweb d’extraction Web (pages HTML) Exploration de diverses pistes de valorisation : –Outils de migration semi-automatique de sites Internet statiques –Outils personnalisés de veille –Moteurs de recherche « grand public » –Moteurs de recherche professionnels (Intranet, Extranet, thèmes) Les exposés découlent des travaux en matière de développement d’outils de recherche sur mesure.

Groupe de discussion - 15/12/ De quoi parle-t-on ? Sujet : moteurs de recherche Web Assemblages de plusieurs technologies : –Pour la collecte des données (crawler / spider / robot) –Pour l’indexation –Pour l’interrogation –Pour la présentation des résultats Source : LIFL

Groupe de discussion - 15/12/ Le marché de la recherche grand public… Acteurs internationaux –Google –Yahoo –MSN Acteurs régionaux –Ask Jeeves(en) –Seekport(eu) Acteurs locaux (fr-fr) –Voilà(lié à France Telecom) –Exalead(fonctions sémantiques) –Kartoo(cartographie des résultats) Constats : –La position de Google est très forte auprès du grand public... surtout francophone. –Des acteurs plus petits peuvent croître et prospérer, grâce à de nouveaux angles d’attaque (techniques et marketing) du marché.

Groupe de discussion - 15/12/ Et ses chiffres Part de marché - France –Google69,18% –Yahoo 7,05% –Voila 6,05% –Msn 5,93% Part de marché - Monde –Google44.8% –Yahoo!23.05% –MSN12.09% –AOL 6.1% –Ask Jeeves 6.1% Part des médias –Google 2,28 annonces par semaine –Yahoo! 0,96 annonces par semaine –MSN Search0,74 annonces par semaine –Exalead 0,07 annonces par semaine oActeur français : performant mais trop discret !

Groupe de discussion - 15/12/ Spécialisation des outils de recherche Shopping –Froogle(développé par Google) –Kelkoo(français, acheté par Yahoo!) –Gooster(indépendant, initié par Netbooster en France) Actualités –Google News(développé par Google) –Moreover (acheté par MSN) –Feedster(USA, indépendant, « univers » RSS) Livres –Google Book(développé par Google, ex-Google Print) –Amazon A9(antérieur à Google Print) –Quaero(réaction européenne à Google Print) Vidéo / audio –Google Vidéo(développé par Google) –Blinkx(indépendant, reconnaissance vocale) Constat : la compétition reste ouverte !

Groupe de discussion - 15/12/ Apports technologiques des outils spécialisés Intégration de multiples sources d'information (Web, XML, RSS, bases de données,...) –évolution des méta-moteurs Web –demande des entreprises, aussi => Prise en charge partielle par Retroweb Post-structuration de l'information Web crawlée –utilisé par les moteurs d’actualités, les comparateurs de prix,... => Pris en charge par Retroweb Extension à de nouveaux types de données (PDF, « Office », MP3, AVI, PDF,…) => Architecture de greffons (plug-ins)

Groupe de discussion - 15/12/ Forces et faiblesses de Google (1) Forces –Part de marché dans la recherche Web (visibilité) –Couverture médiatique importante, image de marque –Forte tradition d'innovation –Infrastructure matérielle (réactivité) Faiblesses –Fraîcheur et profondeur (dans certains domaines) –Manque d'intégration des projets –Peu d'innovation sur le moteur Web Exemples Google répond vite à de mauvaises questions (pas d’aide à la formulation de requêtes). Google ne catégorise pas les résultats (pas de distinction entre la voiture Jaguar, le Mac OS Jaguar, le Jaguar de Francis Weber, le félin Jaguar,…).

Groupe de discussion - 15/12/ Forces et faiblesses de Google (2) Faiblesses (suite) : –Limites du PageRank atteintes oProblèmes de spam (Google bombing, fermes à liens) –« miserable failure » donne « Biography of President George W. Bush » –Comment ? Coalitions de webmestres ! –Formes « douces » : échanges de liens massifs, fermes à liens,… oProblèmes liés aux blogs (par exemple) –Les moteurs de blogs sont optimisés pour le référencement et fortement interconnectés (bon pour le Pagerank). Conséquence La pertinence de Google n’apparaît plus comme une référence. oL’algorithme du Pagerank perd sa force en cas de maillage faible Conséquence L’algorithme perd de sa pertinence en entreprise. oPar extension : inadéquation hors de la structure Web classique –Problème pour les actualités, le shopping, etc –Solution proposée par Google : TrustRank

Groupe de discussion - 15/12/ Pourquoi cette domination ? Le moteur reste globalement rapide et pertinent (peu de raison de changer) La concurrence se démarque peu Sortie d’applications « tendances » (blogs, RSS, Ajax, etc) –Bon en terme d’image –Voir l’engouement populaire pour l’IPO de Google ! Lenteur des concurrents à attaquer sur le marché des liens contextuels –Position très forte de Google sur le marché de publicité en ligne Valorisation de la publicité contextuelle sur le moteur et sur un réseau étendu de sites affiliés –Très forte rentabilité, permettant le financement du marketing et de la recherche appliquée

Groupe de discussion - 15/12/ Exemple d’outsiders (1) Clusty –fonctionnement en métamoteur –catégorisation des résultats –Trafic : 3.807ème site mondial Exalead –requêtes sémantiques –catégorisation des résultats –Trafic : ème site mondial A9 / Amazon –personnalisation de l'interface + Ajax –recherches dans le contenu des livres –Trafic : 1.369ème site mondial Blinkx –indexation d'audio (dont podcasts) et de vidéo –reconnaissance de la parole –Trafic : ème site mondial

Groupe de discussion - 15/12/ Exemple d’outsiders (2) Ujiko –fonctionnement en métamoteur –interface riche en Flash –personnalisation –dimension ludique (niveaux) –Trafic : ème site mondial Technorati –recherche de blogs –« tracking » des messages –Trafic : 735ème site mondial Seekport –moteur de recherche européen –recherche thématique –Trafic : o67.874ème site mondial (.de) o ème site mondial (.co.uk) Constats : ces outsiders bénéficient souvent d’une popularité appréciable.

Groupe de discussion - 15/12/ Modèles d’affaires des moteurs de recherche Positionnement payant –Marginal Inclusion XML –Marginal Publicité contextuelle –Modalité : oCPClic oCPCall (=> VoIP) –Appliqué par Google, Yahoo!, MSN, Ask Jeeves,… Autres : –Commissions sur les ventes (produits) –Services en entreprise (Exalead, FAST, Antidot,…)

Groupe de discussion - 15/12/ Quelques perspectives (1) Web sémantique –Enjeux : ocomprendre ce que l'utilisateur cherche ocomprendre ce que contient l’information –Formes : oreformulation des requêtes ocrawlers « intelligents » ocatégorisation automatique Web 2.0 –Interactivité (Ajax) oExemples : –A9 (affichage dynamique d'informations sur chaque site de résultats) –Google Suggest (suggestion de requêtes en temps réel) oPar extension : interfaces riches (Kartoo et, surtout, Ujiko) –Coopération entre les utilisateurs oAjouter l'intelligence de l'humain à l'automatisme du moteur oExemple : –« folksonomies » –Communautés

Groupe de discussion - 15/12/ Quelques perspectives (2) Moteurs P2P –Exemple : JXTA Search (Sun) –Questions en suspens : oRéactivité ? oBonne solution pour du crawl multimédia (partage de bande passante et de puissance de calcul) ? Algorithmes Open Source –Idée : Algorithme de ranking intrinsèquement robuste –Problème : infrastructure –Exemple : Mozdex.com Personnalisation –Personnalisation de l’interface –Géolocalisation de l’internaute => contenu local mis en avant Divers : –Ouverture (API) –Ranking complexe : TrustRank, contextualisation,… –Intégration (avec poste de travail notamment) –Prise en charge de nouveaux types de documents

Groupe de discussion - 15/12/ La suite… Présentation des technologies développées et maîtrisées par le Cetic dans le domaine de l’extraction, de la structuration et de l’indexation de contenus Web Exemples de références et de prototypes La « surprise » du groupe de discussion : le moteur de recherche des contacts du Cetic

Groupe de discussion - 15/12/ Questions ?