RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS

RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS
Stage URFIST de Rennes Janvier 2009 Marie-Laure Malingre, Alexandre Serres

Re-documentarisation ? Personnalisation ? Web sémantique ?
Folksonomie ? Données personnelles ? Ontologie ? Quelle formation à la recherche d'information ? Positionnement payant? Métadonnées ? Economie de l'attention ? Web 2.0 ? © URFIST de Rennes, 2009

PLAN DE STAGE 1/ Introduction : tendances et mutations
2/ La nouvelle économie de l’attention 3/ Vers l’indexation sémantique ? 4/ La personnalisation 5/ La géolocalisation 6/ Les interfaces visuelles 7/ Les données personnelles © URFIST de Rennes, 2009

Introduction : grandes tendances et mutations informationnelles
Le déluge informationnel Web 1, web 2, web 3… La re-documentarisation du monde La nouvelle économie de l’attention La confusion des pratiques informationnelles La serendipité La personnalisation La traçabilité généralisée © URFIST de Rennes, 2009

1 Introduction : repères historiques et chronologiques
Sur l’histoire du web : L’histoire et l’avenir du web, de Camille Roux. Sur l'histoire des moteurs : Histoire de la recherche d'information Moteurs de recherche Web : plus de 15 ans d'histoire Chronologie des outils de recherche sur Internet © URFIST de Rennes, 2009

1 Introduction : repères chronologiques
Grandes périodes : : émergence du web, création des premiers outils ; Archie, Wanderer, Yahoo… : essor des trois familles d’outils (moteurs, annuaires, métamoteurs) ; domination d’Alta Vista et Yahoo ; indexation morphologique, indice de pertinence ; grands annuaires généralistes (Open Directory) : explosion de la « bulle internet », montée en puissance de Google ; indice de popularité ; émergence du web 2.0 (blogs, Wikipedia), et du web sémantique : explosion du web social, hégémonie de Google, diversification, spécialisation des outils ; indexation sémantique, généralisation des métadonnées.. © URFIST de Rennes, 2009

1/ Introduction : tendances Le déluge informationnel
Réalité documentaire : 1996 : entre 100 et sites web 2006 : entre 80 et 100 millions de sites En 2008 : plus de 100 milliards de pages web Projections : Chiffre de 161 Exabits x 6 d’ici à 2010 = 72 fois distance terre-soleil En deux ans, plus de contenu créé que dans toute l’histoire de l’humanité 93 % de ce contenu = électronique 70% des données créées par des individus Sources : Livre blanc, Affordance, Vedocci… © URFIST de Rennes, 2009

1/ Introduction : tendances... Du web “1” au “web 2.0”

1/ Introduction : tendances... Du web “1.0” au “web 2.0”
Source : © URFIST de Rennes, 2009

1/ Introduction : du WWW au GGG
Evolution du World Wide Web vers un Giant Global Graph, selon Tim Berners-Lee Distinction de trois niveaux : Les infrastructures : le Net Relie les machines La plate-forme de contenus : le Web Relie les documents Le graphe social : social networking et web sémantique Relie les hommes et leurs ressources Articulation des dimensions sociales et sémantiques du web. Voir le billet de Francis Pisani © URFIST de Rennes, 2009

Net – Web - Graph Étage de dissémination
GRAPH = Relations sociales Étage de dissémination Seuil de rétroaction / perméabilité Étage de diffusion WEB = plateforme de contenus Le « NET » = réseau, le « WEB » = toile et le « GRAPH » sont trois instanciations d’une même réalité interconnectée, hyperreliée. Il y a 2 manières de voir les choses : En pyramide classique : le Net est l’infrastructure technologique « sur laquelle » se déploient les contenus de la toile, contenus à partir desquels se tissent de relations sociales de participation, de coopération … - En pyramide inversée : si l’on change notre angle de vue, si l’on considère que les tuyaux, l’infrastructure technologique est « invisible » et qu’elle n’interfère plus avec les usages c’est alors le relations sociales, le GRAPH qui permet de caractériser l’essence de l’internet actuel. Par vocation, comme tout média, Internet est là pour entretenir un rapport au réel, pour créer du lien, de la dépendance sociale. Dans cette optique, les contenus restent l’élément central et le Net n’est plus que le point de passage; le canal de diffusion. Dans l’un comme dans l’autre cas, chacune de ces trois entités indissociables (NET, WEB, GRAPH) peuvent être caractérisées par une propriété fondamentale :  Le NET est avant tout l’espace de stockage. Il est caractérisé par le franchissement toujours renouvelé d’un seuil, d’une barrière technologique (essentiellement aujourd’hui celle de la bande passante / VIDEO)  le WEB est l’étage de la diffusion. Il se caractériser par le seuil d’interaction et de co-production que ses contenus autorisent. Le Web 1.0 était à sens unique (producteur => consommateur), le web 2.0 est à double sens.  le GRAPH est l’étage de dissémination. Tels des insectes pollinisateurs, les internautes mais aussi leurs « agents », leurs « avatars » virtuels, leurs « agendas électroniques » vont donner une résonnance inédite aux contenus produits et diffusés. Il vont permettre de jouer sur la perméabilités des contenus, déplaçant par exemple vers la sphère publiques des contenus initialement produits ou diffusés « pour » et « dans » la sphère intime. C’est donc bien d’un écosystème que l’on parle quand on essaie d’approche la vraie nature de ces 3 notions. Un écosystème informationnel qui rend légitime et nécessaire la réflexion sur ce que Bateson appelait une écologie de l’esprit. ET LES MOTEURS DANS TOUT CA ??? Seuil d’interaction / de production Étage de stockage NET = infrastructure Seuil « technologique » © O. Ertzscheid, 2008 11 11

1/ Introduction : repères, tendances. : et demain
1/ Introduction : repères, tendances... : et demain ? Et 1… et 2… et 3… et 4. 0 ? Source : Livre Blanc Aproged) © URFIST de Rennes, 2009

1/ Introduction : tendances... La re-documentarisation
Définition : "Redocumentariser, c’est documentariser à nouveau un document ou une collection en permettant à un bénéficiaire de réarticuler les contenus sémiotiques selon son interprétation et ses usages à la fois selon la dimension interne (…) ou externe (…). Dans ce contexte, la numérisation offre des opportunités inédites pour la réappropriation des documents et des dossiers en vue de satisfaire les intérêts de nouveaux bénéficiaires.« . Manuel Zacklad & Travaux RTP-Doc: Aujourd’hui, toute trace, inscription, support, flux ou échange numérique… : devient ou « fait » document ; peut être « re-documenté », cad annoté, enrichi, modifié… © URFIST de Rennes, 2009 13

REDOCUMENTARISATION D’après Jean-Michel Salaün « Éclairages sur la redocumentarisation » : © URFIST de Rennes, 2009 14

1/ Introduction : tendances... La re-documentarisation généralisée
Des documents, des images Des lieux Des identités Du monde physique : Cf le projet Point&Find de Nokia, commenté sur InternetActu : « Où que vous soyez, si vous souhaitez une information sur un objet ou un lieu (une affiche, un livre, une statue, un restaurant…), il vous suffit de le prendre en photo et de l’envoyer sur les serveurs de cette application. Grâce à des algorithmes d’intelligence artificielle, au géopositionnement et à des logiciels d’analyse d’image, Point&Find est capable d’identifier l’objet que vous lui avez envoyé, de chercher de l’information sur celui-ci pour vous la renvoyer sur votre mobile. » Mutations profondes de la re-documentarisation : « L’homme est un document comme les autres » (O.Ertzscheid) Traçabilité généralisée Editorialisation des ressources © URFIST de Rennes, 2009

1/ Introduction : tendances... La nouvelle économie de l’attention
Enjeu majeur sur le web : comment capter et garder l’attention des usagers ? La variante internet du « temps de cerveau disponible » : « Les internautes vous paient avec le temps qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent » . David Eun, responsable des partenariats de contenus chez Google à New York (janv 08) © URFIST de Rennes, 2009

Confusion des pratiques informationnelles (d’après O. Ertzscheid)
chercher communiquer s’orienter organiser partager Tagger / indexer google talk earth print orkut API’s © URFIST de Rennes, 2009

1.Tendances… : la logique de serendipité
Notion de « serendipity » : art de trouver des informations pertinentes sans les chercher Sur le web, recherche = navigation au hasard, trouvailles par intuition Stratégie de certains outils de recherche : comment favoriser techniquement cette modalité intuitive de recherche ? Exemple de la catégorisation sur Exalead Stratégie de certaines entreprises de presse : cf le New York Times Permettre l’accès gratuit à l’intégralité du contenu sur Google © URFIST de Rennes, 2009

2. Economie de l’attention
Les enjeux économiques du web actuel Contexte Abondance de l’offre d’information, augmentation des flux d’information Accès à l’information de plus en plus large Explosion des nouveaux types d’information en ligne Evolution des usages Contraction de la durée d’usage des informations Excès de choix « Crise de l’attention » Loi énoncée par Herbert Simon : « L’abondance d’information engendre une pénurie d’attention et la nécessité d’allouer cette attention de manière efficiente parmi la surabondance d’informations qui peuvent la consommer » Les flux d'informations sont en constantes augmentations, ainsi que la quantité d'information et les moyens de retrouver cette l'information. Comment imaginez-vous l'avenir du marché de la recherche d'information ? Plutôt sous forme de rachats des petites sociétés par les gros ou de la prise de monopole par un gros acteur du type Microsoft, Oracle, Google ? Comment Exalead se positionne par rapport à ce futur ? C'est une question très intéressante et il n'est pas facile d'y répondre en quelques lignes. Je pense que les grand éditeur vont progressivement intégrer les moteurs de recherche dans leurs diverses offres. Il l'ont déjà plus ou moins fait. Ils vont peut-être racheter certains éditeurs qui leur apporte des fonctionnalités importantes, mais cela va sans doute rester limité. Les éditeurs doivent donc se préparer à vivre une vie indépendante en termes de profitabilité ou d'entrée en bourse éventuelle à terme, et donc se positionner sur le marché de manière agressive et originale, comme c'est le cas pour Exalead. Ceux dont la valeur crée pour le client final est trop faible vont très rapidement disparaître, et les autres vont grossir et devenir de belles sociétés, avec des métiers beaucoup plus précis qu'aujourd'hui, et moins axés moteur de recherche généraliste comme aujourd'hui. © URFIST de Rennes, 2009

2. Economie de l’attention : la longue traîne
2 types principaux d’analyse : La longue traîne (Long Tail, Anderson) Industrie des biens culturels « Les produits qui sont l’objet d’une faible demande, ou qui n’ont qu’un faible volume de vente, peuvent collectivement représenter une part de marché égale ou supérieure à celle des best-sellers, si les canaux de distribution peuvent proposer assez de choix. » (sur Wikipedia) © URFIST de Rennes, 2009

2. Economie de l’attention : la longue traîne
20% des produits représentent plus 80% du C.A. Amazon réalise plus de la moitié de son C.A. sur des produits qui sont au fond de son catalogue. Effets à court terme de la longue traîne : Augmentation de la diversité des produits et des ventes Baisse de la concentration des “produits stars” Mais effets à long terme à nuancer : Théorie contredite par les faits dans certains secteurs Problèmes de “l’économie de l’attention” : surcharge informationnelle >> renforcement de la concentration des ventes Rôle-clé de la méta-information pour guider les choix (personnalisée, collaborative dans le cadre de communautés en ligne) “Le futur du business, c’est de vendre moins de chaque produit, mais plus de produits diférents” : cette affirmation centrale de la théorie de la Longue traîne a décidément du mal à résister au test de la réalité. Sur certains marchés tels que celui de la musique en ligne, la théorie apparaît carrément fausse. Sur d’autres, par exemples celui de la vente en ligne de DVD, on constate un effet “longue traîne”, mais si faible qu’il ne peut entraîner aucune modification du fonctionnement du marché - sans parler d’un quelconque effet positif sur la diversité culturelle. Faut-il, alors, enterrer la Longue Traîne et son héraut Chris Anderson ? Ou bien considérer son message sous un autre angle : comme le signalement d’une possibilité, d’un espoir de faire évoluer certains marchés culturels dans un sens plus favorable à la diversité et à la création - à condition de le vouloir et de faire ce qu’il faut ? Le choc des chiffres Selon la théorie de la “Longue Traîne” proposée en 2004 par Chris Anderson, la numérisation et l’internet produiraient spontanément un déplacement de la demande défavorable aux hits et favorable aux titres jusqu’alors ignorés. Et à son tour, cette évolution de la demande induirait de nouveaux modèles d’affaires qui s’appuient sur la diversité, les communautés, l’effet de recommandation entre amateurs, etc. Beaucoup d’entreprises, grandes et petites, fondent leur modèle d’affaires sur cette théorie. Il y a en effet quelque chose de désespérant dans les industries culturelles : d’un côté, la production industrielle de hits et de best sellers, et de l’autre, une multiplication de titres dont la plupart ne se vendront jamais. La théorie de la longue traîne apporte donc de l’espoir : grâce à l’internet, beaucoup de titres vont ressortir des poubelles de l’histoire dans lesquelles ils ont pour la plupart été jetés à peine sortis. Cette théorie est séduisante. On a envie qu’elle soit vraie. Mais déjà, plusieurs observateurs, nous y compris, s’interrogeaient : l’est-elle donc, vraie ? Deux études récentes viennent, sinon la contredire, du moins en relativiser considérablement la validité, le pouvoir explicatif et les conséquences en termes de structure des marchés. La première émane de Will Page, “économiste en chef” de la MCPS-PRS Alliance, un organisme britannique de gestion des droits des musiciens. Analysant les ventes de musique en ligne, il constate que sur 13 millions de titres disponibles au téléchargement, 10 millions ne réalisent aucune vente. 40 titres représentent à eux seuls 8% des ventes, et 3% du total des titres vendus concentrent 80% du chiffre d’affaires. Bref, l’économie des “hits” n’aurait guère pâti de la numérisation et la traîne ne génère pas beaucoup plus de ventes qu’avant. En France, à la demande du ministère de la Culture et de la communication, les économistes Pierre-Jean Benghozi et Françoise Benhamou ont étudié les ventes en ligne de CD musicaux et de DVD. Leurs résultats (téléchargeables au format .pdf) font apparaître un certain effet “longue traîne”, mais si faible qu’il “semble peu à même de constituer la base d’un véritable marché”. S’agissant de la musique, “moins de 10% des produits représentent plus de 90% des ventes” ; les 10 titres les plus vendus ont même tendance à augmenter leur part dans les recettes totales. Certes, la “traîne” capture une part des ventes légèrement supérieure à ce que l’on constate dans la distribution physique, mais cette augmentation reste minime et elle se fait au détriment des ventes moyennes. L’effet “longue traîne” semble plus visible en ce qui concerne les DVD : le “top 10″ des titres ne produit que 68% des ventes en ligne, contre 90% des ventes hors ligne, tandis que les 50% de titres les moins vendus représentent 6,67% des ventes en ligne, contre 1,12% dans la distribution physique. Ce qui reste cependant très faible, trop faible, en particulier, pour rentabiliser la production de ces titres peu vendus. Une théorie pour agrégateurs ? Les deux études ne nient donc pas qu’il puisse y avoir un léger effet “longue traîne”, produit mécanique de l’augmentation des stocks proposés à la vente sur les “rayonnages” numériques. Mais elles démontrent deux choses. D’une part, la diversité des produits proposés ne se traduit pas nécessairement en termes de diversité consommée. En particulier, l’effet de recommandation sur lequel Anderson appuie ses analyses - chaque internaute recommandant ce qu’il aime aux autres - n’a pas pour conséquence automatique une diversification des choix. D’autre part, l’effet “longue traîne” ne profite guère aux artistes ou aux éditeurs : l’augmentation éventuelle des ventes ne couvre en général même pas leurs coûts de numérisation et de référencement sur les plates-formes en ligne. Les seuls qui paraissent en mesure d’en bénéficier sont les plates-formes de distribution numérique et les agrégateurs, qui proposeront par exemple en abonnement des catalogues mariant des hits sous exclusivité (pour attirer la demande) et une ample sélection de “petits titres” (pour faire valoir un effet volume et se différencier des offres concurrentes). Mais ces agrégateurs ne financent pas l’édition de nouveaux titres, ils se contentent d’en bénéficier. Auquel cas la “longue traîne” n’a aucune raison de profiter à la diversité culturelle, ni au dynamisme de la création. Pour Benghozi et Benhamou, “dans une situation qui se caractérise, sur internet, par une abondance inédite de l’offre, la démarche des industries culturelles relève plus de la manière de valoriser la distribution (information sur les contenus disponibles, référencement et éditorialisation) qu’au souci du maintien ou du développement de la diversité”. Bref, la “longue traîne” existe bien, mais pour l’instant, elle fait ce que font les traînes : elle reste à l’arrière et ramasse la poussière. Peut-on créer de la “bonne longue traîne” ? Le défaut de la thèse de Chris Anderson ne réside peut-être pas dans la perspective qu’elle propose, mais dans le fait de laisser croire que la numérisation et quelques dispositifs de recommandation produiront à eux tout seuls un marché différent, plus divers, plus innovant, plus vivant. Ceci, on le sait aujourd’hui, est faux. Chris Anderson a beau s’en défendre sur son blog, on le sent également embarrassé : “Ce n’est pas qu’une question d’argent. Je l’ai dit et redit, la plupart des bénéfices de la Traîne sont non-monétaires : plus d’audience pour les producteurs, plus de choix pour les consommateurs. Cela produit parfois des bénéfices économiques, parfois pas. Aujourd’hui, 10 ans après que le numérique ait rendu la variété des offres infinie, la Longue Traîne reste encore une force culturelle plutôt qu’une force économique.” En revanche, pourrait-on s’appuyer sur ces caractéristiques “physiques” des marchés numériques - des stocks illimités, des coûts marginaux très faibles, des produits “non rivaux” (que je peux consommer sans en priver autrui)… - pour faire advenir, d’une manière délibérée, des “longues traînes” aux effets vertueux ? C’est, en creux, la question que posent à la fois Page, Benghozi et Benhamou. La réponse, pour eux, réside “dans les nouvelles modalités de prescription des biens, dans l’identification des cheminements des “bruits” qui concourent au succès ou simplement au faire savoir ou au faire connaître. La longue traîne, pour passer du mythe rassurant (”tous les produits peuvent avoir leur chance”) à une réalité économique effective (via des mécanismes de sélection et d’information renouvelés), n’est pas seulement affaire de débats académiques ; elle est un enjeu de la construction de nouveaux modèles d’affaires pour les produits culturels, dans un univers où la migration vers le numérique se précise de jour en jour.” Autrement dit, saura-t-on vraiment, un jour, valoriser la diversité sur nos petits écrans, la porter à notre attention que tant d’autres messages sollicitent également ? Là résident désormais les raretés. Mais force est de constater - en tout cas sur les marchés culturels - qu’au jour d’aujourd’hui, ce sont encore les méthodes marketing les plus classiques qui parviennent le mieux à en tirer profit. Et que la plupart des acteurs du marché ne voit pas bien l’intérêt de changer cela. Pas tous, certes : Chris Anderson cite eMusic à sa rescousse (sans convaincre, car eMusic ne vend que des titres de la “longue traîne”), on pense également à des systèmes “collaboratifs” d’écoute et de découverte tels que Lastfm. Et là, il faut se rendre à une autre évidence : c’est que les amateurs de musique eux-mêmes sont plus nombreux sur iTunes, Virgin et autres Fnacmusic que sur ces sites-là, qui attirent ceux que leur curiosité aurait, en des temps prénumériques, conduits à pousser la porte des disquaires indépendants. Daniel Kaplan © URFIST de Rennes, 2009

2. Economie de l’attention : définition
L’économie de l’attention « L’expression “économie de l’attention” cherche à rendre compte du fonctionnement de marchés dans lesquels l’offre est abondante (et donc économiquement dévalorisée) et la ressource rare devient le temps et l’attention des consommateurs ». (Daniel Kaplan, Internet Actu avril 2007) Marché où les consommateurs acceptent de recevoir des services en échange de leur attention actualités personnalisées, recherche personnalisée, alertes, recommandations d’achat. Procédures de captation de l’attention, fondée sur la notion de contenu pertinent Système qui repose essentiellement sur la gratuité des services Abonnés, profils… © URFIST de Rennes, 2009

2. Economie de l’attention : enjeu
Un enjeu pour les nouveaux sites, les blogs, les moteurs de recherche … Retour à l’économie de l’accès Comment montrer le contenu pertinent et y faire accéder Connaissance … et traçabilité de l’usager : Histoire de sa navigation Ses goûts Ses réseaux … Selon 4 principes : Propriété, mobilité, économie, transparence Capture, stockage, enregistrement de l’attention © URFIST de Rennes, 2009

2. Economie de l’attention : fonctionnement
Cf. A. Iskold © URFIST de Rennes, 2009

2. Economie de l’attention
Le marché de la recommandation (source : O.Ertzscheid) Inscription dans les logiques de la Longue Traîne et de l’Economie de l’Attention Origines : dispositif des annuaires, système PageRank dans web 1.O ; recommandations sur Amazon Au cœur du web 2.0 Sites de vente Sites de partage Sites communautaires = Mode de propagation « viral » À la base : Crowdsourcing De la médiation par l’expertise à la médiation par l’usage et à la médiation par le nombre Problèmes: Expertise ? Effet saint-matthieu Diversité non visible © URFIST de Rennes, 2009

2. Economie de l’attention : marché publicitaire
L’économie de l’attention vit de la publicité Moteurs comme « marchés multi-faces » utilisateurs / éditeurs d’information sur le web (Xavier Wauthy) Gratuité et financement par la vente de l’accès à l’audience = annonceurs / publicité Modèles analogues pour les plateformes Web 2.0 Ciblage, profilage de l’usager par l’information que celui-ci donne gratuitement Modèle publicitaire fondé sur les bases utilisateurs © URFIST de Rennes, 2009

Deux grands modèles économiques du web : Publicité en ligne : Bannières, liens sponsorisés Valorisation de l’audience des sites, mise en visibilité des contenus, récolte de revenus publicitaires auprès des annonceurs Google, Yahoo, MSN, AOL 44,6 Mrds $ de dépenses publicitaires en 2008 Cybermarché : Commerce en ligne Domination d’Amazon et eBay 204 Mrds $ de CA en 2008 © URFIST de Rennes, 2009

Dominé par Google : entre 30 et 40 % des dépenses publicitaires en ligne Liens sponsorisés Yahoo, AOL et MSN : modèle des bannières publicitaires Yahoo : 14 % du marché Microsoft : 6 % Concurrence acharnée de Yahoo et Microsoft pour la conquête de ce marché publicitaire : Course à l’audience Nouveaux concurrents : Facebook, MySpace © URFIST de Rennes, 2009

2. Economie de l’attention : positionnement
Un phénomène majeur : Le positionnement publicitaire Vers un modèle économique basé sur une composante publicitaire et / ou promotionnelle Affichage de « Liens sponsorisés » Apparu en 2001 en France Au départ : achat de mots clés aux enchères sur les réseaux Overture, Espotting ou Adwords de Google avec paiement du trafic = nombre de clics générés Source de revenus primordiale pour les outils de recherche Promotion vitale pour nombre de sites © URFIST de Rennes, 2009

Définition du positionnement Position occupée par un site ou une page web dans la page de résultats d’un outil de recherche Positionnement naturel : lié au fonctionnement de l’outil de recherche Positionnement payant : Offre commerciale permettant de garantir la visibilité en tête des résultats de recherche = système du Search Engine Marketing © URFIST de Rennes, 2009

Le positionnement payant : fonctionnement, rappels La campagne promotionnelle Des “sites annonceurs” achètent, aux enchères, des requêtes / mots clés sur lesquels ils souhaitent être positionnés. Les liens sponsorisés (“Liens Search”) Le moteur affiche des liens publicitaires ou “liens sponsorisés” ou “promotionnels” vers les sites d’annonceurs. Où ? En haut de la liste de résultats / sur un des côtés (souvent à droite) / en bas de page des résultats (plus rare) Le classement Ils sont classés selon les enchères faites par les propriétaires du site sur le mot clé en question = montant initial + taux de clic Les liens commerciaux ont fleuri ces dernières années et sont présents sur tous les grands moteurs de recherche (Google, MSN, et Yahoo disposent de leur propre régie de liens commerciaux) sous une variété de noms : liens commerciaux, liens sponsorisés, ou encore liens promotionnels. L'intérêt principal des liens commerciaux est qu'ils garantissent une présence immédiate et optimale de votre site sur les moteurs de recherche… à condition que vous ayez un budget assez important à y consacrer. Principe et enjeux des liens commerciaux - Vous achetez, aux enchères, les requêtes / mots clefs sur lesquels vous souhaitez que votre site soit positionné. Le montant de votre enchère détermine le positionnement de votre annonce par rapport à celles de vos concurrents. - Votre campagne peut-être lancée et arrêtée à tout moment, et durer autant de temps que vous le souhaitez (idéalement, ne pas compter moins de 15 à 20 jours pour qu'une campagne de liens commerciaux commence à réellement porter ses fruits) - Vous maitrisez entièrement votre budget. - Vous suivez vos dépenses mais aussi les résultats de vos campagnes en temps réel. Le principe du paiement à la performance Ce type de campagne de positionnement payant est le plus couramment rencontré. L'annonceur paye selon l'efficacité de sa campagne, que ce soit en fonction du placement de son annonce ou selon le nombre de clic sur son site. Le paiement au clic est la forme la plus répandue. Le paiement au clic, comment ça marche? Les annonceurs achètent aux enchères le positionnement de leur site sur tel ou tel mot-clé . Ces enchères vont déterminer le coût du clic. Ainsi, si un annonceur souhaite que son site soit placé en premier lorsqu'un internaute tape "voiture", il doit proposer l'enchère la plus élevée sur ce mot-clé. Ce montant représente la valeur qu'un annonceur est prêt à payer pour qu'un internaute aille visiter son site. En effet, à chaque fois qu'un internaute clique sur le lien sponsorisé, l'annonceur se voit débiter le prix du clic déterminé préalablement. Il existe deux types de liens fonctionnant sur ce principe : - Les liens sponsorisés : ils apparaissent en tête des résultats des moteurs de recherche selon le mot-clé tapé par l'internaute et des enchères effectuées par l'annonceur sur ce mot. Par exemple, l'offre Precision Match d'Overture : les annonces sont placées en tête de la liste des résultats des moteurs de recherche du réseau Overture France. - Les liens contextuels : ils sont diffusés sur des sites partenaires du prestataire de positionnement payant. Les liens s'affichent en fonction du contenu éditorial du site et des catégories de celui ci. Par exemple, l'offre Content Match d'Overture : des liens ou vignettes sponsorisées sont affichés sur des sites de contenu tels que 01Net, boursier.com, guideduroutard.com... © URFIST de Rennes, 2009

Le système d’enchères par CPC (coût par clic) : paiement au clic, a remplacé le CPM (coût pour mille affichages) Pay per Lead (lancé par Accoona en juillet 2006) : paiement de l’annonceur sur la base d’une action de l’internaute (contacts commerciaux) et non plus sur la seule comptabilisation des clics Pay-Per-Action de Google Les “liens contextuels” Ce sont des liens publicitaires qui, diffusés sur des sites “affiliés”, partenaires du prestataire de positionnement payant, s’affichent en fonction du contenu éditorial du site et de ses catégories environ 30% des liens sponsorisés, mais pratique en hausse © URFIST de Rennes, 2009

Marché des liens sponsorisés : en plein essor = environ 50 % du marché publicitaire en ligne (Forrester Research) Europe : les liens sponsorisés génèreraient d’ici 2012 un chiffre d’affaires de 8 milliards d’euros, contre environ 4 milliards aujourd’hui. Croissance de + 80% prévue sur les 5 années à venir ! Diversification des techniques et dispositifs de positionnement payant Ex : Liens contextuels et flux RSS (google, splush) Intégration dans la recherche d’images Obama aurait investi 2,8 millions de dollars en liens sponsorisés Adwords ! Si le Search connaît un tel engouement dans le monde, c’est d’abord parce l’évolution des technologies a été fulgurante : en quelques années, le lien sponsorisé est devenu plus abordable et plus performant. Les interfaces se sont simplifiées, les options de ciblage se sont améliorées, les systèmes de géolocalisation ont permis au liens sponsorises de se démocratiser, etc… Les innovations se sont succéder et continue d’émerger (Technologie marque blanche, liens sur mobile, maps…) Mais c’est aussi parce que le comportement de l’internaute face au Search a évolué. Aujourd’hui, ce sont seulement 8 % des internautes qui dépassent la 2ème page de résultats sur un moteur de recherche ; d’où la nécessité pour un annonceur d’être visible dès les premiers résultats. Ensuite, près de 80 % des internautes découvrent un site via un moteur ou un élément de recherche sur un site éditeur. Etre présent sur les moteurs est donc devenu primordial. Enfin, 90% des recherches d’internautes en France sont faites sur les 8 moteurs principaux : Google, Yahoo, Msn, Wanadoo, AOL, Free, Altavista et Tiscali. Source : IAB Pricewaterhouse Coopers 60 % des internautes français connaissent la notion de liens sponsorisés Source: Forrester Research En souscrivant au Service, il vous sera fourni un compte accessible par l’intermédiaire de votre adresse électronique et d’un mot de passe (ci-après, « Compte Splush »). Le Service vous permet de placer des publicités sur des sites tiers au moyen de flux RSS (ci-après, « vos Flux sponsorisés ») diffusés par des widgets crées par Rezoactif (ci-après, « le Widget ») reproduit sur le site de l’éditeur tiers (ci-après, « l’Editeur »). Annonceur : personne, physique ou morale, au nom de laquelle la Publicité est faite. Campagne publicitaire : ensemble des Flux sponsorisés diffusés via le Service. Catégories : thèmes selon lesquels vous répertoriez vos Flux sponsorisés. Clic : action réalisée, sans fraude ni incitation, par un internaute afin d’être dirigé vers le contenu du Flux sponsorisés diffusés via un Widget. Charte Vie Privée : charte gouvernant le traitement de vos données personnelles. Elle fait partie intégrante des présentes CGV et est accessible ici. Compte Splush : votre espace personnel accessible sur le Site permettant la réservation et la diffusion de vos Flux sponsorisés et, le cas échéant, d’éditer un Widget intégrant du contenu sur votre site (se référer aux Conditions Générales d’Utilisation). Flux : flux au format RSS ou Atom intégrable dans le Widget. Flux sponsorisés : Flux d’un Annonceur diffusé dans un but de promotion au sein des Widgets. Publicité : insertion à caractère directement ou indirectement publicitaire (publicité commerciale, annonces classées, opérations spéciales de promotion …). Revenus : rémunérations que peut percevoir l’Editeur du site en contrepartie des Clics des internautes sur les Flux sponsorisés diffusés sur son site internet via le ou les Widgets. Widget : application informatique créée par Rezoactif pouvant intégrer du contenu. © URFIST de Rennes, 2009

3 Les acteurs de la recherche d’information sur le marché publicitaire
Grands acteurs en matière de positionnement payant Google Adwords / AdSense Yahoo! Search Marketing MSN (Microsoft AdCenter) Et aussi …. AOL, Mirago, Espotting / Miva, Deepindex, AD42, Comclick, ClickInText … Concurrence entre les outils : Coût de l’enchère minimale Classement des liens sponsorisés en fonction de leur enchère, mais aussi suivant “leur qualité” Contrôle du domaine publicitaire © URFIST de Rennes, 2009

Le cas de Google : AdWords / AdSense (99% du CA) : Adwords Emplacements publicitaires dans les pages de résultats de Google (à droite), avec des liens vers les sites annonceurs, en fonction des mots clés saisis par l’internaute et achetés par l’annonceur. Système d’enchères pour départager les annonceurs ayant acheté le même mot clé Propose un générateur de mots clés (cf. Aussi chez Miva et Yahoo) Adsense Liens publicitaires sur des sites affiliés à Google et choisis automatiquement en fonction du contenu et du contexte de la page Extensions récentes : Adsense for Feeds, Adsense for Games © URFIST de Rennes, 2009

Le problème de la fraude au clic : « les serial cliqueurs » (O. Andrieu / Abondance) / « Junk clic » Clics des affiliés sur leurs propres publicités Clics en masse sur les liens d’entreprises concurrentes, pour plomber leur budget promotionnel Coût de la fraude au clic : 800 millions de dollars en (Etude de la société Outsell, Inc.) Taux de 16,3% pour le premier trimestre 2008 (baisse par rapport à fin 2007) Les 3 grands moteurs allés à l’IAB (Interaction Advertising Bureau) pour lutter contre cette fraude (filtres) © URFIST de Rennes, 2009

Le poids du Spamdexing Liens sponsorisés en dur proposés par certaines régies à certains sites à fort volume : Ex : annuaires ne contenant que des liens sponsorisés dont le texte et les liens sont en dur, donc indexés par les moteurs = pur spam Netlinking : Social Media Optimization (SMO) contre spamdexing Utilisation de Adsense et référencement artificiel fausses pages et redirection liens massifs sur des commentaires de blogs ou de forums « En moyenne 11% des pages s'affichant dans les moteurs de recherches sont du spam. » netlinking : Lien textuel ciblé. Le netlinking consiste à créer sur des sites à fort trafic, avec une thématique compatible avec votre activité, un impact publicitaire en plaçant un lien texte décrivant votre activité ou votre slogan publicitaire vers votre site avec la possibilité d'insérer votre logo. Echange réciproque (partenariat) : si votre site le permet, nous négocions un échange "un pour un" entre votre site et le site cible choisi. Nous nous engageons auprès des deux parties à garantir la présence des liens réciproques pendant la durée du contrat. Si votre site ne peut pas se permettre de recevoir de la publicité contextuelle vers d'autres sites, nous nous chargeons alors de négocier au mieux une entente commerciale afin de vous apporter une bonne visibilité et accroître l'audience de votre site. Le linkbaiting consiste à créer sur son site un contenu d’une qualité assez élevée pour donner envie aux personnes le lisant de créer des liens spontanément vers celui-ci. Le concept est simple puisque les liens vont se créer automatiquement mais difficile à bien exploiter puisque non contrôlé. La technique de link ninja consiste à créer soi même des liens vers son site ou à négocier la mise en place de liens auprès de sites complémentaires. Il faudra repérer les sites potentiellement intéressants et voir avec eux pour qu’ils fassent un lien vers notre site. On pourra soit rémunérer le webmaster du site, soit lui proposer un échange de lien ou tout autre proposition pouvant le convaincre de faire un lien. L’avantage par rapport au linkbaiting est de plus facilement contrôler le texte des liens et leur emplacement sur le site partenaire. Avant de décider de mener une opération de Netlinking, votre site internet doit être "SEO complient" (adapté pour les moteurs de recherche). En moyenne 11% des pages s'affichant dans les moteurs de recherches sont du spam. Les extensions de domaine .info et .biz sont les plus parasitées. Intermédiaires peu scrupuleux et robots permettent ce phénomène. (22/03/2007) e mécanisme serait le suivant : un annonceur fait ainsi appel aux services d'un intermédiaire, un syndicator, Google AdSense par exemple. Ce dernier va ensuite acheter de l'espace sur des pages Web auprès d'un agrégateur, qui lui achète du trafic à des spammeurs. Ceux-ci, pour générer de la fréquentation et des revenus publicitaires, vont accroître leur référencement dans les moteurs de recherche via de fausses pages et faire de la redirection, ou en insérant en masse des Url sur des commentaires de blogs ou de forums. © URFIST de Rennes, 2009

Problèmes et enjeux / usagers De plus en plus d’usagers arrivent sur des sites via les liens sponsorisés De plus en plus d’entreprises investissent dans des campagnes de liens sponsorisés Question : savoir distinguer un lien sponsorisé d’un lien naturel Question par rapport à la recherche, l’accès à l’information, son usage Atteinte à la notion de pertinence Biais par rapport au déroulement normal d’une procédure de recherche d’information Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour l’internaute (étude McAfee Site Advisor, Mai 2006) Influence positionnement payant / positionnement naturel ? Cf. Google (voir Blog Abondance) D’après un rapport, 60 % des personnes ignorent l’existence des liens sponsorisés © URFIST de Rennes, 2009

2. Economie de l’attention : état des forces des moteurs de recherche : en France
(Xiti) © URFIST de Rennes, 2009

2. Economie de l’attention : état des forces des moteurs de recherche : dans le monde
Domination de Google en général, mais inégale : 63, 5 % aux USA en décembre 2008 mais nombreuses disparités selon les pays, d’autres moteurs émergent : En 2007 : Estonie : Neti : 56,8 % - Google : 41 % (mars 07) Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07) Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre 07) Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007) Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07) Voir Search Engine Feng Shui © URFIST de Rennes, 2009

2. Economie de l’attention : la « guerre des moteurs »
La rivalité Google-Yahoo : Cultures communes, mêmes origines, liens personnels, partenariat des débuts… Rivalité directe sur le marché publicitaire : principale origine des ressources des deux sociétés Google : 95 % Yahoo : 85 % Recul de Yahoo depuis plusieurs années : Bénéfice en baisse : -1,8 % entre 2006 et 2007 Baisse de l’audience, des parts de marché Mais nombreux atouts de Yahoo : Notoriété, popularité des services (messagerie), audience très forte Présence dans le web participatif : Flickr, Del.icio.us… © URFIST de Rennes, 2009

2. Economie de l’attention : la « guerre des moteurs »
La guerre Google/Microsoft : Cultures d’entreprise très différentes Créneaux différents : industrie du logiciel / recherche d’information Retard historique de Microsoft // Internet : ratrapage depuis 10 ans... Succès du navigateur Internet Explorer (contre Netscape) Succès de la messagerie instantanée MSN Echec du moteur de recherche Live Search : <10 % aux EU Stratégie de conquête du marché publicitaire Menace de Google sur Microsoft : édition de logiciels gratuits Tentative de rachat de Yahoo pour contrer Google Arrêt du programme de numérisation des livres de Microsoft © URFIST de Rennes, 2009

2. L’économie de l’attention : la « guerre des moteurs » et les règles de la concurrence
Importance du rôle de l’UE et de la Cour de Justice Européenne : Enjeu : question de la concurrence et des positions de monopole Cf exemple de condamnation de Microsoft Notion de « position dominante » sur un marché : > 50 % de parts de marché Recherche d’information considérée comme un marché pertinent, accessible sur tout le territoire de l’UE Google considéré comme en position dominante sur l’UE Loi européenne n’interdit pas la position dominante, mais « l’abus » de position dominante : Cas d’une fusion Google/Yahoo, mais non de fusion Microsoft/Yahoo © URFIST de Rennes, 2009

2. L’économie de l’attention : la « guerre des moteurs » : les alternatives à GYM
Positionnement spécifique d’Exalead dans le paysage des moteurs de recherche Un moteur innovant : Modules spécialisés Intégration des tags dans la recherche Recherche collaborative avec Baagz Indexation de la piste audio des journaux télévisés Interface pour mobiles … Participation à plusieurs projets européens Chorus, Quaero, Alis … Une nouvelle génération de moteurs de recherche multimédia (européens) Theseus, Pharos… © URFIST de Rennes, 2009

2. Economie de l’attention : quelles conséquences pour la formation des usagers ?
Une thématique à développer dans les formations : Dans les objectifs de la culture informationnelle : Priorité à la distance critique face au marketing ? Dans les contenus : Nombreux savoirs théoriques, notions, concepts, terminologie… de l’économie de l’information Positionnement payant, liens sponsorisés, profilage, longue traîne, données personnelles… Dans les compétences à développer : Savoir distinguer liens sponsorisés et liens naturels Comprendre le fonctionnement du positionnement payant Mieux contrôler l’utilisation de ses données personnelles ... © URFIST de Rennes, 2009

2. Economie de l’attention : quelles conséquences pour la formation des usagers ?
Développer la dimension économique dans la réflexion sur la culture informationnelle : Nécessité de toujours situer la culture informationnelle dans les nouveaux contextes socio-économiques de la recherche d’information Relier la culture informationnelle à la réflexion plus générale sur la crise de l’attention et ses effets : Voir travaux de B. Stiegler et Ars Industrialis sur ces questions © URFIST de Rennes, 2009

3/ Evolutions dans l’indexation
Rappel des finalités de l’indexation : Recherche de documents Accès au contenu des ressources Analyse, filtrage automatique, cartographie de l’information Aujourd’hui, nouvelle finalité de + en + importante : éditorialisation, « re-documentarisation » des contenus et des ressources Exemple des archives de l’INA, de la banque OuestImages © URFIST de Rennes, 2009

3/Evolutions dans l’indexation : retour sur la re-documentarisation
Quelles conséquences pour l’indexation ? De la recherche à la composition éditoriale (“éditorialisation”)‏ La principale motivation applicative de l’indexation est la recherche d’information: Trouver le document ou contenu qui exprime l’information recherchée. La principale motivation applicative des métadonnées est la sélection de ressources pour créer de nouvelles informations: Ce n’est pas la ressource en tant que telle qui aura une valeur, mais le contexte dans lequel elle sera intégrée (phénomène dit de redocumentarisation)‏ La documentation rendait compte de l’origine dans les termes de l’usage, elle tend désormais à reconfigurer l’origine pour l’usage (d’après M. Amar) © URFIST de Rennes, 2009

3/ Evolutions dans l’indexation
Imbrication des différentes modalités d’indexation sur le web : Indexation documentaire : thésaurus, description des ressources (annuaires) Indexation automatisée : le TAL (Traitement Automatique des Langues) Indexation sociale : tags du web 2.0, recommandations Indexation sémantique : les métadonnées et les ontologies © URFIST de Rennes, 2009

3/ Evolutions dans l’indexation : les 4 écoles d’indexation Web (source : Ertzscheid, Gallézot)
Standardisation Full-text => Balises Méta => Métadonnées Standardisation => Dublin Core => OAI-PMH Folksonomies : indexation sociale communautaire Linguistique de corpus ? Ontologies (Ingénierie des connaissances) Web Sémantique ? © URFIST de Rennes, 2009

3.1 Evolutions dans l’indexation : L’indexation automatisée « full-text »
Deux grandes méthodes d'analyse dans l'indexation automatisée : analyse statistique : fondée sur la fréquence des mots analyse linguistique : fondée sur la reconnaissance des mots 4 niveaux d'analyse du texte intégral : niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts Combinaison de ces différents niveaux d ’analyse © URFIST de Rennes, 2009

3.1 L’indexation automatisée : les moteurs de recherche sémantique
Emergence de nouvelles catégories de moteurs : Hakia : Lancé en 2006 moteur de requêtes en langage naturel mélange d'analyse sémantique, d'ontologie, de logique floue et d'intelligence artificielle Powerset : Mai 2008 ; racheté par Microsoft en juillet 08 Recherche sémantique sur Wikipedia Analyse des phrases contenant les mots d’une requête Propositions de nombreux mots-clés © URFIST de Rennes, 2009

3.2 Evolutions dans l’indexation : L’indexation sociale : tags et folksonomies
« Folksonomies désignent un processus de classification collaborative par des mots-clés librement choisis Ou le résultat de cette classification. » (Wikipédia) © URFIST de Rennes, 2009

Le principe de la folksonomie : Forme de « classification collaborative décentralisée spontanée », s’appuyant sur les termes choisis par les utilisateurs Objectif : faciliter l’indexation des contenus et la recherche d’information Tags peuvent s’appliquer à des signets web, à des photos, à des projets, des vidéos, ou encore des billets de blogs (nuages de tags) Constitution d’une communauté de « spécialistes » parmi les internautes © URFIST de Rennes, 2009

Exemples d’imbrication des indexations contrôlées (documentaires) et libres (sociales) : LibraryThing et WorldCat : complémentarité entre catalogue et tags University of Huddersfield Library : recherche par tags dans le catalogue © URFIST de Rennes, 2009

Intermède : quelle différence entre web 2.0 et web 3.0 ?
© URFIST de Rennes, 2009

3.3 Le web sémantique Constat des insuffisances du « web 1 » : absence de description et d’indexation des ressources hétérogénéité des formats… pas de structure explicite du web : pas d’exploitation de la signification des liens entre les documents Objectifs de nombreux travaux, depuis 10 ans : meilleure structuration du web, exploitation sémantique de la nature du web (« Semantic Web »)... Acteur principal : W3C Diversité des expressions : « web sémantique », « web 3.0 », « web intelligent »… Vision de T. Berners-Lee d’un « web des données » Voir traduction de l’article fondateur © URFIST de Rennes, 2009

3.3 Le web sémantique Le web de demain :
L'information et les services sur le Web sont aujourd'hui peu exploitables par des machines … Et de moins en moins exploitables sans l'aide des machines … Le web de demain : un vaste espace d'échanges de ressources entre machines permettant l'exploitation de grands volumes d'informations et de services variés, aidant les utilisateurs en les libérant d'une (bonne) partie de leur travail de recherche, et de combinaison de ces ressources © URFIST de Rennes, 2009

3.3 Le web sémantique : principes
« LE WEB SEMANTIQUE PERMETTRA AUX MACHINES DE COMPRENDRE LES DOCUMENTS ET LES DONNEES SEMANTIQUES , mais PAS la parole ET LES ECRITS HUMAINS. Le sens est donné par RDF, qui le code dans des ensembles de triples, chaque triple jouant le rôle du sujet, du verbe et de l'objet dans une phrase élémentaire. On peut écrire ces triples en utilisant les balises XML. » (T. Berners-Lee) Projet du web sémantique : « sémantiser » les ressources web, par un langage de balises sémantiques ; Contrairement aux balises HTML, qui ne contiennent aucune signification © URFIST de Rennes, 2009

Composante XML (Nathalie Aussennac-Gilles, Irit de Toulouse)‏
HTML: les balises servent uniquement à la mise en forme des données <H1>Knowledge Management</H1> <UL> <LI>Teacher: Rudi Studer <LI>Students: Master </UL> XML: les balises qualifient les données ; elles sont définies par les utilisateurs en fonction des domaines et des besoins <course> <title>Knowledge Management</title> <teacher>Rudi Studer</teacher> <students>Master</students> </course> cours n°1 © Muriel Amar, URFIST Paris 61

3.3 Le web sémantique : principes et outils
Au moins quatre directions de recherche, quatre premières couches : Identification des ressources numériques : les URI (Uniform Resource Identifier) Structuration des documents numériques : XML (eXtensible Markup Language) Description des ressources : les métadonnées, RDF (Resource Description Framework) Indexation des ressources : les ontologies Principe fondamental du web sémantique: séparation du contenu des documents de l’organisation de ce contenu © URFIST de Rennes, 2009

3.3 Les couches du « Semantic Cake »
© URFIST de Rennes, 2009

3.3 Le web sémantique : RDF (Resource Document Framework)
Langage de description des ressources, et cadre conceptuel pour les métadonnées 1ère version en 1999, finalisé en 2004 par le W3C RDF fondé sur notion de triplet : Une métadonnée = un couple : propriété + valeur Description d’une ressource = un triplet : ressource + propriété + valeur Sujet, prédicat, objet Sujet : ressource à décrire Prédicat : une propriété applicable à cette ressource Objet : valeur de cette propriété © URFIST de Rennes, 2009

3.3 Les métadonnées : les triplets RDF
Notion de triplet : Association d’une propriété à une ressource, ainsi que la valeur de cette propriété Exemple : Notre Dame de Paris est un roman dont l’auteur est Victor Hugo Deux éléments de description possibles : Notre Dame de Paris est un roman Notre Dame de Paris a pour auteur Victor Hugo Deux triplets : Notre Dame de Paris, type, roman Notre Dame de Paris, auteur, Victor Hugo © URFIST de Rennes, 2009

Comment faire comprendre aux machines la requête : quel est l’auteur du roman « Notre Dame de Paris » ? Eviter le bruit de l’analyse morphologique Etablir des règles comprises par le système d’information : Source : Interstice © URFIST de Rennes, 2009

Exemple de recherche sur Victor Hugo : Source : Interstice © URFIST de Rennes, 2009

3.3 Le web sémantique : les ontologies
Condition du web sémantique : des ressources décrites et indexées langages de description, thésaurus, classifications, ontologies… Enjeu : avoir des outils communs, normalisés, pour permettre une indexation automatisée et sémantique des ressources  Analogie avec les thésaurus © URFIST de Rennes, 2009

3.3 Le web sémantique : les ontologies
A l'origine, terme philosophique (science de l'être). En informatique : ontologie = une représentation des connaissances et la définition de catégories. Une ontologie structure les termes d'un domaine, en établissant des relations de proximité entre eux, du type "partie de". Une ontologie : une vue commune, partagée par une communauté, sur un domaine de connaissance Principes : Définition de concepts, de relations et des règles contraignant ces relations © URFIST de Rennes, 2009

3.3 Le web sémantique : quelle réalité ?
« Invisibilité » du web sémantique, mais explosion des triplets RDF : 10 Mrds de triplets en ligne ! (selon F. Gandon) Nombreux projets de recherche en cours Les solutions Mondeca Catalogue d’offres touristiques : Agrégation de sources diverses Utilisation de la géolocalisation Aspects sémantiques à partir de relations entre des classes d’objets Catalogue Cismef du CHU Rouen : Intégration de métadonnées Dublin Core Terminologie du Mesh Utilisation du langage de formalisation OWL Projet Scriptures, ENST Bretagne : Indexation sémantique des médias © URFIST de Rennes, 2009

3.4 Indexation : quelles conséquences pour la formation des usagers ?
Sensibiliser les étudiants à l’importance de l’indexation : Dans la recherche sur les moteurs Dans les plates-formes web 2.0 Montrer : l’ancienneté de l’indexation la diversité des modes d’indexation et d’accès aux contenus les enjeux pour la recherche d’information Expliquer les notions essentielles : indexation, classification, traitement linguistique,, métadonnée, indexation automatisée, full-text, indexation sociale, tag, folksonomie, ontologie… © URFIST de Rennes, 2009

4. La personnalisation de la recherche
Evolution des moteurs vers des services personnalisés pour fidéliser les internautes Une tendance lourde de la RI, va en s’amplifiant Remonte au moins à 2000 Innombrables aspects : De l’historique des recherches au moteur personnalisable Innovations permanentes Possibilité de personnalisation par : le moteur de recherche un Plug in, ex : SurfCanyon, plug in firefox et IE par l’internaute © URFIST de Rennes, 2009

9 Modèles de personnalisation par le moteur (Jeff Quipp) Personnalisation basée sur la localisation Sur l’interface Sur l’historique des requêtes Sur le mode entrée / sortie Sur le temps Sur le comportement individuel de l’utilisateur Sur le comportement de groupe Sur la recherche sociale / graphe social de l’utilisateur Personnages virtuels / sur les Assistants © URFIST de Rennes, 2009

Les différentes facettes de la personnalisation par l’internaute : Personnalisation des requêtes Personnalisation des résultats Personnalisation des interfaces Personnalisation des outils La création de communautés © URFIST de Rennes, 2009

4.1 La personnalisation de la requête
Les bases de la personnalisation de la requête : L’historique des requêtes La définition d’un profil et d’une alerte La géolocalisation Le choix des sources d’information © URFIST de Rennes, 2009

4.2 La personnalisation des résultats
Personnalisation des résultats de recherche : Possibilité laissée à l’internaute d’influer sur le classement des résultats de recherche © URFIST de Rennes, 2009

L’exemple du moteur communautaire Wikia Search créé en janvier 2008 par Jimmy Wales sur le modèle de Wikipédia selon 4 principes : Transparence Communauté Qualité Protection de la vie privée © URFIST de Rennes, 2009

Appel de Jimmy Wales (2006) « créer un nouveau type de moteur de recherche, qui s'appuie sur l'intelligence humaine pour faire ce que les algorithmes sont incapables de faire ». (voir : Contribution de l’internaute aux tâches de signalement et d’indexation propres au moteur © URFIST de Rennes, 2009

Personnalisation des résultats sur Wikia Search Juin 2008 : Tous les internautes peuvent mettre en valeur, commenter, promouvoir, modifier, supprimer ou ajouter (par un lien) un résultat. Retours d’usage Utilisation conséquente des procédures de personnalisation des résultats Peu d’utilisation des actions communautaires (annotations, commentaires) © URFIST de Rennes, 2009

L’exemple de Google SearchWiki Lancement le 20 novembre 2008 d’un système de personnalisation des résultats de requêtes Sur Google.com Nécessité d’avoir un compte Google Selon le blog de Google : « reclassement, suppression, ajout, commentaire des résultats » Source : Lettre Recherche et référencement (12/08) © URFIST de Rennes, 2009

La personnalisation des résultats sur SearchWiki permet de : Modifier l’ordre des résultats de recherche, promouvoir certains sites en haut de la page Ajouter un nouveau site aux résultats en proposant une URL Supprimer des résultats un site jugé non pertinent Ajouter des commentaires par la rédaction de notes liées à un résultat en particulier + Favoris : « Preferred sites » © URFIST de Rennes, 2009

Orientation de Google vers les communautés Partage des notes attachées à chaque résultat avec la communauté des utilisateurs du moteur Lien « See all notes for this SearchWiki » © URFIST de Rennes, 2009

Les questions posées par la personnalisation des résultats : Impact sur le référencement, sur le classement des résultats de recherche Variabilité de la liste de résultats selon les internautes Mort ou moindre importance du Ranking ? Impact sur le système des liens sponsorisés Nettoyage des pages de résultats et déclassement des sites par les internautes © URFIST de Rennes, 2009

Les questions posées par la personnalisation des résultats (suite) : Dérives et abus dans les pratiques des internautes Notes de certains résultats de recherche spammées Espace laissé aux groupes de pression / vote et classement des résultats de recherche © URFIST de Rennes, 2009

4.3 La personnalisation des interfaces
Notion « d’utilisabilité » des interfaces des moteurs de recherche Accessibilité des réponses En lien avec l’organisation visuelle de la page de résultats Interface comme « plan de travail » « Microsoft Surface », l’avenir ? Pour ceux qui ne connaissent pas Surface, il s'agit d'un ordinateur muni de Windows Vista installé dans une table où l'écran est projeté sur une vitre d'acrylique d'une trentaine de pouces. On peut interagir avec la table avec les doigts ou en y déposant des objets grâce à 5 caméras infrarouges dissimulées à l'intérieur de celle-ci. Pour le moment des Surface sont accessibles au public uniquement dans certains magasins AT&T de New York, Atlanta, San Antonio et San Francisco. Même si Microsoft prévoit plusieurs applications pour Surface (dans l'hôtellerie, l'éducation, le militaire, à la maison, etc...), le système informatique est donc pour le moment dédié à... présenter des téléphones cellulaires! On y dépose un téléphone, et les informations sur ce dernier apparaissent. Il est possible de bouger les «pages» de texte, de les agrandir avec deux doigts comme sur un iPhone, de glisser une couleur différente sur ceux-ci, etc... (source : © URFIST de Rennes, 2009

Interactivité et dynamisme Paramétrages classiques des moteurs (langue de l’interface, affichage des résultats) Zones mobiles sur la page Organisation personnalisée de la page : Ajax Widgets Pages personnelles Présentation visuelle : Possibilité de choisir le mode de visualisation des résultats (vignettes, raccourcis, captures d’écrans, cartes…) © URFIST de Rennes, 2009

Les « pages perso » : Fourniture gratuite de pages personnalisées pour la gestion et la recherche d’information Choix personnel des sources : sites web, blogs, fils RSS… Divers services : calendrier, agenda… Exemple de Netvibes (disponible actuellement en version anglaise et française) Portail personnalisé de Google : i-google © URFIST de Rennes, 2009

Constitution d’espaces de travail complets et intégrés Intégration recherche / navigation Page personnelle Sources d’information favorites Interface de recherche Informations diverses Plateformes de partage et échange de documents, de signets Outils / Hybridation Modules de recherche ; recherche universelle : Yahoo Glue, Google Universal Search Dispositifs de production d’information : blogs, wikis, Annotations / tags, recommandations, labellisation, concepts …: Webzzle Outils de visualisation et d’analyse des données Outils bureautiques… © URFIST de Rennes, 2009

4.4 La personnalisation des outils
Paramétrages des moteurs Construction de moteurs personnalisables : des moteurs “sur mesure” / recherche verticale Pour effectuer des recherches sur un ensemble donné de sites web ou sur une thématique précise Permet d’établir un système de veille par un compte gratuit Google Custom Search Engine ( Live Search macros ( Les Swickis d’Eurekster ( Rollyo ( ) © URFIST de Rennes, 2009

4.4 La personnalisation des outils
Les espaces personnels : l’exemple de Mon Web de Yahoo Le principe : Création d’un compte personnel sur Yahoo Sauvegarde d’une page web jugée pertinente Création d’un signet avec l’URL de la page et sauvegarde d’une copie de la page Possibilité de marquer les pages enregistrées avec des annotations (tags) pour les catégoriser Mutualisation de la recherche Partage des sites avec d’autres internautes Navigation parmi les pages annotées et partagées par les autres utilisateurs de Mon Web Possibilité de lancer des requêtes sur leur contenu © URFIST de Rennes, 2009

4.5 La création de communautés
Utilisation de la force du collectif, des communautés Développement de services à la fois : individuels : comptes personnels sur Yahoo (Mon Web, sauvegarde de signets…), sur Google, etc. collectifs : partage de signets, « vote » sur des sites, services questions-réponses… Les moteurs collaboratifs (Wikia Search, Yoople! ) L’accès aux documents partagés par la communauté des internautes sur les plateformes de partage Mutualisation des connaissances dans des wikis collaboratifs généralistes ou spécialisés Google propose une formule payante permettant de créer un moteur de recherche pour un site Web. Un service, ne nécessitant aucune installation, et qui en local s'appuie sur le propre moteur de recherche Web du groupe. Pour mettre en oeuvre ce service (baptisé Recherche personnalisée Google), l'éditeur américain a élaboré une interface de programmation (API) paramétrable par le biais d'un formulaire Web. Ainsi, il est possible de personnaliser l'apparence du moteur, en intégrant un logo par exemple et en modifiant les couleurs des pages de résultats. Pour aller plus loin, une API XML a été lancée par Google avec la dernière version de son service (disponible depuis début novembre 2008). Elle permet de fondre graphiquement le moteur dans le site. Les requêtes et résultats de recherche sont transmis sous forme de flux XML, intégrables ensuite à loisir dans une page Web existante. © URFIST de Rennes, 2009

4.6 La personnalisation de la recherche : conséquences pour la formation
Sensibiliser à la notion de pertinence dans le cadre d’une personnalisation de la recherche Montrer les enjeux liés : Pertinence des sources Veille facilitée Adéquation aux besoins Sensibiliser aux risques découlant notamment de la personnalisation des résultats : Biais dans les résultats,variabilité en fonction de la personnalisation Limitation et manque de visibilité Abus liés aux procédures de recommandation sur les sites affichés en résultats © URFIST de Rennes, 2009

5. La géolocalisation, les services de proximité
Géolocalisation, services de cartographie et recherche de proximité Une des formes et la base de la personnalisation (avec l’historique) Définition de la géolocalisation « identifier l’emplacement géographique de l’internaute, afin de lui fournir des informations locales le concernant spécifiquement » (NetSources) les moteurs proposent des résultats localisés se basant sur son adresse IP. La recherche de proximité sur les moteurs faire des recherches en incluant des informations locales pour une recherche : adresses, localisation sur une carte ou une vue satellite, itinéraire + lien vers les sites. © URFIST de Rennes, 2009

Développement sur les moteurs : Google, Yahoo, MSN, Ask, AOL, A9 … Interfaces Google Maps ( ) / Google Earth ( Yahoo! Maps ( ) Fonctionnement Termes de la requête Catégorie éventuellement Association avec une localité Visualisation des résultats sur une carte, une image satellite Liens sponsorisés selon les requêtes et l’origine géographique des internautes © URFIST de Rennes, 2009

Vers une croissance de ces usages ? Fort développement Engouement pour les applications cartographiques Développement des Mash up Enjeux pour les moteurs : Marché des petites entreprises / Annonceurs Marché de la publicité de proximité Favorise l’appropriation des web services Développement d’outils adaptés à l’internaute Concurrence Questions qui subsistent : diversité des catégories selon les outils fluctuations de ces catégories lacunes dans la corrélation entre certains termes et la catégorisation. © URFIST de Rennes, 2009

6. Présentations visuelles des moteurs
Multiplication des formes visuelles pour la présentation des résultats : Résultats sous forme de carte : Introduction déjà ancienne de présentation cartographique des résultats sur des moteurs ou métamoteurs, comme Kartoo extension à des outils récents comme Grokker Résultats sous forme de cluster : Concerne le traitement des résultats + leur présentation Ex : Clusty Nouvelles expérimentations sur la présentation des résultats et la manière d’y naviguer (moteurs « 3D ») : Feuilletage / défilement des pages par captures d’écran : SearchMe, Redzee, Tkaap-Galaxy, Spacetime (avec eBay et Google notamment) Affichage sous forme de cube aux facettes cliquables : Searchcube Moteur tripartite Tafiti (avec la technologie Silverlight de Microsoft) search-cube is a visual search engine that presents web search results in a unique, three-dimensional cube interface. It shows previews of up to ninety-six websites, videos and images. search-cube requires that you have Javascript enabled and Flash Player version 9 or higher installed for your web browser. Search results are returned using the Google AJAX Search API. Website previews are provided by thumbshots.org. search-cube is developed and maintained by Symmetri. © URFIST de Rennes, 2009

7.1 La protection des données personnelles : aspects techniques
Sur Google Un cookie contenant : Requêtes Date Résultats N° IP « Les informations personnelles peuvent également être utilisées à des fins d’audit, de recherches et d’analyse, afin d’assurer le bon fonctionnement et la qualité des technologies et des services Google. Nous sommes susceptibles de partager des informations non personnelles sous forme collective avec des tiers. » ml Quatre types de données conservées par les moteurs de recherche : Fichiers “log” : logs de requêtes (date, heure, mots-clés), clics, toutes les traces de l’utilisateur Adresse IP Cookies Eventuellement comptes utilisateurs Voir SeekPort : lp/privacy.html - SeekPort : « Lors de vos connexions sur le site de Seekport, certaines informations non nominatives sont automatiquement collectées et conservées : Le User Agent (le nom de votre navigateur), Votre adresse IP, La date et l'heure d'accès à notre site, Le http code (l'état de connexion à notre serveur), Le cas échéant, le site web par lequel vous êtes arrivé sur Seekport. En aucun cas nous ne collectons de données nominatives vous concernant. Nous n'enregistrons que des informations anonymes, dans le but d'établir des statistiques. La seule exception concerne l'organisation de jeux concours où vous pouvez être amené à saisir des informations personnelles. Toutefois ces informations ne sont pas conservées une fois l'évènement terminé. « © URFIST de Rennes, 2009

7.1 La protection des données personnelles
Problème sur Google : Regroupements de données des différents services : Recherche, messagerie, blogs… Disque dur personnel hébergé Mais Yahoo et MSN collectent plus de données personnelles : Comptes utilisateurs Nom, sexe, date de naissance, poste occupé, code postal, Les trois portails : Adresses , messages, contacts de messagerie © URFIST de Rennes, 2009

7.1 La protection des données personnelles : les enjeux
Types de données détenues par les grands portails : Les requêtes sur les moteurs : Ce qui m’intéresse Les blogs : Mes opinions Les réseaux sociaux : Mes réseaux La messagerie, les forums, le « chat » : Avec qui je communique et sur quoi Possibilité de créer de gigantesques base de données sur les goûts et habitudes des internautes Même si actuellement, données relativement protégées, problème de l’avenir : Pouvoir considérable accordé aux outils Risques d’intrusion de pouvoirs totalitaires (cf Chine) - SeekPort : « Lors de vos connexions sur le site de Seekport, certaines informations non nominatives sont automatiquement collectées et conservées : Le User Agent (le nom de votre navigateur), Votre adresse IP, La date et l'heure d'accès à notre site, Le http code (l'état de connexion à notre serveur), Le cas échéant, le site web par lequel vous êtes arrivé sur Seekport. En aucun cas nous ne collectons de données nominatives vous concernant. Nous n'enregistrons que des informations anonymes, dans le but d'établir des statistiques. La seule exception concerne l'organisation de jeux concours où vous pouvez être amené à saisir des informations personnelles. Toutefois ces informations ne sont pas conservées une fois l'évènement terminé. « © URFIST de Rennes, 2009

7.1 La protection des données personnelles : aspects juridiques
Notion de « donnée à caractère personnel » : Définition très large de réglementation française et européenne « Toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne. » Tout élément d’identification directe ou indirecte = donnée à caractère personnel : N° INSEE, adresse , identifiant quelconque… © URFIST de Rennes, 2009

Obligations des responsables du traitement des données de respecter les droits des individus sur leurs données personnelles : Consentement : autorisation préalable ou consentement tacite Droit d’opposition : possibilité de refuser de figurer dans un fichier Droit d’accès Droit de rectification © URFIST de Rennes, 2009

Problème juridique : l’adresse IP est-elle une « donnée à caractère personnel » ? Non, pour la Cour d’appel de Paris, avril 2007 Oui, pour la CNIL et le « Groupe de l’Article 29 » : Comité consultatif indépendant (dont CNIL), relevant de la Commission Européenne G29 : en référence à l’article 29 de directive européenne du 24 octobre 1995 sur la protection des données Avis très important, rendu en avril 2008 © URFIST de Rennes, 2009

7.2 La protection des données personnelles : controverse Google / Union Européenne
Hiver 2007 : pression de l’UE sur Google Mars 2007 : Google accepte de ne conserver les données issues des logs de requête que pendant 18 / 24 mois Mai 2007 : réaction négative de l’Union Européenne Durée de 24 mois « ne semble pas respecter les exigences » de la législation européenne Juin 2007 : Adresse IP considérée par l’UE comme une donnée personnelle Eté 2007-Février 2008 : travaux du « G29 » © URFIST de Rennes, 2009

Principales dispositions de l’avis du « G29 » du 4 avril 2008 : Législation européenne sur les données personnelles applicable à tous les moteurs de recherche opérant en Europe Toutes les données collectées par les moteurs de recherche : données personnelles, y compris l’adresse IP Possibilité d’exploiter ces données « pour une finalité légitime et non excessive » Obligation d’effacer ces données au bout de 6 mois maximum © URFIST de Rennes, 2009

Conséquences pour les moteurs de recherche de l’avis du G29 : Autorisation préalable des internautes pour le « profiling » : Profiling : exploitation de plusieurs données sur un utilisateur pour proposer ou optimiser des services Concrètement, pour l’envoi de liens sponsorisés à un utilisateur, obligation de mise en place d’un formulaire d’autorisation préalable Effacement des données au bout de 6 mois Modification des Conditions Générales : Explicitation des finalités, etc. © URFIST de Rennes, 2009

1ers succès de l’UE : réponses positives grands moteurs : Google réduit à 9 mois la durée de conservation (sept. 08) Microsoft : 6 mois (déc. 08) Yahoo : 3 mois Mais persistance des désaccords entre le G29 et les moteurs, notamment Google. Audition prochaine (février 09) des acteurs par le G29 © URFIST de Rennes, 2009

7.3 La protection des données personnelles : les réseaux sociaux
Problématique différente sur les réseaux : affichage volontaire des profils personnels par les internautes Nombreux problèmes : Disparition de la frontière public/privé : Vers un voyeurisme/exhibitionnisme de masse Traçabilité généralisée : Cf exemple récent de la vie d’un internaute reconstituée sur Le Tigre Utilisation des profils par les réseaux sociaux : Voir vente des profils sur Facebook en nov. 07 © URFIST de Rennes, 2009

En conclusion : rappel de quelques questions vives de la RI
Nouveaux risques : Traçabilité et protection des données personnelles Réseaux sociaux et transparence généralisée Nouvelles valeurs : Idéologie dominante de la « popularité » sur le web 2.0 Nouveaux usages : Risques « d’autarcie informationnelle », d’enfermement communautaire Nouveaux enjeux : Economie de l’attention et emprise du marketing Economie de la recommandation et problème de la modélisation des comportements  En conclusion, former, se former, nous former… © URFIST de Rennes, 2009

RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS

Présentations similaires

Présentation au sujet: "RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS

Présentations similaires

Présentation au sujet: "RECHERCHE D’INFORMATION SUR INTERNET : RECENTES EVOLUTIONS"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back