La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009 Marie-Laure Malingre, Alexandre Serres.

Présentations similaires


Présentation au sujet: "RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009 Marie-Laure Malingre, Alexandre Serres."— Transcription de la présentation:

1 RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009 Marie-Laure Malingre, Alexandre Serres

2 © URFIST de Rennes,

3 3 PLAN DE STAGE 1/ Introduction : tendances et mutations 2/ La nouvelle économie de lattention 3/ Vers lindexation sémantique ? 4/ La personnalisation 5/ La géolocalisation 6/ Les interfaces visuelles 7/ Les données personnelles

4 © URFIST de Rennes, Introduction : grandes tendances et mutations informationnelles Le déluge informationnel Web 1, web 2, web 3… La re-documentarisation du monde La nouvelle économie de lattention La confusion des pratiques informationnelles La serendipité La personnalisation La traçabilité généralisée

5 © URFIST de Rennes, Introduction : repères historiques et chronologiques Sur lhistoire du web : Lhistoire et lavenir du web, de Camille Roux. Lhistoire et lavenir du web Sur l'histoire des moteurs : Histoire de la recherche d'information Moteurs de recherche Web : plus de 15 ans d'histoire Chronologie des outils de recherche sur Internet

6 © URFIST de Rennes, Introduction : repères chronologiques Grandes périodes : : émergence du web, création des premiers outils ; Archie, Wanderer, Yahoo… : essor des trois familles doutils (moteurs, annuaires, métamoteurs) ; domination dAlta Vista et Yahoo ; indexation morphologique, indice de pertinence ; grands annuaires généralistes (Open Directory) : explosion de la « bulle internet », montée en puissance de Google ; indice de popularité ; émergence du web 2.0 (blogs, Wikipedia), et du web sémantique : explosion du web social, hégémonie de Google, diversification, spécialisation des outils ; indexation sémantique, généralisation des métadonnées..

7 © URFIST de Rennes, Réalité documentaire : 1996 : entre 100 et sites web 2006 : entre 80 et 100 millions de sites En 2008 : plus de 100 milliards de pages web Projections : Chiffre de 161 Exabits x 6 dici à 2010 = 72 fois distance terre-soleil En deux ans, plus de contenu créé que dans toute lhistoire de lhumanité 93 % de ce contenu = électronique 70% des données créées par des individus Sources : Livre blanc, Affordance, Vedocci… 1/ Introduction : tendances Le déluge informationnel

8 1/ Introduction : tendances... Du web 1 au web 2.0

9 © URFIST de Rennes, / Introduction : tendances... Du web 1.0 au web 2.0 Source :

10 © URFIST de Rennes, / Introduction : du WWW au GGG Evolution du World Wide Web vers un Giant Global Graph, selon Tim Berners-LeeTim Berners-Lee Distinction de trois niveaux : Les infrastructures : le Net Relie les machines La plate-forme de contenus : le Web Relie les documents Le graphe social : social networking et web sémantique Relie les hommes et leurs ressources Articulation des dimensions sociales et sémantiques du web. Voir le billet de Francis PisaniFrancis Pisani

11 © O. Ertzscheid, Net – Web - Graph GRAPH = Relations sociales WEB = plateforme de contenus NET = infrastructure Seuil « technologique » Seuil dinteraction / de production Seuil de rétroaction / perméabilité 11

12 © URFIST de Rennes, / Introduction : repères, tendances... : et demain ? Et 1… et 2… et 3… et 4. 0 ? Source : Livre Blanc Aproged)

13 © URFIST de Rennes, / Introduction : tendances... La re-documentarisation Définition : "Redocumentariser, cest documentariser à nouveau un document ou une collection en permettant à un bénéficiaire de réarticuler les contenus sémiotiques selon son interprétation et ses usages à la fois selon la dimension interne (…) ou externe (…). Dans ce contexte, la numérisation offre des opportunités inédites pour la réappropriation des documents et des dossiers en vue de satisfaire les intérêts de nouveaux bénéficiaires.«. Manuel Zacklad & Travaux RTP-Doc: Aujourdhui, toute trace, inscription, support, flux ou échange numérique… : devient ou « fait » document ; peut être « re-documenté », cad annoté, enrichi, modifié…

14 © URFIST de Rennes, Daprès Jean-Michel Salaün « Éclairages sur la redocumentarisation » : la-redocumentarisation la-redocumentarisation REDOCUMENTARISATION

15 © URFIST de Rennes, / Introduction : tendances... La re-documentarisation généralisée Re-documentarisation : Des documents, des images Des lieux Des identités Du monde physique : Cf le projet Point&Find de Nokia, commenté sur InternetActu :Point&FindInternetActu « Où que vous soyez, si vous souhaitez une information sur un objet ou un lieu (une affiche, un livre, une statue, un restaurant…), il vous suffit de le prendre en photo et de lenvoyer sur les serveurs de cette application. Grâce à des algorithmes dintelligence artificielle, au géopositionnement et à des logiciels danalyse dimage, Point&Find est capable didentifier lobjet que vous lui avez envoyé, de chercher de linformation sur celui-ci pour vous la renvoyer sur votre mobile. » Mutations profondes de la re-documentarisation : « Lhomme est un document comme les autres » (O.Ertzscheid) Traçabilité généralisée Editorialisation des ressources

16 © URFIST de Rennes, / Introduction : tendances... La nouvelle économie de lattention Enjeu majeur sur le web : comment capter et garder lattention des usagers ? La variante internet du « temps de cerveau disponible » : « Les internautes vous paient avec le temps qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent ». David Eun, responsable des partenariats de contenus chez Google à New York (janv 08)

17 © URFIST de Rennes, Confusion des pratiques informationnelles (daprès O. Ertzscheid) chercher communiquer Tagger / indexer organiser sorienterpartager google talk earth print orkut APIs

18 © URFIST de Rennes, Tendances… : la logique de serendipité Notion de « serendipity » : art de trouver des informations pertinentes sans les chercher Sur le web, recherche = navigation au hasard, trouvailles par intuition Stratégie de certains outils de recherche : comment favoriser techniquement cette modalité intuitive de recherche ? Exemple de la catégorisation sur Exalead Stratégie de certaines entreprises de presse : cf le New York Times Permettre laccès gratuit à lintégralité du contenu sur Googlelaccès gratuit à lintégralité du contenu

19 © URFIST de Rennes, Economie de lattention Les enjeux économiques du web actuel Contexte Abondance de loffre dinformation, augmentation des flux dinformation Accès à linformation de plus en plus large Explosion des nouveaux types dinformation en ligne Evolution des usages Contraction de la durée dusage des informations Excès de choix « Crise de lattention » Loi énoncée par Herbert Simon : « Labondance dinformation engendre une pénurie dattention et la nécessité dallouer cette attention de manière efficiente parmi la surabondance dinformations qui peuvent la consommer »

20 © URFIST de Rennes, Economie de lattention : la longue traîne 2 types principaux danalyse : La longue traîne (Long Tail, Anderson) Industrie des biens culturels « Les produits qui sont lobjet dune faible demande, ou qui nont quun faible volume de vente, peuvent collectivement représenter une part de marché égale ou supérieure à celle des best-sellers, si les canaux de distribution peuvent proposer assez de choix. » (sur Wikipedia)

21 © URFIST de Rennes, Economie de lattention : la longue traîne 20% des produits représentent plus 80% du C.A. Amazon réalise plus de la moitié de son C.A. sur des produits qui sont au fond de son catalogue. –Effets à court terme de la longue traîne : –Augmentation de la diversité des produits et des ventes –Baisse de la concentration des produits stars –Mais effets à long terme à nuancer : –Théorie contredite par les faits dans certains secteurs –Problèmes de léconomie de lattention : surcharge informationnelle >> renforcement de la concentration des ventes –Rôle-clé de la méta-information pour guider les choix (personnalisée, collaborative dans le cadre de communautés en ligne)

22 © URFIST de Rennes, Economie de lattention : définition Léconomie de lattention « Lexpression économie de lattention cherche à rendre compte du fonctionnement de marchés dans lesquels loffre est abondante (et donc économiquement dévalorisée) et la ressource rare devient le temps et lattention des consommateurs ». (Daniel Kaplan, Internet Actu avril 2007) Marché où les consommateurs acceptent de recevoir des services en échange de leur attention actualités personnalisées, recherche personnalisée, alertes, recommandations dachat. Procédures de captation de lattention, fondée sur la notion de contenu pertinent Système qui repose essentiellement sur la gratuité des services Abonnés, profils…

23 © URFIST de Rennes, Economie de lattention : enjeu Un enjeu pour les nouveaux sites, les blogs, les moteurs de recherche … Retour à léconomie de laccès Comment montrer le contenu pertinent et y faire accéder Connaissance … et traçabilité de lusager : Histoire de sa navigation Ses goûts Ses réseaux … Selon 4 principes : Propriété, mobilité, économie, transparence Capture, stockage, enregistrement de lattention

24 © URFIST de Rennes, Economie de lattention : fonctionnement Cf. A. Iskold

25 © URFIST de Rennes, Economie de lattention : fonctionnement Cf. A. Iskold

26 © URFIST de Rennes, Economie de lattention Le marché de la recommandation (source : O.Ertzscheid) Inscription dans les logiques de la Longue Traîne et de lEconomie de lAttention Origines : dispositif des annuaires, système PageRank dans web 1.O ; recommandations sur Amazon Au cœur du web 2.0 Sites de vente Sites de partage Sites communautaires = Mode de propagation « viral » À la base : Crowdsourcing De la médiation par lexpertise à la médiation par lusage et à la médiation par le nombre Problèmes: Expertise ? Effet saint-matthieu Diversité non visible

27 © URFIST de Rennes, Economie de lattention : marché publicitaire Léconomie de lattention vit de la publicité Moteurs comme « marchés multi-faces » utilisateurs / éditeurs dinformation sur le web (Xavier Wauthy) Gratuité et financement par la vente de laccès à laudience = annonceurs / publicité Modèles analogues pour les plateformes Web 2.0 Ciblage, profilage de lusager par linformation que celui-ci donne gratuitement Modèle publicitaire fondé sur les bases utilisateurs

28 © URFIST de Rennes, Economie de lattention : marché publicitaire Deux grands modèles économiques du web : Publicité en ligne : Bannières, liens sponsorisés Valorisation de laudience des sites, mise en visibilité des contenus, récolte de revenus publicitaires auprès des annonceurs Google, Yahoo, MSN, AOL 44,6 Mrds $ de dépenses publicitaires en 2008 Cybermarché : Commerce en ligne Domination dAmazon et eBay 204 Mrds $ de CA en 2008

29 © URFIST de Rennes, Economie de lattention : marché publicitaire Marché publicitaire : Dominé par Google : entre 30 et 40 % des dépenses publicitaires en ligne Liens sponsorisés Yahoo, AOL et MSN : modèle des bannières publicitaires Yahoo : 14 % du marché Microsoft : 6 % Concurrence acharnée de Yahoo et Microsoft pour la conquête de ce marché publicitaire : Course à laudience Nouveaux concurrents : Facebook, MySpace

30 © URFIST de Rennes, Economie de lattention : positionnement Un phénomène majeur : Le positionnement publicitaire Vers un modèle économique basé sur une composante publicitaire et / ou promotionnelle Affichage de « Liens sponsorisés » Apparu en 2001 en France Au départ : achat de mots clés aux enchères sur les réseaux Overture, Espotting ou Adwords de Google avec paiement du trafic = nombre de clics générés Source de revenus primordiale pour les outils de recherche Promotion vitale pour nombre de sites

31 © URFIST de Rennes, Economie de lattention : positionnement Définition du positionnement Position occupée par un site ou une page web dans la page de résultats dun outil de recherche Positionnement naturel : lié au fonctionnement de loutil de recherche Positionnement payant : Offre commerciale permettant de garantir la visibilité en tête des résultats de recherche = système du Search Engine Marketing

32 © URFIST de Rennes, Economie de lattention : positionnement Le positionnement payant : fonctionnement, rappels La campagne promotionnelle Des sites annonceurs achètent, aux enchères, des requêtes / mots clés sur lesquels ils souhaitent être positionnés. Les liens sponsorisés (Liens Search) Le moteur affiche des liens publicitaires ou liens sponsorisés ou promotionnels vers les sites dannonceurs. Où ? En haut de la liste de résultats / sur un des côtés (souvent à droite) / en bas de page des résultats (plus rare) Le classement Ils sont classés selon les enchères faites par les propriétaires du site sur le mot clé en question = montant initial + taux de clic

33 © URFIST de Rennes, Economie de lattention : positionnement Le système denchères par CPC (coût par clic) : paiement au clic, a remplacé le CPM (coût pour mille affichages) Pay per Lead (lancé par Accoona en juillet 2006) : paiement de lannonceur sur la base dune action de linternaute (contacts commerciaux) et non plus sur la seule comptabilisation des clics Pay-Per-Action de Google Les liens contextuels Ce sont des liens publicitaires qui, diffusés sur des sites affiliés, partenaires du prestataire de positionnement payant, saffichent en fonction du contenu éditorial du site et de ses catégories environ 30% des liens sponsorisés, mais pratique en hausse

34 © URFIST de Rennes, Economie de lattention : positionnement Marché des liens sponsorisés : en plein essor = environ 50 % du marché publicitaire en ligne (Forrester Research) Europe : les liens sponsorisés génèreraient dici 2012 un chiffre daffaires de 8 milliards deuros, contre environ 4 milliards aujourdhui. Croissance de + 80% prévue sur les 5 années à venir ! Diversification des techniques et dispositifs de positionnement payant Ex : Liens contextuels et flux RSS (google, splush) Intégration dans la recherche dimages

35 © URFIST de Rennes, Les acteurs de la recherche dinformation sur le marché publicitaire Grands acteurs en matière de positionnement payant Google Adwords / AdSense Google Adwords AdSense Yahoo! Search Marketing Yahoo! Search Marketing MSN (Microsoft AdCenter) MSN (Microsoft AdCenter) Et aussi …. AOL, Mirago, Espotting / Miva, Deepindex, AD42, Comclick, ClickInText …AOLMiragoEspotting / MivaDeepindexAD42 ComclickClickInText Concurrence entre les outils : Coût de lenchère minimale Classement des liens sponsorisés en fonction de leur enchère, mais aussi suivant leur qualité Contrôle du domaine publicitaire

36 © URFIST de Rennes, Economie de lattention : positionnement Le cas de Google : AdWords / AdSense (99% du CA) : Adwords Emplacements publicitaires dans les pages de résultats de Google (à droite), avec des liens vers les sites annonceurs, en fonction des mots clés saisis par linternaute et achetés par lannonceur. Système denchères pour départager les annonceurs ayant acheté le même mot clé Propose un générateur de mots clés (cf. Aussi chez Miva et Yahoo) Adsense Liens publicitaires sur des sites affiliés à Google et choisis automatiquement en fonction du contenu et du contexte de la page Extensions récentes : Adsense for Feeds, Adsense for Games

37 © URFIST de Rennes, Economie de lattention : positionnement Le problème de la fraude au clic : « les serial cliqueurs » (O. Andrieu / Abondance) / « Junk clic » Clics des affiliés sur leurs propres publicités Clics en masse sur les liens dentreprises concurrentes, pour plomber leur budget promotionnel Coût de la fraude au clic : 800 millions de dollars en 2005 (Etude de la société Outsell, Inc.) Taux de 16,3% pour le premier trimestre 2008 (baisse par rapport à fin 2007) Les 3 grands moteurs allés à lIAB (Interaction Advertising Bureau) pour lutter contre cette fraude (filtres)

38 © URFIST de Rennes, Economie de lattention : positionnement Le poids du Spamdexing Liens sponsorisés en dur proposés par certaines régies à certains sites à fort volume : Ex : annuaires ne contenant que des liens sponsorisés dont le texte et les liens sont en dur, donc indexés par les moteurs = pur spam Netlinking : Social Media Optimization (SMO) contre spamdexing Utilisation de Adsense et référencement artificiel fausses pages et redirection liens massifs sur des commentaires de blogs ou de forums « En moyenne 11% des pages s'affichant dans les moteurs de recherches sont du spam. » moteurs.shtml+

39 © URFIST de Rennes, Economie de lattention : positionnement Problèmes et enjeux / usagers De plus en plus dusagers arrivent sur des sites via les liens sponsorisés De plus en plus dentreprises investissent dans des campagnes de liens sponsorisés Question : savoir distinguer un lien sponsorisé dun lien naturel Question par rapport à la recherche, laccès à linformation, son usage Atteinte à la notion de pertinence Biais par rapport au déroulement normal dune procédure de recherche dinformation Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour linternaute (étude McAfee Site Advisor, Mai 2006) Influence positionnement payant / positionnement naturel ? Cf. Google (voir Blog Abondance)Blog Abondance

40 © URFIST de Rennes, Economie de lattention : é tat des forces des moteurs de recherche : en France (Xiti)Xiti

41 © URFIST de Rennes, Economie de lattention : état des forces des moteurs de recherche : dans le monde Domination de Google en général, mais inégale : 63, 5 % aux USA en décembre 2008 mais nombreuses disparités selon les pays, dautres moteurs émergent : En 2007 : Estonie : Neti : 56,8 % - Google : 41 % (mars 07) Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07) Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre 07) Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007) Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07) Voir Search Engine Feng ShuiSearch Engine Feng Shui

42 © URFIST de Rennes, Economie de lattention : l a « guerre des moteurs » La rivalité Google-Yahoo : Cultures communes, mêmes origines, liens personnels, partenariat des débuts… Rivalité directe sur le marché publicitaire : principale origine des ressources des deux sociétés Google : 95 % Yahoo : 85 % Recul de Yahoo depuis plusieurs années : Bénéfice en baisse : -1,8 % entre 2006 et 2007 Baisse de laudience, des parts de marché Mais nombreux atouts de Yahoo : Notoriété, popularité des services (messagerie), audience très forte Présence dans le web participatif : Flickr, Del.icio.us…

43 © URFIST de Rennes, Economie de lattention : l a « guerre des moteurs » La guerre Google/Microsoft : Cultures dentreprise très différentes Créneaux différents : industrie du logiciel / recherche dinformation Retard historique de Microsoft // Internet : ratrapage depuis 10 ans... Succès du navigateur Internet Explorer (contre Netscape) Succès de la messagerie instantanée MSN Echec du moteur de recherche Live Search : <10 % aux EU Stratégie de conquête du marché publicitaire Menace de Google sur Microsoft : édition de logiciels gratuits Tentative de rachat de Yahoo pour contrer Google Arrêt du programme de numérisation des livres de Microsoft

44 © URFIST de Rennes, Léconomie de lattention : l a « guerre des moteurs » et les règles de la concurrence Importance du rôle de lUE et de la Cour de Justice Européenne : Enjeu : question de la concurrence et des positions de monopole Cf exemple de condamnation de Microsoft Notion de « position dominante » sur un marché : > 50 % de parts de marché Recherche dinformation considérée comme un marché pertinent, accessible sur tout le territoire de lUE Google considéré comme en position dominante sur lUE Loi européenne ninterdit pas la position dominante, mais « labus » de position dominante : Cas dune fusion Google/Yahoo, mais non de fusion Microsoft/Yahoo

45 © URFIST de Rennes, Léconomie de lattention : l a « guerre des moteurs » : les alternatives à GYM Positionnement spécifique dExalead dans le paysage des moteurs de recherche Un moteur innovant : Modules spécialisés Intégration des tags dans la recherche Recherche collaborative avec Baagz Indexation de la piste audio des journaux télévisés Interface pour mobiles … Participation à plusieurs projets européens Chorus, Quaero, Alis … Une nouvelle génération de moteurs de recherche multimédia (européens) Theseus, Pharos…

46 © URFIST de Rennes, Economie de lattention : quelles conséquences pour la formation des usagers ? Une thématique à développer dans les formations : Dans les objectifs de la culture informationnelle : Priorité à la distance critique face au marketing ? Dans les contenus : Nombreux savoirs théoriques, notions, concepts, terminologie… de léconomie de linformation Positionnement payant, liens sponsorisés, profilage, longue traîne, données personnelles… Dans les compétences à développer : Savoir distinguer liens sponsorisés et liens naturels Comprendre le fonctionnement du positionnement payant Mieux contrôler lutilisation de ses données personnelles...

47 © URFIST de Rennes, Economie de lattention : quelles conséquences pour la formation des usagers ? Développer la dimension économique dans la réflexion sur la culture informationnelle : Nécessité de toujours situer la culture informationnelle dans les nouveaux contextes socio-économiques de la recherche dinformation Relier la culture informationnelle à la réflexion plus générale sur la crise de lattention et ses effets : Voir travaux de B. Stiegler et Ars Industrialis sur ces questionsB. Stiegler

48 © URFIST de Rennes, / Evolutions dans lindexation Rappel des finalités de lindexation : Recherche de documents Accès au contenu des ressources Analyse, filtrage automatique, cartographie de linformation Aujourdhui, nouvelle finalité de + en + importante : éditorialisation, « re- documentarisation » des contenus et des ressources Exemple des archives de lINA, de la banque OuestImagesarchives de lINA OuestImages

49 © URFIST de Rennes, /Evolutions dans lindexation : retour sur la re-documentarisation Quelles conséquences pour lindexation ? De la recherche à la composition éditoriale (éditorialisation) La principale motivation applicative de lindexation est la recherche dinformation: –Trouver le document ou contenu qui exprime linformation recherchée. La principale motivation applicative des métadonnées est la sélection de ressources pour créer de nouvelles informations: –Ce nest pas la ressource en tant que telle qui aura une valeur, mais le contexte dans lequel elle sera intégrée (phénomène dit de redocumentarisation) La documentation rendait compte de lorigine dans les termes de lusage, elle tend désormais à reconfigurer lorigine pour lusage (daprès M. Amar)

50 © URFIST de Rennes, / Evolutions dans lindexation Imbrication des différentes modalités dindexation sur le web : Indexation documentaire : thésaurus, description des ressources (annuaires) Indexation automatisée : le TAL (Traitement Automatique des Langues) Indexation sociale : tags du web 2.0, recommandations Indexation sémantique : les métadonnées et les ontologies

51 © URFIST de Rennes, / Evolutions dans lindexation : les 4 écoles dindexation Web (source : Ertzscheid, Gallézot)Ertzscheid, Gallézot Full-text => Balises Méta => Métadonnées Web Sémantique Folksonomies : indexation sociale communautaire Standardisation => Dublin Core => OAI-PMH Ontologies (Ingénierie des connaissances) ? ? Standardisation Linguistique de corpus

52 © URFIST de Rennes, Evolutions dans lindexation : Lindexation automatisée « full-text » Deux grandes méthodes d'analyse dans l'indexation automatisée : analyse statistique : fondée sur la fréquence des mots analyse linguistique : fondée sur la reconnaissance des mots 4 niveaux d'analyse du texte intégral : niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts

53 © URFIST de Rennes, Lindexation automatisée : l es moteurs de recherche sémantique Emergence de nouvelles catégories de moteurs : Hakia : Hakia Lancé en 2006 moteur de requêtes en langage naturel mélange d'analyse sémantique, d'ontologie, de logique floue et d'intelligence artificielle Powerset : Powerset Mai 2008 ; racheté par Microsoft en juillet 08 Recherche sémantique sur Wikipedia Analyse des phrases contenant les mots dune requête Propositions de nombreux mots-clés

54 © URFIST de Rennes, Evolutions dans lindexation : Lindexation sociale : tags et folksonomies « Folksonomies désignent un processus de classification collaborative par des mots-clés librement choisis Ou le résultat de cette classification. » (Wikipédia)

55 © URFIST de Rennes, Evolutions dans lindexation : Lindexation sociale : tags et folksonomies Le principe de la folksonomie : Forme de « classification collaborative décentralisée spontanée », sappuyant sur les termes choisis par les utilisateurs Objectif : faciliter lindexation des contenus et la recherche dinformation Tags peuvent sappliquer à des signets web, à des photos, à des projets, des vidéos, ou encore des billets de blogs (nuages de tags) Constitution dune communauté de « spécialistes » parmi les internautes

56 © URFIST de Rennes, Evolutions dans lindexation : Lindexation sociale : tags et folksonomies Exemples dimbrication des indexations contrôlées (documentaires) et libres (sociales) : LibraryThing et WorldCat : complémentarité entre catalogue et tagsWorldCat University of Huddersfield Library : recherche par tags dans le catalogue University of Huddersfield Library

57 © URFIST de Rennes, Intermède : quelle différence entre web 2.0 et web 3.0 ?

58 © URFIST de Rennes, Le web sémantique Constat des insuffisances du « web 1 » : absence de description et dindexation des ressources hétérogénéité des formats… pas de structure explicite du web : pas dexploitation de la signification des liens entre les documents Objectifs de nombreux travaux, depuis 10 ans : meilleure structuration du web, exploitation sémantique de la nature du web (« Semantic Web »)... Acteur principal : W3CW3C Diversité des expressions : « web sémantique », « web 3.0 », « web intelligent »… Vision de T. Berners-Lee dun « web des données » Voir traduction de larticle fondateurtraduction

59 © URFIST de Rennes, Le web sémantique L'information et les services sur le Web sont aujourd'hui peu exploitables par des machines … Et de moins en moins exploitables sans l'aide des machines … Le web de demain : un vaste espace d'échanges de ressources entre machines permettant l'exploitation de grands volumes d'informations et de services variés, aidant les utilisateurs en les libérant d'une (bonne) partie de leur travail de recherche, et de combinaison de ces ressources

60 © URFIST de Rennes, Le web sémantique : principes « LE WEB SEMANTIQUE PERMETTRA AUX MACHINES DE COMPRENDRE LES DOCUMENTS ET LES DONNEES SEMANTIQUES, mais PAS la parole ET LES ECRITS HUMAINS. Le sens est donné par RDF, qui le code dans des ensembles de triples, chaque triple jouant le rôle du sujet, du verbe et de l'objet dans une phrase élémentaire. On peut écrire ces triples en utilisant les balises XML. » (T. Berners-Lee)Berners-Lee Projet du web sémantique : « sémantiser » les ressources web, par un langage de balises sémantiques ; Contrairement aux balises HTML, qui ne contiennent aucune signification

61 cours n°1 © Muriel Amar, URFIST Paris 61 Composante XML (Nathalie Aussennac- Gilles, Irit de Toulouse) Knowledge Management Teacher: Rudi Studer Students: Master Knowledge Management Teacher: Rudi Studer Students: Master HTML: les balises servent uniquement à la mise en forme des données Knowledge Management Rudi Studer Master XML: les balises qualifient les données ; elles sont définies par les utilisateurs en fonction des domaines et des besoins

62 © URFIST de Rennes, Le web sémantique : principes et outils Au moins quatre directions de recherche, quatre premières couches : Identification des ressources numériques : les URI (Uniform Resource Identifier) Structuration des documents numériques : XML (eXtensible Markup Language) Description des ressources : les métadonnées, RDF (Resource Description Framework) Indexation des ressources : les ontologies Principe fondamental du web sémantique: séparation du contenu des documents de lorganisation de ce contenu

63 © URFIST de Rennes, Les couches du « Semantic Cake »

64 © URFIST de Rennes, Le web sémantique : RDF (Resource Document Framework) Langage de description des ressources, et cadre conceptuel pour les métadonnées 1ère version en 1999, finalisé en 2004 par le W3C RDF fondé sur notion de triplet : Une métadonnée = un couple : propriété + valeur Description dune ressource = un triplet : ressource + propriété + valeur Sujet, prédicat, objet Sujet : ressource à décrire Prédicat : une propriété applicable à cette ressource Objet : valeur de cette propriété

65 © URFIST de Rennes, Les métadonnées : les triplets RDF Notion de triplet : Association dune propriété à une ressource, ainsi que la valeur de cette propriété Exemple : Notre Dame de Paris est un roman dont lauteur est Victor Hugo Deux éléments de description possibles : Notre Dame de Paris est un roman Notre Dame de Paris a pour auteur Victor Hugo Deux triplets : Notre Dame de Paris, type, roman Notre Dame de Paris, auteur, Victor Hugo

66 © URFIST de Rennes, Les métadonnées : les triplets RDF Comment faire comprendre aux machines la requête : quel est lauteur du roman « Notre Dame de Paris » ? Eviter le bruit de lanalyse morphologique Etablir des règles comprises par le système dinformation : Source : IntersticeInterstice

67 © URFIST de Rennes, Les métadonnées : les triplets RDF Exemple de recherche sur Victor Hugo : Source : IntersticeInterstice

68 © URFIST de Rennes, Le web sémantique : les ontologies Condition du web sémantique : des ressources décrites et indexées langages de description, thésaurus, classifications, ontologies… Enjeu : avoir des outils communs, normalisés, pour permettre une indexation automatisée et sémantique des ressources Analogie avec les thésaurus

69 © URFIST de Rennes, Le web sémantique : les ontologies A l'origine, terme philosophique (science de l'être). En informatique : ontologie = une représentation des connaissances et la définition de catégories. Une ontologie structure les termes d'un domaine, en établissant des relations de proximité entre eux, du type "partie de". Une ontologie : une vue commune, partagée par une communauté, sur un domaine de connaissance Principes : Définition de concepts, de relations et des règles contraignant ces relations

70 © URFIST de Rennes, Le web sémantique : quelle réalité ? « Invisibilité » du web sémantique, mais explosion des triplets RDF : 10 Mrds de triplets en ligne ! (selon F. Gandon) Nombreux projets de recherche en cours Les solutions Mondecasolutions Mondeca Catalogue doffres touristiques : Catalogue doffres touristiques Agrégation de sources diverses Utilisation de la géolocalisation Aspects sémantiques à partir de relations entre des classes dobjets Catalogue Cismef du CHU Rouen : Catalogue Cismef Intégration de métadonnées Dublin Core Terminologie du Mesh Utilisation du langage de formalisation OWL Projet Scriptures, ENST Bretagne :Scriptures Indexation sémantique des médias

71 © URFIST de Rennes, Indexation : quelles conséquences pour la formation des usagers ? Sensibiliser les étudiants à limportance de lindexation : Dans la recherche sur les moteurs Dans les plates-formes web 2.0 Montrer : lancienneté de lindexation la diversité des modes dindexation et daccès aux contenus les enjeux pour la recherche dinformation Expliquer les notions essentielles : indexation, classification, traitement linguistique,, métadonnée, indexation automatisée, full-text, indexation sociale, tag, folksonomie, ontologie…

72 © URFIST de Rennes, La personnalisation de la recherche Evolution des moteurs vers des services personnalisés pour fidéliser les internautes Une tendance lourde de la RI, va en samplifiant Remonte au moins à 2000 Innombrables aspects : De lhistorique des recherches au moteur personnalisable Innovations permanentes Possibilité de personnalisation par : le moteur de recherche un Plug in, ex : SurfCanyon, plug in firefox et IE par linternaute

73 © URFIST de Rennes, La personnalisation de la recherche 9 Modèles de personnalisation par le moteur (Jeff Quipp) Personnalisation basée sur la localisation Sur linterface Sur lhistorique des requêtes Sur le mode entrée / sortie Sur le temps Sur le comportement individuel de lutilisateur Sur le comportement de groupe Sur la recherche sociale / graphe social de lutilisateur Personnages virtuels / sur les Assistants

74 © URFIST de Rennes, La personnalisation de la recherche Les différentes facettes de la personnalisation par linternaute : Personnalisation des requêtes Personnalisation des résultats Personnalisation des interfaces Personnalisation des outils La création de communautés

75 © URFIST de Rennes, La personnalisation de la requête Les bases de la personnalisation de la requête : Lhistorique des requêtes La définition dun profil et dune alerte La géolocalisation Le choix des sources dinformation

76 © URFIST de Rennes, La personnalisation des résultats Personnalisation des résultats de recherche : Possibilité laissée à linternaute dinfluer sur le classement des résultats de recherche

77 © URFIST de Rennes, La personnalisation des résultats Lexemple du moteur communautaire Wikia SearchWikia Search créé en janvier 2008 par Jimmy Wales sur le modèle de Wikipédia selon 4 principes : Transparence Communauté Qualité Protection de la vie privée

78 © URFIST de Rennes, La personnalisation des résultats Appel de Jimmy Wales (2006) « créer un nouveau type de moteur de recherche, qui s'appuie sur l'intelligence humaine pour faire ce que les algorithmes sont incapables de faire ». (voir : Contribution de linternaute aux tâches de signalement et dindexation propres au moteur

79 © URFIST de Rennes, La personnalisation des résultats Personnalisation des résultats sur Wikia Search Juin 2008 : Tous les internautes peuvent mettre en valeur, commenter, promouvoir, modifier, supprimer ou ajouter (par un lien) un résultat. Retours dusage Utilisation conséquente des procédures de personnalisation des résultats Peu dutilisation des actions communautaires (annotations, commentaires)

80 © URFIST de Rennes, La personnalisation des résultats Lexemple de Google SearchWiki Lancement le 20 novembre 2008 dun système de personnalisation des résultats de requêtes Sur Google.com Nécessité davoir un compte Google Selon le blog de Google : « reclassement, suppression, ajout, commentaire des résultats » Source : Lettre Recherche et référencement (12/08)

81 © URFIST de Rennes, La personnalisation des résultats La personnalisation des résultats sur SearchWiki permet de : Modifier lordre des résultats de recherche, promouvoir certains sites en haut de la page Ajouter un nouveau site aux résultats en proposant une URL Supprimer des résultats un site jugé non pertinent Ajouter des commentaires par la rédaction de notes liées à un résultat en particulier + Favoris : « Preferred sites »

82 © URFIST de Rennes, La personnalisation des résultats Orientation de Google vers les communautés Partage des notes attachées à chaque résultat avec la communauté des utilisateurs du moteur Lien « See all notes for this SearchWiki »

83 © URFIST de Rennes, La personnalisation des résultats Les questions posées par la personnalisation des résultats : Impact sur le référencement, sur le classement des résultats de recherche Variabilité de la liste de résultats selon les internautes Mort ou moindre importance du Ranking ? Impact sur le système des liens sponsorisés Nettoyage des pages de résultats et déclassement des sites par les internautes

84 © URFIST de Rennes, La personnalisation des résultats Les questions posées par la personnalisation des résultats (suite) : Dérives et abus dans les pratiques des internautes Notes de certains résultats de recherche spammées Espace laissé aux groupes de pression / vote et classement des résultats de recherche

85 © URFIST de Rennes, La personnalisation des interfaces Notion « dutilisabilité » des interfaces des moteurs de recherche Accessibilité des réponses En lien avec lorganisation visuelle de la page de résultats Interface comme « plan de travail » « Microsoft Surface », lavenir ?Microsoft Surface

86 © URFIST de Rennes, La personnalisation des interfaces Interactivité et dynamisme Paramétrages classiques des moteurs (langue de linterface, affichage des résultats) Zones mobiles sur la page Organisation personnalisée de la page : Ajax Widgets Pages personnelles Présentation visuelle : Possibilité de choisir le mode de visualisation des résultats (vignettes, raccourcis, captures décrans, cartes…)

87 © URFIST de Rennes, La personnalisation des interfaces Les « pages perso » : Fourniture gratuite de pages personnalisées pour la gestion et la recherche dinformation Choix personnel des sources : sites web, blogs, fils RSS… Divers services : calendrier, agenda… Exemple de Netvibes (disponible actuellement en version anglaise et française)Netvibes Portail personnalisé de Google : i-googlei-google

88 © URFIST de Rennes, La personnalisation des interfaces Constitution despaces de travail complets et intégrés Intégration recherche / navigation Page personnelle Sources dinformation favorites Interface de recherche Informations diverses Plateformes de partage et échange de documents, de signets Outils / Hybridation Modules de recherche ; recherche universelle : Yahoo Glue, Google Universal Search Yahoo Glue Dispositifs de production dinformation : blogs, wikis, Annotations / tags, recommandations, labellisation, concepts …: Webzzle Webzzle Outils de visualisation et danalyse des données Outils bureautiques…

89 © URFIST de Rennes, La personnalisation des outils Paramétrages des moteurs Construction de moteurs personnalisables : des moteurs sur mesure / recherche verticale Pour effectuer des recherches sur un ensemble donné de sites web ou sur une thématique précise Permet détablir un système de veille par un compte gratuit Google Custom Search Engine (http://google.com/coop/cse/)http://google.com/coop/cse/ Live Search macros (http://search.live.com/macros/default.aspx?FORM=BJRE)http://search.live.com/macros/default.aspx?FORM=BJRE Les Swickis dEurekster (http://www.eurekster.com/)http://www.eurekster.com/ Rollyo (http://rollyo.com/ )http://rollyo.com/

90 © URFIST de Rennes, La personnalisation des outils Les espaces personnels : lexemple de Mon Web de YahooMon Web Le principe : Création dun compte personnel sur Yahoo Sauvegarde dune page web jugée pertinente Création dun signet avec lURL de la page et sauvegarde dune copie de la page Possibilité de marquer les pages enregistrées avec des annotations (tags) pour les catégoriser Mutualisation de la recherche Partage des sites avec dautres internautes Navigation parmi les pages annotées et partagées par les autres utilisateurs de Mon Web Possibilité de lancer des requêtes sur leur contenu

91 © URFIST de Rennes, La création de communautés Utilisation de la force du collectif, des communautés Développement de services à la fois : individuels : comptes personnels sur Yahoo (Mon Web, sauvegarde de signets…), sur Google, etc. collectifs : partage de signets, « vote » sur des sites, services questions-réponses… Les moteurs collaboratifs (Wikia Search, Yoople! )Wikia SearchYoople! Laccès aux documents partagés par la communauté des internautes sur les plateformes de partage Mutualisation des connaissances dans des wikis collaboratifs généralistes ou spécialisés

92 © URFIST de Rennes, La personnalisation de la recherche : conséquences pour la formation Sensibiliser à la notion de pertinence dans le cadre dune personnalisation de la recherche Montrer les enjeux liés : Pertinence des sources Veille facilitée Adéquation aux besoins Sensibiliser aux risques découlant notamment de la personnalisation des résultats : Biais dans les résultats,variabilité en fonction de la personnalisation Limitation et manque de visibilité Abus liés aux procédures de recommandation sur les sites affichés en résultats

93 © URFIST de Rennes, La géolocalisation, les services de proximité Géolocalisation, services de cartographie et recherche de proximité Une des formes et la base de la personnalisation (avec lhistorique) Définition de la géolocalisation « identifier lemplacement géographique de linternaute, afin de lui fournir des informations locales le concernant spécifiquement » (NetSources) les moteurs proposent des résultats localisés se basant sur son adresse IP. La recherche de proximité sur les moteurs faire des recherches en incluant des informations locales pour une recherche : adresses, localisation sur une carte ou une vue satellite, itinéraire + lien vers les sites.

94 © URFIST de Rennes, La géolocalisation, les services de proximité Développement sur les moteurs : Google, Yahoo, MSN, Ask, AOL, A9 … Interfaces Google Maps (http://maps.google.fr/ ) / Google Earth (http://earth.google.fr/)http://maps.google.fr/ Yahoo! Maps (http://fr.maps.yahoo.com/ )http://fr.maps.yahoo.com/ Fonctionnement Termes de la requête Catégorie éventuellement Association avec une localité Visualisation des résultats sur une carte, une image satellite Liens sponsorisés selon les requêtes et lorigine géographique des internautes

95 © URFIST de Rennes, La géolocalisation, les services de proximité Vers une croissance de ces usages ? Fort développement Engouement pour les applications cartographiques Développement des Mash up Enjeux pour les moteurs : Marché des petites entreprises / Annonceurs Marché de la publicité de proximité Favorise lappropriation des web services Développement doutils adaptés à linternaute Concurrence Questions qui subsistent : diversité des catégories selon les outils fluctuations de ces catégories lacunes dans la corrélation entre certains termes et la catégorisation.

96 © URFIST de Rennes, Présentations visuelles des moteurs Multiplication des formes visuelles pour la présentation des résultats : Résultats sous forme de carte : Introduction déjà ancienne de présentation cartographique des résultats sur des moteurs ou métamoteurs, comme KartooKartoo extension à des outils récents comme GrokkerGrokker Résultats sous forme de cluster : Concerne le traitement des résultats + leur présentation Ex : ClustyClusty Nouvelles expérimentations sur la présentation des résultats et la manière dy naviguer (moteurs « 3D ») : Feuilletage / défilement des pages par captures décran : SearchMe, Redzee, Tkaap-Galaxy, Spacetime (avec eBay et Google notamment)SearchMe RedzeeTkaap-GalaxySpacetime Affichage sous forme de cube aux facettes cliquables : SearchcubeSearchcube Moteur tripartite Tafiti (avec la technologie Silverlight de Microsoft)Tafiti

97 © URFIST de Rennes, La protection des données personnelles Source : GooglinsideGooglinside

98 © URFIST de Rennes, La protection des données personnelles : aspects techniques Quatre types de données conservées par les moteurs de recherche : Fichiers log : logs de requêtes (date, heure, mots-clés), clics, toutes les traces de lutilisateur Adresse IP Cookies Eventuellement comptes utilisateurs Voir SeekPort : lp/privacy.html lp/privacy.html Sur Google Un cookie contenant : Requêtes Date Résultats N° IP « Les informations personnelles peuvent également être utilisées à des fins daudit, de recherches et danalyse, afin dassurer le bon fonctionnement et la qualité des technologies et des services Google. Nous sommes susceptibles de partager des informations non personnelles sous forme collective avec des tiers. »informations non personnelles sous forme collective ml ml

99 © URFIST de Rennes, La protection des données personnelles Problème sur Google : Regroupements de données des différents services : Recherche, messagerie, blogs… Disque dur personnel hébergé Mais Yahoo et MSN collectent plus de données personnelles : Comptes utilisateurs Nom, sexe, date de naissance, poste occupé, code postal, Les trois portails : Adresses , messages, contacts de messagerie

100 © URFIST de Rennes, La protection des données personnelles : les enjeux Types de données détenues par les grands portails : Les requêtes sur les moteurs : Ce qui mintéresse Les blogs : Mes opinions Les réseaux sociaux : Mes réseaux La messagerie, les forums, le « chat » : Avec qui je communique et sur quoi Possibilité de créer de gigantesques base de données sur les goûts et habitudes des internautes Même si actuellement, données relativement protégées, problème de lavenir : Pouvoir considérable accordé aux outils Risques dintrusion de pouvoirs totalitaires (cf Chine)

101 © URFIST de Rennes, La protection des données personnelles : aspects juridiques Notion de « donnée à caractère personnel » : Définition très large de réglementation française et européenne « Toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro didentification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer lensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne. » Tout élément didentification directe ou indirecte = donnée à caractère personnel : N° INSEE, adresse , identifiant quelconque…

102 © URFIST de Rennes, La protection des données personnelles : aspects juridiques Obligations des responsables du traitement des données de respecter les droits des individus sur leurs données personnelles : Consentement : autorisation préalable ou consentement tacite Droit dopposition : possibilité de refuser de figurer dans un fichier Droit daccès Droit de rectification

103 © URFIST de Rennes, La protection des données personnelles : aspects juridiques Problème juridique : ladresse IP est-elle une « donnée à caractère personnel » ? Non, pour la Cour dappel de Paris, avril 2007 Oui, pour la CNIL et le « Groupe de lArticle 29 » : Comité consultatif indépendant (dont CNIL), relevant de la Commission Européenne G29 : en référence à larticle 29 de directive européenne du 24 octobre 1995 sur la protection des données Avis très important, rendu en avril 2008

104 © URFIST de Rennes, La protection des données personnelles : controverse Google / Union Européenne Hiver 2007 : pression de lUE sur Google Mars 2007 : Google accepte de ne conserver les données issues des logs de requête que pendant 18 / 24 mois Mai 2007 : réaction négative de lUnion Européenne Durée de 24 mois « ne semble pas respecter les exigences » de la législation européenne Juin 2007 : Adresse IP considérée par lUE comme une donnée personnelle Eté 2007-Février 2008 : travaux du « G29 »

105 © URFIST de Rennes, La protection des données personnelles : controverse Google / Union Européenne Principales dispositions de lavis du « G29 » du 4 avril 2008 : Législation européenne sur les données personnelles applicable à tous les moteurs de recherche opérant en Europe Toutes les données collectées par les moteurs de recherche : données personnelles, y compris ladresse IP Possibilité dexploiter ces données « pour une finalité légitime et non excessive » Obligation deffacer ces données au bout de 6 mois maximum

106 © URFIST de Rennes, La protection des données personnelles : controverse Google / Union Européenne Conséquences pour les moteurs de recherche de lavis du G29 : Autorisation préalable des internautes pour le « profiling » : Profiling : exploitation de plusieurs données sur un utilisateur pour proposer ou optimiser des services Concrètement, pour lenvoi de liens sponsorisés à un utilisateur, obligation de mise en place dun formulaire dautorisation préalable Effacement des données au bout de 6 mois Modification des Conditions Générales : Explicitation des finalités, etc.

107 © URFIST de Rennes, La protection des données personnelles : controverse Google / Union Européenne 1ers succès de lUE : réponses positives grands moteurs : Google réduit à 9 mois la durée de conservation (sept. 08) Google réduit à 9 mois Microsoft : 6 mois (déc. 08) Yahoo : 3 mois Mais persistance des désaccords entre le G29 et les moteurs, notamment Google. Audition prochaine (février 09) des acteurs par le G29

108 © URFIST de Rennes, La protection des données personnelles : les réseaux sociaux Problématique différente sur les réseaux : affichage volontaire des profils personnels par les internautes Nombreux problèmes : Disparition de la frontière public/privé : Vers un voyeurisme/exhibitionnisme de masse Traçabilité généralisée : Cf exemple récent de la vie dun internaute reconstituée sur Le Tigre Le Tigre Utilisation des profils par les réseaux sociaux : Voir vente des profils sur Facebook en nov. 07

109 © URFIST de Rennes, En conclusion : rappel de quelques questions vives de la RI Nouveaux risques : Traçabilité et protection des données personnelles Réseaux sociaux et transparence généralisée Nouvelles valeurs : Idéologie dominante de la « popularité » sur le web 2.0 Nouveaux usages : Risques « dautarcie informationnelle », denfermement communautaire Nouveaux enjeux : Economie de lattention et emprise du marketing Economie de la recommandation et problème de la modélisation des comportements En conclusion, former, se former, nous former…


Télécharger ppt "RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009 Marie-Laure Malingre, Alexandre Serres."

Présentations similaires


Annonces Google