Panorama des évolutions de la recherche d’information sur Internet

Slides:

Advertisements

Présentations similaires

Le Nom L’adjectif Le verbe Objectif: Orthogram

Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6

Les technologies décisionnelles et le portail

Le web 2.0 L'Internet deuxième génération ? Moussay Jérôme - Master 2LCE1/16.

Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…

La recherche documentaire

Distance inter-locuteur

1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août

Les systèmes d’informations documentaires et les ENT Éléments de cahier des charges pour les projets nouveaux.

Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.

Comment choisir une solution technologique de veille sur le marché ?

JXDVDTEK – Une DVDthèque en Java et XML

Veille informationnelle et outils du Web 2.0

Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.

ETAPES DE LA RECHERCHE DOCUMENTAIRE

1 7 Langues niveaux débutant à avancé. 2 Allemand.

1 5 octobre 2011 / paw Présentation du 7 octobre 2011.

Quelles ressources sur linternet ? Méthodologie de recherche et validation de linformation Jean-Philippe Accart Bibliothèque nationale suisse Service de.

Chapitre 4 : la gestion électronique des documents

Groupe de travail Veille collective

XML-Family Web Services Description Language W.S.D.L.

1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.

Vue générale de Sharpdesk

Marketing Engineering

L'ORIENTATION UN CHANTIER A PARTAGER

B2i Lycée Circulaire BO n°31 du 29/08/2013.

1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.

IUT2 de Grenoble Université Pierre Mendès France

Annuaires et moteurs de recherche d’information sur Internet

Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.

Le portail des MSH

Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.

Cairn.info Chercher : Repérer : Progresser 13/01/ { } Revues et diffusion des savoirs scientifiques : retour d’expérience de Cairn.info

Logiciel gratuit à télécharger à cette adresse :

Page 1 / Titre / Auteur / Date / Confidentiel D? LA DEMARCHE COLLEGES METIER.

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.

Rosa María Gómez de Regil Paris, 25 janvier 2011

Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

UN THESAURUS Pourquoi ? Pour qui ? Comment ?

La veille numérique : un outil pour s'informer intelligemment &

Stage Veille sur Internet

Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.

1/65 微距摄影美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.

Biologie – Biochimie - Chimie

Réaliser et diffuser un projet intégrant les TIC

Gestion des fichiers et dossiers

Votre espace Web Entreprises Article 39 Démonstration.

UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA

Ressources Internet liées à la CIB

Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.

Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.

La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)

Manuel Kervarker.org : l'accueil

Formation ADBS – septembre 2014 – 1 Approfondir son expertise en recherche d'information 3-4 & 5 septembre 2014.

Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.

LA RECHERCHE DOCUMENTAIRE

Recherche d’information

Techniques documentaires et veille stratégique Anne Pajard, avril 2008

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.

Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.

Moteurs et métamoteurs de recherche

Introduction générale

Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?

Atelier n°3 : Schéma de diffusion des données sur l’eau dans les bassins 24 mars 2011.

Transcription de la présentation:

Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

PLAN 7/ Gestion des requêtes 8/ Méthodes de classement et de traitement 9/ Présentation des résultats 10/ Personnalisation 11/ Autres évolutions : métadonnées… 1/ Introduction : grandes évolutions de la RI 2/ Panorama, typologies des outils 3/ Evolutions économiques 4/ Evolutions technologiques 5/ La collecte des données 6/ L’indexation, les méthodes de TAL URFIST Rennes 2004

Information préalable… Ce support Power Point est complété par un support HTML, à consulter librement : « Panorama de la recherche d'information sur Internet : approfondissement des aspects théoriques et techniques » Disponible sur : http://www.uhb.fr/urfist/Supports/Rechinfo2/ Rechinfo2_cadre.htm URFIST Rennes 2004

1/ Introduction : les 7 grandes tendances de la recherche d’information Repères historiques : 60’s : la recherche « en différé » 70’s : « mode conversationnel » 80’s : micro et minitel 90’s : « la révolution Internet » 2000’s : explosion du web Voir « Chronologie des outils de recherche… » Difficultés de l’état des lieux de la recherche d’information : Abondance, explosion des outils Rapidité des évolutions Hybridation des outils Changement d’échelle de la RI 7 tendances de fond, selon les composants de la RI Signaler la Chronologie des outils et le support HTML Rappeler différence entre la RI en gal et la RI sur Internet, avec histoire plus récente des outils d ’Internet URFIST Rennes 2004

1/ Introduction : les 7 grandes tendances de la recherche d’information Du côté des usagers : De la dépendance totale (recherche médiatisée : documentaliste + informaticien) à l’autonomie relative Du côté de l’offre d’information : De « l’explosion documentaire » au « déluge informationnel » Triple changement : d’échelle de support de système éditorial Rappeler importance de formation des usagers à maîtrise intellectuelle des outils Souligner enjeux de l ’enrichissement de l ’analyse : web sémantique, outils de cartographie... URFIST Rennes 2004

1/ Introduction : les 7 grandes tendances de la recherche d’information Du côté de la chaîne de l’information : De la validation a priori à la validation a posteriori Du côté des outils de recherche : De la rareté à l’explosion, de la distinction à l’hybridation des outils, de la complexité à la simplification Du côté des processus de recherche : Du « retrouvage » booléen à la « sérendipité » Rappeler importance de formation des usagers à maîtrise intellectuelle des outils Souligner enjeux de l ’enrichissement de l ’analyse : web sémantique, outils de cartographie... URFIST Rennes 2004

1/ Introduction : les 7 grandes tendances de la recherche d’information Du côté des modèles de la recherche d’information : Du paradigme de l’accès à celui du traitement Du côté de l’économie de la RI : De la gratuité à la vente des mots-clés Rappeler importance de formation des usagers à maîtrise intellectuelle des outils Souligner enjeux de l ’enrichissement de l ’analyse : web sémantique, outils de cartographie... URFIST Rennes 2004

2/ Panorama et typologies des outils 2 2/ Panorama et typologies des outils 2.1 Contexte et spécificités de l’information et de la « RII » surabondance, « déluge informationnel » structuration encore majoritairement faible hétérogénéité : formats, langues, supports, technologies, sources, etc. instabilité de l ’information multiplicité des espaces d’information : web visible / invisible, intranet/extranet, ouverts/fermés, gratuits/marchands… coexistence contenus statiques/dynamiques (PHP) URFIST Rennes 2004

2.1 Les blogs Définition : Très nombreuses applications : Weblog : journal de bord du web Site web, régulièrement mis à jour, comportant des liens, des appels à commentaires… Très nombreuses applications : journaux personnels : adolescents Tribunes politiques : Dominique Strauss-Khan Outils journalistiques : blogs du Monde Outils collaboratifs de veille… : blog de l’Urfist Explosion du phénomène des blogs Evolution du web ? Diversification, spécialisation des outils : simplification des interfaces, perfectionnements des options de recherche, intégration du TALN, spécialisation…. Développer idée de coupure public/privé, risques du positionnement payant... URFIST Rennes 2004

2/ Panorama et typologies des outils 2 2/ Panorama et typologies des outils 2.2 Quelles typologie des outils aujourd’hui ? Les difficultés de la typologie classique : Par type d’outils : Annuaires de recherche : Il présente, dans une hiérarchie de domaines et de sous-domaines divers, le contenu du Web au travers de ses sites décrits par un nom et un commentaire de quelques mots rédigés par un documentaliste de l'outil de recherche. Moteurs Métamoteurs Agents intelligents : un outil logiciel qui accomplit des tâches sur Internet de façon automatisée, en fonction de ce que vous lui demandez * Moteurs humains : services de réponses, proposés par des professionnels ; services gratuits ou payants, en direct ou en différé… Exemples : - Google Answers : service payant, avec formulaire - sur Voilà : conseils de O. Andrieu (aujourd’hui supprimés) URFIST Rennes 2004

2/ Panorama et typologies des outils 2 2/ Panorama et typologies des outils 2.2 Quelles typologie des outils aujourd’hui ? Les difficultés de la typologie classique : Par type d’outils : Portails Moteurs « humains » Agrégateurs de fils RSS Sa validité n’est plus aussi évidente en raison de la convergence de outils. * Moteurs humains : services de réponses, proposés par des professionnels ; services gratuits ou payants, en direct ou en différé… Exemples : - Google Answers : service payant, avec formulaire - sur Voilà : conseils de O. Andrieu (aujourd’hui supprimés) URFIST Rennes 2004

2/ Panorama et typologie des outils 2.2 Quelles typologies aujourd’hui ? Différents critères permettent d’envisager d’autres typologies possibles : Selon le référentiel internet : Outils généralistes Outils spécialisés Diversité des spécialisations : supports, formats, géographiques, disciplinaires, web invisible… > Evolution vers la spécialisation Selon le mode d’indexation : indexation des documents web (tout ou partie) indexation sur le contenu d ’une classification URFIST Rennes 2004

2/ Panorama et typologie des outils 2.2 Quelles typologies aujourd’hui ? Selon le contenu des ressources indexées : Articles de presse / dépêches d ’actualité Littérature grise (Lancement de Google Scholar) Blogs : Technorati, Daypop Flux RSS : Savoirs CDI... Wiki : Wikipédia… URFIST Rennes 2004

2/ Panorama et typologie des outils 2.3.1 Les moteurs de recherche Quelques typologies possibles des moteurs : selon le référentiel Internet : moteurs généralistes moteurs spécialisés : par domaines disciplinaires : Spinoo par type de données, de ressources par type d ’objets Internet selon le classement des résultats : Indice de pertinence : Exalead Indice de popularité : Google Selon le degré de traitement recherche exclusivement traitement, gestion et exploitation des résultats * Exemples de spécialisation des moteurs : - ouverture de Villes France (annoncée le 22 mai) : moteur de recherche régional, infos sur les villes de France - voir EnfinCom ou Search Engine Colossus URFIST Rennes 2004

2/ Panorama de l’offre 2.4 Métamoteurs Repères : outils interrogeant en parallèle plusieurs outils (moteurs et annuaires) possibilité de fusion et de tri des résultats diversité des métamoteurs Evolutions : amélioration des performances techniques : fusion et synthèse des résultats spécialisation présentation graphique des résultats personnalisation et services de veille; exploitation des résultats * Sur les évolutions : - intérêt des métamoteurs off line : Copernic, Strategic Finder, BullsEye ; outils de veille - innovations de Kartoo, MapStan, Vivisimo URFIST Rennes 2004

2/ Panorama de l’offre 2.5 Portails Définition : "Ressource accessible via Internet, constituant un point d'accès unique, simplifié, facile d'emploi et unifié, pour un public cible, à des ressources (services, produits) électroniques distantes, variées et hétérogènes". (Sylvie Dalbin, Instruments de recherche sur le Web, in La Recherche d'information sur les réseaux, cours INRIA 2002) Dispositif : documentaire (ressources informationnelles), communicationnel, éditorial, technique... Diversité des ressources et services : recherche d ’information, achats/ventes, informations générales, spécialisées, personnalisation, messagerie, forums, services d’alerte… Portails généralistes / spécialisés Exemples : Yahoo.fr, ConnectSciences, Ploteus, BusinessCom, Fabula, Culture.fr, Educlic Exemple de portails spécialisés : - ConnectSciences - Ploteus : nouveau portail européen (www.ploteus.net) dédié aux ressources d’information en Europe. Ploteus : point d'accès central («one-stop-shop ») aux sites nationaux et régionaux recensant les possibilités d'apprentissage. Informations sur chaque niveau d'étude et de formation, des écoles primaires à l'enseignement universitaire en passant par les cours du soir. Large dimension européenne : en plus des états membres de l'UE, il couvre les membres de l'EFTA (European Free Trade Association) et les pays candidats à l’entrée dans l’Union Européenne. Ploteus : acronyme de «Portal on Learning Opportunities Throughout the European Space » et signifie « navigateur » en grec ancien. URFIST Rennes 2004

2/ Panorama de l’offre 2.6 La syndication de contenus Définition : Agrégation de contenus divers sur un même navigateur possibilité de publier automatiquement sur un site web des informations issues d‘autres sites web Outils : Agrégateur de fils RSS : en lecture Editeur de fils RSS : pour l’édition Très nombreuses applications, liens avec les blogs Nombreux enjeux et questions Explosion du phénomène du RSS Diversification, spécialisation des outils : simplification des interfaces, perfectionnements des options de recherche, intégration du TALN, spécialisation…. Développer idée de coupure public/privé, risques du positionnement payant... URFIST Rennes 2004

2/ Panorama de l’offre 2.6 Les agrégateurs de fils RSS Outils personnalisables : Permettent la réception automatique de fils RSS de diverses sources : Presse : ex. de Libération Blogs : ex. de UrfistInfo Sites web : Savoirs CDI Deux types d’outils : Outils autonomes : FeedReader, FeedDemon… Agrégateurs intégrés dans le navigateur : Firefox Deux possibilités d’utilisation : En ligne : NewsIsFree Hors ligne : FeedReader… Beaucoup d’outils gratuits Diversification, spécialisation des outils : simplification des interfaces, perfectionnements des options de recherche, intégration du TALN, spécialisation…. Développer idée de coupure public/privé, risques du positionnement payant... URFIST Rennes 2004

2/ Panorama de l’offre 2.7 Les moteurs de bureau (desktop search) Définition : Outils d’indexation et de recherche de fichiers sur disque dur Développement de ces solutions par les moteurs de recherche en complément de la recherche sur le web Recherche sur le PC d’un document Word, d’un e-mail, d’une vidéo, d’un fichiers PDF, etc. Outils : Yahoo Desktop Search (sous Windows XP et 2000, recherche sur 200 types de fichiers) Copernic Desktop Search (recherche des formats les plus courants : Microsoft Office, WordPerfect, PDF, fichiers texte et RTF) Google Desktop Search (recherche sur les fichiers Word, Excel, Powerpoint, les e-mails) Autres : Lycos, Ask Jeeves, HotBot … Diversification, spécialisation des outils : simplification des interfaces, perfectionnements des options de recherche, intégration du TALN, spécialisation…. Développer idée de coupure public/privé, risques du positionnement payant... URFIST Rennes 2004

3/ Evolutions économiques Concurrence des outils : taille d’index, services … Concentration du marché (Yahoo) / fragilisation Passage du tout gratuit au payant « Marchandisation » croissante de la recherche d’information bannières publicitaires sur les outils soumissionnement payant des sites : Nomade, Voila, Alta Vista… mais retour de Yahoo au principe du référencement gratuit ! A voir positionnement payant dans les lots de résultats : présence en tête des résultats, avec ou sans signe distinctif « liens sponsorisés » : placés dans une zone distincte, « insertions contextuelles » URFIST Rennes 2004

3/ Evolutions économiques Vente de mots-clés : pour le positionnement payant, système de vente aux enchères de mots-clés, par sociétés spécialisées (Overture, Espotting) sites classés selon système de mise aux enchères des mots-clés : site ayant eu plus forte enchère classés en tête achat des mots-clés : par CPM (coût pour mille affichages) : nombre d ’affichages de liens, cliqués ou non par CPC (coût par clic) : paiement au clic, a largement remplacé le CPM URFIST Rennes 2004

4/ Panorama des évolutions technologiques des moteurs et métamoteurs Définition : outil automatisé d’indexation et de recherche des ressources du web Fonctionnement : 3 modules autonomes : robot collecteur : collecte des données module d’indexation : base de données du moteur module de requête : gestion des requêtes et des résultats principes communs entre les moteurs parfois utilisation commune du même robot mais nombreuses spécificités URFIST Rennes 2004

4/ Panorama des évolutions… : problèmes posés aux moteurs de recherche Le « web opaque » : récupération des pages "orphelines" difficulté de récupération des pages liées à une indexation partielle Le « web privé » : pages interdisant le référencement par les moteurs (fichier robots.txt) Le « web propriétaire » : pages à accès contrôlé (par logon), non collectées (plateforme Phare) Le « vrai web invisible » : prise en compte de formats autres que html (ex : base Mémofiches) prise en compte de protocoles internet autres que celui du web difficultés d'indexation face aux frames, scripts, technologies propriétaires comme Flash, etc. difficultés de recherche sur les pages dynamiques (.asp, php…)  pas d'exhaustivité des outils de recherche - développer notion de web invisible, et difficultés dans la distinction entre web visible et invisible URFIST Rennes 2004

4/ Panorama des évolutions technologiques Interfaces de recherche simplification, aide Fonctionnalités de recherche Possibilités de filtrage Enrichissement des requêtes Collecte des données Élargissements de la collecte Indexation des données : traitements linguistiques Indexation sémantique URFIST Rennes 2004

4/ Panorama des évolutions technologiques Présentation des résultats : Cartographie Moteur parlant… Personnalisation : Profils de requête Sauvegarde, partage des résultats… Classement des résultats: Indice de popularité Clusterisation (rangement des liens en dossiers thématiques), catégorisation… Traitement des résultats : Résumés automatiques « Géolocalisation » URFIST Rennes 2004

5/ La collecte des données : fonctionnement Principes du robot collecteur Partage du même robot par plusieurs outils Modalités d’exploration du web : exploration initiale : soumission manuelle par les webmestres, référencement payant sélection des meilleurs sites explorations aléatoires parcours des liens : en largeur en profondeur Parcours des liens : - en largeur : ts les liens de même niveau hiérarchique - en profondeur : liens d ’une branche particulière URFIST Rennes 2004

6/ L’indexation des données : 6.1 Fonctionnement, évolutions... Principes : base de données : index principal et fichiers inverses index : « cœur » du moteur de recherche 4 éléments pour l ’indexation : taille de l’index objets de l’indexation nature des ressources indexées méthodes de traitement des données URFIST Rennes 2004

6/ L’indexation des données : 6.1 Fonctionnement, évolutions... Taille de l’index : Nombre de pages indexées « course à l’index le plus grand » : Google : passage brusque à un index de 8 milliards de pages Yahoo Search Technology : 4 milliards Exalead : un milliard de pages Objets de l ’indexation : quels champs indexés ? titre, URL, métadonnées, frames… Différences entre moteurs. Nature des ressources : développement de l’indexation des documents images, sonores... * Sur la taille de l ’index : - rappel de situation en 95 avec Alta Vista - montrer tableau sur support HTML ? * Sur les objets de l ’indexation : - pb des métadonnées (présentes sur 40 % des pages web francophone) ; méfiance actuelle des outils (spamming) mais évolutions avec normalisation des métadonnées (Dublin Core) * Sur la nature des ressources : - indexation du texte descriptif des images (URL, titre…) ; plus de 400 millions d ’images sur Google ; - travaux de recherche sur l ’indexation du contenu visuel... URFIST Rennes 2004

6.2 L’indexation : Les techniques de traitement linguistique TAL (Traitement Automatique des Langues) : au fondement de l’indexation automatisée Différences indexation manuelle / indexation automatisée : indexation documentaire manuelle : les concepts indexation automatisée : les mots, texte intégral Méthodes de TAL : issues de travaux et de problématiques différents de ceux de la RI ; traitement en « local », pour l’analyse de corpus de textes… * Rappel de complexité du langage naturel et des difficultés de la recherche d ’information : > montrer tableau HTML sur les pièges du langage naturel * Origines du TAL : communauté d ’informaticiens, linguistes ; revue TAL - convergences entre la RI et le TAL assez limitées au départ : extraction d ’information, résumé automatique, systèmes de questions-réponses ; depuis qqs années, essor de travaux, de recherches sur les applications du TAL à la RI URFIST Rennes 2004

6.2 L’indexation : Les techniques de traitement linguistique Evolution majeure des moteurs de recherche : intégration des techniques du TAL, notamment dans la gestion des requêtes Différents types de traitements linguistiques Présence des méthodes de TAL à la fois dans les modules d’indexation et de requête : différences difficiles à établir Enjeu majeur de développement de la RI : quelles techniques de TAL pour l’indexation, notamment avec le web sémantique ? - intégration du TAL : processus long, complexe vu taille et défis du web ; mais enjeu essentiel pour les outils. * Méthodes de TAL concernent plutôt modules de requêtes URFIST Rennes 2004

6.4 Indexation : Méthodes de traitement statistique Principale méthode d’indexation sur le web : traitement statistique des mots (pour l’estimation de pertinence) Problème : localisation des traitements statistiques dans le module d’indexation (sur la base de données) ? Ou dans le module de requêtes (sur les lots de résultats) (cf plus loin) ? > les deux à la fois ; identification difficile des méthodes statistiques utilisées * généralisation du traitement statistique, dans tous les moteurs ; mais +- important URFIST Rennes 2004

7/ La gestion des requêtes et des résultats Généralités : partie visible du moteur de recherche ; trois grandes fonctions : gestion des requêtes : fonctions de recherche en mode simple et avancé, différentes options de filtrage, affinement... gestion des résultats : catégorisation, classement, question des critères de pertinence … gestion de la présentation des résultats : linéaire, graphique * Innovations les plus nombreuses, les plus diverses sur cette partie des moteurs : recherches constantes d ’améliorations, d ’inovations, des outils, pour fidéliser les internautes - nb très élevé de fonctionnalités, de possibilités de recherche que publication récente d ’un livre uniquement consacré à Google « 100 trucs et astuces » URFIST Rennes 2004

7/ Gestion des requêtes : 7.1 Fonctionnalités de recherche Simplification des procédures, éclatement des formulaires diversification des options de recherche en mode simple et avancé ; 4 types d’options : linguistiques, recherche booléenne, filtrage, affinement options linguistiques : > innovations : requêtes en langage naturel, correction orthographique, lemmatisation... options de recherche booléenne : > innovations : généralisation du ET implicite, utilisation (encore rare) de l’opérateur de proximité * Voir stage « ApprofMoteurs » : la comparaison des fonctionnalités - distinguer fonctionnalités courantes et plus rares : URFIST Rennes 2004

7.2 Développement des technologies de filtrage Innovation majeure et la plus répandue : nombreuses possibilités de filtrage géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum, messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : nombreuses options des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche (Alta Vista) du contenu : filtrage « parental » (Alta Vista)  Faire démo de requêtes sur les différents champs URFIST Rennes 2004

7.3 Les fonctionnalités d’affinement des requêtes possibilité d’affiner une requête à partir d’un premier lot de résultats reposent sur plusieurs techniques, +- spécifiques aux moteurs ; différents niveaux d ’affinement : affinement « simple » : restriction de la recherche à un lot de résultats, à un site... affinement/extension : propositions de pages similaires (similar pages) techniques de classification automatique (cf plus loin) URFIST Rennes 2004

8/ Méthodes de classement des résultats : autre typologie Méthodes de classement fondées sur le contenu des documents : indice de pertinence classifications automatiques Méthodes de classement fondées sur l’infrastructure hypertextuelle du web : exploitation des liens des auteurs / éditeurs de sites web : indice de popularité de Google, navigation dans les résultats exploitation des activités des utilisateurs : mesure d’audience, mesure des parcours A noter : opacité des règles de classement des moteurs de recherche : règles très sophistiquées, difficiles à déchiffrer, propres à chaque moteur ; règles confidentielles, notamment sur Google > précaution contre le spamdexing URFIST Rennes 2004

8.1 Classement des résultats : indice de pertinence Principes : classement fondé sur la fréquence d’apparition et la localisation des termes de la requête dans une page web (cf. réponses dans BCDI) attribution d’une valeur aux pages indexées : absolue : indépendante des requêtes (module d ’index) relative : dépendante des recherches (module de requête) affichage des résultats à partir du calcul d’un score pour chaque réponse Utilisation : première méthode de classement utilisée sur le web, la plus répandue ; Problèmes : détournement par le spamdexing URFIST Rennes 2004

8.1 Classement des résultats : indice de pertinence Critères d’estimation automatique de pertinence : pondération : calcul du « poids » d’un mot selon : sa position sur la page : « poids » plus important dans le titre, en début de texte, en majuscules... sa fréquence dans la base : calcul des occurrences du mot dans la base d’index ; mots rares favorisés, mots fréquents sous-évalués, mots-vides éliminés... sa densité : calcul des occurrences du mot par rapport à la taille du document ; poids supérieur pour les documents plus petits similarité : appariement entre mots de la requête et du document URFIST Rennes 2004

8.2 Classement des résultats : indice de popularité Principes, origines : Utilisation de la nature hypertextuelle du web : prise en compte des liens entre sites, considérés comme des liens de parenté sémantique calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site principes scientométriques, pratiques de citation entre articles Utilisation : indice de popularité lancé par Google en 98 originalité et succès de Google et de son PageRank Projet Clever, Teoma - Démo sur Google avec la requête bibliothèque > BNF URFIST Rennes 2004

8.2 Classement des résultats : indice de popularité Critères de calcul de popularité : classement des pages par combinaison de plusieurs facteurs ; deux niveaux de pondération : 1ère pondération plus forte : des « pages pivots » : listes de liens, sélections de ressources… des « pages de référence » : pages recevant de nombreux liens 2ème pondération plus forte : des pages de référence fréquemment citées par pages pivots Exemple de pondération : un lien de Yahoo ou d ’un autre annuaire vers une page web donnera plus de poids à cette page que des liens venant de pages personnelles URFIST Rennes 2004

8.2 Classement des résultats : indice de popularité Avantages de l ’indice de popularité : renforcement de la pertinence élimination du spamming Problèmes et limites : renforcement de la notoriété : « effet Saint-Matthieu » (favorise les sites jouissant déjà d’une certaine notoriété) problème des sites peu connus, des ressources nouvelles... problème des liens artificiels, pas toujours éliminés : exemple de requêtes sur Google sur la psychiatrie Nouvelles pratiques de spamdexing URFIST Rennes 2004

8.3 Classement… : classification automatique des résultats Concerne à la fois les technologies d’affinement des requêtes et le classement des résultats Technologies les plus complexes ; domaine des innovations les plus importantes des moteurs : cf Exalead Principes : organisation d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête répartition des objets dans des classes deux méthodes : classifications a priori classification a posteriori URFIST Rennes 2004

8.3 Classement… : classification automatique des résultats Principes : classement des informations par sujets > traitement sémantique modélisation des domaines de connaissance automatisation du classement des informations enjeu essentiel : mise en ordre du « chaos informationnel » URFIST Rennes 2004

8.3 Classement… : classification automatique des résultats Classification a priori : « classification par apprentissage supervisé » : classement des éléments dans des classes préétablies ; problème de l ’élaboration et du suivi des classes exemple : Voilà et ses domaines prédéfinis (sports, arts..) principe des annuaires, avec classification préétablie Principe simple du classement selon une classification a priori : ex. d ’un lot de livres, classés selon un plan de classement pré-établi, par ex. la Classification CDU ou Dewey. Dans la RII, classement automatique des résultats d ’une requête selon des domaines prédéfinis URFIST Rennes 2004

8.3 Classement… : classification automatique des résultats Classification a posteriori : « classification par apprentissage non supervisé », « clustering » : regroupement des résultats par comparaison sur la base de similarités trouvées dans les documents analyse des caractéristiques statistiques, linguistiques, sémantiques du corpus processus automatisé : création de groupes répartition des documents dans les groupes et attribution d ’un nom à la classe tri par pertinence au sein des groupes Analogie du classement a posteriori avec le classement du même lot de livres : au lieu de les classer selon un plan de classement, détermination des thèmes traités et classement des livres entre eux, par comparaison de leurs thèmes > classement fondé sur les caractéristiques mêmes d’un corpus d ’information URFIST Rennes 2004

8.3 Classement… : classification automatique des résultats Classification a posteriori (suite) : Intérêt pour la recherche : aide à la sélection d’un mot-résultat aide à l’élimination des corrélations inintéressantes, évidentes ou connues suggestion d’idées et de pistes nouvelles Complémentarité avec les techniques de représentation graphique de l’information exemples : Exalead, Vivisimo, AllTheWeb Démo. sur Exalead, avec requêtes sur le chômage des jeunes, le web sémantique, les OGM URFIST Rennes 2004

8.4 Traitement des résultats : la « géolocalisation » Innovation récente : Sur Yahoo, Google (USA), FindWhat… Principes : Identification de l’emplacement géographique de l’internaute Fourniture de résultats, de services locaux, proches de lui : Liste d’adresses proches (hôtels, professionnels…) Visualisation des résultats sur une carte Itinéraires routiers Enjeux financiers importants : Lutte pour les marchés locaux des annonceurs URFIST Rennes 2004

9/ Présentation et traitement des résultats Evolutions dans la présentation des résultats : deux modèles : listes cartographies Enrichissement de la structure et du contenu des listes : structure des pages : identification plus claire des différentes parties (rappel de requête, liste des résultats « naturels » et liens sponsorisés…) représentation des documents : enrichissement de la description (titre, catégorie, taille du fichier, date, extrait ou résumé, pages en cache…) > cf Google URFIST Rennes 2004

9.1 Présentation graphique des résultats Principale innovation dans la présentation : utilisation des techniques de cartographie de l ’information Technologie ancienne (veille) mais difficile à mettre en œuvre sur Internet ; ressources techniques importantes Pionniers : les métamoteurs : Kartoo, MapStan, Vivisimo Principes : présentation des résultats sous forme de carte de nœuds et de liens : nœuds = documents liens = relations entre documents représentation en réseau de sphères (Kartoo), en « plans de quartiers » avec places et rues (Mapstan), en arborescence (Vivisimo) URFIST Rennes 2004

9.1 Présentation graphique des résultats Valeur des nœuds : document (Kartoo) : taille variable selon degré de pertinence ensemble de documents (cluster) sur Mapstan Valeur des liens : liens sémantiques, de similarité des thèmes Intérêt : vision synthétique des résultats mise en évidence des relations entre sites URFIST Rennes 2004

9.2. Présentation des résultats : évolutions récentes La « lecture » orale des résultats : Cf le « moteur qui parle » Speegle (lancé par la société écossaise CEC Systems) Speegle utilise la catalogue web de Google + 1 logiciel de reconnaissance vocale pour lire les notices. 3 formats pour la lecture : méta-titre et méta-description url et méta-description url, méta-titre et méta-description comprend aussi un catalogue d’actualités URFIST Rennes 2004

9.3 Synthèse des présentations de résultats (d ’après S. Dalbin) Mots-clés, listes de référence : Indicateurs de contenu d ’un document Regroupement de références : Indicateurs de thèmes Cartes : Indicateur du positionnement des documents par rapport aux autres par rapports aux thèmes URFIST Rennes 2004

9.5 Traitement des résultats : extraits et résumés automatiques Extraits automatiques : présentation d’un extrait d’un document sur les pages de résultats (Exalead) correspond soit aux mots recherchés, soit aux premières lignes du document > pas de véritable « résumé », car pas de reformulation Résumés automatiques : Développement encore limité des technologies de résumé automatique sur le web : système Pertinence extraction d’une liste de phrases représentant idées essentielles d ’un texte techniques d’analyse de discours, système de marqueurs linguistiques, affectation d’une valeur aux tournures linguistiques URFIST Rennes 2004

10. Personnalisation 10.1 Des interfaces Tendance lourde de la recherche d’information Personnalisation des interfaces proposées par les outils : barre d’outils téléchargeable et personnalisable (Google, HotBot, Voilà, Mapstan…) extension du formulaire de requête (Alta Vista) services d ’aide à la recherche URFIST Rennes 2004

10. Personnalisation 10.2 De la recherche et des résultats Plusieurs fonctionnalités de personnalisation des requêtes : systèmes d ’alerte et de veille (Alta Vista, Kartoo…) Google Alert : alerte des changements dans les pages de résultats pour des mots-clés favoris exploitation des résultats : envoi, sauvegarde, classement dans des catégories, annotations… (AskJeeves, My Yahoo Search…) historique des recherches prise en compte des préférences de l’internaute, mémorisation et utilisations des requêtes précédentes (Ujiko, Eurekster…) URFIST Rennes 2004

12/ Autres évolutions de la recherche d ’information : le web sémantique Evolution du côté de la structuration et de l’indexation de l’information : travaux du web sémantique, généralisation de XML, des métadonnées… > mutations peut-être les plus profondes, conditionnant toutes les autres touchent à la structuration du document numérique URFIST Rennes 2004

12.1 Evolutions à venir : le web sémantique Définition du « Semantic Web » : chantier de recherche du W3C Constat des insuffisances du web actuel : absence de description et d’indexation des ressources, etc hétérogénéité des formats… pas de structure explicite du web Objectifs : meilleure structuration du web, exploitation sémantique de la nature du web... Explications sur le W3C> montrer doct HTML Sur les limites du web : exemple d ’une requête : « un livre sur Jean-Paul Sartre » > avec moteurs, élimination du mot « sur » et proposition de références de livres de Sartre, ou de sites sur les livres de Sartre URFIST Rennes 2004

12.1 Evolutions à venir : le web sémantique Projet du Web sémantique (d’après P. Laublet) : « Introduction d’une « couche » sémantique permettant : la description des ressources La description des contenus (métadonnées) La structuration des ressources, avec un certain niveau de formalisation > permettre la recherche d’informations à partir des concepts, des notions, et non plus de simples chaînes de caractères (mots-clés) Web sémantique = (ré) introduction des problématiques documentaires de catalogage (avec les métadonnées) et d’indexation (avec les ontologies), MAIS : de manière totalement automatisée sur les connaissances et plus seulement sur les documents URFIST Rennes 2004

12.1 Evolutions à venir : le web sémantique Principes et outils du web sémantique : quadruple normalisation nécessaire, quatre directions de recherche : identification des ressources numériques : le DOI description des ressources : systèmes de métadonnées structuration des documents numériques : XML indexation des ressources : langages de description, thésaurus, ontologies, classifications… principe fondamental du web sémantique : séparation du contenu des documents de l’organisation de ce contenu URFIST Rennes 2004

12. Evolutions : 12.2. Les métadonnées Ancienneté du principe : catalogage Données à propos d’autres données informations pour la description des ressources ; enjeu important pour l ’indexation et la recherche Resource Description Framework (préconisation du W3C). Diversité des formats, standards, normes de métadonnées URFIST Rennes 2004

12.2 Evolutions : Les métadonnées Quels apports des métadonnées ? Structures plus stables que HTML amélioration des performances des moteurs de recherche exemple d ’application : utilisation des métadonnées par Google dans le cadre de son projet avec les universités américaines et le MIT. description plus fine des contenus et des relations entre documents facilitation du classement des contenus meilleure visibilité des droits de propriété intellectuelle information sur la gestion du document partage des informations plus facile URFIST Rennes 2004

12.2 Les métadonnées : le LOM LOM (Learning Object Metadata ) : Pour les productions sur les web liées aux objets d’apprentissage : Métadonnées sur les objets d'apprentissage Norme permettant de décrire les objets d'enseignement. A partir des métadonnées du Dublin Core en les détaillant davantage : structure de l'objet (structure, niveau d'agrégation), gestion de versions (version, état), gestion plus fine des contributeurs (rôle), description fine des métadonnées utilisées, description de l'implémentation technique au-delà du format : taille, localisation, prérequis techniques, gestion plus fine des droits ( gestion plus fine du sujet (par mots-clés ou classification) : type et niveau d'interactivité, type de ressource : « densité sémantique », type d'utilisateur : Le document LOM va probablement être repris par l'ISO. Si l'on souhaite faire de la veille sur les métadonnées et le web sémantique, l'IEEE est l'institut dont il faut suivre les travaux. URFIST Rennes 2004

12.4 Quelles conséquences du web sémantique… sur la documentation ? Une menace ? Vers l’automatisation complète de la recherche d’information? Une chance ? Travail en profondeur dans la « trame » des documents, notion de « granularité » de l’information Possibilités inédites de recherche intelligente sur le contenu Une revanche ? Généralisation des concepts documentaires : organisation documentaire du web. URFIST Rennes 2004

MERCI DE VOTRE ATTENTION ! URFIST Rennes 2004