La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sélectionner et partager linformation en ligne Recherche stratégique et mutualisation Béatrice Micheau FIL 2006.

Présentations similaires


Présentation au sujet: "Sélectionner et partager linformation en ligne Recherche stratégique et mutualisation Béatrice Micheau FIL 2006."— Transcription de la présentation:

1 Sélectionner et partager linformation en ligne Recherche stratégique et mutualisation Béatrice Micheau FIL 2006

2 Introduction Outils de recherche et de partage de linformation Dispositif technique Media ? (textes lisibles, communication, action)

3 Introduction Contre une approche procédurale 1. Lecture et compréhension dune information visuelle (écran) 2. Émetteur caractérisé par des intentions, des rôles, des moyens (moteurs, annuaires, web 2.0) 3. Objets, opérations et connaissances techniques + texte technologie 4. Recherche dinformation recherche de documents notion de discours (thème, forme, relation source)

4 Introduction Evaluer les outils : indexation / interrogation Construire des stratégies de recherche : indices, traces, signes Economiser : Veiller, partager

5 Première partie : Le réseau et la toile ; Internet et le web

6 1.1. Internet : un réseau de communication 1.1.1. Fonctionnement décentralisé dInternet Réseau mondialisé Système dadressage global Protocoles de communication Protocole TCP/IP

7 1.1. Internet : un réseau de communication Sur Internet, les protocoles utilisés font partie d'une suite de protocoles, c'est-à-dire un ensemble de protocoles reliés entre eux. Cette suite de protocole s'appelle TCP/IP.

8 1.1. Internet : un réseau de communication La circulation des données sur le réseau entre les ordinateurs nécessitent des règles de fonctionnement « le mot protocole désigne en général les messages échangés entre deux machines. L'intérêt d'un protocole est de définir des méthodes d'échange d'information, indépendantes des matériels. Ainsi, une fois le protocole défini, chaque terminal, ou client ou serveur implémente ce protocole sans se soucier des autres ordinateurs. » (grappa Lille3, Gilles Maire) (grappa Lille3, Gilles Maire)

9 1.1. Internet : un réseau de communication TCP/IP : « Transmission Control Protocol/Internet Protocol » Cette suite de protocoles permet : De fractionner les messages en paquet Lutilisation dun système dadresses : adressage IP Lacheminement des données sur le réseau Le contrôle des erreurs de transmission de données.

10 1.1. Internet : un réseau de communication 1.1.2. Le développement des protocoles 1971-1972 Le courrier électronique Premier programme pour la réception et lenvoi de courrier électronique : SNDMSG et READMAIL. @ Premier programme de gestion des courriers (écrire, répondre, enregistrer, classer)

11 1.1. Internet : un réseau de communication Le protocole SMTP (Simple Mail Transfer Protocol, traduisez Protocole Simple de Transfert de Courrier) est le protocole standard permettant de transférer le courrier d'un serveur à un autre. Courrier électronique : 75 % du trafic en 1973

12 1.1. Internet : un réseau de communication 1974 TCP/IP Machine différente mais communiquant avec la même technique de commutation de paquets « charte » : suites de protocoles TCP/IP (de 4 à 40, US GB et Norvège) Amélioration de NCP : Network Control Protocol Prise en charge Ethernet et Telnet 1983 adoption définitive du TCP/IP

13 1.1. Internet : un réseau de communication Le FTP (File Transfer Protocol) permettant de gérer le transfert des fichiers (1973) Le Telnet qui permet dinterroger un ordinateur distant donc dautres protocoles de la suite sappuient sur Telnet (1974) Le Usenet gérant les groupes de discussion en 1979

14 1.1. Internet : un réseau de communication LInternet Relay Chat (IRC) permettant la communication en temps réel en se connectant grâce à un logiciel spécifique (client) à un serveur 1988 Le protocole HTTP (Hypertext Transfer Protocol) qui gère laccès au Web 1989 (Tim Berners-Lee) Le Peer-to-Peer permettant léchange de données direct. 2000

15 1.1. Internet : un réseau de communication 1.1.3. Définition du protocole http Le but du protocole HTTP est de permettre un transfert de fichiers (essentiellement au format HTML) localisés grâce à une chaîne de caractères appelée URL entre un navigateur (le client) et un serveur Web

16 1.1. Internet : un réseau de communication Schéma du protocole HTTP

17 1.1. Internet : un réseau de communication 1.1.4. Ladresse URL Un URL (Uniform Resource Locator) est un format de nommage universel pour désigner une ressource sur Internet. Il s'agit d'une chaîne de caractères en cinq parties. Le nom du protocole Identifiant et mot de passe Nom du serveur Numéro de port Le chemin daccès à la ressource

18 1.1. Internet : un réseau de communication 1.1.5. Les noms de domaine Un nom de domaine permet de situer un serveur sur Internet simplifier lutilisation de linternet un nom et une extension ou suffixe ou encore racine et domaine de tête (top level domaine)

19 1.1. Internet : un réseau de communication Des règles peu claires : Extensions réservées (.gouv,.mil,.edu) Charte dattribution; de nommage (ICANN/AFNIC/registrar) Le premier servi Les extensions nationales correspondent au code ISO 3166 à deux lettres

20 1.1. Internet : un réseau de communication Conclusion : Fonctionnalités du navigateur URL et unité documentaire Le site Web ou la page : granularité Usages en établissement scolaire

21 1.2. Le web : une toile Appellation la plus courante de World Wide Web : système d'information multimédia, basé sur des liens hypertextes et permettant de naviguer d'un site à un autre sur internet. (glossaire Université de Nice) Le web nest pas un espace documentaire: auto-publication

22 1.2. Le web : une toile 1.2.1 La taille du web Google déclare indexer plus de 8 milliards de page Pas détudes récentes : univers en expansion Une impossibilité de dénombrement : pages en construction, pages ignorées …pages détruites. Labilité, variabilité du web

23 1.2. Le web : une toile 1.2.2. Structure du WEB Les liens hypertextes Cartographier le web

24 1.2. Le web : une toile Le nœud papillon (hypertexte) La zone SCC (strongly connected component) La zone IN La zone OUT (Andrew Tomkins et Ravi Kumar)

25 1.2. Le web : une toile

26 Des composants isolés Les tubes Les vrilles Relativiser et sattacher aux thèmes/cohérence linguistique: fil dariane

27 1.2. Le web : une toile 1.2.3. Hétérogénéité des sites web (modes de publication) Web statique Web dynamique Langages de scripts : PHP, ASP

28 1.2. Le web : une toile 1.2.4. Le html Sa structure de base : langage de balises Lien hypertexte et insertion de fichiers Les métadonnées : keywords, author, description

29 1.2. Le web : une toile Conclusion Hypertextualité et fil dariane Sites pivots Mémoire et archivage Réseaux techniques, réseaux humains

30 Deuxième partie : Stratégie de recherche en ligne

31 Introduction Deux grands types d'outils Les outils d'indexation automatique : moteurs et métamoteurs Les outils de traitement humain des ressources web : annuaires, portails, répertoires et signets

32 Introduction Deux situations : Chercher un document ou une ressource que l'on sait existant (indices). Répondre à un besoin d'information : incertitude, pertinence, démarche de recherche complexe, investigation, fil d'ariane, signaux forts et signaux faibles, suivre les traces...

33 Introduction Evaluer ce que peut amener chaque outil. Utiliser des outils différents pour une même recherche, pouvoir trouver de nouveaux outils. Construire une stratégie de recherche.

34 Bibliographie Bibliographie /sitographie : INRIA. La recherche d'information sur les réseaux. Paris : ADBS, 2002. LARDY, Jean-Pierre. Recherche d'information sur Internet : méthodes et outils. Paris : ADBS, 2001 Blog Outils Froids et Blogokat Fing / IntertActu Articles Olivier Ertzscheid Netsources Revue Bases Formist Urfist

35 2.1. Les outils d'indexation automatique (typologie traditionnelle liée à la couverture des ressources) Les moteurs de recherche : Moteurs de recherche généraliste Moteurs de recherche spécialisés Les métamoteurs : Les métamoteurs hors ligne Les métamoteurs en ligne

36 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Définition d'un moteur (Urfist de Rennes) « Instrument automatisé de recherche d'information, fondé sur un recensement des sites, sur la mémorisation partielle ou intégrale de leur contenu et la construction d'un index, enfin sur l'élaboration de procédures d'accès à l'information par le biais d'une interface de recherche par mots clés (simple / avancée). »

37 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Les trois éléments constitutifs d'un moteur Un robot qui explore et collecte les ressources Un module d'indexation Un gestionnaire de requête

38 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Le robot de collecte ou spider ou crawler

39 2.1.1. Le robot Suivre les liens hypertextes Crawling incrémental

40 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Le module d'indexation et linterrogation

41 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs L'indexation des pages web est confrontée à hétérogénéité Homonymie, synonymie Multiplicité des espaces dinformation coexistence contenus statiques/dynamiques le cas des weblogs et des sites XML

42 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs L' interface d'interrogation/ le gestionniare de requête : Public cible, portail, services, économie des moteurs de recherche. Modules de requête (recherche avancée, lien avec indexation). Liste de résultats (lien avec indexation : classement des réponses...la pertinence/la pertinence du moteur). Présentation des résultats.

43 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs La notion de pertinence documentaire Définition : Degré de corrélation entre une question et la réponse apportée Bruit et Silence Taux de rappel (recall ration) : proportion de documents pertinents retrouvés par rapport à l'ensemble des documents pertinents de la base documentaire. Définit le taux de silence documentaire. Taux de précision (precision ratio) : proportion de documents pertinents par rapport à l'ensemble des documents récupérés. Définit le taux de bruit documentaire.

44 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs La pertinence pour les outils d'indexation automatique Le Web n'est pas un système ni un espace documentaire. Le silence n'existe guère. Comprendre pertinence des moteurs de recherche. Approcher d'une pertinence par rapport à un besoin d'information.

45 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Pertinence des moteurs de recherche = mode de tri/de classement des réponses Techniques d'indexation utilisées. Les critères de classement des réponses : le tri par pertinence, le tri par popularité, le tri par catégories (outils statistiques sémantiques).

46 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Le tri par pertinence : 5 critères la place du mot dans le document : le poids du mot est plus important s'il est situé dans le titre et le début du texte, ou si le mot est en majuscules. la fréquence d'occurrence dans un document par rapport à la taille du document. le poids d'un mot dans l'ensemble de la base (mots peu fréquents favorisés, mots vides sous-évalués ou éliminés). la correspondance d'expression : la similarité entre l'expression de la question et l'expression correspondante dans le document donne le poids le plus grand. la proximité des termes de la requête entre eux dans le document : à une plus grande proximité correspond un poids plus important.

47 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Les critères de popularité Co-citation et pagerank (google) Le Directhit (hotbot)

48 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Les outils de regroupements sémantiques Regroupements non hiérarchisés (Alltheweb, Ask, Exalead, boolgum ?, AOL ?). Regroupements hierarchisés ou clusters (centralité et co-occurence). Ex : Vivisimo. Une autre typologie des moteurs.

49 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Répondre au besoin d'information : La pertinence pour l'automate La pertinence pour l'utilisateur : pertinence de la requête, pertinence de la présentation des résultats, pertinence de contenu ou pertinence thème (liens avec outils sémantiques, cohérence de la langue) Dilemne : étendre la surface et offrir une cohérence en pouvant spécialiser/préciser

50 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs La formulation des requêtes : Les fonctions de recherche en mode simple Les fonctions de recherche en mode avancée Organisation de l'interface et modules spécifiques Environnement du moteur (couplage des outils : exemple caractéristique de Yahoo)

51 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Les fonctions de recherche en mode simple Règles générales de formulation d'une requête Un mot est une chaîne de caractères (pluriel). Guillemets pour caractériser les mots composés. Vérifier prise en compte de la casse. Les opérateurs boléens (AND, OR, NOT, NEAR). La troncature ou lemmatisation * (très rare). Recherche par champs liés à la structure html : url, title...

52 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Les fonctions de recherche en mode avancée Aider à formuler la requête Liste des champs et préfixes de recherche Format de fichier (PDF (Portable Document Format) DOC (fichiers Word) PPT (Power Point) XLS (Excel) TXT (Texte) RTF (Rich Text Format) PS (Post Script) FLASH GIF JPG Autres) Langues Emplacement (nom de domaine, hôte cf.URL) Dates Filtre et personnalisation Domaines de recherche (url, nom de domaine, domaines définis) Renseignements sur les pages web (description, grandeur...)

53 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs Organisation de l'interface et modules spécifiques Web mondial Web francophone Web français Module d'images Forums Actualités Annuaire Weblogs (technorati) Outils linguistiques...

54 2.1. Les outils d'indexation automatique 2.1.1. Les moteurs La présentation des réponses -l'extrait avec mot-clef -la page cache -les pages similaires -l'image de la page (preview) -la présentation cartographique INTERPRETER LA LISTE DES RESULTATS

55 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible Le web invisible : les pages qui ne sont pas indexées Pages isolées Pages privées/interdites Pages qui ont changé de localisation Pages dynamiques

56 ©Armelle Thomas - Septembre 200456 Dispersion et hétérogénéité hétérogénéité renouvellement perpétuel Granularité des contenus Instabilité des localisations Fragmentation plus ou moins importante, selon les disciplines Multilinguisme et couverture géographique mondiale Information gratuite et payante (tendance à la valeur ajoutée payante). 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible

57 Dispersion et hétérogénéité hétérogénéité renouvellement perpétuel Granularité des contenus Instabilité des localisations Information gratuite et payante (tendance à la valeur ajoutée payante). Hétérogénéité : langues, lisibilité, disciplines…

58 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible bruit Mais le silence : Indexation moteur (quantité et qualité) Capacités interrogation et consultation

59 Bdd « à interface web » Connexion Quels scripts, quels langages, quelles passerelles ? Bases de données ? Bases de données relationnelles propriétaires (Oracle, File Maker, etc..) Php / My SQL Logiciels documentaires (Ever, Alexandrie, etc..) Catalogues de bibliothèques (Z 3950) … groupwares 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible

60 Une définition complète du web invisible (adbs) Cest lensemble des pages non localisables et/ou non indexables par les outils classiques de recherche du web. Il correspond à plusieurs types de ressources

61 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible Un fabuleux volume dinformations Web visible 3 à 10 % du web total ; létude de Bright Planet (2000) parle de 350.000 bases de données disponibles représentant 550 milliards de pages et 500 fois la surface du web visible.

62 2.1.Les outils d'indexation automatique 2.1.2. Le web invisible Le web invisible croissance exponentielle Le web invisible contient des ressources de qualité supérieure au web visible

63 2.1.Les outils d'indexation automatique 2.1.3. Les métamoteurs Augmenter la pertinence de contenu : Toucher une plus grande surface : les métamoteurs, mieux et/ou plus indexer ; Se spécialiser : modules spécifiques, cohérence sémantique (outils statistiques), moteurs spécialisés

64 2.1.Les outils d'indexation automatique 2.1.3. Les métamoteurs Les métamoteurs Liste paramétrable. Spécifier des requêtes complexes ? Dilution de la pertinence. Outils « intelligents »(clusters et résumés automatiques). Présentation des résultats (Kartoo).

65 2.1.Les outils d'indexation automatique 2.1.3. Les métamoteurs Les métamoteurs hors ligne ou client : des agents de veille Présentation cartographique Présentation textuelle :Copernic (version gartuite), DigOut4U(cédérom) Les métamoteurs en ligne Metacrawler Kartoo (cartographie) Ixquick (puissance) Vivisimo(clusters)

66 2.1.Les outils d'indexation automatique 2.1.3. Les métamoteurs Searchengine colossus http://www.searchenginecolossus.com/ Moteurs de recherche régionaux sur Abondance Moteurs francophones sur DSI.

67 2.1.Les outils d'indexation automatique Conclusion Sérendipité Indices /indexation /interrogation Entre langages et réseaux

68 2.2.Traitement documentaire des ressources web De l'annuaire aux répertoires, signets et bibliothèques du Web : Sortir de la polysémie, de l'homonymie. Référencer le web invisible. Logique de pertinence de contenu. Sélection des ressources. Traitement documentaire des ressources : vers le qualitatif.

69 2.2.Traitement documentaire des ressources web Les annuaires généralistes : portail et services : le public, modèle économique arborescence : thèmes et systématisme option généraliste. Degré du traitement documentaire : classement, résumé, références, typologie des ressources... Grille : arborescence, critères de sélection, interface, traitement.

70 2.2.Traitement documentaire des ressources web Un annuaire collaboratif : le projet ODP Grille : arborescence, critères de sélection, interface, traitement Sortir de la logique commerciale Des experts ? NB : l'approche communautaire des ressources Web, l'Agora (une encyclopédie ou un répertoire ?)

71 2.2.Traitement documentaire des ressources web De l'annuaire au répertoire : choisir un modèle documentaire et l'adapter aux particularités des ressources Web L' exemple des répertoires académiques/institutionnelles Classement/ Classification Résumer /décrire un site web : indiquer/indexer le contenu ; spécifier le mode d'organisation des ressources.

72 Traitement documentaire des ressources web Les répertoires et signets La spécialisation : spécialisation de ressources, spécialisation usagers, spécialisation ressources et usagers L'approche qualitative Traitement documentaire

73 2.2.Traitement documentaire des ressources web Le portail ou gateway Une ressource d'informations et/ou un outil de recherche Exemple du portail du Ministère de la Culture Repérer des portails : les experts, les annuaires, les moteurs de recherche

74 2.2.Traitement documentaire des ressources web Construire une collection de ressources web Les signets de la BPI : en ligne et hors ligne Les signets de la BNF : stabilité, qualité, répondre à des besoins, une typologie (Fournisseurs d'informations, Outils de recherche, Outils de référence, Base de données.../articulation avec origine) Renardus et Bibliothèque universitaire du web) Les signets de Bibliothèque (SCD, Bibliothèques publiques) Repérer les répertoires spécialisés :formatic 2000, educasource

75 2.2.Traitement documentaire des ressources web Les bases de données Ressources « primaires » : dictionnaires et encyclopédies (Agora, TLF, Wikipédia) Base de données donnant accès aux ressources primaires : bibliothèques numériques, base images, archives ouvertes Base de donnée donnant accès à des documents secondaires : catalogue de bibliothèques et de centres de documentation en ligne,

76 2.2.Traitement documentaire des ressources web Les bases de données : gratuit ou payant ? (Sinbad et DADI) Des accès et des ressources gratuites : le problème du droit Des accès gratuits limités (Pascal et Francis, INPI) Des accès gratuits et des ressources payantes Le cas des archives ouvertes ressources collaboratives/structuration du web Les sites professionnels : communautés de pratiques cf.wikipedia et 90-5-1

77 2.2.Traitement documentaire des ressources web Une grille d'évaluation : modes de recherche dans la base de données ressources primaires et/ou secondaires traitement documentaire des ressources présentation des résultats niveaux d'accès Formats d'accès et de travail

78 2.2.Traitement documentaire des ressources web Bibliothèques numériques et base-images : modes d'interrogation et/ou de circulation Agence photographique de la RMN Corbis Bases culturelles : l'ensemble patrimonial, Bibliothèques numériques Statuts différents

79 2.2.Traitement documentaire des ressources web Sélectionner et organiser des outils de recherche, des répertoires spécialisés. Veille et syndication. Pour nos usagers. Marier les outils.

80

81

82

83

84

85

86

87

88

89

90


Télécharger ppt "Sélectionner et partager linformation en ligne Recherche stratégique et mutualisation Béatrice Micheau FIL 2006."

Présentations similaires


Annonces Google