La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Formation des Doctorants

Présentations similaires


Présentation au sujet: "Formation des Doctorants"— Transcription de la présentation:

1 Formation des Doctorants 2013-2014
BU Droit Lettres" Documents numériques" avril 2014 Formation des Doctorants Module A1bis – mardi 3 juin 2014 REPERER LE WEB SCIENTIFIQUE : OUTILLAGE SID2 Service formation

2 Plan de l’intervention
Introduction Les moteurs de recherche : Principes de fonctionnement Typologie… et ZOOM sur Google Moteurs de recherche spécialisés en IST : Rappels : Internet, web, IST Google Scholar, BASE… Outils disciplinaires Autres outils : répertoires, réseaux sociaux… Conclusion SID2 BU Droit-Lettres

3 1. Moteurs de recherche : principes de fonctionnement et typologie
machine = spider, crawler… parcourt une partie du web ou d’internet copie les pages crée une base de données pour indexer les pages récupérées traite la demande et la réponse requêtes (critères, filtres, opérateurs, aide à la recherche ou pas) résultats classés (indice de pertinence, « page rank », positionnement payant…) et liens vers la page repérée L'étendue du Web est actuellement incommensurable. Jusqu’en 2005, les grandes entreprises du secteur annonçaient une augmentation de la taille de leur index. Mais le message est ambigu. Peut-on réellement faire une recherche crédible et fiable sur 50 milliards de pages, alors que la plupart des internautes ne consulteront que les 20 premiers résultats. Cependant, le Web ne contient pas toute l’information disponible au niveau mondial mais seulement celle que des personnes ont jugé utile de mettre en ligne. C’est la deuxième faille, bien connue des juristes, qui ne retrouvent pas en ligne tous les arrêts qu’ils cherchent. Les moteurs de recherche sont des logiciels qui permettent de consulter d’immenses bases de données constituées par des robots balayant automatiquement le Web et sautant de lien en lien. L’indexation est automatique et le repérage se base, en général, sur les titres des pages, leur contenu et les métadonnées associées. C’est pourquoi les moteurs donnent accès à une masse considérable d’informations qui ne sont pas toujours pertinentes. Les réponses selon les moteurs ne se recoupent pas : un petit moteur donne moins de réponses qu’un grand. Il existe ou il existait des métamoteurs. Exemples : Copernic Agent a été arrêté le 31 janvier 2014. SID2 BU Droit-Lettres

4 1. 1 Moteurs de recherche : principes de fonctionnement
Robots = limites… règles de fonctionnement ??? web visible écart entre taille du web / index (inconnu) majorité des pages au caractère commercial ou personnel ! Sites académiques minoritaires, donc noyés…. majorité du web repéré = langue dominante… quelle visibilité des langues non latines ? utilisateur tributaire du moteur pour tri et affichage des résultats Les robots ne cherchent que sur le web visible. Les intranets et les sites académiques commerciaux leur sont le plus souvent interdits. pas accès aux bases sur abonnement, et même gratuites Autre problème : majorité des pages du web proposent des informations commerciales ou personnelles. Les sites universitaires sont noyés : même si sites les plus riches en informations (ex : pour des rapports de recherche difficiles à trouver ailleurs), appartiennent souvent au web invisible…d'où risque de bruit à résoudre par une réelle stratégie de recherche et une syntaxe appropriée. Pas accès à des bases uniquement sur abonnement, même gratuit. Les chiffres avancés ici concernent uniquement le web indexable par les moteurs gratuits. Faire attention à ces statistiques, ceux qui les produisent, produisent aussi des documents sur le Web invisible, et ont donc intérêt à susciter des abonnements payants. Web invisible pour plusieurs raisons : pages de résultats générées au vol lors de la requête, d’autres sont rendues inaccessibles aux robots de collecte, d’autres sont trop « profondes » par rapport à la page d’accueil du site. Ecart entre la taille du web et celle des index (coûts énormes en puissance de logiciel et en maintenance pour arriver à suivre la croissance du web). Mise à jour des index exige délai (3 à 6 semaines). De moins en moins de sociétés sont capables de suivre l'expansion du Web. Exalead indiquait en septembre 2011 avoir un index de 16 milliards de pages. Moteur généraliste et intuitif comme Google peut donner l’illusion de l’autonomie. Mais : méconnaissance de ses règles de fonctionnement rend tributaire du moteur pour le tri et l’affichage des résultats. Recherche souvent basique, et consultation des résultats rarement au-delà de la 2e page (20 résultats). Notion de pertinence des résultats reste assez subjective. SID2 BU Droit-Lettres

5 1. 1 Moteurs de recherche : principes de fonctionnement
ancêtres : Archie 1990, Wanderer 1993 1er annuaire (avec des humains !) : Yahoo! 1er moteur (robot) : Altavista 1995 principes des moteurs : parcourent le web, constituent des index liés aux pages, gèrent une interface de recherche, génèrent une liste de résultats (+ liens vers les pages repérées) ne comprennent pas le besoin de l’usager mais seulement la commande informatique… Evolution vers le web de données / web sémantique: Dbpedia, databnf 1er annuaire (avec des humains !) : Yahoo! Puis Lycos, Excite.. 1er moteur (un robot) : Altavista 1995 (racheté par Yahoo!) Dbpedia travaille à la constitution d’une base à partir de l’extraction automatique de données structurées issues de Wikipedia. SID2 BU Droit-Lettres

6 SID2 BU Droit-Lettres

7 1. 2 Moteurs de recherche : typologie (1)
Moteurs généralistes Grand public Tout type d’information Moteurs spécialisés selon les ressources (blogs, forums, wiki…, ou les médias (vidéo, podcast, photos) selon la nature du contenu : IST, actualité, produits… Selon domaines thématiques; Ex : moteurs de calcul Worframalpha Métamoteurs (s’appuient sur d’autres) Ex Copernic Polymeta Yippy Évolution régulière ! Voir le site Abondance Métamoteurs interrogent en parallèle plusieurs outils (moteurs et annuaires), rapatrient les réponses, les organisent et proposent une présentation structurée des résultats (parfois cartographie) Il existe des moteurs de recherche généralistes ; ex : Google, Exalead et des moteurs spécialisés…  voir modes d’emploi proposés par le site Abondance : Les moteurs spécialisés : Selon type de ressources (blogs, médias, image ou wiki, forums, fils RSS…) Selon domaines thématiques selon nature du contenu (IST, actualité, personnes…) selon médias (photo, vidéo, podcast…) Les moteurs spécialisés en IST : Google scholar Scirus Base Isidore OAISTER Copernic vient d’être arrêté en janvier 2014, et Yippy est peu performant au contraire de Polymeta. SID2 BU Droit-Lettres

8 1. 2 Moteurs de recherche (2) Zoom sur Google
Sept 1998 : naissance Février 2004 : + de 4 milliards de pages Depuis 2010 : Ø communication ! milliers de serveurs pour stocker les index… 90% des internautes français disent l’utiliser…dès 2009 Fonctionnement ? Algorithme qui prend en compte 200 critères… Classement des résultats attribution de point si page pointée par d’autres « Page Rank » (ex : L’UPMF a un PR de 7 = assez élevé) même principe que le « facteur d'impact » (Eugene Garfield) Fév 2010 Google dit référencer + de 4 milliards de pages mais en 2010 : plus de communication…. Il a été créé par deux universitaires américains, Larry Page et Sergey Brin, qui étaient alors en thèses d’informatique à Stanford et qui ont créé Google « à la maison », pour ne pas dire dans leur garage. Aujourd'hui c'est le moteur de recherche le plus consulté au monde. Le néologisme « to google » signifie aux USA rechercher de l’information sur Internet. 90% de part de marché. Les fondateurs ont eu l’ambition d’organiser toute l’information du monde et de la rendre universellement accessible. Les data centers assurent l’indexation des pages et le traitement des demandes. Google essaie autant que possible de cacher la localisation, l’importance de ces centres et leur consommation électrique, pour éviter de donner des informations à ses concurrents sur la manière dont fonctionne le moteur de recherche. On estime à plusieurs dizaines de milliers environ le nombre de serveurs (des PC) par centre, soit plus d’un million au total. En plus du traitement des demandes, il faut prendre en compte la messagerie gmail et ses espaces de stockage pour des centaines de millions d’internautes, et l’utilisation d’Android. Les data centers sont situés souvent dans des régions fraîches balayées par les vents, et non loin d’un lac ou d’une grande nappe d’eau. Ils consomment 1,5 % de l’électricité au niveau mondial. Google utilise pour classer les réponses la méthode de l'étude mathématique des relations entre les sites, en partant de l'idée que les sites les plus intéressants sont ceux qui sont le plus souvent cités. Les deux inventeurs de Google créent donc le Page Rank, l'indication de la valeur d'une page, qui est sans cesse réévaluée en fonction des citations qu'on en fait. Chaque lien pointant vers un site est considéré comme un vote en faveur de ce site. Mais plus le site qui pointe a un PR élevé, plus son vote a de la valeur. Le Page Rank est un parmi deux cents critères pour déterminer l’ordre d’affichage des résultats, SID2 BU Droit-Lettres

9 1. 2 Moteurs de recherche (2) Zoom sur Google
Vente de technologie à des portails de recherche Financé par la publicité, (liens sponsorisés). Vente de solution collaborative (ex google APPS à l’UPMF) Nombreux services Knowledge Graph : vers web de données Navigateur : Chrome + applications smartphone, Messagerie (gmail), agenda suite bureautique en ligne (google docs), Bibliothèque numérique (google books), Localisation géographique (google maps) etc… En 2012 = 1er point d’accès à l’IST française Le Facteur d’impact : représente pour une année donnée le rapport entre le nombre de citations sur le nombre d'articles publiés par un périodique sur une période de deux ans. Il mesure donc la fréquence moyenne avec laquelle l'ensemble des articles de ce périodique est cité pendant une période définie. C'est un indice de mesure rétrospective de l'impact à relativement court terme. Les sociétés achètent aux enchères les emplacements des liens publicitaires qui ressortent quand on tape tel ou tel mot. Google vient de se lancer sur le marché de la voiture autonome (Google car). source : Wikipédia, CC-By-SA SID2 BU Droit-Lettres

10 1. 2 Moteurs de recherche (2) Zoom sur Google : la recherche
simple : maj/min équivalent mais préférer les accents Opérateur par défaut ET Extension avec OR en maj. entre 2 termes. (ex : Mali OR islamisme) « guillemets pour rechercher une expression » mot précédé de + doit obligatoirement être présent dans les résultats avancée : options assez limitées ! c/c… pas vraiment d’aide à la recherche Événement : résultats; evenement un peu plus de , Part de marché…en 2008 Google +ou- 90% en France, 60 % aux USA Soit + de 5 milliards de dollars générés… Influence de l’ordre des mots, beaucoup moins fort qu’il y a quelques années. Recherche simple : L’interface de recherche simple porte bien son nom et est connue de tous. Il suffit de mettre des mots à la suite les uns des autres dans un encart de recherche pour obtenir des résultats. La casse ne compte pas. L’opérateur par défaut entre les termes est ET. On sait moins qu’on peut étendre une recherche en mettant OR en majuscules entre deux termes. Exemple : Kadhafi OR Rafale. Il est préférable de : taper les mots en minuscules accentuées. Les accents peuvent compter. faire attention à l’ordre des mots qu’on tape. Le premier mot a une importance plus grande. utiliser les guillemets pour rechercher une expression utiliser les opérateurs de contrainte. Un mot précédé de +doit obligatoirement être présent dans les résultats de recherche. Au contraire moteur –automobile est l’équivalent de moteur SAUF automobile. Il est possible d’interroger dès cette phase sur le contenu d’un site : spalanzani site: link: donnera les sites qui ont un lien vers le site de l’UPMF. Define:engine. Trouvera des définitions du mot engine. Allintitle:cuirassiers cavalerie. Trouvera les pages qui contiennent les deux mots dans leur titre. Site: Permet de vérifier que son site est bien dans l’index. Recherche avancée : Les fonctionnalités de la recherche avancée ne sont pas très intéressantes. Certaines sont redondantes avec la recherche simple, ainsi la recherche sur une expression qui peut se faire avec des guillemets à partir de la page d’accueil. La recherche avancée est accessible en cliquant sur Paramètres en bas à droite de la page d’accueil de la recherche simple. On peut choisir la langue dans laquelle on veut avoir des pages de résultats. Chercher Stevenson en français, puis dans le pays France. On peut choisir son format de fichier. On peut également combiner des recherches pour ne rechercher que sur un seul site. Stevenson sur site: Cette fonctionnalité peut être intéressante sur de très gros sites dont le moteur de recherche est très mauvais. SID2 BU Droit-Lettres

11 (3) Zoom sur d’autres moteurs … Bing, Qwant, Exalead
Crée par Microsoft ; né en 2009 ; lien avec Yahoo Concurrent direct de Google (périmètre, services) Qwant ou encore Exalead : technologie française. aide sémantique et catégorisation vignettes des pages signalées dans la liste de résultats autres moteurs qui respectent la vie privée Exemple : Qwant technologie française. version publique en ligne vendue aux entreprises qui ont des besoins spécifiques. Bing a fait l’objet d’une campagne publicitaire de 100 millions de dollars au moment de son lancement, Allié à Yahoo, il a moins du tiers du marcché des recherches aux Etats-Unis, et est peu connu en Europe. SID2 BU Droit-Lettres

12 2. Rappels : Internet, web, IST
1970 = Arpanet INTERNET = Inter-network (ou Inter-réseau) = TCP-IP 1989 : invention du Web + Adresses URL moyen d’accès à des ressources + communication + lieu d’échanges On nomme les machines: IP = chaque ordinateur est nommé (concept de domaines)  DNS; et on crée des protocoles TCP (transmission control protocol) pour qu’elles se connectent entre elles ! 1974 : 1er protocoles pour faire inter-opérer les ordinateurs : chaque domaine national a son code, chaque site a le sien : adresse IP (associé à un nom en clair) structure en 4 parties : protocole, nom, serveur + Développement des systèmes d’exploitation des ordinateurs Domain Name Server ou DNS associe adresse et nom. Le nom en clair peut être # de l'adresse URL (plus récente, apparue en même temps que le Web) ex : Adresses attribuées par IANA dans les années 90 puis par l’ICANN (depuis 98) : actuellement IPV4 bientôt saturé (déjà 4 milliards…). IPV6 : prochaine version (128 bits au lieu de 32) pour étendre le nombre d’adresses, En déploiement dans de nombreux pays d’Asie qui manquent de plages d’adresses IP. Le déploiement a pris du retard en France. 1957 : Spoutnik soviétique qui suscita une forte réaction américaine. 1963 : code ASCII permet de numériser les chiffres mais aussi les lettres Internet a été créé par l'ARPA, Advanced Research Project Agency, département des « projets avancés » de l'armée américaine qui travaillait en liaison avec des entreprises et des universités. Un D (Defense) devait bientôt précéder ARPA et ses concepteurs : Vint Cerf et Bob Kahn, de la firme BBN, qui proposent en 1969 un modèle de communication par paquets doté de son propre protocole. ARPANET naît en 1970 pour relier 4 universités de la côte ouest. 1972, 40 sites connectés, essentiellement pour du courrier électronique. En 1977, En 1974, protocoles TCP (transmission control protocol) et IP sont créés. IP repose sur le concept de domaines (domaine national a son code, l'université a le sien etc), d'où la détermination des adresses IP; structure en 4 parties à laquelle on associe un nom en clair et c'est un serveur le Domain Name Server ou DNS qui associe adresse et nom. Coup de génie des concepteurs de l'IP, = faire en sorte que justement ils ne sont pas les seuls concepteurs. Le protocole n'est pas un standard commercial prisonnier d'une marque ou d'une entreprise. En 1980, DARPA met les protocoles TCP/IP dans le domaine public : gratuits, ils deviennent de fait une norme internationale. Arpanet s'agrège d'autres réseaux, comme Csnet aux USA. C'est la philosophie du système: Internet s'appuie sur des réseaux physiques existants pour les connecter entre eux. Internet est une abréviation d'Internetwork, ou Interréseau. Réseau d'ordinateurs qui a réussi, grâce à sa souplesse (mais il y en a eu d'autres qui asservissaient l'ensemble des récepteurs à un serveur central : vidéotex, années 70, Minitel français avec un standard fermé des années 80) avec la même idée de transmissions par paquets qui transitent sur le réseau par diverses routes et dans un ordre quelconque. Chacun de ces paquets a 1 adresse de départ, 1 numéro d'ordre et une adresse d'arrivée qui permet de reconstituer le paquet à l'arrivée. Chacun (gouvernements, entreprises) a produit ses normes pour la taille des paquets et le codage des adresses. Internet est un réseau informatique mondial constitué d’un ensemble de réseaux nationaux, régionaux et privés, qui coopèrent pour offrir une interface unique à leurs utilisateurs. En effet, plusieurs éléments dans l’évolution que connaît l’Internet viennent confirmer cette tendance lourde à la consommation d’adresses IP dans les prochaines années : IPv6 élaboré par l'IETF (Internet Engineering Task Force) au milieu des années 90, est la prochaine version du protocole IP. En premier lieu IPv6 améliore les capacités d'adressage d'IPv4 en allouant 128 bits au lieu de 32 aux adresses IP, ce qui ouvre un réservoir quasi infini d’adresses IP. Actuellement, certains opérateurs commencent à proposer l’IPV6 à leurs clients, en particulier aux entreprises. Le manque d’adresses IPV4 commence à se faire sentir. Il est accentué par la multiplication des objets connectés. Les smartphones ont une adresse IP, de même que les tablettes pour la connexion en wifi, SID2 BU Droit-Lettres

13 2. Rappel 1 : Internet, gestion décentralisée
Différents acteurs : ISOC IAB + groupes de travail : IETF l' Internet Engineering Task Force IRTF Internet Research Task Force ICANN L'AFNIC (Association Française pour le Nommage Internet en Coopération) l'Internet SOCiety ( ISOC), coordonne le développement du réseau. L' ISOC regroupe : représentants des principaux opérateurs réseaux (dont Orange), grands fournisseurs de matériels et logiciels réseaux, grands constructeurs de stations de travail, organismes de normalisation et comprend aussi des adhérents individuels. C'est un consortium qui pilote l'expansion de l'Internet en finançant et en promouvant l’action des organismes suivants. C’est une instance neutre et internationalement reconnue, apparue en 1992. L' Internet Architecture Board ( IAB) dépendant directement de l' ISOC est un groupe de quelques personnes pilotant les évolutions techniques des protocoles, ainsi que celles de l'architecture mondiale du réseau. L'IAB est apparue en C'est notamment l' IAB qui coordonne l'activité des groupes de travail de l' internet Engineering Task Force ( IETF, Formés sur la base du volontariat, ces groupes, au nombre d'une centaine, proposent les évolutions techniques. L'aboutissement des travaux d'un groupe de l' IETF est un Request For Comment ( RFC). Il s'agit d'une proposition de norme soumise à la communauté internationale. Un RFC peut être accepté comme norme d'office quand il est respecté par des intervenants majeurs de l'industrie. A titre d'exemple, un RFC peut être de la documentation, un CR de réunion, ou la publication d'un nouveau standard, la description d'un protocole. Avant d'atteindre le stade de  RFC, une spécification technique est très largement discutée par les volontaires. l'IETF s'occupe des problèmes techniques à court et moyen terme et est divisé en 9 zones (applications, sécurité, routage et adressage, etc...) chacune dotée d'un responsable. L’IETF facilite le transfert technologique entre l’IRTF et la communauté de l’Internet en général. Il n'y a pas d'adhésion formelle à l'IETF. Tout le monde peut s'inscrire et participer à toutes les réunions. Devenir membre de l'IETF, c'est avant tout s'inscrire sur une des listes de diffusion afin d'accéder à toutes les informations relatives aux activités et débats en cours. La première rencontre de l'IETF a eu lieu en janvier 1986 à San Diego avec 21 participants. Le concept de Groupes de Travail (Working Groups) est apparu a en Février 1987. L 'IRTF (Internet Research Task Force, coordonne les activités de recherche relatives à TCP/IP et s'occupe plutôt du long terme. Elle est apparue en 1989, lors de la 14eme rencontre de l’IETF à l’université de Stanford, et est organisée en groupes de recherche qui sont plus fermés que ceux de l’IETF. Toutes ces organisations sont internationales et ont des relais français. L’ICANN (Internet corporation for assigned names and numbers,1998) est une société de droit privé californien dont le siège est à San Diego. Son personnel et ses participants (président et membres du CA) viennent du monde entier. Elle est chargée d’allouer l’espace des adresses de protocole Internet (IP), d’attribuer les identificateurs de protocole, de gérer le système de nom de domaine de premier niveau pour les codes génériques et les codes nationaux et d’assurer les fonctions de gestion du système de serveurs racines. Ces services étaient initialement assurés dans le cadre d’un contrat avec le gouvernement fédéral américain par l’Internet Assigned Numbers Authority (IANA) et d’autres organismes. L’ICANN assume à présent les fonctions de l’IANA. L’ICANN est chargée de coordonner la gestion des éléments techniques du DNS pour assurer la “résolution universelle” (“universal resolvability”), de sorte que tous les internautes puissent trouver toutes les adresses valables. Dans la structure de l’ICANN, les gouvernements et les organisations de traité international travaillent en partenariat avec les entreprises, les organisations et les spécialistes qui contribuent à bâtir et maintenir le réseau mondial. Ses statuts ont été revus en septembre 2009, pour relâcher le lien exclusif avec le gouvernement américain qui existait depuis Des représentants d’autres pays peuvent intégrer les commissions de surveillance. Malgré tout, les liens entre la NSA L'AFNIC, Association Française pour le Nommage Internet en Coopération, est une association à but non lucratif régie par la loi du 1er juillet Elle est l'organisme chargé de la gestion administrative et technique des noms de domaine en .fr (France) et .re (Île de la Réunion), ainsi que tf (TAAF). L'association a été créée en décembre 1997 par la volonté conjointe de l'INRIA (Institut National de Recherche en Informatique et en Automatique) et de l'État, représenté par les ministères chargés des télécommunications, de l'industrie et de la recherche. L'AFNIC est composée d'utilisateurs, de prestataires de services Internet, d'organisations internationales et de représentants des pouvoirs publics. La difficulté majeure est l'absence de contrôle. Pratiquement tous les hébergeurs et fournisseurs d'accès proposent la création de sites moyennant finances. Il y a environ 400 « bureaux d’enregistrement » (hébergeurs, fournisseurs d’accès) habilités contractuellement par l’AFNIC à créer des sites en .fr En général, on achète un nom de site pour un an. Même l’extension n’est pas contrôlée. En principe, les sites se terminant par .fr devraient être écrits en français. L’entreprise américaine Verisign gère les noms de domaine en .com (95 sur 220 millions) et en .net. Ainsi en janvier 2012, sur injonction de la justice américaine, le FBI a désactivé la plate-forme de déchargement megaupload.com sans concertation aucune. SID2 BU Droit-Lettres

14 2. Rappel 2 : le WEB Hypertexte et balisage (HTML) + URL (http:// )
+ Navigateurs : pour visualiser et naviguer d’un document à l’autre / logiciels (client) Google Chrome, Microsoft Internet Explorer (Windows, MacOS, certains Unix) Mozilla-Firefox (navigateur vedette du libre -Linux) Safari + moteurs de recherche + Acteurs : W3C (World Wide Web Consortium), URL = protocole://nom du serveur.nom du domaine/répertoire/fichier) Tim Berners-Lee est l’inventeur du Web, dans un rapport du CERN (conseil européen pour la recherche nucléaire) en mars Ce qu’il cherchait à faire c’était établir une communication facile dans une communauté restreinte d’égaux, à savoir les chercheurs en physique. Tout le monde reçoit toute l’information et peut dire ce qu’il veut tout en sachant qu’il est jugé par ses pairs. Pour le grand public, le Web s’est confondu avec l’Internet. Techniquement, le Web repose sur deux idées-maîtresses, l’hypertexte et le balisage. La technique de balisage de texte existe depuis plus longtemps que le web. Le SGML, dont HTML est issu, et dans lequel il est défini, a été abondamment utilisé par la communauté de numérisation des textes (notamment littéraires). Aujourd'hui, XML est toujours fondé sur ces techniques. HTML n’est pas un langage de programmation, mais il permet avec les balises de mettre en forme le contenu d’un fichier texte, en créant un titre et des paragraphes par exemple. La première mise en oeuvre date de novembre Les premiers navigateurs se dégagent en 1994, Netscape et Internet Explorer. Le Web ou WWW (World Wide Web) est un système hypermédia d’accès à l’information sous diverses formes (texte, son, image fixe ou animée, graphique) disponible sur Internet et sur lequel on navigue grâce à un navigateur. Le Web permet, grâce au format standard de documents (format HTML Hypertext Markup Language), de lier entre eux différents documents ou parties de documents. Le Web utilise un protocole commun pour transférer des documents hypertextes ou hypermédia (protocole HTTP ou HyperText Transfer Protocol). L'emploi du protocole HTTP a permis l'apparition de l'hypertexte qui est le mode de navigation par excellence sur le Web. La visualisation d'un document Web et la navigation d'un document à un autre se fait à l'aide d'un logiciel client appelé navigateur dont les principaux sont Google Chrome, Microsoft Internet Explorer (Windows, MacOS, certains Unix) et Mozilla navigateur vedette du libre (Linux). Le navigateur a charge de communiquer avec d'autres programmes qui résident sur les machines serveuses et lui fournissent (ou non) les documents qu'il demande. IE a 58% de parts de marché, Mozilla 18% et Chrome 17%. Le prochain gros défi technologique est de fournir un navigateur pour les smartphones et les mobiles : Skyfire, Opera, UC Browser, Atomic web. Firefox est en retard sur ce créneau. Chaque page sur le Web possède sa propre adresse nommée URL (Uniform Ressource Locator) qui identifie l’endroit exact où se situe une ressource sur le réseau. Une adresse se présente en général de la façon suivante : protocole://nom du serveur.nom du domaine/répertoire/fichier Pour le web, l'information est très rarement répliquée sur d'autres sites. Le modèle de mise à disposition est celui des caches. Un cache est un ensemble client et serveur particulier qui intervient en médiateur entre les clients et les serveurs. Pour chaque demande de document de la part d'un client, le cache transmet au serveur une requête (appelée HEAD) demandant simplement l'état du document (existence, date de dernière modification, nécessité de mot de passe, etc.) ; si le cache possède déjà une copie de ce document, la copie est transmise au client, sinon le cache demande le document au serveur (et garde une copie). Le principe des caches se base sur le fait que quand quelqu'un demande un document à un moment donné, il est probable que ce document sera demandé à nouveau par d'autres utilisant le même cache. Fréquemment, les fournisseurs d'accès introduisent des caches, transparents pour l'utilisateur et à son insu entre lui et l'Internet. Ces caches améliorent généralement le service mais peuvent poser des problèmes de confidentialité. Le spamming en particulier se base sur le système des caches pour abreuver l'internaute de publicité dans le domaine qui l'intéresse. Le W3C (World Wide Web Consortium), organisme international industriel, est fondé en 1994 sous l'impulsion de Tim Berners-Lee par le MIT et le CERN, auxquels s'associent l'INRIA en France (1995), pour développer des protocoles et des codes de référence assurant l'évolution du World Wide Web. Sous la tutelle du MIT, de l'INRIA et de Keio (Japon), il regroupe actuellement près de 400 organisations membres, organismes de recherche ou industriels. SID2 BU Droit-Lettres

15 2. Rappel 3 : zoom sur l’IST IST : Web scientifique :
information produite par la recherche les professionnels… Information scientifique et technique Web scientifique : serveurs des institutions Recherche privée (recherche et développement) Littérature grise (Grey Literature) : En dehors des circuits commerciaux (rapports, normes, thèses, mémoires…) Littérature grise : Document produit à l'intention d'un public restreint, en dehors des circuits commerciaux de l'édition et de la diffusion, et en marge des dispositifs de contrôle bibliographique. (Définition de l’ADBS) Difficultés dans la connaissance de l’existence ou de l’accès de la littérature grise. Brevets, normes, rapports de recherche, études….et thèses ! Synonymes : littérature non conventionnelle, littérature souteraine Traduction : Grey Literature Accéder à la littérature grise : SID2 BU Droit-Lettres

16 2.2 Les moteurs spécialisés pour l’IST
Besoins spécifiques = moteurs adaptés : serveurs spécifiquement explorés, recherche pluridisciplinaire Google Scholar : technologie google appliqué au domaine académique, pas de périmètre connu… SCIRUS : « sciences exactes » et notamment en sciences de la matière produit Elsevier BASE (Bielefeld search engine) ISIDORE français spécialisé sur les SHS, S’appuie sur le « Web de données » Etc. Raccourcir SCIRUS et laisser temps d’exploiration recherche avancé Google Scholar + BASE; SID2 BU Droit-Lettres

17 2.2.1 Zoom sur Google Scholar
Intérêt : gratuit et sans pub, valorisation des AO, (ex : HAL, Erudit.. mais aussi : catalogues universitaires surtout anglo-saxons (ex: SUDOC),… interroge aussi les Bases de données payantes citations et visibilité permet de créer son réservoir personnel Limites : périmètre et couverture inconnus sciences exactes et médicales mieux couvertes que les SHS taille de l’index : inconnue mise à jour : inconnue Précautions… n’évalue pas le contenu ! risques : déviances, détournements ! « Ike Antkare  = I Can’t Care ! » chercheur fictif , par C. Labbé voir en savoir plus 2004 : Google lance sa stratégie pour devenir le guichet universel pour la science… Google Scholar recherche spécialisée dans la documentation académique concurrence à l’époque SCIRUS…et avec l’ISI (pour les citations) et succès rapide A voir fiche Urfist Lyon Indexe De nombreuses AO (ex : HAL, Erudit.. Des catalogues universitaires surtout anglo-saxons (mais aussi SUDOC),… Des Bases de données payantes pdf_IkeAntkareISSI.pdf le chercheur renommé qui n'existe pas du moment que l’article a une apparence « scientifique, sans trop de publicité autour, il apparaîtra dans les résultats. Conseils d’utilisation : utile pour une première approche et une recherche non exhaustive sur un sujet + pour une recherche croisée, multidisciplinaire + pour trouver des ressources en texte intégral, en libre accès + pour trouver un article spécifique dans un journal spécifique + pour suivre l’impact scientifique d’une publication sur le web + En complément des bases de données spécialisées (farce d’un enseignant-chercheur de l’Imag, Cyril Labbé qui révèle (en anglais) dans l’ISSI Newsletter (International Society for Scientometrics and Informetrics) les trois phases du canular  Pierre-Gilles de Gennes n’apparaît pas dans les profils, Cédric Villani non plus. Xavier Granier si. SID2 BU Droit-Lettres

18 2.2.1 Zoom sur Google Scholar
Recherche avancée : booléens, proximité, filtres : auteur, titre, publication, date Page de résultats [le type de doc] Titre du document, auteurs, (cited by) sources sur lesquelles il est disponible format d’affichage PDF ou HTML « Autres articles » - voir des articles liés Autres services : tri des articles les plus récents Exportation des références avec Zotero ou EndNote Localisation, Veille Citation Page de profil Recherche. La recherche se fait sur le texte intégral en langue naturelle et dans la langue choisie. Il existe deux interfaces de recherche. Interface simple. L’opérateur ET est implicite entre les mots tapés. Pas de troncature. Possibilité de rechercher une expression entre guillemets. Interface de recherche avancée. On peut utiliser les opérateurs booléens et choisir d’interroger uniquement sur certains critères, nom d’auteur ou présence des mots recherchés dans le titre. On peut encore restreindre la recherche à un site donné, à une publication donnée ou interroger sur une période. Utilisation des guillemets pour chercher une expression, et de l’opérateur +. Opérateur de proximité AROUND. Intitle : fournit les documents où le terme recherché se trouve dans la balise titre. Author : fournit les documents dont l’auteur est le nom recherché. Plus généralement Publish or perish : modèle à bout de souffle ? À lire… On obtient le titre, l’auteur du document, le nom de la revue, la date, l’éditeur, la source et un « résumé » généré automatiquement. Un lien vers une ref bibliographique, le format du document, l’éventuelle citation. Cited by donne le nombre de fois où le document a été cité par ‘autres documents ainsi que des liens vers ces documents. Cliquer sur mes citations pour créer son profil. Sur Alertes pour faire de la veille. SID2 BU Droit-Lettres

19 2.2.2 Zoom sur Scirus http://www.SCIRUS.com
technologie FAST / Elsevier, indexe toutes les pages présentes sur les serveurs référencés majoritairement en anglais ! accord avec certains éditeurs : LexisNexis, WileyBlackwell Voir fiche ECL Voir comparaison avec Google scholar Filtrage selon type de source interrogée ; type de document ; domaine Notice pour chaque document Récupération des références; localisation en bibliothèques partenaires voir aussi le doc.pdf de l’ECLyon. Scirus signale : articles, pré-publications, thèses, rapports techniques, actes de congrès… et indexe sufisamment profondément pour donner accès à une partie du web invisiblee n’indexe que les pages présentes sur des serveurs référencés par Elsevier pour leur contenu scientifique. Indexe toutes ces pages (ensemble de ces sites pris en compte alors que souvent les robots généralistes n’indexent qu’une fraction des sites trouvés) résultats sont ainsi moins hétérogènes et mieux ciblés. I - Présentation générale SCIRUS est un moteur de recherche spécialisé dans la recherche de documents de nature scientifique publiés sur le web, produit par Elsevier Science à partir de la technologie FAST1. Sources : En plus des pages web repérées par son robot, Elsevier a ajouté des documents issus de ses ressources électroniques (ScienceDirect), de bases de données (Medline, Nasa, Beilstein), des brevets us, de serveurs de pré-publications et Open Archive. SCIRUS a aussi passé des accords spécifiques avec des éditeurs comme l’Institute of Physics Publishing (IOP) pour une prise en compte complète de leur fonds documentaire. On peut donc : soit interroger l’ensemble de ces ressources, soit se limiter à l’une ou l’autre. Domaines couverts : tous domaines d’informations scientifiques à destination des étudiants, enseignants et chercheurs. plus de 250 millions de documents (dont plus de 20 millions de références bibliographiques) issus de MEDLINE, ScienceDirect, BioMedCentral, serveurs de pre-prints et brevets. utile pour : une première recherche croisée, multidisciplinaire, multi-sources ou pour une recherche ciblée dans une source spécifique ou un domaine particulier ou encore pour trouver des ressources en texte intégral, en libre accès ou payant, pour trouver un article spécifique dans un journal spécifique Science.gov uniquement la recherche financée aux EU sites universitaires, organismes de recherche, pages R&D, sites gouvernementaux, pages personnelles de scientifiques… ajoute ScienceDirect, Medline, etc… Voir aussi notes d’après Lardy Jean-Pierre / mai 2007 et diaporama mars 2011 SID2 BU Droit-Lettres

20 2.2.3 Zoom sur BASE Filtres BASE : Bielefeld Academic Search Engine
de date lieu de dépôts. renvoi vers Google scholar « expression entre guillemets » Accès à certains résultats sur abonnement BASE : Bielefeld Academic Search Engine Université Bielefeld (Allemagne) 2004 multidisciplinaire : liste des ressources accessible (rubrique aide) Interrogation multilingue ! Thésaurus Eurovoc (21 langues indexées) Interface de recherche en allemand + en anglais, + espagnol + polonais + français et ukrainien (> 60 millions documents, 8000 de plus par jour), Une des plus grosses bases de données au monde, elle a dépassé OAISTER. 2900 sources, avec protocole OAI-PMH. Voir Aide, About Base. Content Sources pour connaître les 3000 sources interrogées. Pour chaque source, on précise les accès possibles. Entrepôts de données utilisant le protocole OAI-PMH pour mettre à disposition les métadonnées de description des documents. Recherchez possible sur une expression. 257 résultats en recherche avancée pour « droit des contrats » dans Titre, 4406 dans Texte intégral. 1640 résultats pour « droit des contrats » en recherche simple, plus de 7 millions en utilisant le thésaurus Eurovoc. SID2 BU Droit-Lettres

21 2.2.4 Zoom sur ISIDORE Recherche : Résultats :
Isidore : projet français pour les SHS accès à 2 types de ressources : données pour faire de la recherche publications des résultats de la recherche Moissonnage (OAI-PMH) Recherche : Thésaurii, index (auteurs…) catégories, filtrage : période, type de documents, collections… Résultats : vignette notice pour chaque ressource + lien vers document Le plus gros prjet d’Open data scientifique français Organisation en collections pour classer les sources et ressources Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH + des signalements d’actualités via RSS et Atom + des données structurées selon RDFa Projet : se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, et les ré-exposent selon les principes du linked data. (Pour utiliser ces données, un site a été créé : en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs. SID2 BU Droit-Lettres

22 2.2.5 moteurs spécialisés par discipline, par type de document, etc.
Economie : Economic Search Engine Droit : Thèses : Européennes : En France = Theses.fr Rapports : Lara.inist.fr Auteurs authormapper.com Web,lawcrawler,com est un moteur de recherche concentré sur le droit américain. Il est complètement inutile pour le droit français et peut servir pour compléter Westlaw par exemple. Même les blogs sont en anglais. Même chose pour lexisweb.com. « Real estate law » France renvoie à des résultats de sociétés américaines. On peut utiliser des filtres dans la partie gauche de la page réponses pour « droit immobilier » France. Mais la plupart sont en fait des annonces publicitaires. SID2 BU Droit-Lettres

23 3. D’autres outils… Intérêt Limites portail d’accès à l’IST mondial :
SURGIR : Université de Grenoble Intérêt Signale le papier et le numérique Interrogation du web profond Interdisciplinarité Limites Tout n’est pas interrogeable Données pas toujours complètes portail d’accès à l’IST mondial : Worldwidescience Métamoteur, consortium (18 organismes et réseaux); recherche avancée ; Catégorisation Portail de la recherche européenne : OpenAIRE Pour trouver aussi des programmes, des projets Recherche avancée Création de son groupe de sources Filtres Compte (liste biblio, requêtes, groupe de sources, notes) Services Partage Export (Zotero) PEB Demande d’achat livres numériques Gallica Europeana Wikisource / WSexport Google books, Doab / Openédition books Hathi Trust / Project Gutenberg Noslivres.net Nos livres : Bibliothèque électronique du Québec (BEQ) ; Bibliothèque numérique romande (BNR) ; Bibliothèque Russe et Slave (BRS) ; Ebooks Libres et Gratuits (ELG) ; ÉFÉLÉ ; Gallica ; La bibliothèque de Gloubik ; Projet Gutenberg (livres en français)      SID2 BU Droit-Lettres

24 3.1 D’autres outils : les répertoires spécialisés
d’archives ouvertes : OPenDOAR de revues : DOAJ (directory of open acces journals) de livres numériques : Gallica ; Europeana ; Wikisource / Wsexport ; Google books, Doab / Openédition books ; Hathi Trust / Project Gutenberg: Noslivres.net Répertoires thématiques : signets de la bnf Patrimoine culturel : Michael DOAJ : Hébergé en Suède sur les serveurs l'université de Lund, ce site a été réalisé à l'initiative de l'Open Society Institute (Budapest) et de la SPARC (Scholarity Publishing and Academic Resources Coalition, basée en Pologne) le site propose des articles issus de quelque 1 250 périodiques,(toutes disciplines) grâce à des collaborations avec des organismes comme l'INASP (International Network for the Availability of Scientific Publications), Le SciX Project et de nombreuses bibliothèques ou universités des Etats-Unis, Pays bas, Suède...      SID2 BU Droit-Lettres

25 3.2 D’autres outils : les réseaux sociaux
De professionnels Linked’In, Viadeo, De chercheurs : Researchgate Academia.edu + Outils collaboratifs ex.…Mendeley; Zotero… Rechercher des blogs : Technorati BlogPulse ; Googleblogsearch Par université : ex princeton Plateformes : researchblogging.org/ Scilogs (Nouvelle Zélande) Hypotheses (LSH) Économic roundtable (Eco)     Viadeo a été créé en 2004 par deux Français, sous le nom de Viaduc, rebaptisé Viadeo en 2006 pour les besoins de l’international. Il revendique aujourd’hui 55 millions de membres (août 2013), dont seulement 8 millions en France, et 21 millions en Asie. Viadeo permet de créer un profil, de donner son parcours et ses compétences, de prendre contact avec d’autres utilisateurs connectés, de les recommander ou de se faire recommander par eux. Il existe une version gratuite et une version Premium. Celle-ci permet de consulter les profils répondant à une recherche thématique par mots-clés, de voir qui a consulté votre profil, de publier des annonces et des événements (votre actualité) tous les mois. L’abonnement Premium coûte environ 80 euros par an. LinkedIn est un réseau social californien apparu en 2003, En 2013, il comptait 260 millions de membres dans le monde. Le modèle économique est rentabilité par la publicité, par les abonnements et par les services ciblés aux recruteurs. L’abonnement est plus cher qu’à Viadeo, au moins 22 euros par mois. Les services supplémentaires sont les mêmes : connaissance fine des visiteurs de votre profil, de tous les profils de votre réseau ; possibilitré d’envoyer ou de recvoir des messages avec tous les utilisateurs; possibilité de recherche élargie. L’intérêt de ces réseaux sociaux pour les doctorants est de permettre une mise en contact plus facile avec d’autres chercheurs, y compris des personnes « installées » et haut placées. Si elles ont créé un profil sur Viadeo ou LinkedIn, c’est qu’elles acceptent a priori le contact et l’échange avec d’autres, y compris des débutants dans la recherche. BLOG = Voir et academic blog portal SID2 BU Droit-Lettres

26 Conclusion Besoin de fiabilité, validation, pertinence
Évolutions de la recherche d’IST / développements récents : réseaux sociaux professionnels, spécialisés web sémantique basé sur les contenus A développer : culture informationnelle chez les chercheurs et les professionnels (producteurs d’information et lecteurs…) Aller plus loin : (avec des outils spécialisés pour divers types de recherches sur le web !) La communauté IST doit disposer d’outils : fiables et puissants non soumis aux exigences commerciales, organisés pour fo Qualité de l’information = enjeux pour l’enseignement et la recherche : urnir une information contrôlée extraction de sens la qualité des sources – concept « web de données » : métadonnées, formats…) SID2 BU Droit-Lettres


Télécharger ppt "Formation des Doctorants"

Présentations similaires


Annonces Google