Recherche Information Web PCEM2 Informatique médicale Dr Marc CUGGIA
Principe de Fonctionnement Web Modèle Client/serveur Document est la plus petite unité fourni par le serveur Réponse à une requête du client Serveur Web Programme qui tourne sur un ordinateur (Unix le plus souvent) Réception des requêtes Transmet documents à d'autres ordinateurs Client Web (navigateur) Programme qui permet à un utilisateur de soumettre des requêtes Visualise les documents
Hypertext Un fichier Hypertext est un fichier de texte normal Contient des parties de texte associé à des "liens" - soit vers d'autres parties du document - soit vers d'autres documents /serveurs … Localisés sur le même ordinateur Ou bien vers un autre document sur un autre ordinateur sur le réseau Point de départ d'un lien vers une ressource
Recherche sur Internet zPlusieurs centaines doutils de recherche sur des informations ciblées à partir de questions zRecherche par Sujet (annuaire) yHiérarchies (Yahoo) zWAIS, Sélection de sources yIndexation plein texte zAltavista, WebCrawler, Bing, Excite,Voilà … zGoogle
Recherche sur Internet zRecherche par mots clés ou thésaurus zRecherche sur tous les mots > 2 caractères zServeurs indexeurs yIndexation automatique du document ySoit sur demande yAltavista, Webcrawler, Infoseek, Lycos, Ecila, Lokace, yahoo,voila... zInterrogation par Opérateurs logique (et, ou, sauf) zProblèmes ydu bruit/silence yles mêmes serveurs apparaissent plusieurs fois
Interrogation Base Documentaire Documents pertinents Documents extraits Base Documents requêtes Systèmes Information Documentaire
Recherche dInformation zPrécision : P = Nombre de documents pertinents extraits Nombre de documents extraits zBruit : B = Nombre de documents non pertinents extraits Nombre de documents extraits B = 1 - P
Recherche dInformation zRappel : R = Nombre de documents pertinents extraits Nombre de documents pertinents zSilence : S = Nombre de documents pertinents non extraits Nombre de documents pertinents S = 1 - R
Recherche dInformation zAnnuaire : yConstruit manuellement yListes de sites sous ensemble correspondant a des rubriques Rubriques : yActualités yEnseignement.. yInformatique et internet yScience et technologie ySciences humaines ySanté ySport
Recherche dInformation zAnnuaire : yYahoo.com ou fr yDeux modes d utilisation yHiérarchique : Rubrique, sous rubrique yListes de sites centrés sur thème recherché yRecherche arborescente puis séquentielle Recherche par mot clé : yOn obtient Rubriques ySites avec bref descriptif
Recherche dInformation zAvantages : yNavigation guidée efficace ySites sélectionnés centrés sur thème recherché yRecherche arborescente puis séquentielle Inconvénients : yTaille annuaire réduite (fonction du temps humain) yOn ne trouve que ce qui a été classé par gestionnaire annuaire yMise a jour limitée
Les Moteurs de Recherche zDéveloppés pour rechercher dans les serveurs Web zPrincipe similaire à ceux de Wais : z- Recherche des documents sur tous les mots (>2 caractères) z- Indexation des documents contenant des mots (anglais le plus souvent) z- Listes des documents avec URL z- Requêtes plus sophistiquées (et, ou,non) z- Rapatriement des documents eux-mêmes
Moteur Recherche dInformation zMéthodes yIndexation par moteur qui passe sur toutes les pages web des sites yIndexe sur tous les mots > 2 caractères yIndexe nouvelles pages et contenus de maniere continue yPondère les documents recherchés zRecherche: yMot ou groupe de mots yOpérations Logiques (ET OU SAUF) yClassement des résultats : par fréquence (apparition des mots, visites du site …)
Opérateurs Logiques zOpérateurs Logiques (Booléens) z a ET baba ET b xVVV xVFF xFVF xFFF za OU baba OU b xVVV xVFV xFVV xFFF zNON aaNON a xVF xFV
Moteur Recherche dInformation zGoogle yIndexation par moteur qui passe sur toutes les pages web des sites yIgnore les articles, adverbes …. yIgnore Majuscules Minuscules yPar defaut ignore les accents … zRecherche: yET logique si plusieurs mots yExclusion de mots : SAUF (-) yOu (OR) yExpression entre « » yForcer à chercher un mot +
Moteur Recherche dInformation zGoogle yPlusieurs dizaines de milliards de pages en toutes les langues yTemps de réponse tres rapide (<0.5S) ySélection des pages en fonction d une requete yClassement avec algoritme declassement en fonction fréquence et de la popularité d une page yIgnore Majuscules Minuscules yPar defaut ignore les accents … zRecherche: yET logique si plusieurs mots yExclusion de mots : SAUF (-) yOu (OR) yExpression entre « » yForcer à chercher un mot +
Moteur Recherche dInformation zChoix mot clés Choisir des noms Mots les plus probables dans pages recherchées Précis et bref Mots concrets Mots importants en Tête Rechercher Phrases si possible Ex: (sanglots longs des violons ) Limites : yPas de mots dérivés (canal mais pas canaux) yLimite a 32 mots yIgnore la ponctuation et signes spéciaux yFavorise pâges avec mots dans le même ordre yEtendre recherche fichier texte (.doc.pdf..)
Moteur Recherche dInformation zGoogle Moteur le plus dynamique Variante géographique (google earth) On y trouve toujours quelquechose Variante Scientifique (scholar) Cartes et lieu donné (Google Map) zRecherche Avancée: yLimiter recherche a un site donné yLangue donnée yBase ou ensemble fichiers restreint yDans toute la page, le titre,adresses yPériode donnée ySelon le type de format de fichier yEtendre recherche fichier texte (.doc.pdf..)
Moteur Recherche dInformation zGoogle zDabord recherche de pages contenant tous les mots (ET) Puis un mot en moins …puis 2 …au moins un zClassement des Pages zPrésentation résultats Classement selon algorithme (pageRanking ) Présentation résultats Dabord les pages les plus consultées Nombre de liens pointant sur page Pages les plus « populaires dabord
Moteur Recherche dInformation zAvantages : yRequêtes simples ou complexes yIndex augmentent avec web yMise a jour continue et rapide yPeu de silence Inconvénients : yDifficulté Choix des mots pour interrogation yDifficulté pour nouveaux sites démerger yOn ne trouve que ce qui a été classé par les robots qui indexent sites yBruit important