Recherche d’information sur le web

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

La recherche documentaire
RECHERCHE DOCUMENTAIRE
Les formateurs en documentation Rectorat de Lille Maîtrise de linformation au collège Compétences informationnelles et disciplines partenaires.
Clément Massé – Université Charles de Gaulle Lille3.
Maîtrise de chimie : Travaux d Etudes et de Recherche Découvrir la nécessité, à partir dun exemple sur internet, détayer une information, un résultat,
Les principes généraux Les objectifs du dispositif Le b2i et les défis sur Internet Une visite concrète.
Chercher pour trouver Nous quittons l'ère où on courait après l'information pour entrer dans celle où l'information nous court après"Nous quittons l'ère.
Les étapes de conception d’un site web
Mettre en place une démarche de recherche documentaire
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Indexation textuelle : Systèmes de recherche d’informations
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Quelles ressources sur linternet ? Méthodologie de recherche et validation de linformation Jean-Philippe Accart Bibliothèque nationale suisse Service de.
Chapitre 4 : la gestion électronique des documents
Interfaces de recherche usager
SECURITE DU SYSTEME D’INFORMATION (SSI)
Recherche bibliographique Interrogation de banques de données
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
Comment trouver sur Internet?
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
CDI Lycée Marguerite Yourcenar La recherche d’information
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Le portail documentaire de Paris 1
Annuaires et moteurs de recherche d’information sur Internet
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
BIO1530 Lab2 Littérature scientifique. Objectifs de lexercice Après avoir complété cet exercice, vous devriez être en mesure de: Déterminer si une publication.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Bibliothèque - UMCS Automne 2010 SOURCES ET RECHERCHE DINFORMATION Bibliothèque de lUniversité de Moncton, Campus de Shippagan
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
Catalogage de données Notions, enjeux et initiatives actuelles.
Les techniques des moteurs de recherche
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
Ergonomie d’un blog, d’un site internet
La veille numérique : un outil pour s'informer intelligemment &
Littérature scientifique
Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement Syntaxe Limites.
Manuel Kervarker.org : l'accueil
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Les grandes étapes de la recherche
LA GESTION DOCUMENTAIRE BTS Assistant de direction 2e année, Janvier 2007.
LA RECHERCHE DOCUMENTAIRE
Science et technologie pour le préscolaire / primaire
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
Moteurs et métamoteurs de recherche
Méthodes de recherche sur Internet
Le Traitement Automatique des Langues (TAL)
PRESENTION DE LODEL par : Gabriel MUGABE et Michael AJUAMUNGU ***AUF*** Formation TRANSFER 2.1, ULPGL-GOMA, juillet 2015.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
RÉFÉRENCES SCIENTIFIQUES
Comment faire un résumé d’article ?
STRATÉGIE DE RECHERCHE DOCUMENTAIRE Trouver des articles de périodiques Adèle Flannery, Cynthia Lisée et Christine Médaille, bibliothécaires.
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
1 Chercher et trouver sa documentation sur Internet L1 DC Expression et communication Intervention du Par Sylvie Doyon, documentaliste.
Bibliothèque Centrale de l’École Polytechnique La Recherche Documentaire Economie - HSS Session pratique Ressources Documentaires en Economie-Gestion Vanessa.
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2013 septembre/octobre 2013 Denis Roura,
La recherche documentaire & internet Sport, sciences et technologie Octobre 2009 Délimiter et définir son sujet Dictionnaires (Google, define:sport, sciences,
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

Recherche d’information sur le web

Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information recherchée et du but de la recherche. Il faut avoir en tête un certains nombre de « vérités ».

Sur l'information Il n'y a pas tout sur Internet. Internet est une source complémentaire aux sources classiques, commerciales. La fiabilité des informations recueillies est comparable à celle de la littérature papier. Mais il faut toujours recouper l'information par les bases de données classiques. Internet n'est pas l'équivalent d'une bibliothèque virtuelle : les documents sont très hétérogènes au niveau du contenu et il n'existe pas de classement global. Les fautes d'orthographe sont très fréquentes dans les pages html. Le bruit est une caractéristique importante des réponses.

Sur les outils de recherche Le passage à la diffusion électronique pose le grave problème de l'archivage de l'information, qu'elle soit gratuite ou commerciale. Les bibliothèques voient leur rôle traditionnel de lieu d'archive remis en question. En particulier les abonnements aux ressources électroniques ne donnent qu'une licence de consultation mais pas la propriété de l'information. Ce problème est particulièrement critique avec les journaux spécialisés à cause de la constitution de quelques monopoles qui maîtrisent toute la chaîne de la production à la diffusion de l'information et éliminent les intermédiaires. Le milieu universitaire international se mobilise pour trouver une solution.

Le web invisible

Recherche d’information sur le web

Les principes d'interrogation 1 Les opérateurs booléens Leur nom est tiré de celui de George Boole (1815-1864), mathématicien anglais, auteur de la théorie des ensembles. La recherche booléenne repose sur les trois opérations suivantes :

Les principes d'interrogation 1 ·    L'union permet de rechercher sur des concepts proches, des synonymes ce qui est important pour des questions posées en vocabulaire libre. L'intersection impose la présence de tous les critères de recherche. Une syntaxe (presque) commune La plupart des outils de recherche utilise la syntaxe suivante qui pourra être employée sans risque grave.

Les principes d'interrogation 2 Compléter le tableau suivant Opération ? Opérateurs ? exemple "vache folle" +vache +folle +bretagne -grande vache*

Les principes d'interrogation 2 Opération Opérateurs exemple Rechercher une expression "" "vache folle" I imposer un terme + +vache +folle Exclure un terme - +bretagne -grande Tronquer un terme * vache* Rq: Attention, les signes + et - doivent être collés à gauche du terme concerné. Cette syntaxe correspond en général aux formulaires de recherche simple.

Les opérateurs de proximité Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On trouve les opérateurs suivants :

Les opérateurs de proximité Peu d'outils utilisent les opérateurs de proximité.

La troncature Les moteurs de recherche tronquent souvent les termes sans prévenir. Cela peut produire du bruit. C'est l'étoile * qui est en général utilisée. Certains outils francophones proposent une recherche tenant compte de règles grammaticales et d'exceptions pour élargir la recherche.

Une réponse pertinente comme question L'idée est de permettre de reformuler une question à partir d'un document pertinent. L'utilisateur détermine le document le plus proche de ses préoccupations et le soumet au moteur de recherche. Celui-ci en extrait les termes importants (comment ?) pour interroger de nouveau la base de données. Cette technique n'est pas très pertinente.

Attention aux différences D'un outil de recherche à l'autre existent des différences de traitement : les mots vides peuvent être filtrés ou non ; l'opérateur implicite est soit le ET soit le OU ; l'ordre des mots de la question peut avoir une importance dans le tri des résultats ; la troncature peut être implicite, explicite ou absente ; les majuscules et les minuscules peuvent être différenciées ou non ; les lettres accentuées sont souvent mal gérées sur les outils anglo-saxons.

Les méthodes de classement des résultats de recherche Les moteurs de recherche ont développé des méthodes de tri automatique des résultats. Cela leur permet ainsi de se distinguer les uns des autres. Dans la pratique, aucune méthode de tri n'est parfaite mais cette variété offre à l'utilisateur la possibilité de traquer l'information de différentes manières ; elle augmente donc ses chances d'améliorer ses recherches. Le but du classement est d'afficher dans les dix à vingt premières réponses les documents répondant le mieux à la question. Si on ne trouve pas ce que l'on cherche dans les toutes premières pages de résultats, il faut reformuler la question. Pour cela, il faut comprendre les mécanismes sous-jacents pour en tirer vraiment profit. l'algorithme exact n'est jamais connu car il est considéré comme un secret industriel et quelquefois protégé par un brevet (cas d'Excite).

Le tri par pertinence Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les cinq facteurs suivants appliqués aux termes de la question : le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte ; à l'intérieur, il est plus important si le mot est en majuscule ; la densité est basée sur la fréquence d'occurrence dans un document par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera favorisé ; le poids d'un mot dans la base est fondé sur la fréquence d'occurrence pour toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués ; la correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé ; la relation de proximité est basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

Le tri par popularité LA METHODE BASEE SUR LA CO-CITATION Lancé en 1998 par deux étudiants de l'Université de Stanford, Google classe les pages grâce à la combinaison de plusieurs facteurs dont le principal porte le nom de PageRank. L'article de Page et Sergey en donne une description. PageRank utilise le nombre de liens pointant sur les pages. L'algorithme de recherche prend également en compte l'importance des sites pointant vers les résultats de la recherche. Plusieurs moteurs de recherche ont intégré depuis cette fonctionnalité.

LA METHODE BASEE SUR LA MESURE D'AUDIENCE La société DirectHit a été fondée en avril 1998 et propose de trier les pages en fonction du nombre de visites qu'elles reçoivent. DirectHit analyse le comportement d'un internaute dans l'utilisation d'un moteur de recherche DirectHit enregistre cet aspect comportemental de l'internaute pour tenter de trouver les pages les plus « populaires » sur un moteur de recherche et ainsi améliorer leur classement.

Le tri par calcul dynamique de catégories NorthernLight propose une solution appelée clustering en anglais ou agrégation. Elle a été développée en bibliométrie dans les années 80 et appliquée à des corpus de références bibliographiques dans le cadre de la veille technologique. Rq: Aucune de ces méthodes n'est idéale. Le contenu très hétérogène des pages ne facilite pas les choses. Le comportement négatif de certains (spamming) oblige les moteurs de recherche à modifier régulièrement leur algoritme. La tendance actuelle est de mixer différentes approches pour ne pas être trop dépendant d'une seule méthode.

L'interrogation en langage naturel Certains outils de recherche proposent l'interrogation en langage naturel : Lexique st a créé des technologies de pointe en matière de traitement linguistique. La technologie de base est le fruit de plus de vingt ans de recherche. Résultat : les applications de traitement linguistique évoluées sont plus performantes et plus satisfaisantes. La technologie LexiQuest est capable de traiter les différents échelons du langage naturel : morphologique : compréhension du mot, y compris des différentes formes du mot, des mots composés et des catégories grammaticales; syntaxique : identification des fonctions des mots dans une phrase ; sémantique : identification de la signification du mot selon son utilisation ; conceptuel : organisation des concepts indépendamment de la langue.

Projets Recherche sur Internet Web invisible Web blogs Recherche documentaire Evaluation des sites

LE FINDER. http://aeris.11vm-serv.net/tools/finder.html Le Finder permet, sous une seule et même interface, de faire des recherches avancées sur 12 des principaux outils de recherche (5 moteurs généralistes, 2 annuaires généralistes, 2 métamoteurs, 2 encyclopédies et un moteur spécialisé en sciences)   Les outils de recherche généraux moteurs, annuaires, métamoteurs généralistes   Les dictionnaires, encyclopédies, traducteurs,...   Les outils de recherche dans les services d'Internet recherche de listes de discussion, News, recherche dans les sites FTP,...   Chercher un outil spécialisé recherche d'un moteur ou annuaire thématique, recherche de weblogs, webring, images, vidéos, FAQ ...   Les outils du Web invisible   Chercher des articles scientifiques full text ou des références   Chercher dans l'actualité