La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information.

Présentations similaires


Présentation au sujet: "Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information."— Transcription de la présentation:

1 Recherche dinformation sur le web

2 Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information recherchée et du but de la recherche. Il faut avoir en tête un certains nombre de « vérités ».

3 Sur l'information oIl n'y a pas tout sur Internet. oInternet est une source complémentaire aux sources classiques, commerciales. oLa fiabilité des informations recueillies est comparable à celle de la littérature papier. Mais il faut toujours recouper l'information par les bases de données classiques. oInternet n'est pas l'équivalent d'une bibliothèque virtuelle : les documents sont très hétérogènes au niveau du contenu et il n'existe pas de classement global. oLes fautes d'orthographe sont très fréquentes dans les pages html. oLe bruit est une caractéristique importante des réponses.

4 Sur les outils de recherche oLe passage à la diffusion électronique pose le grave problème de l'archivage de l'information, qu'elle soit gratuite ou commerciale. Les bibliothèques voient leur rôle traditionnel de lieu d'archive remis en question. En particulier les abonnements aux ressources électroniques ne donnent qu'une licence de consultation mais pas la propriété de l'information. Ce problème est particulièrement critique avec les journaux spécialisés à cause de la constitution de quelques monopoles qui maîtrisent toute la chaîne de la production à la diffusion de l'information et éliminent les intermédiaires. Le milieu universitaire international se mobilise pour trouver une solution.

5 Le web invisible

6 Recherche dinformation sur le web

7 Les principes d'interrogation 1 Les opérateurs booléens Leur nom est tiré de celui de George Boole ( ), mathématicien anglais, auteur de la théorie des ensembles. La recherche booléenne repose sur les trois opérations suivantes :

8 Les principes d'interrogation 1 · L'union permet de rechercher sur des concepts proches, des synonymes ce qui est important pour des questions posées en vocabulaire libre. L'intersection impose la présence de tous les critères de recherche. Une syntaxe (presque) commune La plupart des outils de recherche utilise la syntaxe suivante qui pourra être employée sans risque grave.

9 Les principes d'interrogation 2 Compléter le tableau suivant Opération ? Opérateurs ?exemple "vache folle" +vache +folle +bretagne -grande vache*

10 Les principes d'interrogation 2 Opération Opérateursexemple Rechercher une expression"""vache folle" I imposer un terme + +vache +folle Exclure un terme - +bretagne -grande Tronquer un terme*vache* Rq: Attention, les signes + et - doivent être collés à gauche du terme concerné. Cette syntaxe correspond en général aux formulaires de recherche simple.

11 Les opérateurs de proximité Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On trouve les opérateurs suivants :

12 Les opérateurs de proximité Peu d'outils utilisent les opérateurs de proximité.

13 La troncature Les moteurs de recherche tronquent souvent les termes sans prévenir. Cela peut produire du bruit. C'est l'étoile * qui est en général utilisée. Certains outils francophones proposent une recherche tenant compte de règles grammaticales et d'exceptions pour élargir la recherche.

14 Une r é ponse pertinente comme question L'id é e est de permettre de reformuler une question à partir d'un document pertinent. L'utilisateur d é termine le document le plus proche de ses pr é occupations et le soumet au moteur de recherche. Celui-ci en extrait les termes importants (comment ?) pour interroger de nouveau la base de donn é es. Cette technique n'est pas tr è s pertinente.

15 Attention aux différences D'un outil de recherche à l'autre existent des différences de traitement : oles mots vides peuvent être filtrés ou non ; ol'opérateur implicite est soit le ET soit le OU ; ol'ordre des mots de la question peut avoir une importance dans le tri des résultats ; ola troncature peut être implicite, explicite ou absente ; oles majuscules et les minuscules peuvent être différenciées ou non ; oles lettres accentuées sont souvent mal gérées sur les outils anglo-saxons.

16 Les méthodes de classement des résultats de recherche Les moteurs de recherche ont d é velopp é des m é thodes de tri automatique des r é sultats. Cela leur permet ainsi de se distinguer les uns des autres. Dans la pratique, aucune m é thode de tri n'est parfaite mais cette vari é t é offre à l'utilisateur la possibilit é de traquer l'information de diff é rentes mani è res ; elle augmente donc ses chances d'am é liorer ses recherches. Le but du classement est d'afficher dans les dix à vingt premi è res r é ponses les documents r é pondant le mieux à la question. Si on ne trouve pas ce que l'on cherche dans les toutes premi è res pages de r é sultats, il faut reformuler la question. Pour cela, il faut comprendre les m é canismes sous- jacents pour en tirer vraiment profit. l'algorithme exact n'est jamais connu car il est consid é r é comme un secret industriel et quelquefois prot é g é par un brevet (cas d'Excite).

17 Le tri par pertinence Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les cinq facteurs suivants appliqués aux termes de la question : 1.le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte ; à l'intérieur, il est plus important si le mot est en majuscule ; 2.la densité est basée sur la fréquence d'occurrence dans un document par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera favorisé ; 3.le poids d'un mot dans la base est fondé sur la fréquence d'occurrence pour toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués ; 4.la correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé ; 5.la relation de proximité est basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

18 Le tri par popularité LA METHODE BASEE SUR LA CO-CITATION Lancé en 1998 par deux étudiants de l'Université de Stanford, Google classe les pages grâce à la combinaison de plusieurs facteurs dont le principal porte le nom de PageRank. L'article de Page et Sergey en donne une description. PageRank utilise le nombre de liens pointant sur les pages. L'algorithme de recherche prend également en compte l'importance des sites pointant vers les résultats de la recherche. Plusieurs moteurs de recherche ont intégré depuis cette fonctionnalité.Google

19 LA METHODE BASEE SUR LA MESURE D'AUDIENCE La société DirectHit a été fondée en avril 1998 et propose de trier les pages en fonction du nombre de visites qu'elles reçoivent. DirectHit analyse le comportement d'un internaute dans l'utilisation d'un moteur de recherche DirectHit enregistre cet aspect comportemental de l'internaute pour tenter de trouver les pages les plus « populaires » sur un moteur de recherche et ainsi améliorer leur classement.

20 Le tri par calcul dynamique de catégories NorthernLight propose une solution appelée clustering en anglais ou agrégation. Elle a été développée en bibliométrie dans les années 80 et appliquée à des corpus de références bibliographiques dans le cadre de la veille technologique. Rq: Aucune de ces méthodes n'est idéale. Le contenu très hétérogène des pages ne facilite pas les choses. Le comportement négatif de certains (spamming) oblige les moteurs de recherche à modifier régulièrement leur algoritme. La tendance actuelle est de mixer différentes approches pour ne pas être trop dépendant d'une seule méthode.

21 L'interrogation en langage naturel Certains outils de recherche proposent l'interrogation en langage naturel : Lexique st a créé des technologies de pointe en matière de traitement linguistique. La technologie de base est le fruit de plus de vingt ans de recherche. Résultat : les applications de traitement linguistique évoluées sont plus performantes et plus satisfaisantes. La technologie LexiQuest est capable de traiter les différents échelons du langage naturel : 1.morphologique : compréhension du mot, y compris des différentes formes du mot, des mots composés et des catégories grammaticales; 2.syntaxique : identification des fonctions des mots dans une phrase ; 3.sémantique : identification de la signification du mot selon son utilisation ; 4.conceptuel : organisation des concepts indépendamment de la langue.

22 Projets 1.Recherche sur Internet 2.Web invisible 3.Web blogs 4.Recherche documentaire 5.Evaluation des sites

23 1.LE FINDER. Le Finder permet, sous une seule et même interface, de faire des recherches avancées sur 12 des principaux outils de recherche (5 moteurs généralistes, 2 annuaires généralistes, 2 métamoteurs, 2 encyclopédies et un moteur spécialisé en sciences) 2.Les outils de recherche généraux moteurs, annuaires, métamoteurs généralistes 3.Les dictionnaires, encyclopédies, traducteurs,... 4.Les outils de recherche dans les services d'Internet recherche de listes de discussion, News, recherche dans les sites FTP,... 5.Chercher un outil spécialisé recherche d'un moteur ou annuaire thématique, recherche de weblogs, webring, images, vidéos, FAQ... 6.Les outils du Web invisible 7.Chercher des articles scientifiques full text ou des références 8.Chercher dans l'actualité


Télécharger ppt "Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information."

Présentations similaires


Annonces Google