La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche d’information sur le web

Présentations similaires


Présentation au sujet: "Recherche d’information sur le web"— Transcription de la présentation:

1 Recherche d’information sur le web

2 Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information recherchée et du but de la recherche. Il faut avoir en tête un certains nombre de « vérités ».

3 Sur l'information Il n'y a pas tout sur Internet.
Internet est une source complémentaire aux sources classiques, commerciales. La fiabilité des informations recueillies est comparable à celle de la littérature papier. Mais il faut toujours recouper l'information par les bases de données classiques. Internet n'est pas l'équivalent d'une bibliothèque virtuelle : les documents sont très hétérogènes au niveau du contenu et il n'existe pas de classement global. Les fautes d'orthographe sont très fréquentes dans les pages html. Le bruit est une caractéristique importante des réponses.

4 Sur les outils de recherche
Le passage à la diffusion électronique pose le grave problème de l'archivage de l'information, qu'elle soit gratuite ou commerciale. Les bibliothèques voient leur rôle traditionnel de lieu d'archive remis en question. En particulier les abonnements aux ressources électroniques ne donnent qu'une licence de consultation mais pas la propriété de l'information. Ce problème est particulièrement critique avec les journaux spécialisés à cause de la constitution de quelques monopoles qui maîtrisent toute la chaîne de la production à la diffusion de l'information et éliminent les intermédiaires. Le milieu universitaire international se mobilise pour trouver une solution.

5 Le web invisible

6 Recherche d’information sur le web

7 Les principes d'interrogation 1
Les opérateurs booléens Leur nom est tiré de celui de George Boole ( ), mathématicien anglais, auteur de la théorie des ensembles. La recherche booléenne repose sur les trois opérations suivantes :

8 Les principes d'interrogation 1
·    L'union permet de rechercher sur des concepts proches, des synonymes ce qui est important pour des questions posées en vocabulaire libre. L'intersection impose la présence de tous les critères de recherche. Une syntaxe (presque) commune La plupart des outils de recherche utilise la syntaxe suivante qui pourra être employée sans risque grave.

9 Les principes d'interrogation 2 Compléter le tableau suivant
Opération ? Opérateurs ? exemple "vache folle" +vache +folle +bretagne -grande vache*

10 Les principes d'interrogation 2
Opération Opérateurs exemple Rechercher une expression "" "vache folle" I imposer un terme + +vache +folle Exclure un terme - +bretagne -grande Tronquer un terme * vache* Rq: Attention, les signes + et - doivent être collés à gauche du terme concerné. Cette syntaxe correspond en général aux formulaires de recherche simple.

11 Les opérateurs de proximité
Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On trouve les opérateurs suivants :

12 Les opérateurs de proximité
Peu d'outils utilisent les opérateurs de proximité.

13 La troncature Les moteurs de recherche tronquent souvent les termes sans prévenir. Cela peut produire du bruit. C'est l'étoile * qui est en général utilisée. Certains outils francophones proposent une recherche tenant compte de règles grammaticales et d'exceptions pour élargir la recherche.

14 Une réponse pertinente comme question
L'idée est de permettre de reformuler une question à partir d'un document pertinent. L'utilisateur détermine le document le plus proche de ses préoccupations et le soumet au moteur de recherche. Celui-ci en extrait les termes importants (comment ?) pour interroger de nouveau la base de données. Cette technique n'est pas très pertinente.

15 Attention aux différences
D'un outil de recherche à l'autre existent des différences de traitement : les mots vides peuvent être filtrés ou non ; l'opérateur implicite est soit le ET soit le OU ; l'ordre des mots de la question peut avoir une importance dans le tri des résultats ; la troncature peut être implicite, explicite ou absente ; les majuscules et les minuscules peuvent être différenciées ou non ; les lettres accentuées sont souvent mal gérées sur les outils anglo-saxons.

16 Les méthodes de classement des résultats de recherche
Les moteurs de recherche ont développé des méthodes de tri automatique des résultats. Cela leur permet ainsi de se distinguer les uns des autres. Dans la pratique, aucune méthode de tri n'est parfaite mais cette variété offre à l'utilisateur la possibilité de traquer l'information de différentes manières ; elle augmente donc ses chances d'améliorer ses recherches. Le but du classement est d'afficher dans les dix à vingt premières réponses les documents répondant le mieux à la question. Si on ne trouve pas ce que l'on cherche dans les toutes premières pages de résultats, il faut reformuler la question. Pour cela, il faut comprendre les mécanismes sous-jacents pour en tirer vraiment profit. l'algorithme exact n'est jamais connu car il est considéré comme un secret industriel et quelquefois protégé par un brevet (cas d'Excite).

17 Le tri par pertinence Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les cinq facteurs suivants appliqués aux termes de la question : le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte ; à l'intérieur, il est plus important si le mot est en majuscule ; la densité est basée sur la fréquence d'occurrence dans un document par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera favorisé ; le poids d'un mot dans la base est fondé sur la fréquence d'occurrence pour toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués ; la correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé ; la relation de proximité est basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

18 Le tri par popularité LA METHODE BASEE SUR LA CO-CITATION Lancé en 1998 par deux étudiants de l'Université de Stanford, Google classe les pages grâce à la combinaison de plusieurs facteurs dont le principal porte le nom de PageRank. L'article de Page et Sergey en donne une description. PageRank utilise le nombre de liens pointant sur les pages. L'algorithme de recherche prend également en compte l'importance des sites pointant vers les résultats de la recherche. Plusieurs moteurs de recherche ont intégré depuis cette fonctionnalité.

19 LA METHODE BASEE SUR LA MESURE D'AUDIENCE
La société DirectHit a été fondée en avril 1998 et propose de trier les pages en fonction du nombre de visites qu'elles reçoivent. DirectHit analyse le comportement d'un internaute dans l'utilisation d'un moteur de recherche DirectHit enregistre cet aspect comportemental de l'internaute pour tenter de trouver les pages les plus « populaires » sur un moteur de recherche et ainsi améliorer leur classement.

20 Le tri par calcul dynamique de catégories
NorthernLight propose une solution appelée clustering en anglais ou agrégation. Elle a été développée en bibliométrie dans les années 80 et appliquée à des corpus de références bibliographiques dans le cadre de la veille technologique. Rq: Aucune de ces méthodes n'est idéale. Le contenu très hétérogène des pages ne facilite pas les choses. Le comportement négatif de certains (spamming) oblige les moteurs de recherche à modifier régulièrement leur algoritme. La tendance actuelle est de mixer différentes approches pour ne pas être trop dépendant d'une seule méthode.

21 L'interrogation en langage naturel
Certains outils de recherche proposent l'interrogation en langage naturel : Lexique st a créé des technologies de pointe en matière de traitement linguistique. La technologie de base est le fruit de plus de vingt ans de recherche. Résultat : les applications de traitement linguistique évoluées sont plus performantes et plus satisfaisantes. La technologie LexiQuest est capable de traiter les différents échelons du langage naturel : morphologique : compréhension du mot, y compris des différentes formes du mot, des mots composés et des catégories grammaticales; syntaxique : identification des fonctions des mots dans une phrase ; sémantique : identification de la signification du mot selon son utilisation ; conceptuel : organisation des concepts indépendamment de la langue.

22 Projets Recherche sur Internet Web invisible Web blogs
Recherche documentaire Evaluation des sites

23 LE FINDER. http://aeris.11vm-serv.net/tools/finder.html
Le Finder permet, sous une seule et même interface, de faire des recherches avancées sur 12 des principaux outils de recherche (5 moteurs généralistes, 2 annuaires généralistes, 2 métamoteurs, 2 encyclopédies et un moteur spécialisé en sciences)   Les outils de recherche généraux moteurs, annuaires, métamoteurs généralistes   Les dictionnaires, encyclopédies, traducteurs,...   Les outils de recherche dans les services d'Internet recherche de listes de discussion, News, recherche dans les sites FTP,...   Chercher un outil spécialisé recherche d'un moteur ou annuaire thématique, recherche de weblogs, webring, images, vidéos, FAQ ...   Les outils du Web invisible   Chercher des articles scientifiques full text ou des références   Chercher dans l'actualité


Télécharger ppt "Recherche d’information sur le web"

Présentations similaires


Annonces Google