La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.

Présentations similaires


Présentation au sujet: "Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005."— Transcription de la présentation:

1 Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005

2 Équipe ISLanD – Université de Caen2 Qu’est-ce qu’un ordinateur ? Côté matériel Un ensemble de composants électroniques (tels un processeur, un disque dur, etc.) Ces composants permettent de réaliser un très grand nombre de calculs très rapidement (par exemple : 3 GHz  3 milliards d’opérations par seconde) Côté logiciel Un système d’exploitation (par exemple : Windows XP, Linux, etc.) Différents logiciels pour faire quelque chose avec l’ordinateur (par exemple : traitements de texte, jeux vidéo, etc.)

3 Équipe ISLanD – Université de Caen3 Échanges d’informations entre ordinateurs Des périphériques permettent d’échanger des informations entre plusieurs ordinateurs (tels les modems, les câbles réseaux, etc.) Pourquoi ? Échanger des courriers électroniques, Partager des données, Travailler sur des documents communs, Se connecter à Internet, etc.

4 Équipe ISLanD – Université de Caen4 Internet… C’est un réseau mondial reliant des ordinateurs particuliers,des serveurs, sur toute la planète Il a été initié en 1969 par des militaires américains Les serveurs hébergent des documents (des pages Web) visibles par n’importe qui connecté au réseau Ces pages sont liées entre elles par des liens hypertextes et contiennent des informations de toutes sortes…

5 Équipe ISLanD – Université de Caen5 Comment se connecter à Internet ? Utilisateur Fournisseur d’accès Internet

6 Équipe ISLanD – Université de Caen6 Quelle est la « taille » d’Internet ? On ne sait pas vraiment… Certainement plusieurs dizaines de milliards de pages (dont certaines sont obsolètes) Le nombre de pages créées chaque jour est de plus en plus important (croissance exponentielle)

7 Équipe ISLanD – Université de Caen7 Une page Web… (1 / 2)

8 Équipe ISLanD – Université de Caen8 Une page Web… (2 / 2)

9 Équipe ISLanD – Université de Caen9 Comment retrouver des informations parmi toutes ces pages ? En utilisant des moteurs de recherche, les plus connus sont certainement Google et Yahoo! A partir d’une requête de l’utilisateur constituée d’un ou plusieurs mots-clés, le moteur va retourner des pages Web en rapport avec cette requête Un exemple avec Yahoo!

10 Équipe ISLanD – Université de Caen10 Les requêtes par mots-clés chien chat : recherche des pages en rapport à la fois avec les mots « chien » et « chat » (  « chien AND chat ») chien OR chat : recherche des pages en rapport soit avec le mot « chien », soit avec le mot « chat » chien –chat : recherche des pages en rapport avec le mot « chien », mais sans apport avec le mot « chat » Exemple de recherche avancée avec Yahoo!

11 Équipe ISLanD – Université de Caen11 Comment marche un moteur de recherche ? (1 / 2) Première étape : Des programmes parcourent le réseau Internet afin de récupérer un maximum de pages Ces programmes vont ensuite extraire et compter tous les mots (du rendu) de chaque page Une fois la page parcourue, son adresse (URL) et la liste de mots qui la composent et leur nombre d’apparition sont stockés dans une grande base de données, appelée index

12 Équipe ISLanD – Université de Caen12 Comment marche un moteur de recherche ? (2 / 2) Seconde étape : Les utilisateurs interrogent le moteur de recherche Le moteur parcourt son index à partir des mots de la requête de l’utilisateur pour retrouver les pages liées à cette requête Le moteur retourne ensuite à l’utilisateur la liste des pages liées à la requête triées par ordre de « pertinence »

13 Équipe ISLanD – Université de Caen13 Comment les pages Web sont- elles triées par le moteur ? Le critère de base : le nombre d’apparitions des mots de la requête dans les pages plus un mot de la requête est contenu dans une page, plus cette dernière est pertinente par rapport à la requête Un autre critère important : la mesure d’« importance » d’une page (pagerank) Plus une page Web est « pointée » par d’autres pages plus elle est considérée comme importante Attention : Les classements des pages restent très artificiels et discutables !!!

14 Équipe ISLanD – Université de Caen14 Différents moteurs de recherche Moteurs classiques : Google, Yahoo!, MSN Search, etc. Moteurs cartographiques : Kartoo, MapStan, etc. KartooMapStan Moteurs catégoriels : Webbrain, Mooter, etc. WebbrainMooter

15 Équipe ISLanD – Université de Caen15 Les limites de ces moteurs (1 / 2) Les moteurs de recherche ne contiennent pas dans leurs bases des pages très récentes les pages sont modifiées et il y a un délai assez long entre deux passages du robot d’un moteur de recherche Le nombre de pages Web devient de plus en plus important et leur traitement devient problématique Google et Yahoo annoncent des tailles d’index de plus de 20 milliards de pages (chiffres sans doute sur-évalués)

16 Équipe ISLanD – Université de Caen16 Les limites de ces moteurs (2 / 2) Difficulté de toujours exprimer sa requête par quelques mots-clés « je voudrais avoir les pages Web qui parlent du conflit en Irak » Listes de résultats souvent très longues Plusieurs milliers de réponses sont souvent retournées pour une requête Etc.

17 Équipe ISLanD – Université de Caen17 Des problèmes de recherche Systèmes de recherche de contenus illégaux Traque des contenus pédophiles, racistes … Problème posé : Un site dénonçant le racisme va reprendre le discours raciste pour le dénoncer. Il risque alors d’être classé lui-même comme site raciste. Solution envisagée : Rechercher grâce à des indices autres que le texte.

18 Équipe ISLanD – Université de Caen18 Nos propositions (1 / 2) Problème posé : Améliorer le classement des pages Web Solutions envisagées : Personnalisation du moteur de recherche : des questions sont posées à l’utilisateur au cours des premières utilisations du moteur afin d’« apprendre » ses centres d’intérêt, puis un filtrage de l’ensemble des réponses à l’aide des centres d’intérêt de l’utilisateur sur les nouvelle Questionnement thématique : Utilisation de lexiques thématiques (exemple)exemple Sélection des zones des pages les plus importantes Mise en évidence des zones où le thème principale de la page est abordé

19 Équipe ISLanD – Université de Caen19 Nos propositions (2 / 2) Problème posé : Faire face au nombre de plus en plus important de pages Web Solution envisagée : Vue d’ensembles sur les réponses du moteur à une requête et regroupement de pages similaires Cartographie thématique (exemple 1, exemple 2)exemple 1exemple 2


Télécharger ppt "Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005."

Présentations similaires


Annonces Google