La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Xavier Tannier Recherche dInformation sur le Web Extraction dInformation dans les Textes I.

Présentations similaires


Présentation au sujet: "Xavier Tannier Recherche dInformation sur le Web Extraction dInformation dans les Textes I."— Transcription de la présentation:

1 Xavier Tannier Recherche dInformation sur le Web Extraction dInformation dans les Textes I

2 Rappels des épisodes précédents

3 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Recherche d'Information 3 Collections dynamiques vs. statiques Collections dynamiques vs. statiques Requête Indexation (modèle de document) Modèle de recherche Évaluation

4 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Construction de lindex : vue générale 4 TEXTE Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?" TERMES Rien nesert de couririlfaut partir à point TERMES NORMALISÉS rien sert courirfaut partirpoint DOCUMENTS INDEX

5 Le Web, quest-ce que ça change ?

6 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Environ 250 millions de sites Web Plus de 1000 milliards de pages Web (selon Google) Bientôt 2 milliards d'humains connectés Beaucoup, beaucoup d'information Qu'est-ce que le Web ? 6 25 Terabytes of Log Data – Daily The amount of log data amassed in Facebooks operations is staggering. Rothschild said Facebook manages more than 25 terabytes of data per day in logging data, which he said was the equivalent of about 1,000 times the volume of mail delivered daily by the U.S. Postal Service.

7 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Du contenu (un peu) structuré Des métadonnées 7 Xavier Tannier, page personnelle (home page) …

8 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Du contenu (un peu) structuré 8 Des liens Un complément d'information Une dimension sociale OpenGraph protocol

9 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Du contenu (un peu) structuré Des indications de forme – Titres (h1, h2…) – Caractères gras, italiques, soulignés – Couleurs – Listes… 9

10 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Du contenu (un peu) structuré Du balisage "sémantique" pour l'application de feuilles de style 10 La SNCF toujours à lheure sur la hausse des prix décryptage Poussé par le gouvernement, […] 2 réactions Par CATHERINE MAUSSION Des TGV à la gare de Lyon, à Paris. (© AFP Loic Venance) Le nouveau secrétaire dEtat aux Transports, […] La lecture de cet article est réservée aux abonnés LIBE+. Abonnez-vous dès maintenant, à partir de 6 par mois.

11 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Un contenu dynamique 11

12 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Un contenu dynamique 12

13 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Un contenu dynamique 13

14 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Un contenu redondant 14

15 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Un contenu souvent non informatif 15 Menus Liens Index Publicités

16 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Un contenu non contrôlé Tout le monde peut à la fois être lecteur et producteur d'info – Ajouter son propre contenu au Web est devenu simple et gratuit – Pages persos, blogs, wikis, forums, listes de diffusion... – Les institutions et les particuliers sont a priori sur le même pied Le Web fourmille d'informations fausses Les métadonnées sont peu utilisées Les créateurs de pages peuvent modifier le contenu pour améliorer leur classement sur les moteurs de recherche – Répétition de mots-clés dans des couleurs non visibles ou dans les métadonnées – Spamming : pas de contenu mais une énumération de mots-clés destinés uniquement à être visible sur les moteurs de recherche 16

17 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Un contenu non contrôlé De la structure – Formulaires, menu : [HTML], [TEXTE][HTML][TEXTE] – Tableaux : [HTML], [TEXTE][HTML][TEXTE] Du contenu sans information – [HTML] [HTML] Du spam – [HTML] [HTML] 17

18 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Un contenu « caché » « Web profond » – Les sites "non­ liés" (Web opaque) – Le contenu à accès limité – La plupart des pages dynamiques La majeure partie du Web n'est pas indexée (Web profond = 500 fois le Web de surface selon BrightPlanet 2001) Protocole sitemap de Google 18

19 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Des besoins dutilisateurs différents Besoins dinformation – Accès à la connaissance sur un sujet – « Chevaliers paysans de l'an mil au lac de Paladru » – Entre 40 et 65 % des requêtes Besoins de navigation – Recherche dune page précise – « Facebook », « Le Monde » – Entre 15 et 25 % Besoins de transaction – Recherche dun service opéré sur le Web – « billets SNCF », « Canon EOS 550 D », « météo Argentine » – Entre 20 et 35 % Les frontières ne sont pas toujours claires… 19

20 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Des enjeux importants Des enjeux économiques – 115 milliards d'euros générés par le Web en 2009 au Royaume-Uni – 75 % des sites sont trouvés par lintermédiaire dun moteur de recherche (source : WebPosition) Des enjeux culturels et politiques – Une prédominance américaine sur la gouvernance et les outils – Des algorithmes de recherche et des moyens mis en œuvre secrets – Une volonté de contrôle par les pouvoirs en place Des enjeux éthiques – Un réseau international, mais des droits nationaux – Le plagiat est devenu monnaie courante – Attention au respect de la vie privée – L'information est très difficile à effacer ! 20

21 Crawling

22 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Le crawling dans le principe Des robots (ou crawlers, spiders,...) partent dune liste dURL connues (amorces) Ils "parcourent" les sites et indexent leur contenu - Extraction des URL présentes dans les nouveaux sites - Placement de ces URL dans la file dattente Ils explorent ensuite la file dattente 22

23 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Oui, mais… Une seule machine ne peut pas gérer le parcours du Web entier – Le crawling doit être distribué Certaines pages sont « malicieuses » – Spam – Des « pièges à robots » (intentionnels ou non) Et il faut gérer : – La latence et la bande passante des serveurs – Les stipulations des webmasters – Les sites miroirs et les pages dupliquées – Les règles de politesse 23

24 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Le crawling dans la pratique Un crawler doit : – Être poli : Ne pas solliciter un serveur trop souvent Ne parcourir que les pages autorisées Respecter les stipulations du robots.txt – Être robuste : Éviter les pièges et les comportements malicieux des serveurs Passer à léchelle convenablement – Tâches distribuées – Conception propre à augmenter régulièrement le nombre de sites visités Savoir sadapter à de nouveaux formats ou protocoles – Être pertinent : Parcourir les pages de « qualité » en priorité Repasser souvent dans les endroits animés 24

25 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier La politesse du robot Politesse implicite : ne pas solliciter un serveur trop souvent Politesse explicite : le robots.txt – Un protocole permettant de choisir laccès donné au crawler sur un site – Le site annonce les restrictions dans un fichier robots.txt à la racine. Exemple : Aucun robot ne doit visiter les URL du répertoire /fichiers/perso, sauf le robot nommé « lebonmoteur » User-agent: * Disallow: /fichiers/perso User-agent: lebonmoteur Disallow: – 25

26 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les étapes du crawling 1.Choisir une URL dans la file dattente 2.Récupérer le document correspondant 3.Analyser le document – Extraire les liens externes – Pour chaque lien externe : Vérifier quil vérifie les contraintes (robots.txt, contraintes spécifiques au moteur) Vérifier quil nest pas déjà dans la file dattente Si cest bon, lajouter dans la file dattente 4.Vérifier que le contenu du document est nouveau – Si oui, ajouter à lindex 26 Priorités des URL DNS Normalisation des URL Détection de doublons Mise en cache des robots.txt

27 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Détection de doublons Le Web est rempli de doublons (plagiat, éditions multiples, etc.) Mais ce ne sont pas des doublons parfaits – Les procédés de fingerprinting ne suffisent donc pas – Il faut mettre en œuvre des mesures de similarité

28 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Priorités des URL : lexemple de Mercator Deux contraintes en conflit – Être poli – Visiter plus souvent les pages fréquemment modifiées Une file avec priorité simple (FIFO) est malpolie : les pages proposent souvent des liens vers leur propre site Deux types de files dattente : – T1 pour gérer les priorités – T2 pour gérer la politesse 28 Liste dURL m files dattente de type T1 n files dattente de type T2 choix des priorités sélectionroutage choix de lURL à visiter Mercator

29 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Files de type T1 Chaque URL reçoit une priorité comprise entre 1 et m. – Fréquence de visites en fonction des précédentes visites et des changements de la page lors de ces visites – Choix spécifiques (par exemple, visiter les sites de news plus souvent) LURL est ajoutée à la file dattente correspondante – Chaque file dattente est de type FIFO 29 Liste dURL n files dattente de type T2 choix des priorités sélectionroutage choix de lURL à visiter m files dattente de type T1 Mercator

30 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Passage des URL des files T1 aux files T2 Quand une file T2 cherche une nouvelle URL, on en sélectionne une dans une file T1 – En fonction des priorités ou au hasard Chaque file T2 contient les URL dun seul et même hôte – On maintient un dictionnaire reliant un hôte à la file correspondante – Chaque file doit rester non-vide ! – Pour chaque hôte, on conserve également le moment t e auquel il pourra être sollicité de nouveau (heuristique fonction du dernier accès) 30 Liste dURL choix des priorités sélectionroutage choix de lURL à visiter m files dattente de type T1 n files dattente de type T2 Mercator

31 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier m files dattente de type T1 Choix de lURL à visiter 31 Liste dURL choix des priorités sélectionroutage choix de lURL à visiter n files dattente de type T2 Un thread du crawler qui cherche une nouvelle URL à visiter : – Choisit un hôte h ayant un t e < maintenant – Prend le premier élément de la file dattente T2 h correspondant à cet hôte Si T2 h est maintenant vide, sélectionner une URL u dans les files T1 – Si lhôte de u possède déjà une file T2, lajouter à cette file et recommencer – Sinon utiliser T2 h pour cette URL et créer une nouvelle entrée pour cet hôte Si T2 h est non-vide, mettre à jour t e Recommandation : utiliser 3 fois plus de files T2 que de threads – Pour garder tous les threads occupés tout en restant poli Mercator

32 Le spam 32

33 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Quest-ce que le spam pour un moteur de RI ? Un spam est une page Web qui remonte dans les résultats dun moteur de recherche : – Pour des mots-clés précis – De façon artificielle – (Indépendamment de son contenu réel) Pourquoi faire du spam ? – Parce quêtre dans les premiers résultats pour certaines requêtes peut rapporter gros – Loptimisation pour moteurs de recherche (SEO) est une activité économique à part entière Pourquoi de contrer le spam ? – Parce que le spam est souvent à lopposé de la notion de pertinence 33

34 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Comment spammer ? Les premiers moteurs de recherche sappuyaient essentiellement sur le tf.idf Le cloaking : présenter un contenu différent à un moteur de recherche quà un humain – Avec ladresse IP ou le user-agent La redirection : optimiser une page pour un seul mot-clé, puis rediriger linternaute vers la « vraie » page 34 Comment faire du spam avec du tf.idf ? Comment conserver une page lisible tout en pratiquant ce type de spam ? Comment faire du spam avec du tf.idf ? Comment conserver une page lisible tout en pratiquant ce type de spam ?

35 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier La lutte contre le spam Repérer les pages qui font autorité – Votes des utilisateurs – Votes des autres auteurs de pages (voir plus loin) Des limites sur les mots-clés Analyse de liens – Repérer les chaînes de liens suspectes – Les spammeurs font des liens vers dautres spammeurs Apprentissage – Trouver des « traits » importants pour différencier un spam dune page honnête – Faire (un peu) danalyse linguistique – Utiliser des ensembles dapprentissage sur des listes connues de spams Etc. 35 Lesquels ?

36 Le PageRank 36

37 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier PageRank Mesure de l'importance relative objective d'une page Web : – Indice de popularité ; notion de confiance collaborative – Utilisation de la structure des liens du Web : Les liens sortants (forward links) Les liens entrants (backlinks) Justification intuitive : – Le nombre de liens entrants d'une page est révélateur d'une certaine importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations) – Une page ayant un lien entrant provenant d'un site lui-même important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page On voit le Web comme un graphe 37

38 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier PageRank La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page. Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages elles-mêmes importantes : – Bu : ensemble des pages ayant un lien entrant sur la page u – C(v) : nombre de liens sortant de la page v (chaque page diffuse son vote de façon égale sur tous ses liens sortants) – d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun lien entrant aura un PageRank de Quelle est la signification de d ? Son utilité ? Quelle est la signification de d ? Son utilité ?

39 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Calcul du PageRank Le PageRank moyen est 1 (avec 1/N, la somme des PR est 1) Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle : – Calcul des PageRanks sans connaître la valeur finale de tous les PageRanks impliqués – Itérations qui approchent des valeurs finales jusqu'à convergence – La valeur initiale n'affecte pas les valeurs finales mais le nombre d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages) – Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet 39

40 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Calcul du PageRank 40

41 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Calcul du PageRank 41 A B C D Valeurs relatives des PageRanks des pages ?

42 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Calcul du PageRank 42 A B C D 1,49 1,58 0,78 0,15 (20 itérations sont nécessaires pour la convergence) La page D a une valeur minimale du PageRank (aucun lien entrant) La page C a de nombreux liens entrants La page A bénéficie du lien entrant provenant de la page C PR moyen = 1

43 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web PageRank : cas simple 43 Home 0,92 Contact Produit Liens Lien externe A Lien externe B Lien externe C Lien externe D 0,41 0,22 0,85 0,39 0,19 Lien externe E 0,19 Lien externe F 0,19 Lien externe G 0,19 Lien externe H 0,19

44 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier PageRank : cas simple Rétroaction des valeurs des PageRanks pour la page Home Plus le nombre de liens sortant de la page Links est important, plus le partage du PageRank est diffus Plus le nombre de pages augmente, plus des pages sans nouveaux liens entrant perdent de l'importance Avoir un lien vers une page importante n'augmente pas le PR (!) 44

45 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier PageRank : la tentation du spam Le nombre de pages d'un site n'augmente pas le PR moyen Une certaine organisation hiérarchique d'un site peut fortement concentrer le PR sur la page principale Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site 45 Page A 331,0 Page B 281,6 Spam 1 0,39 Spam 2 0,39 Spam ,39 ……………………

46 Autres éléments - Utilisation de lapprentissage automatique 46

47 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Autres éléments pour le classement des pages Il ny a pas que le tf.idf et le PageRank, loin de là… – Les mots-clés des liens – Les couleurs – La casse des mots – Les titres – Le nombre dimages – Le nombre de liens sortants – La taille de lURL – LURL contient une « ~ » – La date de dernière modification – La taille de la page – … Les gros moteurs de recherche utilisent des centaines déléments

48 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Apprentissage On sait que tous ces éléments comptent pour estimer la pertinence dune page – Une page contenant un mot-clé dans le titre est plus pertinente quune autre contenant le mot-clé dans le contenu – Une page contenant un mot-clé en rouge est plus pertinente quune autre contenant le mot-clé en noir Mais à quel point ? – Une page contenant un mot-clé dans le titre vs. une page contenant 8 mots-clés dans le contenu ? – Une page contenant deux mots-clés en rouge vs. une page contenant 1 mot-clé dans le titre et un autre en gras ? – etc. De plus, ces éléments sont interdépendants 48

49 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Apprentissage : exemple 49 Pourquoi ? ExempleDocIdRequête E1E1 12billet11OK E2E2 32bateau01KO E3E3 32Ecosse01OK E4E4 256billet00KO E5E5 1352billet11OK E6E6 4582bateau01OK E7E7 9510billet10KO

50 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Apprentissage : exemple 50

51 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Apprentissage : exemple 51

52 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Généralisation Beaucoup plus de traits différents Des traits non-booléens – Taille du document – Texte en gras souligné… – etc. – On peut alors traiter (par exemple) avec la variance et lespérance des données exemples (classification bayésienne) Des combinaisons non-linéaires Des jugements de pertinence gradués etc. 52

53 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier « Learning to rank » En RI moderne on ne veut pas séparer les documents entre pertinents et non pertinents, mais les classer entre eux On fait donc de la classification par paires de résultats Classes : – Est meilleur que – Est moins bon que Puis on ordonne. De nombreuses méthodes de classification sont employées : – Support Vector Machine – Boosting – Réseaux de neurones – Modèle de régression linéaire – etc. 53

54 Limportance de linterface 54

55 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (1/6) Interfaces utilisateurs généralement dénudées Accès à une recherche avancée et à des paramètres Présentation d'extraits de résultats (snippets) Présentation de résultats commerciaux ("sponsorisés") Exemple: Altavista 55

56 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (2/6) Présentation de résultats visuels Utilisation de termes associés et d'annuaires Exemple: Exalead 56

57 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (3/6) Support pour des requêtes exprimées en langue – Focus sur l'utilisateur et non sur le fonctionnement interne du moteur de recherche Exemple : AskJeeves 57

58 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (4/6) Aide à la formulation des requêtes durant la saisie – Par exemple, guidage par des suites de mots et le nombre de documents qui les contiennent Exemple: Google Suggest (et maintenant Google Instant) 58

59 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (5/6) Pr ésentation des résultats sous forme graphique (cartes...) – Aide à la navigation et à la reformulation de sa requête Exemple : KartOO 59

60 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Les interfaces utilisateur (6/6) Étiquetage "sémantique" 60

61 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Le Web, un réseau public Un réseau international, mais des droits nationaux – En Chine, des sites effacés des résultats de recherche – En France également Le plagiat est devenu monnaie courante Attention au respect de la vie privée – Documents mis à disposition sur la toile – Informations recueillies sur les internautes (formulaires ou informations sur les visiteurs) L'information est très difficile à effacer ! – Google cache – Wayback machine – Listes de diffusion – Blogs, Facebook, … 61

62 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Des moteurs de recherche opaques (1/2) Toutes les étapes de la recherche sont des secrets industriels – Comme pour toutes les activités à but commercial – Mais l'information et la connaissance sont des "marchandises" particulières – Le projet Nutch tente de promouvoir un moteur de recherche libreNutch – Les réseaux tissés par les géants du Web peuvent poser question (sans tomber dans la paranoïa). 62 Nécessité de varier ses sources d'information

63 Extraction dInformation dans les Textes I RI sur le Web Xavier Tannier Des moteurs de recherche opaques (2/2) Rien ne permet de vérifier que les critères de classement des documents par rapport à la requête sont équitables – Séparation des liens commerciaux et des liens de recherche ? – Affinités particulières entre moteurs et sites commerciaux ; ex : Google et Yahoo avec Amazon, Voilà avec eBay et PriceMinister. – Google possède YouTube, cela influe-t-il sur le rang des liens YouTube ? Toutes les requêtes (logs) sont conservées – Tous dans l'illégalité vis-à-vis de la législation européenne (13 mois pour Yahoo, 9 mois pour Google, 18 mois pour Bing) – cf. demande des logs de Google et Yahoo par le gouvernement américain – Google, Yahoo et Microsoft veulent mettre les logs à disposition de la communauté scientifique (problèmes de droit) – Grâce aux comptes, les résultats (et les publicités) sont personnalisés 63

64 Extraction dInformation dans les Textes I Xavier Tannier RI sur le Web Quelques moteurs de recherche 64 et bien d'autres, sans compter les méta-moteurs...méta-moteurs


Télécharger ppt "Xavier Tannier Recherche dInformation sur le Web Extraction dInformation dans les Textes I."

Présentations similaires


Annonces Google