Recherche d’Information sur le Web

Recherche d’Information sur le Web
Extraction d’Information dans les Textes I

Rappels des épisodes précédents

Recherche d'Information
Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

Construction de l’index : vue générale
DOCUMENTS TERMES Rien ne sert de courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" TERMES normalisés rien sert courir faut partir point

Le Web, qu’est-ce que ça change ?

Qu'est-ce que le Web ? Environ 250 millions de sites Web
Plus de 1000 milliards de pages Web (selon Google) Bientôt 2 milliards d'humains connectés Beaucoup, beaucoup d'information 25 Terabytes of Log Data – Daily The amount of log data amassed in Facebook’s operations is staggering. Rothschild said Facebook manages more than 25 terabytes of data per day in logging data, which he said was the equivalent of about 1,000 times the volume of mail delivered daily by the U.S. Postal Service.

Du contenu (un peu) structuré
Des métadonnées <head> <title>Xavier Tannier, page personnelle (home page)</title> <meta name="description" lang="fr" content="Page personnelle de Xavier Tannier"/> <meta name="description" lang="en" content="Xavier Tannier Home Page"/> <meta name="author" content="Xavier Tannier"/> <meta name="keywords" lang="fr" content="informatique, enseignement, recherche d'information, langage naturel, TAL, moteurs de recherche"/> …

Des liens Un complément d'information Une dimension sociale OpenGraph protocol

Des indications de forme Titres (h1, h2…) Caractères gras, italiques, soulignés Couleurs Listes…

Du balisage "sémantique" pour l'application de feuilles de style <h1>La SNCF toujours à l’heure sur la hausse des prix</h1> <h4>décryptage</h4> <p class="sstitre">Poussé par le gouvernement, […] </p> <p class="clear"><a href=" class="reactions" title="Réaction à l'article 'La SNCF toujours à l’heure sur la hausse des prix'">2 réactions</a></p> <p class="clear authors">Par <strong>CATHERINE MAUSSION</strong></p> <img class="" alt="Des TGV à la gare de Lyon, à Paris." src=" <p class="legende"> Des TGV à la gare de Lyon, à Paris. (© AFP Loic Venance) </p> <div class="teaseTitle"> Le nouveau secrétaire d’Etat aux Transports, […]</div> <div id="libe-access-block"> <div id="bloc-article-abonne"> <div class="bloc-article-abonne-container"> <span class="reserv">La lecture de cet article est réservée aux abonnés LIBE+. <a href=" class="color">Abonnez-vous</span></a> dès maintenant, à partir de 6€ par mois.</span>

Un contenu dynamique

Un contenu redondant

Un contenu souvent non informatif
Menus Liens Index Publicités

Un contenu non contrôlé
Tout le monde peut à la fois être lecteur et producteur d'info Ajouter son propre contenu au Web est devenu simple et gratuit Pages persos, blogs, wikis, forums, listes de diffusion... Les institutions et les particuliers sont a priori sur le même pied Le Web fourmille d'informations fausses Les métadonnées sont peu utilisées Les créateurs de pages peuvent modifier le contenu pour améliorer leur classement sur les moteurs de recherche Répétition de mots-clés dans des couleurs non visibles ou dans les métadonnées Spamming : pas de contenu mais une énumération de mots-clés destinés uniquement à être visible sur les moteurs de recherche

Un contenu non contrôlé
De la structure Formulaires, menu : [HTML], [TEXTE] Tableaux : [HTML], [TEXTE] Du contenu sans information [HTML] Du spam

Un contenu « caché » « Web profond »
Les sites "non liés" (Web opaque) Le contenu à accès limité La plupart des pages dynamiques  La majeure partie du Web n'est pas indexée (Web profond = 500 fois le Web de surface selon BrightPlanet 2001)  Protocole sitemap de Google

Des besoins d’utilisateurs différents
Besoins d’information Accès à la connaissance sur un sujet « Chevaliers paysans de l'an mil au lac de Paladru » Entre 40 et 65 % des requêtes Besoins de navigation Recherche d’une page précise « Facebook », « Le Monde » Entre 15 et 25 % Besoins de transaction Recherche d’un service opéré sur le Web « billets SNCF », « Canon EOS 550 D », « météo Argentine » Entre 20 et 35 % Les frontières ne sont pas toujours claires…

Des enjeux importants Des enjeux économiques
115 milliards d'euros générés par le Web en 2009 au Royaume-Uni 75 % des sites sont trouvés par l’intermédiaire d’un moteur de recherche (source : WebPosition) Des enjeux culturels et politiques Une prédominance américaine sur la gouvernance et les outils Des algorithmes de recherche et des moyens mis en œuvre secrets Une volonté de contrôle par les pouvoirs en place Des enjeux éthiques Un réseau international, mais des droits nationaux Le plagiat est devenu monnaie courante Attention au respect de la vie privée L'information est très difficile à effacer !

Crawling

Le crawling dans le principe
Des robots (ou crawlers, spiders, ...) partent d’une liste d’URL connues (amorces) Ils "parcourent" les sites et indexent leur contenu - Extraction des URL présentes dans les nouveaux sites - Placement de ces URL dans la file d’attente Ils explorent ensuite la file d’attente

Oui, mais… Une seule machine ne peut pas gérer le parcours du Web entier Le crawling doit être distribué Certaines pages sont « malicieuses » Spam Des « pièges à robots » (intentionnels ou non) Et il faut gérer : La latence et la bande passante des serveurs Les stipulations des webmasters Les sites miroirs et les pages dupliquées Les règles de politesse

Le crawling dans la pratique
Un crawler doit : Être poli : Ne pas solliciter un serveur trop souvent Ne parcourir que les pages autorisées Respecter les stipulations du robots.txt Être robuste : Éviter les pièges et les comportements malicieux des serveurs Passer à l’échelle convenablement Tâches distribuées Conception propre à augmenter régulièrement le nombre de sites visités Savoir s’adapter à de nouveaux formats ou protocoles Être pertinent : Parcourir les pages de « qualité » en priorité Repasser souvent dans les endroits animés

La politesse du robot Politesse implicite : ne pas solliciter un serveur trop souvent Politesse explicite : le robots.txt Un protocole permettant de choisir l’accès donné au crawler sur un site Le site annonce les restrictions dans un fichier robots.txt à la racine. Exemple : Aucun robot ne doit visiter les URL du répertoire /fichiers/perso, sauf le robot nommé « lebonmoteur » User-agent: * Disallow: /fichiers/perso User-agent: lebonmoteur Disallow:

Mise en cache des robots.txt
Les étapes du crawling Choisir une URL dans la file d’attente Récupérer le document correspondant Analyser le document Extraire les liens externes Pour chaque lien externe : Vérifier qu’il vérifie les contraintes (robots.txt, contraintes spécifiques au moteur) Vérifier qu’il n’est pas déjà dans la file d’attente Si c’est bon, l’ajouter dans la file d’attente Vérifier que le contenu du document est nouveau Si oui, ajouter à l’index Priorités des URL DNS Normalisation des URL Mise en cache des robots.txt Détection de doublons

Détection de doublons Le Web est rempli de doublons (plagiat, éditions multiples, etc.) Mais ce ne sont pas des doublons parfaits Les procédés de fingerprinting ne suffisent donc pas Il faut mettre en œuvre des mesures de similarité

Priorités des URL : l’exemple de Mercator
Deux contraintes en conflit Être poli Visiter plus souvent les pages fréquemment modifiées Une file avec priorité simple (FIFO) est malpolie : les pages proposent souvent des liens vers leur propre site Deux types de files d’attente : T1 pour gérer les priorités T2 pour gérer la politesse m files d’attente de type T1 n files d’attente de type T2 Liste d’URL choix des priorités sélection routage choix de l’URL à visiter

Files de type T1 Mercator
Chaque URL reçoit une priorité comprise entre 1 et m. Fréquence de visites en fonction des précédentes visites et des changements de la page lors de ces visites Choix spécifiques (par exemple, visiter les sites de news plus souvent) L’URL est ajoutée à la file d’attente correspondante Chaque file d’attente est de type FIFO m files d’attente de type T1 n files d’attente de type T2 Liste d’URL choix des priorités sélection routage choix de l’URL à visiter

Passage des URL des files T1 aux files T2
Mercator Passage des URL des files T1 aux files T2 Quand une file T2 cherche une nouvelle URL, on en sélectionne une dans une file T1 En fonction des priorités ou au hasard Chaque file T2 contient les URL d’un seul et même hôte On maintient un dictionnaire reliant un hôte à la file correspondante Chaque file doit rester non-vide ! Pour chaque hôte, on conserve également le moment te auquel il pourra être sollicité de nouveau (heuristique fonction du dernier accès) m files d’attente de type T1 n files d’attente de type T2 Liste d’URL choix des priorités sélection routage choix de l’URL à visiter

Choix de l’URL à visiter
Mercator Choix de l’URL à visiter Un thread du crawler qui cherche une nouvelle URL à visiter : Choisit un hôte h ayant un te < maintenant Prend le premier élément de la file d’attente T2h correspondant à cet hôte Si T2h est maintenant vide, sélectionner une URL u dans les files T1 Si l’hôte de u possède déjà une file T2, l’ajouter à cette file et recommencer Sinon utiliser T2h pour cette URL et créer une nouvelle entrée pour cet hôte Si T2h est non-vide, mettre à jour te Recommandation : utiliser 3 fois plus de files T2 que de threads Pour garder tous les threads occupés tout en restant poli m files d’attente de type T1 n files d’attente de type T2 Liste d’URL choix des priorités sélection routage choix de l’URL à visiter

Le spam

Qu’est-ce que le spam pour un moteur de RI ?
Un spam est une page Web qui remonte dans les résultats d’un moteur de recherche : Pour des mots-clés précis De façon artificielle (Indépendamment de son contenu réel) Pourquoi faire du spam ? Parce qu’être dans les premiers résultats pour certaines requêtes peut rapporter gros L’optimisation pour moteurs de recherche (SEO) est une activité économique à part entière Pourquoi de contrer le spam ? Parce que le spam est souvent à l’opposé de la notion de pertinence

Comment spammer ? Les premiers moteurs de recherche s’appuyaient essentiellement sur le tf.idf Le cloaking : présenter un contenu différent à un moteur de recherche qu’à un humain Avec l’adresse IP ou le user-agent La redirection : optimiser une page pour un seul mot-clé, puis rediriger l’internaute vers la « vraie » page Comment faire du spam avec du tf.idf ? Comment conserver une page lisible tout en pratiquant ce type de spam ?

La lutte contre le spam Repérer les pages qui font autorité
Votes des utilisateurs Votes des autres auteurs de pages (voir plus loin) Des limites sur les mots-clés Analyse de liens Repérer les chaînes de liens suspectes Les spammeurs font des liens vers d’autres spammeurs Apprentissage Trouver des « traits » importants pour différencier un spam d’une page honnête Faire (un peu) d’analyse linguistique Utiliser des ensembles d’apprentissage sur des listes connues de spams Etc. Lesquels ?

Le PageRank

PageRank Mesure de l'importance relative objective d'une page Web :
Indice de popularité ; notion de confiance collaborative Utilisation de la structure des liens du Web : Les liens sortants (forward links) Les liens entrants (backlinks) Justification intuitive : Le nombre de liens entrants d'une page est révélateur d'une certaine importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations) Une page ayant un lien entrant provenant d'un site lui-même important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page On voit le Web comme un graphe

Quelle est la signification de d ?
PageRank La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page. Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages elles-mêmes importantes : Bu : ensemble des pages ayant un lien entrant sur la page u C(v) : nombre de liens sortant de la page v (chaque page diffuse son vote de façon égale sur tous ses liens sortants) d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun lien entrant aura un PageRank de 0.15 Quelle est la signification de d ? Son utilité ?

Calcul du PageRank Le PageRank moyen est 1 (avec 1/N, la somme des PR est 1) Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle : Calcul des PageRanks sans connaître la valeur finale de tous les PageRanks impliqués Itérations qui approchent des valeurs finales jusqu'à convergence La valeur initiale n'affecte pas les valeurs finales mais le nombre d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages) Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet

Calcul du PageRank

Valeurs relatives des PageRanks des pages ?
Calcul du PageRank A B C D Valeurs relatives des PageRanks des pages ?

A B C D Calcul du PageRank 1,49 0,78 1,58 0,15
PR moyen = 1 1,58 D (20 itérations sont nécessaires pour la convergence) La page D a une valeur minimale du PageRank (aucun lien entrant) La page C a de nombreux liens entrants La page A bénéficie du lien entrant provenant de la page C 0,15

PageRank : cas simple Contact Produit Home Liens Lien externe A 0,85
0,39 0,19 Lien externe E Lien externe F Lien externe G Lien externe H 0,22 0,41 Lien externe B Produit 0,22 Home 0,92 0,41 Lien externe C 0,22 Liens Lien externe D 0,41 0,22

PageRank : cas simple Rétroaction des valeurs des PageRanks pour la page Home Plus le nombre de liens sortant de la page Links est important, plus le partage du PageRank est diffus Plus le nombre de pages augmente, plus des pages sans nouveaux liens entrant perdent de l'importance Avoir un lien vers une page importante n'augmente pas le PR (!)

PageRank : la tentation du spam
Page A 331,0 Page B Spam 1 Spam 2 Spam 1000 …………………… 281,6 0,39 0,39 0,39 Le nombre de pages d'un site n'augmente pas le PR moyen Une certaine organisation hiérarchique d'un site peut fortement concentrer le PR sur la page principale Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site

Autres éléments - Utilisation de l’apprentissage automatique

Autres éléments pour le classement des pages
Il n’y a pas que le tf.idf et le PageRank, loin de là… Les mots-clés des liens Les couleurs La casse des mots Les titres Le nombre d’images Le nombre de liens sortants La taille de l’URL L’URL contient une « ~ » La date de dernière modification La taille de la page … Les gros moteurs de recherche utilisent des centaines d’éléments

Apprentissage On sait que tous ces éléments comptent pour estimer la pertinence d’une page Une page contenant un mot-clé dans le titre est plus pertinente qu’une autre contenant le mot-clé dans le contenu Une page contenant un mot-clé en rouge est plus pertinente qu’une autre contenant le mot-clé en noir Mais à quel point ? Une page contenant un mot-clé dans le titre vs. une page contenant 8 mots-clés dans le contenu ? Une page contenant deux mots-clés en rouge vs. une page contenant 1 mot-clé dans le titre et un autre en gras ? etc. De plus, ces éléments sont interdépendants

Apprentissage : exemple
Présence du mot-clé dans le titre (T) ou dans le corps (C) du document. 𝑠 𝑇 𝑑,𝑞 ∈{0,1} 𝑠 𝐶 𝑑,𝑞 ∈ 0,1 On postule : 𝑠𝑐𝑜𝑟𝑒 𝑑, 𝑞 =𝑔× 𝑠 𝑇 𝑑, 𝑞 + 1−𝑔 × 𝑠 𝐵 𝑑, 𝑞 Problème : comment estimer la valeur de g ?  À partir d’exemples annotés manuellement ! Pourquoi ? Exemple DocId Requête 𝒔 𝑻 𝒔 𝑪 Pertinence 𝒑 𝒊 E1 12 billet 1 OK E2 32 bateau KO E3 Ecosse E4 256 E5 1352 E6 4582 E7 9510

Pour chaque exemple, l’erreur quadratique est 𝑒𝑟𝑟𝑒𝑢𝑟 𝐸 𝑖 = 𝑟 𝑖 − 𝑠𝑐𝑜𝑟𝑒 𝑑 𝑖 , 𝑞 𝑖 2 L’erreur totale est donc l’erreur quadratique moyenne 𝑒𝑟𝑟𝑒𝑢𝑟 𝐸 = 1 𝑛 × 𝑖=0 𝑛 𝑟 𝑖 − 𝑠𝑐𝑜𝑟𝑒 𝑑 𝑖 , 𝑞 𝑖 2 Il faut donc choisir un g qui minimise cette erreur

Estimation de g en fonction de : 𝑛 01𝑝 = nb d’exemples avec 𝑠 𝑇 =0, 𝑠 𝐶 =1, 𝑝=1 𝑛 01𝑛 = nb d’exemples avec 𝑠 𝑇 =0, 𝑠 𝐶 =1, 𝑝=0 𝑛 10𝑝 = nb d’exemples avec 𝑠 𝑇 =1, 𝑠 𝐶 =0, 𝑝=1 𝑛 10𝑛 = nb d’exemples avec 𝑠 𝑇 =1, 𝑠 𝐶 =0, 𝑝=0 etc. L’erreur totale est donc 𝑛 01𝑝 + 𝑛 10𝑛 𝑔 2 + 𝑛 10𝑝 + 𝑛 01𝑛 1−g 2 + n 00p + n 11n Quelle est la meilleure valeur possible de g ?

Généralisation Beaucoup plus de traits différents
Des traits non-booléens Taille du document Texte en gras souligné… etc. On peut alors traiter (par exemple) avec la variance et l’espérance des données exemples (classification bayésienne) Des combinaisons non-linéaires Des jugements de pertinence gradués

« Learning to rank » En RI moderne on ne veut pas séparer les documents entre pertinents et non pertinents, mais les classer entre eux On fait donc de la classification par paires de résultats Classes : Est meilleur que Est moins bon que Puis on ordonne. De nombreuses méthodes de classification sont employées : Support Vector Machine Boosting Réseaux de neurones Modèle de régression linéaire etc.

L’importance de l’interface

Les interfaces utilisateur (1/6)
Interfaces utilisateurs généralement dénudées Accès à une recherche avancée et à des paramètres Présentation d'extraits de résultats (snippets) Présentation de résultats commerciaux ("sponsorisés") Exemple: Altavista

Présentation de résultats visuels Utilisation de termes associés et d'annuaires Exemple: Exalead

Support pour des requêtes exprimées en langue Focus sur l'utilisateur et non sur le fonctionnement interne du moteur de recherche Exemple : AskJeeves

Aide à la formulation des requêtes durant la saisie Par exemple, guidage par des suites de mots et le nombre de documents qui les contiennent Exemple: Google Suggest (et maintenant Google Instant)

Présentation des résultats sous forme graphique (cartes...) Aide à la navigation et à la reformulation de sa requête Exemple : KartOO

Étiquetage "sémantique"

Le Web, un réseau public Un réseau international, mais des droits nationaux En Chine, des sites effacés des résultats de recherche En France également Le plagiat est devenu monnaie courante Attention au respect de la vie privée Documents mis à disposition sur la toile Informations recueillies sur les internautes (formulaires ou informations sur les visiteurs) L'information est très difficile à effacer ! Google cache Wayback machine Listes de diffusion Blogs, Facebook, …

Des moteurs de recherche opaques (1/2)
Toutes les étapes de la recherche sont des secrets industriels Comme pour toutes les activités à but commercial Mais l'information et la connaissance sont des "marchandises" particulières Le projet Nutch tente de promouvoir un moteur de recherche libre Les réseaux tissés par les géants du Web peuvent poser question (sans tomber dans la paranoïa).  Nécessité de varier ses sources d'information

Des moteurs de recherche opaques (2/2)
Rien ne permet de vérifier que les critères de classement des documents par rapport à la requête sont équitables Séparation des liens commerciaux et des liens de recherche ? Affinités particulières entre moteurs et sites commerciaux ; ex : Google et Yahoo avec Amazon, Voilà avec eBay et PriceMinister. Google possède YouTube, cela influe-t-il sur le rang des liens YouTube ? Toutes les requêtes (logs) sont conservées Tous dans l'illégalité vis-à-vis de la législation européenne (13 mois pour Yahoo, 9 mois pour Google, 18 mois pour Bing) cf. demande des logs de Google et Yahoo par le gouvernement américain Google, Yahoo et Microsoft veulent mettre les logs à disposition de la communauté scientifique (problèmes de droit) Grâce aux comptes, les résultats (et les publicités) sont personnalisés

Quelques moteurs de recherche
et bien d'autres, sans compter les méta-moteurs...

Recherche d’Information sur le Web

Présentations similaires

Présentation au sujet: "Recherche d’Information sur le Web"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Recherche d’Information sur le Web

Présentations similaires

Présentation au sujet: "Recherche d’Information sur le Web"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back