Clusterisation du web en vue d’extraction de corpus homogènes

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Définitions Analyse documentaire
Etudes de cas A vous de faire Bases de données DRES – B. TALON.
La recherche documentaire
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Classification et prédiction
Les principes généraux Les objectifs du dispositif Le b2i et les défis sur Internet Une visite concrète.
Les étapes de conception d’un site web
GEF 435 Principes des systèmes d’exploitation
Les Structures. Introduction : Imaginons que lon veuille afficher les notes dune classe délèves par ordre croissant avec les noms et prénoms de chaque.
Exposés et espace de publication Plusieurs activités pour lélève : Consignes élèves Exemples de thèmes dexposés Chronologie Grille dévaluation Tutoriel.
Indexation textuelle : Systèmes de recherche d’informations
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
de trousses de lecture à la
L’eau durable pour tous
LA VALORISATION DES STOCKS
Ce que la CRM ACT peut vous apporter
ONRN V2 Guide de contribution. Organisation des documents Listes de valeurs Ce répertoire contient les listes de valeurs qui sont utilisées pour qualifier.
Le portail des sports des associations de la ville de Nice
Cours 7 - Les pointeurs, l'allocation dynamique, les listes chaînées
SECURITE DU SYSTEME D’INFORMATION (SSI)
Processus DE Capitalisation
Vice-rectorat de Mayotte
XML-Family Web Services Description Language W.S.D.L.
Comment trouver sur Internet?
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
L‘analyse, la description et l’évaluation des emplois
Groupe 1: Classes de même intervalle
Chaîne logistique : - Approvisionnement - Stocks
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Lédition de contenu, en bref Catherine Ducharme, CERIC.
Comprendre la variation dans les données: Notions de base
Présentation des outils de recherche dinformations scientifiques.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Initiation aux bases de données et à la programmation événementielle
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
La veille numérique : un outil pour s'informer intelligemment &
Le langage du Web CSS et HTML
Manuel Kervarker.org : l'accueil
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
Centre de RessourcesRechercheravecInternet Aide. Centre de Ressources Rechercher avec Internet 1.Les différentes fonctions du navigateur 1.Les différentes.
Les grandes étapes de la recherche
Diaporama réalisé par Damienne PIN, Documentaliste Collège Barbara Hendricks 226 Rue du Limousin Orange LE PROBLEME DE LA QUALITE DE L ’INFORMATION.
Thème 11 : Dailymotion et Youtube contiennent des documents pédagogiques très intéressants. On peut utiliser ces vidéos pour présenter une notion, montrer.
LA RECHERCHE DOCUMENTAIRE
Initiation à la conception des systèmes d'informations
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
TLE WEB QUESTS TRAVAIL DE SESSION Missions virtuelles Enquêtes virtuelles James Rainville.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
13/04/2017 École de bibliothéconomie et des sciences de l'information
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
TPE Quelques explications sur ce que sont les Travaux Personnels Encadrés… (Réalisation Mme Tran Tat) …Issues des documents officiels de référence.
Présentation nouveau site marchand
Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une Actualité sur un site web développé.
Tutoriel
Initiation aux bases de données et à la programmation événementielle
1 Initiation aux bases de données et à la programmation événementielle Cours N°8 : Gestion de la cohérence avec des zones de liste déroulantes. Souheib.
TD N°5: Une GPAO pour l’usine Odyssée
TD 2: La gestion des stocks avec le logiciel Odyssée
Formation.
La bibliométrie Notoriété Visibilité Création du corpus Les outils bibliométriques du WOK Signature Collaborations.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Transcription de la présentation:

Clusterisation du web en vue d’extraction de corpus homogènes Auteurs de l’article : Camille Prime-Claverie, Michel Beigbeder , Thierry Lafouge Présenté par AL-ADHADH Ali Université de Genève Professeur José ROLIM, Assistant Matthieu BOUGET Algo Web 2005-2006 01/02/2006 AL-ADHADH Ali

Sommaire Introduction. Étapes du processus expérimental. Descriptions de ces étapes. Conclusion. 01/02/2006 AL-ADHADH Ali

Introduction La priorité des moteurs de recherche disponibles sur la toile est de retourner en un minimum de temps, le plus de pages web pertinentes sur un sujet donné, s'appuyant sur les techniques des systèmes de recherche d'information traditionnels L’objectif est donc de retrouver et de ranger les pages par ordre de pertinence thématique. MAIS … Le Web est un magma d'information regroupant des documents hétérogènes à tout point de vue. Différentes utilisateurs recherchent des informations pour des objectifs différentes. Comment faire ?!!! 01/02/2006 AL-ADHADH Ali

Introduction (suite) Solution Deux orientations possibles :- Constituer des corpus de documents homogènes. Sur ce principe plusieurs outils de recherche spécialisés ont été créés. Ils ne prennent en compte qu'un ou plusieurs types de documents bien déterminés et n'indexent que ceux-ci. Exemple Le moteur CiteSeer (maintenant appelé Research Index) qui regroupe la plupart des articles scientifiques d'informatique disponibles sur la toile. 01/02/2006 AL-ADHADH Ali

Introduction (suite) La seconde orientation, plus ambitieuse, consiste à caractériser (c'est-à-dire indexer) l'ensemble des documents du Web pour une ou plusieurs directions. Exemple Gravano et al. proposent une méthode pour déterminer l'origine géographique des pages web. C'est la deuxième approche qui nous semble la plus intéressante et vers laquelle nous nous orientons. 01/02/2006 AL-ADHADH Ali

Introduction (suite) Pour indexer les documents web, trois types d'information peuvent être utilisées : Le contenu lui-même des pages web (code source, texte, lien hypertexte, …etc). Le graphe créé par les liens hypertextes reliant les pages les unes aux autres. Les données provenant de l'usage comme les fichiers de log, les cookies, etc. 01/02/2006 AL-ADHADH Ali

Introduction (suite) Le contenu : trivial. Pourquoi le graphe web ??? Aide à comprendre l'univers du Web et bien sûr d'améliorer l'accès à son contenu. Différentes méthodes calculent le rang des documents réponses en fonction de leurs relations avec les autres. Par exemple, l’algorithme de classement implémenté dans le moteur Google ordonne les documents en fonction de leur visibilité sur le Web. Sémantiques : les techniques mises en place essayent de rapprocher des documents similaires d'un point de vue thématique. 01/02/2006 AL-ADHADH Ali

Sommaire Introduction. Étape du processus expérimental. Descriptions de ces étapes. Conclusion. 01/02/2006 AL-ADHADH Ali

Étapes du processus expérimental. Quatre étapes. La première, constitution du corpus. Ensuite deux étapes indépendantes : La structuration automatique (clusterisation) du corpus utilisant une méthode basée sur les liens (co-citations) L'indexation manuelle des pages pour quatre directions relatives au genre (type). Notre quatrième étape est une analyse quantitative de chaque cluster pour mesurer l’homogénéité des pages qui le composent. 01/02/2006 AL-ADHADH Ali

Description des étapes. Étape 1: Constitution du corpus Condition: le corpus de pages web, doit être mono-thématique et hétérogène pour les autres directions (type, niveau, etc.) Pour cette expérience, le thème retenu est l’astronomie (thème utilisé par différentes utilisateurs). Pour faciliter l’indexation, et pour réduire le nombre de réponses, le corpus a été limité aux pages écrites en français. Deux moteurs de recherches Google (http://www.google.com) et Hotbot (http://www.hotbot.lycos.com) ont été interrogé en août 2001 avec la requête "astronomie" réduite aux pages françaises. Le résultat est un ensemble de 1541 pages web différentes, que l’on va dénoter A. 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 1: Constitution du corpus Nous avons aussi besoin de savoir pour chacune des 1541 pages ses « pères », c’est-à-dire l’ensemble des pages pointant vers elle. 18714 pages « pères » ont été retrouvées grâce à la fonction link autorisée par les moteurs Google et Hotbot, cet ensemble sera noté B. La limitation des moteurs de recherche ont influencé notre expérience, pour la requête "astronomie", Google indique "environ 54000 réponses" mais n'en affiche que 540. Raisons pratiques (gain de temps), mais aussi une volonté de la part des concepteurs des moteurs de ne pas dévoiler la totalité de leurs informations en particulier pour les requêtes utilisant la fonction link. 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 2 : Structuration du corpus par la méthode des co-citations La première phase, calculer pour chaque couple de pages de l’ensemble A leur fréquence de co- citation notée Cij, c'est-à-dire, le nombre de fois où ces deux pages sont citées ensemble par des pages de l’ensemble B. Parmi les 1541 pages de A seules 198 sont co-citées. Nous nous tenons pas compte des liens internes ainsi notre ensemble B ne contient plus que 11632 pages distinctes. 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 2 : Structuration du corpus par la méthode des co-citations Nous déterminons ensuite la proximité entre deux pages, avec un indice de similarité. Deux éléments sont proches, si par rapport à leurs fréquences respectives, leur fréquence de co-citation est importante. L’indice de similarité : L’indice varie de 0 à 1. Les indices de similarité sont symétriques, I(i,j) = I(j,i). Le résultat de ce processus : 54 clusters de 2 à 8 pages et 38 singletons. 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 3 : Indexation manuelle du corpus suivant 4 directions liées au genre Dans cette expérience nous avons défini 4 directions possibles : Type d’autorité : l’institution, l’entreprise, l’association ou la personne individuelle qui a crée le site. Type de site : rôle informationnel que le site veut jouer. Nous avons recensé 4 types distincts :- Les plus courants, le site autodescriptifs. Les sites de recherches. Les sites de ressources. Les services web (ex. messageries, forums de news, etc.) 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 3 : Indexation manuelle du corpus suivant 4 directions liées au genre Type de page : la page d’accueil, les portails, les pages de formulaires, …etc. Type d'information contenue sur la page : l’information autodescriptive, relative à l’initiateur du site, et l’information non autodescriptive. 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Résultat de l’indexation 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 4 : Analyse des clusters Nous allons comparer la distribution des différentes valeurs pour les 4 variables dans le corpus complet et dans chaque cluster. Nous pouvons mesurer la diversité de chaque ensemble en utilisant l'entropie de l'information de Shannon. N est le nombre d’éléments du système, S le nombre de valeurs que peuvent prendre les éléments, et Ni l’effectif de chaque valeur 01/02/2006 AL-ADHADH Ali

Description des étapes (suite). Étape 4 : Analyse des clusters Nous allons aussi calculer la redondance afin de normaliser la fonction d’entropie, et mesurer l’ordre de système : R= (Hmax − H) / (Hmax − Hmin) Elle varie de 0 à 1, et est égale à 1 lorsque l’entropie du système est minimum (le système est le plus ordonné possible) et nulle lorsque que H est maximum. 01/02/2006 AL-ADHADH Ali

Résultat Pour les 3 directions, type d’autorité, type de serveur et type d’information plus de 70% des pages appartiennent à des clusters où la redondance est nettement supérieure à celle de A. Pour la direction type de page, seules 55% des pages appartiennent à des clusters où la redondance est nettement supérieure à RA. Type d’autorité Type de serveur Type de page Type d’information Nb C Nb P Rc>> Ra 35 120 118 27 88 41 134 Rc<Ra 19 40 42 72 13 25 Total 54 160 Nb C : nombre de clusters, Nb P . Nombre de pages. 01/02/2006 AL-ADHADH Ali

Conclusion. Nous remarquons qu’à l’intérieur des clusters le type d’information reste stable. Peu de clusters mélangeant à la fois de l’information autodescriptive et non-autodescriptive. Nous remarquons aussi que quand l’information est de type autodescriptive, et que les pages du clusters sont hébergés sur des homeserveurs, l’autorité du site est du même type (institutions, entreprises, etc.). Ainsi, nous avons plusieurs clusters regroupant des centres de recherche, d’autres regroupant des club d’amateurs, etc. Par contre, lorsque le cluster regroupe des pages pour lesquelles l’information est non-autodescriptive, le type d’autorité du site varie davantage. 01/02/2006 AL-ADHADH Ali

Merci pour votre attention 01/02/2006 AL-ADHADH Ali