1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

La recherche documentaire
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
RECONNAISSANCE DE FORMES
Chercher pour trouver Nous quittons l'ère où on courait après l'information pour entrer dans celle où l'information nous court après"Nous quittons l'ère.
Inférence statistique
INTRODUCTION.
Le management de l’entreprise
Data Mining: Définition
Quelle est la nationalité dun site web ? Quelles sont les lois quil doit respecter ? 1 Quentin Boitelle Présentation TIC Février 2013.
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
Traitement de données socio-économiques et techniques d’analyse :
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Administration de SharePoint
Etapes vers la Certification - Préparation de groupe –
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Le portail des MSH
Le Travail Collaboratif ...
Chaîne logistique : - Approvisionnement - Stocks
RDF(S)
DEA Perception et Traitement de l’Information
MOT Éditeur de modèles de connaissances par objets typés
Moteur de recherche d’information
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Présentation: Algorithme pour le web Article:« Scalable Techniques for clustering the Web » Professeur:José Rolim Assistant:Matthieu Bouget.
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Approches non intrusives des éléments finis stochastiques
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
La veille numérique : un outil pour s'informer intelligemment &
Séance: Introduction et processus global d’une évaluation
Agenda proposé 1.0 – Qu‘est-ce que le SEO ? 2.0 – Est-ce une solution viable? 3.0 – Outils de planification 3.0 – Où commencer & Où continuer? 4.0 – Quoi.
Praxiling – UMR Université de Montpellier 3 - CNRS Sciences du langage. Moujahed AL SABRI NEDEP juin 2009 Evaluation d’un support numérique.
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
Master HTTP Créator LARNS Corporation Membres : ALFOSEAJean-FabienChef de Projet LEROGNONRenaudDesigner N'DOYEAssaneWebmestre RONCAGLIAThomasRelation Publique.
Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO
LA RECHERCHE DOCUMENTAIRE
Traitement de texte +.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Initiation à la conception des systèmes d'informations
Concevoir un site web de A a Z Cours 3. Aujourd’hui Découper sa page en tranche pour une intégration graphique optimale avec Photoshop L’intégration des.
D4 : Organiser la recherche d'informations numériques
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Web Spam Taxonomy (2005) Par : Zoltan Gyöngyi Hector Garcia-Molina Présentation: Algorithmique pour le Web Mirwais TAYEBI
Recherche de motifs par projections aléatoires
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
Combating Web Spam with TrustRank. OSINI Aurélien.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
Classification automatique des messages électroniques
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
ANNEHEIM Geoffrey21/03/ Protocole de communication Socket TCP/IP Afin que MyCrawler fonctionne de façon optimale, une configuration de deux machines.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Démarche d’enseignement de l’APL : analyser
Modélisation des Actions Mécaniques Première sti2d
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Validation d’une méthode d’analyse
Rédiger un rapport scientifique Mathieu Hébert Institut d’Optique - 2A St-Etienne
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars Littig Université de Leipzig QUANG Trong AnJanvier 2007

2 Sommaire Introduction Méthodologie de mesures Extraction des données Analyse des propriétés structurelles Coarse-Grained Classification Conclusion

3 Introduction – Motivation (1/2) La vitesse phénoménale d’augmentation du nombre de sites Web ~ 10 milliards sites Données gigantesques non structurées, distribuées et multi-média Forte dynamicité du site difficile de juger et classifier les sites Web

4 Introduction – Motivation (2/2) La classification des sites selon plusieurs catégories nous permettent de : Améliorer la performance du moteur de recherche, notamment la qualité des résultats de recherche Orienter l’exploration de l’utilisateur vers un ensemble plus ciblé des sites Web. Construire un ranking personnalisé des résultats de recherche Augmenter la fraîcheur des index de moteur de recherche Exemple : Yahoo Mindset (2005)

5 Première approche Identifier les sites Web se rapportant à une des classes commerciales, organisationnelles, pédagogiques en considérant le domaine de premier niveau.com,.org,.edu triviale, mais pas efficace, erroné

6 Notre approche Coarse-grained classification des sites Web dans différentes classes décrivant leur fonctionnalité Basé sur les propriétés structurelles du site p.ex : la taille, l’organisation, le nombre des pages … Effectuer une étude compréhensive sur les mesures pour examiner la relation entre la structure et la fonctionnalité du site Web

7 Méthodologies de mesures (1/3) L’étude considère 5 classes fonctionnelles les plus pertinentes : Academic, Blog, Corporate, Personal, et Shop Se baser sur la fonctionnalité du site Web, non sur son contenu Ignorer les classes qui sont composées des sites publicitaires ou spam Web

8 Méthodologies de mesures (2/3) Afin d’analyser les propriétés structurelles d’un site Web, on doit : Sélectionner de manière aléatoire un échantillon de sites de chaque classe considérée  Open Directory Project : un répertoire Web Calculer la valeur de chacune des propriétés structurelles pour chaque site Examiner uniquement les sites allemands (.de)

9 Méthodologies de mesures (3/3) Vérifier manuellement si les sites sélectionnés appartiennent vraiment à la classe assignée avoir un benchmark solide Sélectionner seulement les URL des pages d’entrée du site assurer qu’on collecte en premier les données depuis la page d’entrée

10 Extraction de données (1/3) Moteur de recherche capable de crawler et d’indexer 50’000 pages par heure sur un dual processeur Linux 3.0 GHz 6GB Ram Parcourir les pages des sites sélectionnés en largueur en suivant des liens internes. (commencer par la page d’entrée du site) Seules les pages des sites présélectionnés sont téléchargées et considérées pour la mesure Déterminer la profondeur et la langue d’une page (http-header, metatags, stopwords spécifiques …)

11 Extraction de données (2/3) Crawler au maximum 20’000 pages par site ou 2 GB données Obéir le protocole d’exclusion du robot en mettant le timeout de 2 secondes entre deux successives requêtes au même serveur Examiner seulement les sites dont au moins 100 pages sont correctement crawlés Minimiser les erreurs de la mesure

12 Extraction de données (3/3) L’analyse des pages connues présente un avantage réduire le coût de calcul et augmenter l’exactitude de classification

13 Propriétés structurelles des sites (1/3) L’étude se base sur les propriétés structurelles qui considèrent La taille Le nombre des pages connues, la taille moyenne des documents … L’organisation Le nombre de sous domaine distinct, la fraction des types de documents, la profondeur moyenne et maximale de la page, le nombre des langues utilisées …

14 Propriétés structurelles des sites (2/3) La composition de l’URL La longueur du nom du site, la longueur moyenne de tous les URL, le nombre de slashes, de digits dans l’URL … La structure des liens Outdegree interne, externe, outdegre total … La méthodologie est applicable à tous les autres sites avec le domaine de premier niveau autre que.de

15 Propriétés structurelles des sites (3/3)

16 Résultats de mesure (1/5) Premier exemple : le nombre des pages connues

17 Résultats de mesure (2/5) 80% des sites de classe Academic disposent au moins 6’000 pages., 17% pour la classe Blog La classe Personal dispose du plus petit nombre des pages connues le nombre des pages connues est un important indicateur permettant de distinguer les sites selon différentes classes

18 Résultats de mesure (3/5) Deuxième exemple : la fraction des types de documents

19 Résultats de mesure (4/5) Troisième exemple : le nombre moyen des bits

20 Résultats de mesure (5/5) Quatrième exemple :l’outdegree interne

21 Coarse-Grained Classification Construire un algorithme puissant permettant à partir d’informations connues sur un objet de déterminer la catégorie de cet objet Le classifieur Bayésien va calculer la probabilité qu’un site Web appartienne à une des 5 classes fonctionnelles considérées

22 Coarse-Grained Classification : vecteur composé des valeurs de discriminateurs : le nombre de discriminateurs utilisés : la likelihood du discriminateur étant donné la classe considérée : la probabilité de la fraction des sites de chaque classe : le constant de normalisation

23 Coarse-Grained Classification Choix du modèle stochastique influence la performance du qualifieur Améliorer l’exactitude de qualifieur avec l’estimation de densité avancée Ajuster les données expérimentales à une loi de probabilité : exponentielle, normale, lognormale, Weibull, Pareto et la densité de probabilité donnée par

24 Coarse-Grained Classification

25 Coarse-Grained Classification Le choix de la distribution de probabilité qui représente au mieux les distributions des valeurs expérimentales pour chaque discriminateur et classe est déterminé par la méthode moindres au carré S : nombre des valeurs expérimentales CDF : dénote la fonction de répartition des valeurs expérimentales F : le CDF de la probabilité considérée

26 Coarse-Grained Classification Le nombre des pages connues suit la loi lognormale pour toutes les classes considérées Le moyen outdegree suit la loi lognormale pour la classe Academic et Personnel au lieu de Weibull pour les autres classes La plupart des distributions des discriminateurs suivent la loi Weibull ou lognormal

27 Résultats de la classification (1/3) Le site Web est assigné à la classe ayant la plus grande probabilité Examiner les niveaux de confidence (threshold 0.8 ou 0.9) Precision pour une classe : la fraction des sites Webs qui sont classifiées comme des membres de cette classe appartiennent effectivement à cette classe Recall : fraction des sites Web qui appartiennent à une classe sont classifiées.

28 Résultats de la classification (2/3) l’approche peut atteindre jusqu’à 82% de précision, 80% de recall et un score F1 : 81% Threshold =0.9, la précision peut être augmenté jusqu’à 87% mais recall 70% (278 des 1461 sites Web ne sont pas classifiés)

29 Résultats de la classification (3/3)

30 Conclusion On a identifié et analysé les propriétés structurelles des sites Web en considérant la taille, l’organisation, la structure, la composition de URL Etude compréhensive sur les mesures pour examiner la relation entre la structure et la fonctionnalité du site Avec la méthode de l’estimation de densité avancée, le classifieur Bayesian naif peut atteindre une précision jusqu’à 87% Pouvoir appliquer la méthodologie aux autres sites autre que.de

31 Merci de votre attention,