1 Algorithmes pour le Web Prof : José Rolim Coarse-grained Classification of Web Sites by Their Structural Properties Auteurs : Christoph Lindemann & Lars Littig Université de Leipzig QUANG Trong AnJanvier 2007
2 Sommaire Introduction Méthodologie de mesures Extraction des données Analyse des propriétés structurelles Coarse-Grained Classification Conclusion
3 Introduction – Motivation (1/2) La vitesse phénoménale d’augmentation du nombre de sites Web ~ 10 milliards sites Données gigantesques non structurées, distribuées et multi-média Forte dynamicité du site difficile de juger et classifier les sites Web
4 Introduction – Motivation (2/2) La classification des sites selon plusieurs catégories nous permettent de : Améliorer la performance du moteur de recherche, notamment la qualité des résultats de recherche Orienter l’exploration de l’utilisateur vers un ensemble plus ciblé des sites Web. Construire un ranking personnalisé des résultats de recherche Augmenter la fraîcheur des index de moteur de recherche Exemple : Yahoo Mindset (2005)
5 Première approche Identifier les sites Web se rapportant à une des classes commerciales, organisationnelles, pédagogiques en considérant le domaine de premier niveau.com,.org,.edu triviale, mais pas efficace, erroné
6 Notre approche Coarse-grained classification des sites Web dans différentes classes décrivant leur fonctionnalité Basé sur les propriétés structurelles du site p.ex : la taille, l’organisation, le nombre des pages … Effectuer une étude compréhensive sur les mesures pour examiner la relation entre la structure et la fonctionnalité du site Web
7 Méthodologies de mesures (1/3) L’étude considère 5 classes fonctionnelles les plus pertinentes : Academic, Blog, Corporate, Personal, et Shop Se baser sur la fonctionnalité du site Web, non sur son contenu Ignorer les classes qui sont composées des sites publicitaires ou spam Web
8 Méthodologies de mesures (2/3) Afin d’analyser les propriétés structurelles d’un site Web, on doit : Sélectionner de manière aléatoire un échantillon de sites de chaque classe considérée Open Directory Project : un répertoire Web Calculer la valeur de chacune des propriétés structurelles pour chaque site Examiner uniquement les sites allemands (.de)
9 Méthodologies de mesures (3/3) Vérifier manuellement si les sites sélectionnés appartiennent vraiment à la classe assignée avoir un benchmark solide Sélectionner seulement les URL des pages d’entrée du site assurer qu’on collecte en premier les données depuis la page d’entrée
10 Extraction de données (1/3) Moteur de recherche capable de crawler et d’indexer 50’000 pages par heure sur un dual processeur Linux 3.0 GHz 6GB Ram Parcourir les pages des sites sélectionnés en largueur en suivant des liens internes. (commencer par la page d’entrée du site) Seules les pages des sites présélectionnés sont téléchargées et considérées pour la mesure Déterminer la profondeur et la langue d’une page (http-header, metatags, stopwords spécifiques …)
11 Extraction de données (2/3) Crawler au maximum 20’000 pages par site ou 2 GB données Obéir le protocole d’exclusion du robot en mettant le timeout de 2 secondes entre deux successives requêtes au même serveur Examiner seulement les sites dont au moins 100 pages sont correctement crawlés Minimiser les erreurs de la mesure
12 Extraction de données (3/3) L’analyse des pages connues présente un avantage réduire le coût de calcul et augmenter l’exactitude de classification
13 Propriétés structurelles des sites (1/3) L’étude se base sur les propriétés structurelles qui considèrent La taille Le nombre des pages connues, la taille moyenne des documents … L’organisation Le nombre de sous domaine distinct, la fraction des types de documents, la profondeur moyenne et maximale de la page, le nombre des langues utilisées …
14 Propriétés structurelles des sites (2/3) La composition de l’URL La longueur du nom du site, la longueur moyenne de tous les URL, le nombre de slashes, de digits dans l’URL … La structure des liens Outdegree interne, externe, outdegre total … La méthodologie est applicable à tous les autres sites avec le domaine de premier niveau autre que.de
15 Propriétés structurelles des sites (3/3)
16 Résultats de mesure (1/5) Premier exemple : le nombre des pages connues
17 Résultats de mesure (2/5) 80% des sites de classe Academic disposent au moins 6’000 pages., 17% pour la classe Blog La classe Personal dispose du plus petit nombre des pages connues le nombre des pages connues est un important indicateur permettant de distinguer les sites selon différentes classes
18 Résultats de mesure (3/5) Deuxième exemple : la fraction des types de documents
19 Résultats de mesure (4/5) Troisième exemple : le nombre moyen des bits
20 Résultats de mesure (5/5) Quatrième exemple :l’outdegree interne
21 Coarse-Grained Classification Construire un algorithme puissant permettant à partir d’informations connues sur un objet de déterminer la catégorie de cet objet Le classifieur Bayésien va calculer la probabilité qu’un site Web appartienne à une des 5 classes fonctionnelles considérées
22 Coarse-Grained Classification : vecteur composé des valeurs de discriminateurs : le nombre de discriminateurs utilisés : la likelihood du discriminateur étant donné la classe considérée : la probabilité de la fraction des sites de chaque classe : le constant de normalisation
23 Coarse-Grained Classification Choix du modèle stochastique influence la performance du qualifieur Améliorer l’exactitude de qualifieur avec l’estimation de densité avancée Ajuster les données expérimentales à une loi de probabilité : exponentielle, normale, lognormale, Weibull, Pareto et la densité de probabilité donnée par
24 Coarse-Grained Classification
25 Coarse-Grained Classification Le choix de la distribution de probabilité qui représente au mieux les distributions des valeurs expérimentales pour chaque discriminateur et classe est déterminé par la méthode moindres au carré S : nombre des valeurs expérimentales CDF : dénote la fonction de répartition des valeurs expérimentales F : le CDF de la probabilité considérée
26 Coarse-Grained Classification Le nombre des pages connues suit la loi lognormale pour toutes les classes considérées Le moyen outdegree suit la loi lognormale pour la classe Academic et Personnel au lieu de Weibull pour les autres classes La plupart des distributions des discriminateurs suivent la loi Weibull ou lognormal
27 Résultats de la classification (1/3) Le site Web est assigné à la classe ayant la plus grande probabilité Examiner les niveaux de confidence (threshold 0.8 ou 0.9) Precision pour une classe : la fraction des sites Webs qui sont classifiées comme des membres de cette classe appartiennent effectivement à cette classe Recall : fraction des sites Web qui appartiennent à une classe sont classifiées.
28 Résultats de la classification (2/3) l’approche peut atteindre jusqu’à 82% de précision, 80% de recall et un score F1 : 81% Threshold =0.9, la précision peut être augmenté jusqu’à 87% mais recall 70% (278 des 1461 sites Web ne sont pas classifiés)
29 Résultats de la classification (3/3)
30 Conclusion On a identifié et analysé les propriétés structurelles des sites Web en considérant la taille, l’organisation, la structure, la composition de URL Etude compréhensive sur les mesures pour examiner la relation entre la structure et la fonctionnalité du site Avec la méthode de l’estimation de densité avancée, le classifieur Bayesian naif peut atteindre une précision jusqu’à 87% Pouvoir appliquer la méthodologie aux autres sites autre que.de
31 Merci de votre attention,