Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer.

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer les propriétés topologiques des agrégats Principes de corrélation avec lanalyse de contenu (« propriétés sémantiques » Produire des hypothèses pour modéliser : * des relations contiguïté entre agrégats * des relations de hiérarchie * des modèles de composition internes des agrégats * des modèles dévolution temporelle * des configurations sociales typiques sur le web Une série de travaux théoriques reposent sur la modélisation du web comme un graphe dans lequel les pages et/ou les sites sont des nœuds et les liens hypertextes les arcs. Le graphe peut être orienté ou non. Le « web as a graph » a permis depuis 1997 de produire des hypothèses sur sa possible « géographie » (théorie du nœud papillon, « deep-web »), son diamètre, sa structuration topologique, sa « taille » ou lestimation des son « taux de couverture » par les moteurs de recherche. Cest dans cette perspective que plusieurs algorithmes ont été produits, certains purement topologiques (HITS, ARC, CLEVER, SALSA), dautres servant seulement à corréler une analyse de contenus (GOOGLE et son PageRank). De nombreuses équipes dans le monde travaillent sur le sujet avec différentes méthodes. Jon KLEINBERG, lun des pères de la « théorie des agrégats » estime leur nombre à 100.000 en 1998. Web de surface – les sites les plus connectés qui assurent au web son unité et ses distances réduites, les points dentrée classiques (black list : Amazon, Microsoft, Google…) Deep-Web – univers des bases de données difficilement accessibles via les moteurs classiques. Agrégats produits de propriétés topologiques et sémantiques 1 2 3 Coupe géologique du web Ressources Calcul de densité (obsolue et relative) Estimation du volume de ressources Frontières externes Relations de voisinage (corrélation avec lanalyse de contenu) HUBs (liens sortants) Authorities (liens entrants) Hubs et authorites ont tendance à se renforcer mutuellement. Cest un des principes énoncés par Kleinberg et sur lequel est fondé le premier algorithme de détection des agrégats, HITS. Frontières internes (sous-agrégats) (corrélation avec lanalyse de contenu) « Objets sociaux » Recherche dindices de cohésion sociale : Web-Rings WebLogs, Wiki, mail et liste de diffusion… Cest lidée des FOCUSED-CRAWL que décrit une série darticles récents. Plusieurs principes algorithmiques et méthodologiques sont à la base du développement de dispositifs expérimentaux qui ont pour objectif disoler et dextraire des « web localities » sous forme dagrégats que certains qualifient de « communautaires ». Cest aussi ce que Barhat et Kumar appelent le principe de « Topic Distillation ». « Topical Locality In The Web : experiments and observations », B.-D. Davison, 2000. « Experiments In Social Data Mining : The TopicShop system », B. Amento, L. Terveen, W. Hill, 2002. « Extracting Large-Scale Knowledge Basis From The Web », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, « Clustering Of Web Search Results With links Analysis », Y. Wang, M. Katsuregawa, 2000. « Focused Crawling: A New Approach To Topic-Specific Web Resource Discovery », A.-M. Van Den Berg, S. Chakrabarti, B. Dom, 2001. « Who Links To Whom: Mining Linkage Between Web Sites », K. Barhat, M. Henzinger, B.-W. Chang, M. Ruhl, 2001. « Visualizing The Evolution Of Web Ecologies », J. Pitkow, J. Mackinlay, P. Pirolli, S.-K. Card, 1998. « Trawling The Web For Emerging Cyber-Communities », R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, 1999. « Distributed Hypertext Resource Discovery Through Examples », S. Chakrabarti, M.-H. Van Den Berg, B.-E. Dom, 2000. « Unifying Text and Link Analysis », B. D. Davison, 2003. « Recongnizing Nepotistic Links On The Web », B. D. Davison, 2000. « DiscoWeb: Applying Link Analysis To Web Search », B. D. Davison, 1999. « Connectivity Review », F. Crimmins, 2000. « Inferring Sub-Culture Hierarchies Based On Object Diffusion On The World Wide Web », T.-G. Chiou, J. Donath, 1999. « Life, Death, and Lawfulness on the Electronic Frontier », J. Pitkow, 1997. « Monitoring The Dynamic Web To Respond To Continuous Queries », S. Pandey, K. Ramamritham, S. Chakrabarti, 2003. Il sagit de « stabiliser » les agrégats dans une configuration « stable » pour les extraire, les visualiser et les analyser dans le temps. Lensemble des « filtres » topologico- sémantiques peuvent être considérés comme des formes de curseurs servant à « figer » les agrégats en une configuration précise topologie sémantique 1) Relations de voisinage Les agrégats entretiennent entre eux des relations de contiguïté. Elles sont à déterminer en fonction de paramètres topologiques (par ex. de variation de densité) et sémantiques (dispersion des mots- clefs). On peut faire lhypothèse que ces relations sont de nature très différentes de ce que propose, par exemple, les catégories et sous- catégories YAHOO. 2) Relations hiérarchiques Les relations hiérarchiques entre agrégats sont pour lheure difficiles à cerner et dépendent en grande partie du « degré de focus » des outils dexploration. On admettre en principe lidée de possibles clustering dagrégats, tout comme lidée quen deçà dun certain seuil dexploration il nest plus possible dextraire dorganisation spécifique tant topologique que sémantique 3) Modèles dorganisation interne On peut admettre quil existe des types, ou à tout le moins des degrés dorganisation interne des agrégats. Ces modèles dépendent entre autre du degré de densité hypertexte des agrégats mais aussi probablement de « schémas » communautaires plus ou moins implicites (par ex. des façons de développer des liens transversaux entre sites) Type 1Type 2 4) Evolution temporelle La stabilisation des agrégats permettra dentamer une veille temporelle de certains agrégats. Lobjectif est de pouvoir identifier les étapes de lévolution dun agrégat, en termes de paliers successifs sils existent ou de scénarios-types (fusion dagrégats proches, dissociation dun agrégats en plusieurs, paliers dexpansion, degré de cohésion interne…). La question nous semble essentielle pour larchivage des réseaux. étape 1étape 2étape 3 5) Agrégats et configuration sociale des communautés La question des agrégats nest pas différenciable de celle des cyber-communautés, de leurs formes typiques dorganisation et de fonctionnement. Cest pourquoi la modélisation des agrégats doit saccompagner dune étude de tous les types « dobjets sociaux » auxquels ils sassocient. Il sagirait ici den faire la typologie et de comprendre selon quels principes agrégats et « objets sociaux » sont complémentaires. -mailto -liste de diffusion -Web ring -Wiki -WebLogs Les données topologiques doivent être corrélées à une analyse de « contenu » (balises META, full-text) selon différentes méthodes. Il sagit de comprendre comment sorganise « géographiquement » la distribution du « sens » dans la topologie des agrégats. Les méthodes de corrélation entre distribution des mots-clefs et propriétés topologiques doivent être plurielles, et surtout dynamiques lors des crawls. Cest lun des principes fondateurs du monitoring et lune des propriétés essentielles dun outil dexploration des agrégats dédié à des experts du domaine.

temps crawlgraphefiltrage profondeur 0 profondeur 3 profondeur 2 profondeur 1 Point dentrée Déjà visité Non désiré (blacklist) Découvert à ce niveau Deuxième étape : Reconstitution du graphe de site par regroupement de pages suivant un algorithme spécifique (pour linstant regroupement par nom de domaine ex : www.utc.fr) Première étape : Construction dun graphe de pages en suivant les liens graphe par page graphe par site Site a Site d Site e Site b Site f Site c A partir de cette étape, tous les traitements sont effectués à léchelle du site Troisième étape : Filtres topologiques : Identification des « hubs » et des « authorities » par calcul du maximum et du minimum de connectivité filtrage topologique Hub Authority Filtres sémantiques : Traitement statistiques à partir des métadonnées et du full-text Extraction des frontières et des sous- domaines "sémantiquement homogènes" filtrage sémantique Possède les mots clés a, b, c Possède les mots clés d, e, f Ne possède pas de lien sémantique Quatrième étape : visualisation, contextualisation et manipulation Barre de menu : elle permet le lancement et louverture de crawls, dappliquer les différents filtres et de lancer les outils Outils : ils permettent de visualiser les données brutes de la base de données et de faire des recherches sur les mots clés Graphe : il représente le graphe des sites. Grâce à sa fonction « locality », il permet de fixer le focus sur un nœud et dafficher seulement son voisinage proche Browser : il affiche la page web associée à un nœud après clic sur celui-ci dans le graphe Schéma synthétique de la chaîne logicielle du robot Tarent

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer.

Présentations similaires

Présentation au sujet: "Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer.

Présentations similaires

Présentation au sujet: "Extraire des « agrégats » de documents sur le web et analyser leurs propriétés topologiques Objectifs théoriques et expérimentaux Identifier et classer."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back