La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,

Présentations similaires


Présentation au sujet: "1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,"— Transcription de la présentation:

1 1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Rocquencourt & Projet AxIS, INRIA Sophia Antipolis, E-mail : Prénom.Nom@inria.fr URL : http://www-sop.inria.fr/axis/ FDC, EGC 2006, Lille, 17.01.2006

2 2 Plan Motifs séquentiels Exemple motivant État de lart Principe général Exemple dapplication Expérimentation Conclusions

3 3 Item : un « article » Transaction : un client + un itemset + une date Séquence : liste ordonnée ditemsets Séquence de données : représente les achats dun client. Soit T 1, T 2, … T n les transactions de C j, la séquence de données C j est : Support (S) : pourcentage de séquences de données contenant S s 1 = et s 2 = s 1 s 2 (incluse) si i 1 < i 2 < … i n | a 1 b i1, …, a n b in S – Motif fréquent ssi Supp(S) φ – support minimum GWUM Motifs séquentiels

4 4 Extraction de motifs séquentiels dans le cas classique (sur la base dURLs) : C1 : accueil_FM publications_FM accueil_Inria C2 : accueil_BT publications_BT Logiciels_AxIS C3 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT Avec un support de 100%, aucun comportement fréquent… GWUM Exemple motivant

5 5 Objectif de notre travail : extraire des motifs séquentiels basés non plus caractéristiques sur des URLs mais sur des caractéristiques de ces URLs. Caractéristiques possibles : - Mots clés spécifiés dans un moteur et qui ont permis daccéder à cette URL. - Mots clés extraits à partir du contenu : TF/IDF Pronoms TreeTagger Sémantique (« manuel utilisateur de cet appareil photo » ou alors « lappareil photo est vendu avec son manuel utilisateur ») … - Informations de surface (répartitions des informations, etc.) - Autres ? Quel intérêt pour les motifs séquentiels ? Reprenons lexemple précédent… GWUM

6 6 - Page Web de Brigitte Trousse - Bienvenue. Je suis chercheur(se?) à lInria Sophia Antipolis. Je suis responsable de léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -I.A. Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining I.A. Brigitte Trousse GWUM

7 7 - Page Web de Florent Masseglia - Bienvenue. Je suis chercheur(!) à lInria Sophia Antipolis dans léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -Motifs Séquentiels Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia GWUM

8 8 Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia Referer : ECD Data Mining I.A. Brigitte Trousse Classe 1 : « ECD, Data Mining » Une première caractéristique : les mots clé du referer. Une seconde caractéristique : le contenu de la page. « Les pages publications_BT et publications_FM sont des pages de la classe PUBLICATIONS » GWUM

9 9 Avec un support de 100%, aucun comportement fréquent… Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT AVANT APRES il existe Avec un support de 100%, il existe un comportement un comportement fréquent : « Classe 1 » PUBLICATIONS « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications »

10 10 « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications » C1 : accueil_FM publications_FM accueil_Inria C3 : accueil_BT publications_BT Logiciels_AxIS C2 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT GWUM

11 11 État de lart WUM (Spiliopoulou et al. 1999), WebTool (Masseglia et al. 2000), AxisLogMiner (Tanasa 2005) Dimensionnalité des données affecte les résultats 2 solutions : Grouper dans des sous-logs les utilisateurs ayant des objectifs de navigation communs (Masseglia et al. (2003), Tanasa (2005)) Généraliser les pages Web (syntaxique Fu et al. 1999) (sémantique Tanasa et al. 2005) Ex. http://www-sop.inria.fr/axis/Publications/2005/all.html Extraction des MS en tenant compte dune hiérarchie manuelle (Srikant et Agrawal 1996) Interêt de notre travail : construction automatique de la classification GWUM projets

12 12 Principe General GWUM

13 13 Exemple dapplication Informations du referer : Utilisation du champ referer du fichier log (requêtes provenant des moteurs de recherche – MR) Pour une page => plusieurs referers MR => plusieurs mots clés Normalisation des mots clés à laide de TreeTagger (transformation du mot dans sa racine syntaxique – lemmatisation) Classification croisée sur une table de contingence => 10 classes Informations sur le contenu : Prise en compte de la partie textuelle dune page Sélection des mots représentatifs de chacune des pages en appliquant un algorithme classique (ex. Korfhage (1997)) Une proposition inspirée de TF/IDF a été faite dans Sellah (2005) GWUM

14 14 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : 1 328 MO 5 840 576 lignes (requêtes) Données finales (après prétraitement) 183 MO 845 208 requêtes 173 848 sessions = couples (IP, User Agent) = utilisateur 258 061 navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) 62 721 URLs différents ~20% des URLs catégorisées (par les mots clés du referer) GWUM Experimentation

15 15 GWUM Experimentation

16 16 Conclusions Méthodologie WUM basé sur une catégorisation des pages Informations extraites soit de : la page elle-même lutilisation de la page (laccès à la page) Lexpérimentation montre lavantage dune telle approche (gain en terme de motifs séquentiels découverts) Travail en cours avec de nombreuses perspectives : Interprétation des résultats obtenus (motifs) Exploration dautres critères permettant de catégoriser les pages (contenu, langage, présentation de la page, images, profils des utilisateurs ayant accède aux pages, leur pays, etc.) Mixage des critères (motifs complexes présentant plusieurs catégories) GWUM

17 17 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Sophia Antipolis & Projet AxIS, INRIA Rocquencourt, E-mail : Prénom.Nom@inria.fr URL : http://www-sop.inria.fr/axis/http://www-sop.inria.fr/axis/ FDC, EGC 2006, Lille, 17.01.2006

18 18 References Masseglia 1999 Masseglia 2003 Sellah 2005 Tanasa 2005

19 19 Les sites Web de lINRIA Un institut de recherche = 7 sites Web différentes : INRIA Siège http://www.inria.fr/http://www.inria.fr/ INRIA Rocquencourthttp://www-rocq.inria.fr/http://www-rocq.inria.fr/ INRIA Sophia Antipolis http://www-sop.inria.fr/http://www-sop.inria.fr/ INRIA Lorrainehttp://www.loria.fr/http://www.loria.fr/ INRIA Rhône-alpeshttp://www.inrialpes.fr/http://www.inrialpes.fr/ INRIA Renneshttp://www.irisa.fr/http://www.irisa.fr/ INRIA Futurshttp://www-futurs.inria.fr/http://www-futurs.inria.fr/

20 20 Les projets-equipes de lINRIA 168 projets INRIA en Nov. 2005 29 projets INRIA sur Sophia ~50 anciens projets, mais présents sur le Web Organisés en 5 thèmes avec des sous-thèmes: Com : Systèmes communicants (4) Cog : Systèmes cognitifs (4) Sym : Systèmes symboliques (3) Num : Systèmes numériques (4) Bio : Systèmes biologiques (1) Sous-thème EquipesABCD COM 6 1320 COG 6 2211 SYM 6 141 NUM 7 2023 BIO 4 4 Thème INRIA Sophia

21 21 Le site Web de Sophia Pages dun projets-equipe (e.g. AxIS) : http://www-sop.inria.fr/axis/Publications/ Ex. de requête (ligne dans le fichier log du serveur www-sop.inria.fr) pour cette page : 200.23.5.196 - - [01/Oct/2005:00:00:03 +0200] "GET /axis/Publications/ HTTP/1.1" 200 3754 "/axis/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;.NET CLR 1.1.4322)« Plus de 62 000 URLs (demandés dans le log doctobre 2005)

22 22 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : 1 328 MO 5 840 576 lignes (requêtes) Données finales (après prétraitement) 183 MO 845 208 requêtes 173 848 sessions = couples (IP, User Agent) = utilisateur 258 061 navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) 62 721 URLs différents dont 22 352.html externes


Télécharger ppt "1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,"

Présentations similaires


Annonces Google