1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Rocquencourt & Projet AxIS, INRIA Sophia Antipolis, URL : FDC, EGC 2006, Lille,
2 Plan Motifs séquentiels Exemple motivant État de lart Principe général Exemple dapplication Expérimentation Conclusions
3 Item : un « article » Transaction : un client + un itemset + une date Séquence : liste ordonnée ditemsets Séquence de données : représente les achats dun client. Soit T 1, T 2, … T n les transactions de C j, la séquence de données C j est : Support (S) : pourcentage de séquences de données contenant S s 1 = et s 2 = s 1 s 2 (incluse) si i 1 < i 2 < … i n | a 1 b i1, …, a n b in S – Motif fréquent ssi Supp(S) φ – support minimum GWUM Motifs séquentiels
4 Extraction de motifs séquentiels dans le cas classique (sur la base dURLs) : C1 : accueil_FM publications_FM accueil_Inria C2 : accueil_BT publications_BT Logiciels_AxIS C3 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT Avec un support de 100%, aucun comportement fréquent… GWUM Exemple motivant
5 Objectif de notre travail : extraire des motifs séquentiels basés non plus caractéristiques sur des URLs mais sur des caractéristiques de ces URLs. Caractéristiques possibles : - Mots clés spécifiés dans un moteur et qui ont permis daccéder à cette URL. - Mots clés extraits à partir du contenu : TF/IDF Pronoms TreeTagger Sémantique (« manuel utilisateur de cet appareil photo » ou alors « lappareil photo est vendu avec son manuel utilisateur ») … - Informations de surface (répartitions des informations, etc.) - Autres ? Quel intérêt pour les motifs séquentiels ? Reprenons lexemple précédent… GWUM
6 - Page Web de Brigitte Trousse - Bienvenue. Je suis chercheur(se?) à lInria Sophia Antipolis. Je suis responsable de léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -I.A. Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining I.A. Brigitte Trousse GWUM
7 - Page Web de Florent Masseglia - Bienvenue. Je suis chercheur(!) à lInria Sophia Antipolis dans léquipe AxIS. Mes thèmes de recherche sont : -ECD -Data Mining -Motifs Séquentiels Vous pouvez consulter tout plein de rubriques me concernant sur cette page. En particulier mes publications. Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia GWUM
8 Referer : ECD Data Mining Motifs Séquentiels Florent Masseglia Referer : ECD Data Mining I.A. Brigitte Trousse Classe 1 : « ECD, Data Mining » Une première caractéristique : les mots clé du referer. Une seconde caractéristique : le contenu de la page. « Les pages publications_BT et publications_FM sont des pages de la classe PUBLICATIONS » GWUM
9 Avec un support de 100%, aucun comportement fréquent… Avec un support de 50%, 2 comportements extraits : 1.accueil_FM publications_FM 2.accueil_BT publications_BT AVANT APRES il existe Avec un support de 100%, il existe un comportement un comportement fréquent : « Classe 1 » PUBLICATIONS « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications »
10 « 100% des utilisateurs consultent une page qui parle de data mining ou dECD puis une page de publications » C1 : accueil_FM publications_FM accueil_Inria C3 : accueil_BT publications_BT Logiciels_AxIS C2 : publications_AxIS accueil_FM publications_FM C4 : accueil_AxIS accueil_BT publications_BT GWUM
11 État de lart WUM (Spiliopoulou et al. 1999), WebTool (Masseglia et al. 2000), AxisLogMiner (Tanasa 2005) Dimensionnalité des données affecte les résultats 2 solutions : Grouper dans des sous-logs les utilisateurs ayant des objectifs de navigation communs (Masseglia et al. (2003), Tanasa (2005)) Généraliser les pages Web (syntaxique Fu et al. 1999) (sémantique Tanasa et al. 2005) Ex. Extraction des MS en tenant compte dune hiérarchie manuelle (Srikant et Agrawal 1996) Interêt de notre travail : construction automatique de la classification GWUM projets
12 Principe General GWUM
13 Exemple dapplication Informations du referer : Utilisation du champ referer du fichier log (requêtes provenant des moteurs de recherche – MR) Pour une page => plusieurs referers MR => plusieurs mots clés Normalisation des mots clés à laide de TreeTagger (transformation du mot dans sa racine syntaxique – lemmatisation) Classification croisée sur une table de contingence => 10 classes Informations sur le contenu : Prise en compte de la partie textuelle dune page Sélection des mots représentatifs de chacune des pages en appliquant un algorithme classique (ex. Korfhage (1997)) Une proposition inspirée de TF/IDF a été faite dans Sellah (2005) GWUM
14 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : MO lignes (requêtes) Données finales (après prétraitement) 183 MO requêtes sessions = couples (IP, User Agent) = utilisateur navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) URLs différents ~20% des URLs catégorisées (par les mots clés du referer) GWUM Experimentation
15 GWUM Experimentation
16 Conclusions Méthodologie WUM basé sur une catégorisation des pages Informations extraites soit de : la page elle-même lutilisation de la page (laccès à la page) Lexpérimentation montre lavantage dune telle approche (gain en terme de motifs séquentiels découverts) Travail en cours avec de nombreuses perspectives : Interprétation des résultats obtenus (motifs) Exploration dautres critères permettant de catégoriser les pages (contenu, langage, présentation de la page, images, profils des utilisateurs ayant accède aux pages, leur pays, etc.) Mixage des critères (motifs complexes présentant plusieurs catégories) GWUM
17 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS, INRIA Sophia Antipolis & Projet AxIS, INRIA Rocquencourt, URL : FDC, EGC 2006, Lille,
18 References Masseglia 1999 Masseglia 2003 Sellah 2005 Tanasa 2005
19 Les sites Web de lINRIA Un institut de recherche = 7 sites Web différentes : INRIA Siège INRIA Rocquencourthttp://www-rocq.inria.fr/ INRIA Sophia Antipolis INRIA Lorrainehttp:// INRIA Rhône-alpeshttp:// INRIA Renneshttp:// INRIA Futurshttp://www-futurs.inria.fr/
20 Les projets-equipes de lINRIA 168 projets INRIA en Nov projets INRIA sur Sophia ~50 anciens projets, mais présents sur le Web Organisés en 5 thèmes avec des sous-thèmes: Com : Systèmes communicants (4) Cog : Systèmes cognitifs (4) Sym : Systèmes symboliques (3) Num : Systèmes numériques (4) Bio : Systèmes biologiques (1) Sous-thème EquipesABCD COM COG SYM NUM BIO 4 4 Thème INRIA Sophia
21 Le site Web de Sophia Pages dun projets-equipe (e.g. AxIS) : Ex. de requête (ligne dans le fichier log du serveur www-sop.inria.fr) pour cette page : [01/Oct/2005:00:00: ] "GET /axis/Publications/ HTTP/1.1" "/axis/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;.NET CLR )« Plus de URLs (demandés dans le log doctobre 2005)
22 Les données log du mois doctobre 2005 pour le site Web dINRIA Sophia Antipolis Données initiales (avant prétraitement) : MO lignes (requêtes) Données finales (après prétraitement) 183 MO requêtes sessions = couples (IP, User Agent) = utilisateur navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) URLs différents dont html externes