Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr
Plan Motivation Objectifs Description des données Classifications Résultats Conclusions RIA’s 2006
Motivation Dans de nombreuses situations, les utilisateurs d’un site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple : les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site. La présence d’hyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche d’utilisateurs indécis. RIA’s 2006
Objectifs Les parcours des utilisateurs seront modélisés par des navigations Rechercher et découvrir des groupes de navigations afin de définir des comportements d’utilisateurs sur ce site. Grouper les pages d’un site Web en appliquant la méthode de classification sur les données d’usage Etablir des liens ou des corrélations entre ces comportements d’utilisateurs et des groupes de pages du site Web en fonction de l’usage. RIA’s 2006
Description des données «clickstream» Le site du Centre d’Informatique (CIn) de Recife/Brésil: www.cin.ufpe.br nous servira d’exemple. Ce site est réalisé à partir d’un ensemble de servlets programmées en Java Le site est petit et bien organisé : 91 pages arbre de pages d’une hauteur maximale de 5 Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes RIA’s 2006
Description des données (site Web) RIA’s 2006
Description des données (structure sémantique) Par la conception des pages nous avons une grande diversité de liens. RIA’s 2006
Exemple de fichier log Web Fragment d’un fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction d’une navigation 194.78.232.8 - - [10/Sep/2001:15:33:43 +0200] "GET /orion/liens.htm HTTP/1.1" 200 1893 "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/ HTTP/1.0" 200 1012 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/home.html HTTP/1.0" 200 483 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:09 +0200] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:09 +0200] "GET /orion/Telescope/Telescope.html HTTP/1.1" 200 4433 "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:10 +0200] "GET /stacs2002/cfp.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:23 +0200] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" RIA’s 2006
Format standard d’un fichier log [ip] [name] [login] [date] [url] [status] [size] [referrer] [agent] ip adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise name/login supposent que l’utilisateur se soit lui-même identifié date date et heure précises de réception de la requête. URL adresse de la page visitée sur le site (www.<…>) statut code retour qui indique si l’action s’est bien déroulée. size indique la taille du fichier retourné. referrer signale l’adresse de laquelle a effectué la requête, la page de provenance agent le navigateur et le type de système d’exploitation de l’utilisateur RIA’s 2006
Schéma des méthodes dissimilarité entre pages classification croisée d3,1 d3,2 d4,1 d4,2 d4,3 classification croisée dissimilarité entre pages pages n1 n2 n3 . (p1 p2 p3…) . navigations typologie de navigations RIA’s 2006
Pages visitées (nombre de réquisitions) Le tableau de données 91 pages Navigation Pages visitées (nombre de réquisitions) Navigation 1 Home (1), The Informatics' center (3), PhD (2), ... Navigation 2 People (1), Professor (2), Post-graduation (3), ... Navigation 3 Post-graduation (2), Specialization (2), Research (3), ... Navigation 4 How to be a student (2), Registrations and Information (4), Coordination/Secretariat (1), ... … 1124 navigations ont été réalisées en Octobre 2002 RIA’s 2006
Trois approches classificatoires (1) Construction d’une typologie de comportements d’utilisateurs (2) Visualisation des interactions entre les pages via les données de l’usage (3) Analyse de l’interaction entre des groupes de pages et des comportements d’utilisateurs RIA’s 2006
(1) Résultats Publications [35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent (1) Résultats Graduation [9%] Professors People The Informatics' center Phones News Services Home Infrastructure Sectors Registrations and Information [54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration Information [3%] Specialization Concentration areas Ainsi nous avons identifié quatre groupes dominants d’utilisateurs. La classe 1 (54%) contient les utilisateurs intéressés par le Post-graduation en ce qui concerne au Mastère (inscription, proposition de thèmes, etc), la classe 2 (3%) représente les utilisateurs intéressés par le cours de spécialisation car il attire un publique bien différencié des élèves du mastère, la classe 3 (9%) concentre les utilisateurs recherchant des informations sur les personnels enseignant et administratif du CIn et aussi des informations sur ses secteurs et services, et la classe 4 (35%) contient les navigations des internautes intéressés par les projets de recherche du CIn (c’est-à-dire, les thèses soutenues, les rapport d’activités, les publications, etc). RIA’s 2006
(1) Confirmation par l’analyse factorielle des correspondances RIA’s 2006
(2) Choix de la dissimilarité Jaccard binaire Cosinus comptage Tf x idf comptage RIA’s 2006
(2) Visualisation des distances entre pages RIA’s 2006
(3) Classification croisée Cette méthode a été proposée par Gérard Govaert (1995) Objectif: classer simultanément les lignes et les colonnes d’un tableau de comptages Modèle relationnel BD: facile d’extraire un tableau de comptage Ligne: une navigation représente l’ensemble des clics d’un utilisateur pendant un parcours sur le site (30mn) Colonne: une page représente le nombre de visites de cette page durant une navigation RIA’s 2006
(3) Table de confusion entre les thèmes et les comportements Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total Navigation_ 1 328 1390 140 466 381 2705 Navigation_ 2 48 81 14 128 618 889 Navigation_ 3 133 86 63 1223 163 1668 Navigation_ 4 41 58 625 67 56 847 Navigation_ 5 31 3686 45 118 40 3920 Navigation_ 6 480 151 18 126 43 818 Total 1061 5452 905 2128 1301 10847 Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications RIA’s 2006
(3) Relations entre les thèmes et les comportements Navigation 4 RIA’s 2006
(3) Les pages dans les différents thèmes Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000 New internal regiment Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives In the region In the informatics' center Classe : 5 People Professors Administrative Coordinators Direction Support Management RIA’s 2006
Conclusions Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à l’ensemble à classer Nous avons identifié quatre groupes dominants d’utilisateurs Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing RIA’s 2006
Merci de votre attention. RIA’s 2006