La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification automatique en Web Usage Mining

Présentations similaires


Présentation au sujet: "Classification automatique en Web Usage Mining"— Transcription de la présentation:

1 Classification automatique en Web Usage Mining
Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt

2 Plan Motivation Objectifs Description des données Classifications
Résultats Conclusions RIA’s 2006

3 Motivation Dans de nombreuses situations, les utilisateurs d’un site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple : les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site. La présence d’hyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche d’utilisateurs indécis. RIA’s 2006

4 Objectifs Les parcours des utilisateurs seront modélisés par des navigations Rechercher et découvrir des groupes de navigations afin de définir des comportements d’utilisateurs sur ce site. Grouper les pages d’un site Web en appliquant la méthode de classification sur les données d’usage Etablir des liens ou des corrélations entre ces comportements d’utilisateurs et des groupes de pages du site Web en fonction de l’usage. RIA’s 2006

5 Description des données «clickstream»
Le site du Centre d’Informatique (CIn) de Recife/Brésil: nous servira d’exemple. Ce site est réalisé à partir d’un ensemble de servlets programmées en Java Le site est petit et bien organisé : 91 pages arbre de pages d’une hauteur maximale de 5 Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes RIA’s 2006

6 Description des données (site Web)
RIA’s 2006

7 Description des données (structure sémantique)
Par la conception des pages nous avons une grande diversité de liens. RIA’s 2006

8 Exemple de fichier log Web
Fragment d’un fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction d’une navigation [10/Sep/2001:15:33: ] "GET /orion/liens.htm HTTP/1.1" "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/ HTTP/1.0" "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/home.html HTTP/1.0" "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" [10/Sep/2001:15:34: ] "GET /orion/Telescope/Telescope.html HTTP/1.1" "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/cfp.html HTTP/1.0" "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" [10/Sep/2001:15:34: ] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" RIA’s 2006

9 Format standard d’un fichier log
[ip] [name] [login] [date] [url] [status] [size] [referrer] [agent] ip adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise name/login supposent que l’utilisateur se soit lui-même identifié date  date et heure précises de réception de la requête. URL adresse de la page visitée sur le site (www.<…>) statut code retour qui indique si l’action s’est bien déroulée. size  indique la taille du fichier retourné. referrer  signale l’adresse de laquelle a effectué la requête, la page de provenance agent  le navigateur et le type de système d’exploitation de l’utilisateur RIA’s 2006

10 Schéma des méthodes dissimilarité entre pages classification croisée
d3,1 d3,2 d4,1 d4,2 d4,3 classification croisée dissimilarité entre pages pages n1 n2 n3 . (p1 p2 p3…) . navigations typologie de navigations RIA’s 2006

11 Pages visitées (nombre de réquisitions)
Le tableau de données 91 pages Navigation Pages visitées (nombre de réquisitions) Navigation 1 Home (1), The Informatics' center (3), PhD (2), ... Navigation 2 People (1), Professor (2), Post-graduation (3), ... Navigation 3 Post-graduation (2), Specialization (2), Research (3), ... Navigation 4 How to be a student (2), Registrations and Information (4), Coordination/Secretariat (1), ... 1124 navigations ont été réalisées en Octobre 2002 RIA’s 2006

12 Trois approches classificatoires
(1) Construction d’une typologie de comportements d’utilisateurs (2) Visualisation des interactions entre les pages via les données de l’usage (3) Analyse de l’interaction entre des groupes de pages et des comportements d’utilisateurs RIA’s 2006

13 (1) Résultats Publications [35%] Theses and dissertations Research
Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent (1) Résultats Graduation [9%] Professors People The Informatics' center Phones News Services Home Infrastructure Sectors Registrations and Information [54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration Information [3%] Specialization Concentration areas Ainsi nous avons identifié quatre groupes dominants d’utilisateurs. La classe 1 (54%) contient les utilisateurs intéressés par le Post-graduation en ce qui concerne au Mastère (inscription, proposition de thèmes, etc), la classe 2 (3%) représente les utilisateurs intéressés par le cours de spécialisation car il attire un publique bien différencié des élèves du mastère, la classe 3 (9%) concentre les utilisateurs recherchant des informations sur les personnels enseignant et administratif du CIn et aussi des informations sur ses secteurs et services, et la classe 4 (35%) contient les navigations des internautes intéressés par les projets de recherche du CIn (c’est-à-dire, les thèses soutenues, les rapport d’activités, les publications, etc). RIA’s 2006

14 (1) Confirmation par l’analyse factorielle des correspondances
RIA’s 2006

15 (2) Choix de la dissimilarité
Jaccard binaire Cosinus comptage Tf x idf comptage RIA’s 2006

16 (2) Visualisation des distances entre pages
RIA’s 2006

17 (3) Classification croisée
Cette méthode a été proposée par Gérard Govaert (1995) Objectif: classer simultanément les lignes et les colonnes d’un tableau de comptages Modèle relationnel BD: facile d’extraire un tableau de comptage Ligne: une navigation représente l’ensemble des clics d’un utilisateur pendant un parcours sur le site (30mn) Colonne: une page représente le nombre de visites de cette page durant une navigation RIA’s 2006

18 (3) Table de confusion entre les thèmes et les comportements
Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total Navigation_ 1 328 1390 140 466 381 2705 Navigation_ 2 48 81 14 128 618 889 Navigation_ 3 133 86 63 1223 163 1668 Navigation_ 4 41 58 625 67 56 847 Navigation_ 5 31 3686 45 118 40 3920 Navigation_ 6 480 151 18 126 43 818 Total 1061 5452 905 2128 1301 10847 Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications RIA’s 2006

19 (3) Relations entre les thèmes et les comportements
Navigation 4 RIA’s 2006

20 (3) Les pages dans les différents thèmes
Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000 New internal regiment Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives In the region In the informatics' center Classe : 5 People Professors Administrative Coordinators Direction Support Management RIA’s 2006

21 Conclusions Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à l’ensemble à classer Nous avons identifié quatre groupes dominants d’utilisateurs Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing RIA’s 2006

22 Merci de votre attention.
RIA’s 2006


Télécharger ppt "Classification automatique en Web Usage Mining"

Présentations similaires


Annonces Google