La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt

Présentations similaires


Présentation au sujet: "Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt"— Transcription de la présentation:

1 Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

2 RIAs 2006 2 Plan Motivation Motivation Objectifs Objectifs Description des données Description des données Classifications Classifications Résultats Résultats Conclusions Conclusions

3 RIAs 2006 3 Motivation Dans de nombreuses situations, les utilisateurs dun site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple : –les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site. –La présence dhyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche dutilisateurs indécis.

4 RIAs 2006 4 Objectifs Les parcours des utilisateurs seront modélisés par des navigations Rechercher et découvrir des groupes de navigations afin de définir des comportements dutilisateurs sur ce site. classificationGrouper les pages dun site Web en appliquant la méthode de classification sur les données dusage Etablir des liens ou des corrélations entre ces comportements dutilisateurs et des groupes de pages du site Web en fonction de lusage.

5 RIAs 2006 5 Description des données «» Description des données «clickstream» Le site du Centre dInformatique (CIn) de Recife/Brésil: www.cin.ufpe.br nous servira dexemple. Ce site est réalisé à partir dun ensemble de servlets programmées en Javawww.cin.ufpe.br Le site est petit et bien organisé : 91 pages arbre de pages dune hauteur maximale de 5 Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes

6 RIAs 2006 6 Description des données (site Web)

7 RIAs 2006 7 Description des données (structure sémantique) Par la conception des pages nous avons une grande diversité de liens.

8 RIAs 2006 8 194.78.232.8 - - [10/Sep/2001:15:33:43 +0200] "GET /orion/liens.htm HTTP/1.1" 200 1893 "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/ HTTP/1.0" 200 1012 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/home.html HTTP/1.0" 200 483 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:09 +0200] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:09 +0200] "GET /orion/Telescope/Telescope.html HTTP/1.1" 200 4433 "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34:10 +0200] "GET /stacs2002/cfp.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" 194.78.232.8 - - [10/Sep/2001:15:34:23 +0200] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" Fragment dun fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction dune navigation Exemple de fichier log Web

9 RIAs 2006 9 Format standard dun fichier log [ip] [name] [login] [date] [url] [status] [size] [referrer] [agent] ip ip adresse électronique de lutilisateur; cette adresse correspondant souvent au nom de domaine dun serveur si lutilisateur est connecté à internet via un fournisseur daccès ou une entreprise name/login name/loginsupposent que lutilisateur se soit lui-même identifié date date date et heure précises de réception de la requête. URL URLadresse de la page visitée sur le site (www. ) statut statut code retour qui indique si laction sest bien déroulée. size size indique la taille du fichier retourné. referrer referrer signale ladresse de laquelle a effectué la requête, la page de provenance agent agent le navigateur et le type de système dexploitation de lutilisateur

10 RIAs 2006 10 Schéma des méthodes navigations pages n1n2n3...n1n2n3... (p 1 p 2 p 3 …). typologie de navigations dissimilarité entre pages d 2,1 d 3,1 d 3,2 d 4,1 d 4,2 d 4,3 classification croisée

11 RIAs 2006 11 NavigationPages visitées (nombre de réquisitions) Navigation 1 Home (1), The Informatics' center (3), PhD (2),... Navigation 2 People (1), Professor (2), Post-graduation (3),... Navigation 3 Post-graduation (2), Specialization (2), Research (3),... Navigation 4 How to be a student (2), Registrations and Information (4), Coordination/Secretariat (1),... …… Le tableau de données 1124 navigations ont été réalisées en Octobre 2002 91 91 pages

12 RIAs 2006 12 Trois approches classificatoires (1) Construction dune typologie de comportements dutilisateurs (2) Visualisation des interactions entre les pages via les données de lusage (3) Analyse de linteraction entre des groupes de pages et des comportements dutilisateurs

13 RIAs 2006 13 Résultats (1) Résultats [54%] Registrations and Information [54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration [3%] Information [3%] Specialization Concentration areas [9%] Graduation [9%] Professors People The Informatics' center Phones News Services Home Infrastructure Sectors [35%] Publications [35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent

14 RIAs 2006 14 Confirmation par lanalyse factorielle des correspondances (1) Confirmation par lanalyse factorielle des correspondances

15 RIAs 2006 15 (2) Choix de la dissimilarité Jaccard binaire Cosinus comptage Tf x idf comptage

16 RIAs 2006 16 Visualisation des distances entre pages (2) Visualisation des distances entre pages

17 RIAs 2006 17 Classification croisée (3) Classification croisée Cette méthode a été proposée par Gérard Govaert (1995) Objectif: –classer simultanément les lignes et les colonnes dun tableau de comptages Modèle relationnel BD: facile dextraire un tableau de comptage Ligne: une navigation représente lensemble des clics dun utilisateur pendant un parcours sur le site (30mn) Colonne:une page représente le nombre de visites de cette page durant une navigation

18 RIAs 2006 18 (3) Table de confusion entre les thèmes et les comportements Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total Navigation_ 1 32813901404663812705 Navigation_ 2 488114128 618 889 Navigation_ 3 1338663 1223 1631668 Navigation_ 4 4158 625 6756847 Navigation_ 5 31368645118403920 Navigation_ 6 480 1511812643818 Total 106154529052128130110847

19 RIAs 2006 19 (3) Relations entre les thèmes et les comportements Thème 3 Navigation 4

20 RIAs 2006 20 (3) Les pages dans les différents thèmes Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives In the region In the informatics' center Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000 New internal regiment Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Classe : 5 People Professors Administrative Coordinators Direction Support Management

21 RIAs 2006 21 Conclusions Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à lensemble à classer Nous avons identifié quatre groupes dominants dutilisateurs Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing

22 RIAs 2006 22 Merci de votre attention.


Télécharger ppt "Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt"

Présentations similaires


Annonces Google