La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt

Présentations similaires


Présentation au sujet: "Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt"— Transcription de la présentation:

1 Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt

2 RIAs Plan Motivation Motivation Objectifs Objectifs Description des données Description des données Classifications Classifications Résultats Résultats Conclusions Conclusions

3 RIAs Motivation Dans de nombreuses situations, les utilisateurs dun site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple : –les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site. –La présence dhyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche dutilisateurs indécis.

4 RIAs Objectifs Les parcours des utilisateurs seront modélisés par des navigations Rechercher et découvrir des groupes de navigations afin de définir des comportements dutilisateurs sur ce site. classificationGrouper les pages dun site Web en appliquant la méthode de classification sur les données dusage Etablir des liens ou des corrélations entre ces comportements dutilisateurs et des groupes de pages du site Web en fonction de lusage.

5 RIAs Description des données «» Description des données «clickstream» Le site du Centre dInformatique (CIn) de Recife/Brésil: nous servira dexemple. Ce site est réalisé à partir dun ensemble de servlets programmées en Javawww.cin.ufpe.br Le site est petit et bien organisé : 91 pages arbre de pages dune hauteur maximale de 5 Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes

6 RIAs Description des données (site Web)

7 RIAs Description des données (structure sémantique) Par la conception des pages nous avons une grande diversité de liens.

8 RIAs [10/Sep/2001:15:33: ] "GET /orion/liens.htm HTTP/1.1" "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/ HTTP/1.0" "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/home.html HTTP/1.0" "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" [10/Sep/2001:15:34: ] "GET /orion/Telescope/Telescope.html HTTP/1.1" "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" lucy.ins.cwi.nl - - [10/Sep/2001:15:34: ] "GET /stacs2002/cfp.html HTTP/1.0" "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)" [10/Sep/2001:15:34: ] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)" Fragment dun fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction dune navigation Exemple de fichier log Web

9 RIAs Format standard dun fichier log [ip] [name] [login] [date] [url] [status] [size] [referrer] [agent] ip ip adresse électronique de lutilisateur; cette adresse correspondant souvent au nom de domaine dun serveur si lutilisateur est connecté à internet via un fournisseur daccès ou une entreprise name/login name/loginsupposent que lutilisateur se soit lui-même identifié date date date et heure précises de réception de la requête. URL URLadresse de la page visitée sur le site (www. ) statut statut code retour qui indique si laction sest bien déroulée. size size indique la taille du fichier retourné. referrer referrer signale ladresse de laquelle a effectué la requête, la page de provenance agent agent le navigateur et le type de système dexploitation de lutilisateur

10 RIAs Schéma des méthodes navigations pages n1n2n3...n1n2n3... (p 1 p 2 p 3 …). typologie de navigations dissimilarité entre pages d 2,1 d 3,1 d 3,2 d 4,1 d 4,2 d 4,3 classification croisée

11 RIAs NavigationPages visitées (nombre de réquisitions) Navigation 1 Home (1), The Informatics' center (3), PhD (2),... Navigation 2 People (1), Professor (2), Post-graduation (3),... Navigation 3 Post-graduation (2), Specialization (2), Research (3),... Navigation 4 How to be a student (2), Registrations and Information (4), Coordination/Secretariat (1),... …… Le tableau de données 1124 navigations ont été réalisées en Octobre pages

12 RIAs Trois approches classificatoires (1) Construction dune typologie de comportements dutilisateurs (2) Visualisation des interactions entre les pages via les données de lusage (3) Analyse de linteraction entre des groupes de pages et des comportements dutilisateurs

13 RIAs Résultats (1) Résultats [54%] Registrations and Information [54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration [3%] Information [3%] Specialization Concentration areas [9%] Graduation [9%] Professors People The Informatics' center Phones News Services Home Infrastructure Sectors [35%] Publications [35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent

14 RIAs Confirmation par lanalyse factorielle des correspondances (1) Confirmation par lanalyse factorielle des correspondances

15 RIAs (2) Choix de la dissimilarité Jaccard binaire Cosinus comptage Tf x idf comptage

16 RIAs Visualisation des distances entre pages (2) Visualisation des distances entre pages

17 RIAs Classification croisée (3) Classification croisée Cette méthode a été proposée par Gérard Govaert (1995) Objectif: –classer simultanément les lignes et les colonnes dun tableau de comptages Modèle relationnel BD: facile dextraire un tableau de comptage Ligne: une navigation représente lensemble des clics dun utilisateur pendant un parcours sur le site (30mn) Colonne:une page représente le nombre de visites de cette page durant une navigation

18 RIAs (3) Table de confusion entre les thèmes et les comportements Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total Navigation_ Navigation_ Navigation_ Navigation_ Navigation_ Navigation_ Total

19 RIAs (3) Relations entre les thèmes et les comportements Thème 3 Navigation 4

20 RIAs (3) Les pages dans les différents thèmes Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives In the region In the informatics' center Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000 New internal regiment Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications Classe : 5 People Professors Administrative Coordinators Direction Support Management

21 RIAs Conclusions Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à lensemble à classer Nous avons identifié quatre groupes dominants dutilisateurs Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing

22 RIAs Merci de votre attention.


Télécharger ppt "Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt"

Présentations similaires


Annonces Google