La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse des fichiers logs Web ~ Projet LP STID ~ Encadrant : Doru Tanasa Equipe AxIS, INRIA Sophia Antipolis

Présentations similaires


Présentation au sujet: "Analyse des fichiers logs Web ~ Projet LP STID ~ Encadrant : Doru Tanasa Equipe AxIS, INRIA Sophia Antipolis"— Transcription de la présentation:

1 Analyse des fichiers logs Web ~ Projet LP STID ~ Encadrant : Doru Tanasa Equipe AxIS, INRIA Sophia Antipolis

2 Plan Introduction  Quelques mots sur le Web Mining et Web Usage Mining  Exemple d’un fichier log Web Le prétraitement des données  Nettoyage des données  Transformation des données Classification automatique  Classification des navigations en fonction des requêtes  Classification des navigations en fonction du site Description du projet

3 Web Mining Data Mining techniques applied to Web data 3 areas of Web Mining: - Web Content Mining - Web Structure Mining - Web Usage Mining

4 Definition: Data Mining techniques applied to Web usage data Objectives:  « Understand » the behavior of the Web site visitors  Improve the Web site structure and its content  Personalize Web pages for visitors  Develop an « intelligent » Web cache application Web Usage Mining Definition, Objectives, Techniques Techniques used in WUM:  Clustering  Association rules (A and B => C)  Sequence mining (A  B  C)  Markov chains  Classification  Decision trees

5 Web Usage Mining A KDD process  A three-step Knowledge Discovery in Databases (KDD) process from Web Usage data  Can use other types of data such as: Web site structure and user profiles

6 [10/Jan/2005:15:33: ] "GET /actu/actu_colloque_actuel_fr.shtml HTTP/1.1" "http://www-sop.inria.fr/" "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/presentation.shtml HTTP/1.0" "http://www.google.com/search?q=web+usage+mining+presentation&hl=en&lr=&start=20&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/people.shtml HTTP/1.0" "http://www- sop.inria.fr/axis/presentation.shtml" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/photos/sophia.jpg HTTP/1.0" "http://www-sop.inria.fr/axis/people.shtml" "Mozilla/4.74 [en] (WinNT; U)" [10/Jan/2005:15:34: ] "GET /coprin/PB60/ HTTP/1.1" "http://www- sop.inria.fr/actu/actu_colloque_actuel_fr.shtml" "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /personnel/Brigitte.Trousse/bri-eng.html HTTP/1.0" "http://www-sop.inria.fr/axis/people.shtml" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" [10/Jan/2005:15:34: ] "GET /coprin/PB60/cocktail.html HTTP/1.1" "http://www-sop.inria.fr/coprin/PB" "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" Fragment of a Web log file with 7 HTTP requests The user from with the user agent Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0 Building two user sessions by considering the same (IP, User Agent) /actu/actu_colloque_actuel_fr.shtml/coprin/PB60/ /coprin/PB60/cocktail.html The user from lucy.ins.cwi.nl with the user agent Mozilla/4.0 (compatible; MSIE 6.0; Windows XP) /axis/presentation.shtml/axis/people.shtml/personnel/Brigitte.Trousse/bri-eng.html /axis/presentation.shtml Web Logs – Poor Quality Data /actu/actu_colloque_actuel_fr.shtml /coprin/PB60/ /coprin/PB60/cocktail.html /personnel/Brigitte.Trousse/bri-eng.html/axis/people.shtml [10/Jan/2005:15:33: ] "GET /actu/actu_colloque_ actuel_fr.shtml HTTP/1.1" "http://www-sop.inria.fr/" "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0"

7 Format standard d’un fichier log [ip] [rfc931] [login] [date] [url] [statut] [size] [referrer] [agent]  ip adresse IP de l’ordinateur de l’utilisateur; cette adresse correspondant souvent à un serveur proxy (dans les entreprise et les universités)  rfc931/login ID machine et utilisateur, disponibles si l’utilisateur se soit lui-même identifié  date date et heure précises de réception de la requête.  URLadresse de la page visitée sur le site (www. )  statut code retour qui indique si l’action s’est bien déroulée  size indique la taille du fichier retourné  referrer signale l’adresse de laquelle l’utilisateur a effectué sa requête, la page de provenance  agent le navigateur et le type de système d’exploitation de l’utilisateur

8 Web Logs – Large Quantity Phenomenal growth of the World Wide Web in the last 15 years  Internet users: 800+ million, [Netcraft05]  Web sites: 60+ million, [Netcraft05]  Web Pages: 8+ billion, [Google]  x 500 in Hidden Web (databases, login) [Mardis01] Huge amount of Web Usage Data  Yahoo.com, 2002, 100GB/h [Shahabi02]  Amazon.com, 2004, 10TB/day [Weigend04] Growing interest for “E-Activities” (E-Commerce, E- Business, E-Learning, E-Government …) => Generate usage data [Berendt04]

9 Plan Introduction  Quelques mots sur le Web Mining et Web Usage Mining  Exemple d’un fichier log Web Le prétraitement des données  Nettoyage des données  Transformation des données Classification automatique  Classification des navigations en fonction des requêtes  Classification des navigations en fonction du site Description du projet

10 Le prétraitement des données Nettoyage des données Supprimer des requêtes pour les ressources Web non-analysées Suppression des requêtes/navigations provenant des robots Web Transformation des données Fusionner les fichiers log ensemble Rendre anonymes les IP des utilisateurs Identifier les utilisateurs Identifier les navigations Identifier les épisodes

11 Terminology Web request – one line of the log file johndoe [10/Jan/2005:15:34: ] "GET /axis/presentation.shtml HTTP/1.0" "http://www-sop.inria.fr/axis/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)“ Syntactic Topic: axis,Semantic Topic: research team Page View – occurs when a Web Browser displays a Web page User – user login from the log file or IP address (when login N/A) User Session – all the requests having the same (User, Host, Agent) combination Visit – all the requests included in a user session and made during one connection, i.e. two consecutive requests have less than Δt (30) minutes between them /axis/presentation.shtml

12 Nettoyage des données (1/2) Suppression des requêtes pour les ressources Web non- analysées Les ressources Web (RW) non-analysées, par exemple:  Les fichiers images: “*.gif”, “*.jpg”, etc.  Autres fichiers qui «composent» une page (fichiers de style, applets Java, etc.) Toutefois, il existe des images qu'on peut “cliquer” Utiliser la carte du site pour décider si on doit considérer ou non la RW

13 Nettoyage des données (2/2) Suppression des requêtes/navigations provenant des robots Web Les requêtes des robots Web représentent du «bruit» On réduit la dimension du fichier log de 50% Trois méthodes pour détecter les robots Web (WR): Identifier les couples (IP, Agent) depuis lesquels il y a eu une requête pour “robots.txt” Utiliser une liste des agents connus comme WR pour identifier les couples (IP, Agent) dont l ’agent fait partie de la liste Utiliser un seuil pour la vitesse de navigation (BS - « Browsing Speed »), qui est égale : BS = Durée de la navigation (sec.) Nombre des pages visitées

14 Transformation des données (1/5) Fusionner les fichiers logs Les fichiers logs (ordonnées par la date de la requête) sont mises ensemble Chaque requête est modifiée pour:  synchroniser les temps des requêtes (si besoin)  inclure le “ID” du serveur Web dans la requête (“ID” = nom du serveur Web)

15 Transformation des données (2/5) Fusionner les fichiers logs Exemple pour l’INRIA Site Web d’INRIA Logs Web www-sop.inria.fr Logs Web [16/Jan [16/Jan/ [16/Jan/ [16/Jan/ [16/Jan/2 Fichier contenant toutes les requêtes Serveur Web de l ’INRIA Sophia Antipolis Serveur Web de l’INRIA national

16 Avant : [09/Jan/2002:00:01: ] "GET /mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" "-" "Mozilla/4.0 compatible ZyBorg/1.0 wks177.ist.ucf.edu - - [09/Jan/2002:00:01: ] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1 » … gentiane.inria.fr - - [09/Jan/2002:11:08: ] "GET /cafe/team-e.html HTTP/1.0"... Après : [09/Jan/2002:00:01: ] "GET /mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" "-" "Mozilla/4.0 compatible ZyBorg/ example.com.edu - - [09/Jan/2002:00:01: ] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1" example.com.11.projet.sophia.inria.fr - - [09/Jan/2002:11:08: ] "GET /cafe/team-e.html HTTP/1.0"... Transformation des données (3/5) Rendre anonymes les fichiers logs

17 Transformation des données (4/5) Identification de l’utilisateur Nous avons utilisé le couple (IP, Agent) Une tâche compliquée par :  Les serveurs proxy  Les adresses dynamiques  Les cas d’utilisateurs utilisant le même ordinateur  Les cas des utilisateurs qui utilisent plus d’un navigateur Web ou plus d’un ordinateur Solutions possibles:  Les « cookies »  Les pages Web dynamiques (avec un IDSession)  Les utilisateurs enregistrés  Un navigateur modifié  L’utilisation de la carte du site + le référeur dans le prétraitement

18 Transformation des données (5/5) Identification des navigations et épisodes Identification des navigations : Couper la session utilisateur si la distance entre 2 clics > 30 minutes (standard) Couper la session utilisateur si sa longueur dépasse 100 clics (un robot Web?) Un processus direct Identification des épisodes : Diviser la navigation en épisodes sémantiques On peut utiliser une carte du site Web amélioré qui contient une description sémantique des pages Web Un autre chantier en cours pour nous …

19 Plan Introduction  Quelques mots sur le Web Mining et Web Usage Mining  Exemple d’un fichier log Web Le prétraitement des données  Nettoyage des données  Transformation des données Classification automatique  Classification des navigations en fonction des requêtes  Classification des navigations en fonction du site Description du projet

20 Description du site par l’URL URL : Site : c’est le siège de l’INRIA Rubrique1 : orion Rubrique2 : Telescope

21 Les comportements de navigation Typologie des comportement réalisée par Canter, River et Storrs (1985) Wandering : correspond au comportement d’un utilisateur parcourant le site de manière aléatoire. Browsing : correspond au comportement d’un utilisateur recherchant une information l’intéressant. Scanning : correspond au comportement d’un utilisateur parcourant une large zone de manière approfondie. Exploring : correspond au comportement d’un utilisateur explorant un thème donné. Searching: correspond au comportement d’un utilisateur recherchant un information précise.

22 Analyse des fichiers log des sites INRIA siège et sophia Base de Données requêtesentre le 1 janvier et le 15 janvier dimension de la Base: requêtes entre le 1 janvier et le 15 janvier Sélection de 9324 Navigations ayant une durée supérieure de 60 sec. Élimination des erreurs dans le fichier : Code status entre 200 et 400 Sélection par la Rubrique 1 > 100  résultat: 125 thèmes consultés dans le fichier LOG (sur requêtes) Sélection par la Rubrique 2 > 100  résultat: 432 thèmes consultés dans le fichier LOG (sur requêtes)

23 Navigations longues Sélection des Navigations longues Dans les 9763 Navigations Sélection des navigations respectant les critères suivants : durée/nombre de requêtesnombre de pages consultées durée/nombre de requêtes > 4 sec ET nombre de pages consultées > 10 Résultat : Table de Requêtes et de 9700 Navigations

24 Structuration des informations

25

26

27 Paramètres décrivant les navigations Säuberlich & Huber (2001) utilisent pour cette analyse:  Cookie-ID / Session-ID  Referrer  Navigateur (+ version)  Plateforme  Heure  Jour (de la semaine)  Week-end  No clicks  Durée  Durée moyenne par click  Variables de navigation (binaires)

28 Paramètres décrivant les navigations issus du fichier log  IDNavigationidentificateur d’une navigation  NBRequest_OKnombre de requêtes correctes  PRequest_SELpourcentage de requêtes correctes  NBrequestnombre de requêtes essayées  DureeTotaled’une navigation  Repetitionnombre de requêtes répétées  User_Agentidentificateur d’un navigateur  User_Systemidentificateur du système d’exploitation  MDurée_OKmoyenne de la durée d’une navigation  MSize_OKmoyenne de la taille des pages lues  Datedate de la navigation  Zonepériode de la navigation dans la journée  Paysidentificateur du Pays

29 Paramètres décrivant les navigations issus des informations URL des sites  NB_wwwnombre de requêtes sur www  NB_www-sopnombre de requêtes sur www-sop  Pwwwpourcentage de requêtes sur www - calculée sur lNBRequest  Pwww-soppourcentage de requêtes sur www - calculée sur lNBRequest  Sitewww-inria.fr ou www-sop.inria.fr  Rubrique1110 rubriques de www  Rubrique2108 rubriques de www-sop  Rubrique-sem144 rubriques « semantiques » de www  Rubrique-sem269 rubriques « semantiques » de www-sop

30 Analyse en Composante principale Variables activesVariables actives  PRequest_SELpourcentage de requêtes correctes  NBrequestnombre de requêtes essayées  Repetitiontaux de répétition  DureeTotaledurée totale d’une navigation  MDurée_OKmoyenne de la durée d’une navigation  MSize_OKmoyenne de la taille des pages lues

31 MATRICE DES CORRELATIONS | PReq NBre Dure Repe MDur MSiz PReq | 1.00 NBre | Dure | Repe | MDur | MSiz | HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | | 1 | | | | ******************************************************************************** | | 2 | | | | *********************************************************** | | 3 | | | | **************************************************** | | 4 | | | | *********************************************** | | 5 | | | | ******************************************* | | 6 | | 6.94 | | ********************* | Résultats de l’ACP

32 Facteurs 1 et 2 -- %I=46% Cercle des corrélations Facteurs 1 et 2 -- %I=46% Variables actives Variables illustratives

33 Classification des navigations sur les facteurs 1 et 2 1/7 5/7 4/7 2/7

34 Variables nominales illustratives

35 Interprétation de la classe (1/7) CLASSE 1 / | V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 1 / 7 ( EFFECTIF = 5956 ) | | | | | | 5.PRequest_SEL | | | | | 3.Pwww | | | | | | | | | | 8.NBrequest | | | | | 2.www-sop | | | | | 6.NBRequest_OK | | | | | 9.DureeTotale | | | | | 13.MDurée_OK | | | | | 10.Repetition V.TEST PROBA ---- POURCENTAGES ---- MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 1 / Unix/Linux User_System Netscape Navigator User_Agent

36 Interprétation de la classe (2/7) CLASSE 2 / | V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 2 / 7 ( EFFECTIF = 1168 ) | | | | | 13.MDurée_OK | | | | | 9.DureeTotale V.TEST PROBA ---- POURCENTAGES ---- MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 2 / Pays Netscape Navigator User_Agent Matin Zone

37 Interprétation de la classe (4/7) CLASSE 4 / | V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 4 / 7 EFFECTIF = 2032 ) | | | | | 10.Repetition | | | | | 2.www-sop | | | | | 5.PRequest_SEL | | | | | 4.Pww-sop | 7.44 | | | | 8.NBrequest | | | | | | | | | | 13.MDurée_OK V.TEST PROBA ---- POURCENTAGES ---- MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 4 / MS Internet Explorer User_Agent Windows User_System fr Pays

38 Interprétation de la classe (5/7) CLASSE 5 / | V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 5 / 7 ( EFFECTIF = 474 ) | | 9.15 | | | | 10.Repetition | | | | | | | | | | 3.Pwww | | | | | 5.PRequest_SEL V.TEST PROBA ---- POURCENTAGES ---- MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 5 / Unknown Platform User_System Other Agent User_Agent Nuit Zone net Pays

39 Interprétation de la classe (6/7) CLASSE 6 / | V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 6 / 7 ( EFFECTIF = 17 ) | | | | | 8.NBrequest | | | | | 1.www | | | | | 9.DureeTotale | 3.58 | | | | 10.Repetition | | | | | 5.PRequest_SEL V.TEST PROBA ---- POURCENTAGES ---- MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 6 / Unknown Platform User_System Other Agent User_Agent Nuit Zone Jan Date net Pays

40 Structure du Site www requêtes du site www correspondant à 44 Rubriques www-sop requêtes du site www-sop correspondant aux 69 Rubriques Nous considérons seulement les navigations des sites du siège et de sophia 3969 navigations sur les 9700

41 Rubriques sur les deux sites

42 Analyse Factorielle des correspondances Multiples

43 Classifications en 11 classes

44 Interprétation de la classe 1/11 CLASSE 1 / | V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM. LIBELLE | | | | | | | | | 33. Sop projets | | | 1. www projets | | | 36. Sop sophia Navigations visitant les projets de recherche

45 Interprétation de la classe 4/11 CLASSE 4 / | V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM. LIBELLE | | | | | | | | | | | | 42. Sop semir | | | 58. Sop interne- sophia | | | 63. Sop modeles | | | 31. www modeles Navigations visitant l’intranet

46 Interprétation de la classe 7/11 CLASSE 7 / | V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM. LIBELLE | | | | | | 12. www actualites- siege | | | 9. www valorisation | | | 11. www publications | | | 4. www recherche | | | 5. www presse | | | 10. www intro-inria | | | 14. www multimedia Navigations visitant les activités du siège de l’INRIA

47 Interprétation de la classe 10/11 CLASSE 10 / | V.TEST PROBA | POURCENTAGES | FREQUENCES | | CLA/FRE FRE/CLA GLOBAL | NUM. LIBELLE | | | | | | | | | 18. www ra | | | 15. www rrrt | | | 2. www rapports | | | 34. Sop rapports Navigations visitant les rapports d’activités des projets

48 Plan Introduction  Quelques mots sur le Web Mining et Web Usage Mining  Exemple d’un fichier log Web Le prétraitement des données  Nettoyage des données  Transformation des données Classification automatique  Classification des navigations en fonction des requêtes  Classification des navigations en fonction du site Description du projet

49

50 Les données log du mois d’octobre 2005 pour le site Web d’INRIA Sophia Antipolis Données initiales (avant prétraitement) :  MO  lignes (requêtes) Données finales (après prétraitement)  183 MO  requêtes  sessions = couples (IP, User Agent) = utilisateur  navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes)  URLs différents  dont html externes


Télécharger ppt "Analyse des fichiers logs Web ~ Projet LP STID ~ Encadrant : Doru Tanasa Equipe AxIS, INRIA Sophia Antipolis"

Présentations similaires


Annonces Google