La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse des fichiers logs Web ~ Projet LP STID ~

Présentations similaires


Présentation au sujet: "Analyse des fichiers logs Web ~ Projet LP STID ~"— Transcription de la présentation:

1 Analyse des fichiers logs Web ~ Projet LP STID ~
Encadrant : Doru Tanasa Equipe AxIS, INRIA Sophia Antipolis

2 Plan Introduction Le prétraitement des données
Quelques mots sur le Web Mining et Web Usage Mining Exemple d’un fichier log Web Le prétraitement des données Nettoyage des données Transformation des données Classification automatique Classification des navigations en fonction des requêtes Classification des navigations en fonction du site Description du projet

3 Web Mining Web Content Mining Web Structure Mining Web Usage Mining
Data Mining techniques applied to Web data 3 areas of Web Mining: Web Content Mining Web Structure Mining Web Usage Mining Web structure mininig represente la fouille des donnees appliquee aux hyperliens inter- et intra- pages Web. Some words about Web data

4 Definition, Objectives, Techniques
Web Usage Mining Definition, Objectives, Techniques Definition: Data Mining techniques applied to Web usage data Objectives: « Understand » the behavior of the Web site visitors Improve the Web site structure and its content Personalize Web pages for visitors Develop an « intelligent » Web cache application Techniques used in WUM: Clustering Association rules (A and B => C) Sequence mining (A  B  C) Markov chains Classification Decision trees Les objectives sont multiples … Clustering = classiffication non supervisee Markov chains = Chaines de Markov

5 Web Usage Mining A KDD process
A three-step Knowledge Discovery in Databases (KDD) process from Web Usage data Can use other types of data such as: Web site structure and user profiles Comme donnees d’entrée, apart les donnees d’usage, on peut aussi avoir: des informations sur la structure et le contenu du site Web et les profils utilisateurs.

6 Web Logs – Poor Quality Data
Fragment of a Web log file with 7 HTTP requests [10/Jan/2005:15:33: ] "GET /actu/actu_colloque_ actuel_fr.shtml HTTP/1.1" " "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" [10/Jan/2005:15:33: ] "GET /actu/actu_colloque_actuel_fr.shtml HTTP/1.1" " "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/presentation.shtml HTTP/1.0" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/people.shtml HTTP/1.0" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /axis/photos/sophia.jpg HTTP/1.0" " "Mozilla/4.74 [en] (WinNT; U)" [10/Jan/2005:15:34: ] "GET /coprin/PB60/ HTTP/1.1" " "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" lucy.ins.cwi.nl - - [10/Jan/2005:15:34: ] "GET /personnel/Brigitte.Trousse/bri-eng.html HTTP/1.0" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)" [10/Jan/2005:15:34: ] "GET /coprin/PB60/cocktail.html HTTP/1.1" " "Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0" /actu/actu_colloque_actuel_fr.shtml /axis/presentation.shtml /axis/people.shtml /coprin/PB60/ /personnel/Brigitte.Trousse/bri-eng.html IP, Inetd, login, … /coprin/PB60/cocktail.html Building two user sessions by considering the same (IP, User Agent) The user from with the user agent Mozilla/5.0 (Linux i686 fr) Gecko/ Firefox/1.0 /actu/actu_colloque_actuel_fr.shtml /coprin/PB60/ /coprin/PB60/cocktail.html The user from lucy.ins.cwi.nl with the user agent Mozilla/4.0 (compatible; MSIE 6.0; Windows XP) /axis/presentation.shtml /axis/people.shtml /personnel/Brigitte.Trousse/bri-eng.html

7 Format standard d’un fichier log
[ip] [rfc931] [login] [date] [url] [statut] [size] [referrer] [agent] ip adresse IP de l’ordinateur de l’utilisateur; cette adresse correspondant souvent à un serveur proxy (dans les entreprise et les universités) rfc931/login ID machine et utilisateur, disponibles si l’utilisateur se soit lui-même identifié date  date et heure précises de réception de la requête. URL adresse de la page visitée sur le site ( statut code retour qui indique si l’action s’est bien déroulée size  indique la taille du fichier retourné referrer  signale l’adresse de laquelle l’utilisateur a effectué sa requête, la page de provenance agent  le navigateur et le type de système d’exploitation de l’utilisateur

8 Web Logs – Large Quantity
Phenomenal growth of the World Wide Web in the last 15 years Internet users: 800+ million, [Netcraft05] Web sites: 60+ million, [Netcraft05] Web Pages: 8+ billion, [Google] x 500 in Hidden Web (databases, login) [Mardis01] Huge amount of Web Usage Data Yahoo.com, 2002, 100GB/h [Shahabi02] Amazon.com, 2004, 10TB/day [Weigend04] Growing interest for “E-Activities” (E-Commerce, E-Business, E-Learning, E-Government …) => Generate usage data [Berendt04] Reprendre la qualite … et en plus elles sont en tres grandes quantite Add a slide with all these references at the end.

9 Plan Introduction Le prétraitement des données
Quelques mots sur le Web Mining et Web Usage Mining Exemple d’un fichier log Web Le prétraitement des données Nettoyage des données Transformation des données Classification automatique Classification des navigations en fonction des requêtes Classification des navigations en fonction du site Description du projet

10 Le prétraitement des données
Nettoyage des données Supprimer des requêtes pour les ressources Web non-analysées Suppression des requêtes/navigations provenant des robots Web Transformation des données Fusionner les fichiers log ensemble Rendre anonymes les IP des utilisateurs Identifier les utilisateurs Identifier les navigations Identifier les épisodes

11 /axis/presentation.shtml
Terminology Web request – one line of the log file johndoe [10/Jan/2005:15:34: ] "GET /axis/presentation.shtml HTTP/1.0" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows XP)“ Syntactic Topic: axis, Semantic Topic: research team Page View – occurs when a Web Browser displays a Web page User – user login from the log file or IP address (when login N/A) User Session – all the requests having the same (User, Host, Agent) combination Visit – all the requests included in a user session and made during one connection, i.e. two consecutive requests have less than Δt (30) minutes between them /axis/presentation.shtml Il existe plusieurs terminologies au niveau du W3C et la communaute WUM qui ne sont pas compatible. J‘ai utiliser la terminologie suivante dans le cadre de ma these. Cette terminologie definie 4 notions qui nous serviront a structurer les logs par la suite et dans la literature WUM ou W3C ils manipulent que 3 et avec des noms diff. L‘utilisateur est represente par le login ou l‘adresse IP si le premier n‘est pas disponible. La session utilisateur represente l‘ensemble des requetes provenant d‘une meme combinaison utilisateur et user agent. Une visite est un ensemble de requetes consecutives apartenant a une session utilisateur, pour lesquelles la distance temporale entre deux requete est inferieure a un seuil Delta T en general de 30 min. Un episode est un sous-ensemble de requetes dans une visite, requetes qui portent sur une meme rubrique syntactique ou semantique. Dans la literature il y a plusieurs facons pour nommer les objets analyser dans le WUM, j‘ai utiliser la methodologie suivante dans le cadre de ma these. La terminologie que nous avons choisi d‘utiliser est la suivante…

12 Nettoyage des données (1/2) Suppression des requêtes pour les ressources Web non-analysées
Les ressources Web (RW) non-analysées, par exemple: Les fichiers images: “*.gif”, “*.jpg”, etc. Autres fichiers qui «composent» une page (fichiers de style, applets Java, etc.) Toutefois, il existe des images qu'on peut “cliquer” Utiliser la carte du site pour décider si on doit considérer ou non la RW

13 Nettoyage des données (2/2) Suppression des requêtes/navigations provenant des robots Web
Les requêtes des robots Web représentent du «bruit» On réduit la dimension du fichier log de 50% Trois méthodes pour détecter les robots Web (WR): Identifier les couples (IP, Agent) depuis lesquels il y a eu une requête pour “robots.txt” Utiliser une liste des agents connus comme WR pour identifier les couples (IP, Agent) dont l ’agent fait partie de la liste Utiliser un seuil pour la vitesse de navigation (BS - « Browsing Speed »), qui est égale : BS = Durée de la navigation (sec.) Nombre des pages visitées

14 Transformation des données (1/5) Fusionner les fichiers logs
Les fichiers logs (ordonnées par la date de la requête) sont mises ensemble Chaque requête est modifiée pour: synchroniser les temps des requêtes (si besoin) inclure le “ID” du serveur Web dans la requête (“ID” = nom du serveur Web)

15 Serveur Web de l’INRIA national
Transformation des données (2/5) Fusionner les fichiers logs Exemple pour l’INRIA www-sop.inria.fr Site Web d’INRIA Logs Web Logs Web Serveur Web de l’INRIA national Serveur Web de l ’INRIA Sophia Antipolis [16/Jan [16/Jan/20 [16/Jan/200 [16/Jan/2 [16/Jan/2 Fichier contenant toutes les requêtes

16 Transformation des données (3/5) Rendre anonymes les fichiers logs
Avant : [09/Jan/2002:00:01: ] "GET /mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" "-" "Mozilla/4.0 compatible ZyBorg/1.0 wks177.ist.ucf.edu [09/Jan/2002:00:01: ] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1 » … gentiane.inria.fr [09/Jan/2002:11:08: ] "GET /cafe/team-e.html HTTP/1.0" ... Après : [09/Jan/2002:00:01: ] "GET /mimosa/personnel/Davide.Sangiorgi/correctionsOBJ.txt HTTP/1.1" "-" "Mozilla/4.0 compatible ZyBorg/1.0 123.example.com.edu [09/Jan/2002:00:01: ] "GET /rodeo/personnel/hoschka/thesis.html HTTP/1.1" ... 456.example.com.11.projet.sophia.inria.fr [09/Jan/2002:11:08: ] "GET /cafe/team-e.html HTTP/1.0" ...

17 Transformation des données (4/5) Identification de l’utilisateur
Une tâche compliquée par : Les serveurs proxy Les adresses dynamiques Les cas d’utilisateurs utilisant le même ordinateur Les cas des utilisateurs qui utilisent plus d’un navigateur Web ou plus d’un ordinateur Solutions possibles: Les « cookies » Les pages Web dynamiques (avec un IDSession) Les utilisateurs enregistrés Un navigateur modifié L’utilisation de la carte du site + le référeur dans le prétraitement Nous avons utilisé le couple (IP, Agent)

18 Identification des navigations :
Transformation des données (5/5) Identification des navigations et épisodes Identification des navigations : Couper la session utilisateur si la distance entre 2 clics > 30 minutes (standard) Couper la session utilisateur si sa longueur dépasse 100 clics (un robot Web?) Un processus direct Identification des épisodes : Diviser la navigation en épisodes sémantiques On peut utiliser une carte du site Web amélioré qui contient une description sémantique des pages Web Un autre chantier en cours pour nous …

19 Plan Introduction Le prétraitement des données
Quelques mots sur le Web Mining et Web Usage Mining Exemple d’un fichier log Web Le prétraitement des données Nettoyage des données Transformation des données Classification automatique Classification des navigations en fonction des requêtes Classification des navigations en fonction du site Description du projet

20 Description du site par l’URL
c’est le siège de l’INRIA Rubrique1 : orion Rubrique2 : Telescope

21 Les comportements de navigation
Typologie des comportement réalisée par Canter, River et Storrs (1985) Wandering : correspond au comportement d’un utilisateur parcourant le site de manière aléatoire. Browsing : correspond au comportement d’un utilisateur recherchant une information l’intéressant. Scanning : correspond au comportement d’un utilisateur parcourant une large zone de manière approfondie. Exploring : correspond au comportement d’un utilisateur explorant un thème donné. Searching: correspond au comportement d’un utilisateur recherchant un information précise.

22 Analyse des fichiers log des sites INRIA siège et sophia
Base de Données dimension de la Base: requêtes entre le 1 janvier et le 15 janvier 2003. Sélection de 9324 Navigations ayant une durée supérieure de 60 sec. Élimination des erreurs dans le fichier : Code status entre 200 et 400 Sélection par la Rubrique 1 > 100  résultat: 125 thèmes consultés dans le fichier LOG (sur requêtes) Sélection par la Rubrique 2 > 100  résultat: 432 thèmes consultés dans le fichier LOG (sur requêtes)

23 Sélection des Navigations longues
Dans les 9763 Navigations Sélection des navigations respectant les critères suivants : durée/nombre de requêtes > 4 sec ET nombre de pages consultées > 10 Résultat : Table de Requêtes et de 9700 Navigations

24 Structuration des informations

25 Structuration des informations

26

27 Paramètres décrivant les navigations
Säuberlich & Huber (2001) utilisent pour cette analyse: Cookie-ID / Session-ID Referrer Navigateur (+ version) Plateforme Heure Jour (de la semaine) Week-end No clicks Durée Durée moyenne par click Variables de navigation (binaires)

28 Paramètres décrivant les navigations issus du fichier log
IDNavigation identificateur d’une navigation NBRequest_OK nombre de requêtes correctes PRequest_SEL pourcentage de requêtes correctes NBrequest nombre de requêtes essayées DureeTotale d’une navigation Repetition nombre de requêtes répétées User_Agent identificateur d’un navigateur User_System identificateur du système d’exploitation MDurée_OK moyenne de la durée d’une navigation MSize_OK moyenne de la taille des pages lues Date date de la navigation Zone période de la navigation dans la journée Pays identificateur du Pays

29 Paramètres décrivant les navigations issus des informations URL des sites
NB_www nombre de requêtes sur www NB_www-sop nombre de requêtes sur www-sop Pwww pourcentage de requêtes sur www - calculée sur lNBRequest Pwww-sop pourcentage de requêtes sur www - calculée sur lNBRequest Site www-inria.fr ou www-sop.inria.fr Rubrique rubriques de www Rubrique rubriques de www-sop Rubrique-sem1 44 rubriques « semantiques » de www Rubrique-sem2 69 rubriques « semantiques » de www-sop

30 Analyse en Composante principale
Variables actives PRequest_SEL pourcentage de requêtes correctes NBrequest nombre de requêtes essayées Repetition taux de répétition DureeTotale durée totale d’une navigation MDurée_OK moyenne de la durée d’une navigation MSize_OK moyenne de la taille des pages lues

31 Résultats de l’ACP MATRICE DES CORRELATIONS
| PReq NBre Dure Repe MDur MSiz PReq | NBre | Dure | Repe | MDur | MSiz | HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | | | | | | ******************************************************************************** | | | | | | *********************************************************** | | | | | | **************************************************** | | | | | | *********************************************** | | | | | | ******************************************* | | | | | | ********************* |

32 Cercle des corrélations Facteurs 1 et 2 -- %I=46%
Variables actives Variables illustratives

33 Classification des navigations sur les facteurs 1 et 2
2/7 1/7 4/7 5/7

34 Variables nominales illustratives

35 Interprétation de la classe (1/7)
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 1 / ( EFFECTIF = 5956 ) | | | | | | 5.PRequest_SEL | | | | | 3.Pwww | | | | | | | | | | 8.NBrequest | | | | | 2.www-sop | | | | | 6.NBRequest_OK | | | | | 9.DureeTotale | | | | | 13.MDurée_OK | | | | | 10.Repetition V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 1 / 7 Unix/Linux User_System Netscape Navigator User_Agent

36 Interprétation de la classe (2/7)
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 2 / ( EFFECTIF = 1168 ) | | | | | 13.MDurée_OK | | | | | 9.DureeTotale V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 2 / 7 Pays Netscape Navigator User_Agent Matin Zone

37 Interprétation de la classe (4/7)
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 4 / EFFECTIF = 2032 ) | | | | | 10.Repetition | | | | | 2.www-sop | | | | | 5.PRequest_SEL | | | | | 4.Pww-sop | | | | | 8.NBrequest | | | | | | | | | | 13.MDurée_OK V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES CLASSE 4 / 7 MS Internet Explorer User_Agent Windows User_System fr Pays

38 Interprétation de la classe (5/7)
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 5 / ( EFFECTIF = 474 ) | | | | | | 10.Repetition | | | | | | | | | | 3.Pwww | | | | | 5.PRequest_SEL V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES 4.89 CLASSE 5 / 7 Unknown Platform User_System Other Agent User_Agent Nuit Zone net Pays

39 Interprétation de la classe (6/7)
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | | | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE | CLASSE 6 / ( EFFECTIF = 17 ) | | | | | 8.NBrequest | | | | | 1.www | | | | | 9.DureeTotale | | | | | 10.Repetition | | | | | 5.PRequest_SEL V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES 0.18 CLASSE 6 / 7 Unknown Platform User_System Other Agent User_Agent Nuit Zone Jan Date net Pays

40 < soit 3969 navigations sur les 9700>
Structure du Site requêtes du site www correspondant à 44 Rubriques requêtes du site www-sop correspondant aux 69 Rubriques Nous considérons seulement les navigations des sites du siège et de sophia < soit navigations sur les 9700>

41 Rubriques sur les deux sites

42 Analyse Factorielle des correspondances Multiples

43 Classifications en 11 classes
4 1 7 10

44 Interprétation de la classe 1/11
| V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE | | | | | | | | | Sop projets | | | www projets | | | Sop sophia Navigations visitant les projets de recherche

45 Interprétation de la classe 4/11
| V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE | | | | | | | | | Sop semir | | | Sop interne-sophia | | | Sop modeles | | | www modeles Navigations visitant l’intranet

46 Interprétation de la classe 7/11
| V.TEST PROBA | POURCENTAGES | FREQUENCES CARACTERISTIQUES | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE | | | | | | www actualites-siege | | | www valorisation | | | www publications | | | www recherche | | | www presse | | | www intro-inria | | | www multimedia Navigations visitant les activités du siège de l’INRIA

47 Interprétation de la classe 10/11
| V.TEST PROBA | POURCENTAGES | FREQUENCES | | CLA/FRE FRE/CLA GLOBAL | NUM . LIBELLE | | | | | | | | | www ra | | | www rrrt | | | www rapports | | | Sop rapports Navigations visitant les rapports d’activités des projets

48 Plan Introduction Le prétraitement des données
Quelques mots sur le Web Mining et Web Usage Mining Exemple d’un fichier log Web Le prétraitement des données Nettoyage des données Transformation des données Classification automatique Classification des navigations en fonction des requêtes Classification des navigations en fonction du site Description du projet

49 Description du projet

50 Les données log du mois d’octobre 2005 pour le site Web d’INRIA Sophia Antipolis
Données initiales (avant prétraitement) : 1 328 MO lignes (requêtes) Données finales (après prétraitement) 183 MO requêtes sessions = couples (IP, User Agent) = utilisateur navigations (visites uniques avec des intervalles < 30 minutes entre 2 requêtes) URLs différents dont html externes


Télécharger ppt "Analyse des fichiers logs Web ~ Projet LP STID ~"

Présentations similaires


Annonces Google