La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse.

Présentations similaires


Présentation au sujet: "Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse."— Transcription de la présentation:

1 Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse

2 1 Diverses problématiques Diverses problématiques n Ressources différentes n Environnements divers n Objectifs multiples n Un point en commun

3 2 Pas de recette miracle n S aider de méthodes éprouvées

4 3 Lintention de cet exposé n Réduire les efforts et mesurer le succès en saidant des fichiers journaux (logs) n Faciliter l analyse n Faciliter l analyse

5 4 Structure de la présentation n Les fichiers journaux (logs) n Les statistiques n L'analyse

6 5 L'enregistrement de l'activité n Le serveur enregistre le tout sur un fichier (habituellement un.txt ou un.log)

7 6 Un fichier journal (log) n 206.135.203.174 - - [19/Jul/1999:00:00:04 - 0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)"

8 7 206.135.203.174 - - [19/Jul/1999:00:00:04 -0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" n Le nom dhôte du serveur distant ou son DNS n Le rfc931 (ou User Logname), soit le nom dutilisateur du visiteur (remplacé par un – si non disponible) n Le nom dutilisateur (ou Authenticated User) que linternaute sest donné lui-même (remplacé par un – si non disponible) n La date et le moment exact de la visite n La différence en rapport avec lheure de Greenwich (GMT) n Laction exécutée (i.e Get ou Send) n Le URI Stern (Universal Ressources Identifier) soit ici lobjet associé à laction n Les paramètres utilisés par lobjet ou le URI Query n Les paramètres utilisés par lobjet ou le URI Query

9 8 206.135.203.174 - - [19/Jul/1999:00:00:04 -0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" n La réponse du serveur (Status Code ou Return Code) n La quantité de données transférées au serveur distant pour accomplir lopération (en bytes) n Le référenceur ou le référant (Referrer) n La version du protocole HTML utilisée n Le fureteur utilisé n Le système dexploitation, la plate-forme

10 9 De gros fichiers n Le fichier produit par lenregistrement des données dune semaine pour le site csst.qc.ca fait 75 megs environ n Des besoins en espace disque sur le serveur peuvent se faire sentir n Cela peut occasionner des frais n Sortir, faire circuler les données plutôt que de laisser les fichiers sur le serveur n Selon la configuration du serveur, les fichiers peuvent être effacés n Il ne faut pas prendre de risque, il est primordial de ne jamais perdre ces données

11 10 Automatisation des opérations n Envoyer automatiquement par le serveur un courriel avec le fichier et selon un calendrier n Une personne reçoit linformation et transfert ensuite les données vers un lieu de stockage permanent n On configure ensuite le serveur pour quil purge les fichiers sur son disque après un certain temps

12 11 La logistique entourant les fichiers journaux n Tout manquement, altération, perte peut avoir des conséquences importantes sur le reste des opérations n Comme dhabitude, le mois perdu est toujours le plus important

13 12 Considérer les caractéristiques du ou des systèmes n Ils ne sont pas tous configurés de la même façon n Connaître lemplacement des fichiers journaux n Contrôler la qualité pour une approche plus précise et solide

14 13 Tirer le maximum des fichiers journaux n Obtenir des moyennes, des tableaux, des graphiques n Comparer les variables n Étendre la comparaison sur une période de temps n L outil statistique: une nécessité n Déterminer la fréquence de saisie

15 14 Retenir que n Le fichier journal est pratiquement la seule façon de voir ce qui se passe sur le site n Permet de faire l archivage et l historique du site n Permet de retracer un individu indésirable n Permet de comprendre un mauvais fonctionnement n Permet de planifier des développements n Permet de déterminer les activités et certaines caractéristiques des usagers

16 15 Définir le parcours des données provenant du logs n Les données sont filtrées n La réception des données par les intervenants n Le traitement des données

17 16 Description des statistiques n Prudence avec les hits

18 17 Pages populaires n Peut-être le thème le plus intéressant n Nombre de hits quune page reçoit n Habituellement la page daccueil se trouve en haut de la liste

19 18 Pages (suite) n Définir page Web (HTML, HTM, XML, PHP etc.) n Quoi faire avec les autres objets n Se faire une idée générale

20 19 Pages (suite) n Ne pas sauter aux conclusions trop rapidement : –Plusieurs liens vers la page ou liens importants –Qualité de l'indexation –Regarder attentivement les raisons expliquant la popularité dune page avant de passer aux interprétations n Deux utilisations évidentes possibles

21 20 Pages (suite) : n La page la moins populaire n Page dentrée n Page de sortie n Page à accès unique

22 21 Code de réponse n Un message d'erreur est toujours grave –Chaque fois qu un visiteur se trouve devant un message derreur, il ne trouve pas ce quil veut ou il quitte le site. –Pour certains, cela signifie de largent en moins, pour dautres des clients insatisfaits. –Connaître les erreurs ou les codes de réponse est facile avec un outil statistique.

23 22 Pays les plus actifs n Selon les besoins, cette information peut-être très utile –Pour connaître la visibilité internationale –Pour voir sil y a lieu dindexer son site dans les moteurs de recherche nationaux ou régionaux

24 23 Serveur ou hôte dorigine n Numéro IP ou DNS n Fournisseurs Internet n L'usager principal est-il humain ? n Systématisation de l'analyse de ces statistiques.

25 24 Fureteur et système dexploitation n Le niveau techno des utilisateurs n Deux implications importantes –Vieux fureteurs –Dernières versions

26 25 Référenceurs n Doù les utilisateurs viennent n Les deux premières sources de trafic –Moteurs de recherche –Liens existant sur dautres sites

27 26 Mots de la recherche n Quels mots les gens utilisent pour nous trouver n Utilisons-nous bien ces mots ?

28 27 Visites n Une visite par entrée sur le site n Durée X avant de compter une autre visite pour le même IP n Problèmes liés à cette statistique

29 28 Sessions n Les activités de lutilisateur durant une seule visite n La durée et le parcours de lutilisateur n La démonstration des qualités ou des défauts de la structure du site n Il ne sagit pas de cookies

30 29 D'autres statistiques n Reconnaissance des robots n Erreurs du fureteur n Analyse du proxy n Analyse du Firewall

31 30 Les variations dans les statistiques n La mise en commun de statistiques peut en créer de nouvelles n Pages accédées par kilo octets n Accès simultané maximum n Moyennes par jour, par mois, par heure, etc.

32 31 Choisir un outil statistique n Les utilisateurs n Les facteurs déterminants n Quelques exemples d'outils

33 32 Marketing (utilisateurs) n Utilisation générale du site n Vendre le site n Qui vient sur le site n Sections ou pages populaires

34 33 Architecte (utilisateurs) n Pour déterminer les opérations faites par lutilisateur sur le site et la fréquence de ces opérations

35 34 Designer (utilisateurs) n L utilisation spécifique du site –Circulation sur le site –Organisation de linformation –Présentation de linformation

36 35 Développeur (utilisateurs) n Performance du système –Les moyennes et les capacités du système

37 36 Ingénieur (utilisateurs) n Messages derreurs et avertissements

38 37 Facteurs déterminants pour le choix d'un outil –Environnement de travail –Capacité de manipuler de gros fichiers –Personnalisation –Temps pour produire un rapport –Accessibilité –Automatisation –Alarmes –Format –Facilité dusage

39 38 Les outils statistiques Les outils statistiques n Approches n HitBox Pro n Site Server 3 n WebTrends

40 39 HitBox Pro de WebSideStory n Plus que le simple outil statistique de base n Il faut payer pour avoir la version complète n Quelques codes et HitBox soccupe du reste n Avantages du modèle "service" n Statistiques, tableaux et aide n Peu de contrôle sur les configurations n Particularités n Une bonne alternative

41 40 Site Server 3 de Microsoft n Le haut du pavé n Innombrables fonctions n Statistiques complètes n Configuration difficile et gestion complexe au départ n Des DNS lookups de première classe n Et plus au sujet des DNS n Pas de rapport intelligent sur les erreurs n Excellent produit…

42 41 WebTrends Log Analyzer –Outil le plus connu –Puissance brute, contrôle et présentation –Interface simple et configurable –Différents formats –Aide complète –Outil par excellence

43 42 Spécificité de lanalyse statistique informatisée n Codification automatique n Calculs mathématiques automatiques n Lanalyse peut débuter plus rapidement…

44 43 Le contexte n Compétences de léquipe n Faisabilité de lanalyse n Modes n Besoins de lorganisation et de la clientèle n Intérêt de lorganisation n Familiarité avec le domaine de recherche

45 44 La problématique n En quoi la résolution de la problématique du site sera utile ? n Quelles lacunes faut-il combler et pourquoi ? n À quel besoin cela répond ? n Définir une problématique

46 45 Formuler des questions ou des hypothèses –Faire des liens entre des variables vérifiables et mesurables –Formuler des hypothèses ou des questions –Par extension, prévoir la relation entre des faits et des événements –À faire dès le début

47 46 Aperçu de lanalyse statistique de données quantitatives n La tendance centrale n L'étendue et l'écart type n La courbe de distribution n Les corrélations

48 47 La tendance centrale n Déterminer ce qui est typique dans la clientèle n Établir une médiane n Connaître le mode n Indices sur la tendance centrale de lactivité

49 48 Létendue et lécart type n A quel point les individus formant la clientèle du site diffèrent les uns des autres par rapport à une caractéristique donnée n Exemple portant sur la longueur des sessions

50 49 Courbe de distribution n En fonction de la variable mesurée on peut vouloir connaître le mode de distribution des individus

51 50 Corrélations n Relations entre les variables n On cherche à faire des corrélations entre des groupes ou entre des statistiques

52 51 Linterprétation et la discussion des résultats n Le sens général des observations n Fonctions principales

53 52 Vérification des hypothèses n Relations causales n Énoncer des probabilités n Prouver les résultats n Confirmer ou infirmer les hypothèses

54 53 Concepts explicatifs n Susciter un nouveau concept n En particulier, si certains résultats nétaient pas prévus au départ

55 54 Comment faire mentir les statistiques… n Interprétations de données incomplètes qui mènent à des comparaisons douteuses n Les inférences qui constituent des conjectures plutôt que des interprétations objectives n Interprétations diverses à partir des mêmes données n Problème déchantillonnage n Représentations graphiques trompeuses

56 55 Lutilisation des résultats pour faire de son site un hit… n Discussion des résultats n Actions n Responsabilités

57 56 Discussion des résultats n Dernière étape de lanalyse n Retour critique sur les étapes n Discussion des implications de la recherche

58 57 Passer à laction n Lanalyse: un aide à la décision. n On ne peut se permettre dignorer les effets de la recherche n La prise de conscience des problèmes dans le but éventuel dapporter des modifications à son site n Discuter de la façon dapporter les correctifs nécessaires

59 58 Assumer les responsabilités inhérentes n Rapport étroit entre lobservateur et le sujet observé n Faire preuve déthique dans la manipulation des données et des statistiques n Difficultés éthiques : il faut protéger la clientèle qui vient sur le site, tout en faisant avancer les connaissances actuelles

60 59 Conclusion : à la recherche de performance Conclusion : à la recherche de performance n Des causes de la performance n De multiples facteurs n Une compréhension cohérente n Des conditions favorables multiples n Y nest pas toujours la cause de X n Des partenariats mutuellement bénéfiques

61 60 Références n MASSÉ, P. Méthodes de collecte et d analyse en communication, Québec, Presses de l Université du Québec, 1992, 253 p. n MASSÉ, P. Systèmes d information, de communication et performance organisationnelle, Québec, Presses de l Université du Québec, 1994, 276 p. n Log Capture and Analysis, http://www.microsfot.com/technet/ecommerce/logcanda.asp n An introduction to Web site traffic analysis from your swerver log file, http://virtualpromote.com/trafficreports.html n Log-Analysis Tools: Site Server Is on the Right Track, http://www.networkcomputing.com/917/917r12.html n WebTrends Log Analyzer 5.0 Full Review, http://www.zdnet.com/pcmag/stories/pipreviews/0,9836,141363,00.html n WebSideStory HibBox Pro Overview, http://www.zdnet.com/pcmag/stories/overview/0,9835,251594,00.html n University of Cambridge Statistical Laboratory, http://statslab.cam.ac.uk/ n Log Analysis Tools, http://dir.yahoo.com/Business_and_Economy/Business_to_Business/Computers/Software/In ternet/World_Wide_Web/Log_Analysis_Tools/


Télécharger ppt "Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse."

Présentations similaires


Annonces Google