Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
M1 MASTER GESTION Séance 3 Pilotage coûts- délais
1. ami 2. compagnon 3. amant 4. frère 5. père 6. maître 7. éducateur 8
1 Contexte de la formation en région Formation des formateurs février 2010 Université de Montréal Montréal,QC Gaëtan Drolet Section de l'IDD Statistique.
Les numéros
Les identités remarquables
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
COTE DIVOIRE IMAGES DES ATROCITES COMMISES PAR ALASSANE DRAMANE OUATARA, SORO GUILAUMES ET LEURS HOMMES 1.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Synchronisation et communication entre processus
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Traitements &Suppléments
Facteurs d’utilisation et d’adoption des systèmes électroniques de prise de rendez-vous dans l’industrie des services Présenté par : Loubna Khalif Directeur.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Configuration de Windows Server 2008 Active Directory
1 CLUB DES UTILISATEURS SAS DE QUÉBEC COMMENT TRANSFORMER UN PROGRAMME SAS EN TÂCHE PLANIFIÉE SOUS WINDOWS Présentation de Jacques Pagé STRiCT Technologies.
Tableaux de distributions
Tableaux de distributions
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)
LES NOMBRES PREMIERS ET COMPOSÉS
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
La Distribution des Données
1 Étude de marché sur Internet Les sondages sur le Net Come2001 Décembre 2006.
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Exercice de vérification 1 p
Annexe Résultats provinciaux comparés à la moyenne canadienne
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Transcription de la présentation:

Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse

1 Diverses problématiques Diverses problématiques n Ressources différentes n Environnements divers n Objectifs multiples n Un point en commun

2 Pas de recette miracle n S aider de méthodes éprouvées

3 Lintention de cet exposé n Réduire les efforts et mesurer le succès en saidant des fichiers journaux (logs) n Faciliter l analyse n Faciliter l analyse

4 Structure de la présentation n Les fichiers journaux (logs) n Les statistiques n L'analyse

5 L'enregistrement de l'activité n Le serveur enregistre le tout sur un fichier (habituellement un.txt ou un.log)

6 Un fichier journal (log) n [19/Jul/1999:00:00: ] "GET /studio/drives.html HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)"

[19/Jul/1999:00:00: ] "GET /studio/drives.html HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" n Le nom dhôte du serveur distant ou son DNS n Le rfc931 (ou User Logname), soit le nom dutilisateur du visiteur (remplacé par un – si non disponible) n Le nom dutilisateur (ou Authenticated User) que linternaute sest donné lui-même (remplacé par un – si non disponible) n La date et le moment exact de la visite n La différence en rapport avec lheure de Greenwich (GMT) n Laction exécutée (i.e Get ou Send) n Le URI Stern (Universal Ressources Identifier) soit ici lobjet associé à laction n Les paramètres utilisés par lobjet ou le URI Query n Les paramètres utilisés par lobjet ou le URI Query

[19/Jul/1999:00:00: ] "GET /studio/drives.html HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" n La réponse du serveur (Status Code ou Return Code) n La quantité de données transférées au serveur distant pour accomplir lopération (en bytes) n Le référenceur ou le référant (Referrer) n La version du protocole HTML utilisée n Le fureteur utilisé n Le système dexploitation, la plate-forme

9 De gros fichiers n Le fichier produit par lenregistrement des données dune semaine pour le site csst.qc.ca fait 75 megs environ n Des besoins en espace disque sur le serveur peuvent se faire sentir n Cela peut occasionner des frais n Sortir, faire circuler les données plutôt que de laisser les fichiers sur le serveur n Selon la configuration du serveur, les fichiers peuvent être effacés n Il ne faut pas prendre de risque, il est primordial de ne jamais perdre ces données

10 Automatisation des opérations n Envoyer automatiquement par le serveur un courriel avec le fichier et selon un calendrier n Une personne reçoit linformation et transfert ensuite les données vers un lieu de stockage permanent n On configure ensuite le serveur pour quil purge les fichiers sur son disque après un certain temps

11 La logistique entourant les fichiers journaux n Tout manquement, altération, perte peut avoir des conséquences importantes sur le reste des opérations n Comme dhabitude, le mois perdu est toujours le plus important

12 Considérer les caractéristiques du ou des systèmes n Ils ne sont pas tous configurés de la même façon n Connaître lemplacement des fichiers journaux n Contrôler la qualité pour une approche plus précise et solide

13 Tirer le maximum des fichiers journaux n Obtenir des moyennes, des tableaux, des graphiques n Comparer les variables n Étendre la comparaison sur une période de temps n L outil statistique: une nécessité n Déterminer la fréquence de saisie

14 Retenir que n Le fichier journal est pratiquement la seule façon de voir ce qui se passe sur le site n Permet de faire l archivage et l historique du site n Permet de retracer un individu indésirable n Permet de comprendre un mauvais fonctionnement n Permet de planifier des développements n Permet de déterminer les activités et certaines caractéristiques des usagers

15 Définir le parcours des données provenant du logs n Les données sont filtrées n La réception des données par les intervenants n Le traitement des données

16 Description des statistiques n Prudence avec les hits

17 Pages populaires n Peut-être le thème le plus intéressant n Nombre de hits quune page reçoit n Habituellement la page daccueil se trouve en haut de la liste

18 Pages (suite) n Définir page Web (HTML, HTM, XML, PHP etc.) n Quoi faire avec les autres objets n Se faire une idée générale

19 Pages (suite) n Ne pas sauter aux conclusions trop rapidement : –Plusieurs liens vers la page ou liens importants –Qualité de l'indexation –Regarder attentivement les raisons expliquant la popularité dune page avant de passer aux interprétations n Deux utilisations évidentes possibles

20 Pages (suite) : n La page la moins populaire n Page dentrée n Page de sortie n Page à accès unique

21 Code de réponse n Un message d'erreur est toujours grave –Chaque fois qu un visiteur se trouve devant un message derreur, il ne trouve pas ce quil veut ou il quitte le site. –Pour certains, cela signifie de largent en moins, pour dautres des clients insatisfaits. –Connaître les erreurs ou les codes de réponse est facile avec un outil statistique.

22 Pays les plus actifs n Selon les besoins, cette information peut-être très utile –Pour connaître la visibilité internationale –Pour voir sil y a lieu dindexer son site dans les moteurs de recherche nationaux ou régionaux

23 Serveur ou hôte dorigine n Numéro IP ou DNS n Fournisseurs Internet n L'usager principal est-il humain ? n Systématisation de l'analyse de ces statistiques.

24 Fureteur et système dexploitation n Le niveau techno des utilisateurs n Deux implications importantes –Vieux fureteurs –Dernières versions

25 Référenceurs n Doù les utilisateurs viennent n Les deux premières sources de trafic –Moteurs de recherche –Liens existant sur dautres sites

26 Mots de la recherche n Quels mots les gens utilisent pour nous trouver n Utilisons-nous bien ces mots ?

27 Visites n Une visite par entrée sur le site n Durée X avant de compter une autre visite pour le même IP n Problèmes liés à cette statistique

28 Sessions n Les activités de lutilisateur durant une seule visite n La durée et le parcours de lutilisateur n La démonstration des qualités ou des défauts de la structure du site n Il ne sagit pas de cookies

29 D'autres statistiques n Reconnaissance des robots n Erreurs du fureteur n Analyse du proxy n Analyse du Firewall

30 Les variations dans les statistiques n La mise en commun de statistiques peut en créer de nouvelles n Pages accédées par kilo octets n Accès simultané maximum n Moyennes par jour, par mois, par heure, etc.

31 Choisir un outil statistique n Les utilisateurs n Les facteurs déterminants n Quelques exemples d'outils

32 Marketing (utilisateurs) n Utilisation générale du site n Vendre le site n Qui vient sur le site n Sections ou pages populaires

33 Architecte (utilisateurs) n Pour déterminer les opérations faites par lutilisateur sur le site et la fréquence de ces opérations

34 Designer (utilisateurs) n L utilisation spécifique du site –Circulation sur le site –Organisation de linformation –Présentation de linformation

35 Développeur (utilisateurs) n Performance du système –Les moyennes et les capacités du système

36 Ingénieur (utilisateurs) n Messages derreurs et avertissements

37 Facteurs déterminants pour le choix d'un outil –Environnement de travail –Capacité de manipuler de gros fichiers –Personnalisation –Temps pour produire un rapport –Accessibilité –Automatisation –Alarmes –Format –Facilité dusage

38 Les outils statistiques Les outils statistiques n Approches n HitBox Pro n Site Server 3 n WebTrends

39 HitBox Pro de WebSideStory n Plus que le simple outil statistique de base n Il faut payer pour avoir la version complète n Quelques codes et HitBox soccupe du reste n Avantages du modèle "service" n Statistiques, tableaux et aide n Peu de contrôle sur les configurations n Particularités n Une bonne alternative

40 Site Server 3 de Microsoft n Le haut du pavé n Innombrables fonctions n Statistiques complètes n Configuration difficile et gestion complexe au départ n Des DNS lookups de première classe n Et plus au sujet des DNS n Pas de rapport intelligent sur les erreurs n Excellent produit…

41 WebTrends Log Analyzer –Outil le plus connu –Puissance brute, contrôle et présentation –Interface simple et configurable –Différents formats –Aide complète –Outil par excellence

42 Spécificité de lanalyse statistique informatisée n Codification automatique n Calculs mathématiques automatiques n Lanalyse peut débuter plus rapidement…

43 Le contexte n Compétences de léquipe n Faisabilité de lanalyse n Modes n Besoins de lorganisation et de la clientèle n Intérêt de lorganisation n Familiarité avec le domaine de recherche

44 La problématique n En quoi la résolution de la problématique du site sera utile ? n Quelles lacunes faut-il combler et pourquoi ? n À quel besoin cela répond ? n Définir une problématique

45 Formuler des questions ou des hypothèses –Faire des liens entre des variables vérifiables et mesurables –Formuler des hypothèses ou des questions –Par extension, prévoir la relation entre des faits et des événements –À faire dès le début

46 Aperçu de lanalyse statistique de données quantitatives n La tendance centrale n L'étendue et l'écart type n La courbe de distribution n Les corrélations

47 La tendance centrale n Déterminer ce qui est typique dans la clientèle n Établir une médiane n Connaître le mode n Indices sur la tendance centrale de lactivité

48 Létendue et lécart type n A quel point les individus formant la clientèle du site diffèrent les uns des autres par rapport à une caractéristique donnée n Exemple portant sur la longueur des sessions

49 Courbe de distribution n En fonction de la variable mesurée on peut vouloir connaître le mode de distribution des individus

50 Corrélations n Relations entre les variables n On cherche à faire des corrélations entre des groupes ou entre des statistiques

51 Linterprétation et la discussion des résultats n Le sens général des observations n Fonctions principales

52 Vérification des hypothèses n Relations causales n Énoncer des probabilités n Prouver les résultats n Confirmer ou infirmer les hypothèses

53 Concepts explicatifs n Susciter un nouveau concept n En particulier, si certains résultats nétaient pas prévus au départ

54 Comment faire mentir les statistiques… n Interprétations de données incomplètes qui mènent à des comparaisons douteuses n Les inférences qui constituent des conjectures plutôt que des interprétations objectives n Interprétations diverses à partir des mêmes données n Problème déchantillonnage n Représentations graphiques trompeuses

55 Lutilisation des résultats pour faire de son site un hit… n Discussion des résultats n Actions n Responsabilités

56 Discussion des résultats n Dernière étape de lanalyse n Retour critique sur les étapes n Discussion des implications de la recherche

57 Passer à laction n Lanalyse: un aide à la décision. n On ne peut se permettre dignorer les effets de la recherche n La prise de conscience des problèmes dans le but éventuel dapporter des modifications à son site n Discuter de la façon dapporter les correctifs nécessaires

58 Assumer les responsabilités inhérentes n Rapport étroit entre lobservateur et le sujet observé n Faire preuve déthique dans la manipulation des données et des statistiques n Difficultés éthiques : il faut protéger la clientèle qui vient sur le site, tout en faisant avancer les connaissances actuelles

59 Conclusion : à la recherche de performance Conclusion : à la recherche de performance n Des causes de la performance n De multiples facteurs n Une compréhension cohérente n Des conditions favorables multiples n Y nest pas toujours la cause de X n Des partenariats mutuellement bénéfiques

60 Références n MASSÉ, P. Méthodes de collecte et d analyse en communication, Québec, Presses de l Université du Québec, 1992, 253 p. n MASSÉ, P. Systèmes d information, de communication et performance organisationnelle, Québec, Presses de l Université du Québec, 1994, 276 p. n Log Capture and Analysis, n An introduction to Web site traffic analysis from your swerver log file, n Log-Analysis Tools: Site Server Is on the Right Track, n WebTrends Log Analyzer 5.0 Full Review, n WebSideStory HibBox Pro Overview, n University of Cambridge Statistical Laboratory, n Log Analysis Tools, ternet/World_Wide_Web/Log_Analysis_Tools/