Nadine Mandran Formation doctorants Janvier-Mars 2011.

Slides:



Advertisements
Présentations similaires
Base de sondage et Plan de sondage Pres. 5
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Organisation et gestion de données, fonctions
DE LA COMPREHENSION A LA MESURE (1) : LAPPROCHE QUANTITATIVE ET LES TECHNIQUES DENQUETE.
La régression logistique: fondements et conditions d’application
Collecte de données F. Kohler.
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
DEME - La méthode d’enquête – introduction
1. Les caractéristiques de dispersion. 11. Utilité.
Les tests d’hypothèses
Remy JOST IG mathématiques
Statistique et probabilités au collège
1 Statistiques Séance 5 – 9 Nov Résumé séance précédente Lécart-type σ ou s. Comment le calculer? Les propriétés numériques de la courbe normale.
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Nadine Mandran Formation doctorants Janvier-Mars 2011.
Thème 6 : l'échantillonnage et l'enquête
Exercice de statistiques
Régression linéaire simple
Tableaux de distributions
Tableaux de distributions
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Bienvenue au cours Mat 350 Probabilités et statistiques
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Les mesures de la tendance centrale
La méthode sociologique
Les intervalles de confiance pour la moyenne d’une population
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes statistiques
Régression linéaire multiple : hypothèses & interprétation
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Probabilités et Statistiques
Méthodologie expérimentale : l’analyse des données
Initiation à la Méthodologie de Recherche
UN OUTIL UTILISE EN SOCIOLOGIE : L’ENQUÊTE
Introduction à l’analyse statistique
Méthodes et outils pour la démarche expérimentale Séance 1
Épidémiologie Notions élémentaires Réalisation pratique d’un enquête
Master 1 – Sciences du Langage –
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Méthodes et outils pour la démarche expérimentale Séance 3
N. Yamaguchi1 Statistiques Séance 6 – 16 Nov 2005.
STATISTIQUES DESCRIPTIVES
JEAN-MARC FONTAN SOC-1101 COURS 3
Les Techniques d’enquête quantitative
Introduction à une analyse statistique de données
STATISTIQUES DESCRIPTIVES
JEAN-MARC FONTAN SOC-1101 COURS 4
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Transcription de la présentation:

Nadine Mandran Formation doctorants Janvier-Mars 2011

 Quand utiliser du quantitatif ?  La notion d’échantillon  Les données recueillies  Les types de variables  Le plan expérimental  Les représentations graphiques  Les statistiques descriptives

 Quand ? ◦ Les questionnements et les thèmes à aborder sont connus. ◦ Pour mesurer des actions faites sur une interface  Pourquoi ? Quantifier les comportements, les attentes ou les besoins au sein d’une population  Comment ? ◦ Une enquête par sondage ◦ Un questionnaire fermé lors d’une expé ◦ Capture des traces lors de l’utilisation d’un logiciel -Capture de mouvements (gestuels, visuels, émotionnels, physiologique…. )

 Ca dépend …. ◦ Sociologie qualitatif : 20 et + ◦ Sociologie quantitatif : ◦ Economie : recensement ou aléatoire ◦ Biologie : 10 et + par facteurs ◦ Psychologie : 30 et + ◦ Sciences cognitives : 6 et +  Et aussi ◦ De l’individu statistique ou unité statistique ? ◦ Quelle est la mesure ? ◦ Que veut on étudier ?

 Une notion mal connue et galvaudée ◦ En analyse qualitative :  un maximum de variabilité de manière à recueillir un maximum d’avis et d’idées différentes.  On ne parle pas de représentativité. ◦ En analyse quantitative :  Méthode des quotas : Proportionnalité  Méthode aléatoire : à partir d’une base de sondage, population connue au départ, permet de connaître les probabilités d’inclusions.  Recensement ≈ Exhaustivité  Pas de représentativité mais un recrutement des sujets précis

 Une étape essentielle pour des résultats de qualité  Une étape difficile et couteuse en temps, gestion d’un planning  Le sujet de l’étude va fournir les différents profils à interroger : Les personnes concernées – grand public – expert – les personnes dans la rue -

Source :

Individu statistique ou unité statistique ◦ « La population statistique est l’ensemble sur lequel des méthodes et techniques de présentation, de description et d’inférence statistique sont appliquées. Il ne s’agit donc pas forcément d’une population au sens biologique du terme ». (J.Vaillant 2005) ◦ « Population et individus : La population est l’ensemble des individus (ou unités statistiques) auxquels on décide de s’intéresser. Sa taille, habituellement désignée par N, est grande, ou même infinie. Le choix de la population étudiée dépend du problème qui est à l’origine de la démarche statistique, et de la façon dont on décide de le traiter. » (Vocabulaire de la statistique descriptive) ◦ Exemples ◦ l’action faite par un utilisateur :  3 utilisateurs et 600 actions : 1800 individus statistiques ◦ Le diagnostic établi par un enseignant pour un élève  10 diagnostics * 4 enseignants * 20 élèves : 800 individus statistiques La démarche quantitative Combien de sujets ?

 Une question de bon sens et d’indicateur ◦ Pourcentages : difficile de le faire sur moins de 100 personnes sans créer de l’information ◦ Moyenne : un certain nombre de personnes, Utiliser les autres indicateurs statistiques pour contrôler la mesure.  Ecart type : racine du carré des écarts à la moyenne/N  Coefficient de variation : rapport de l’écart type /moyenne  Médiane : Partage la distribution en deux.  Intervalle de confiance : encadre la moyenne par 1.96 écart type. ◦ Régression : estimation d’une droite ‘prédictive’  Un minimum de 10 points  Une question de loi de distribution ◦ La loi des grands nombres : plus le nombre de tirages augmente plus on se rapproche de la loi de distribution ‘initiale’. Exemple du jeu de dés. ◦ Le théorème central limite : Quand n augmente la distribution d’échantillonnage de la moyenne se rapproche de la normale.

 Les variables indépendantes ou facteurs ou explicatives ◦ Celles qui sont fixées avant l’expérimentation  Deux classes d’âges (lycées et collégiens)  Le niveau d’accès des étudiants à un tuteur virtuel  Les variables dépendantes ou à expliquer ◦ Celles qui seront mesurées  Temps de réalisation des exercices  Les indicateurs ◦ Celles qui sont construites après  Ratio temps de réalisation de l’exercice i / temps total de réalisation

 Les variables qualitatives ou nominales ◦ Genre (Homme, Femme) ◦ Diplôme (Bep, BAC, Bac+2, …)  Les variables quantitatives continues ◦ Age ◦ Temps d’une action ◦ Nombre de réussites ou d’erreurs ◦ Taille ◦ Les mesures répétées danger …  Les variables quantitatives ordinales ◦ Notation ◦ Niveaux d’utilisation d’un logiciel ◦ Echelle de satisfaction ◦ Age en classes  Les variables séquentielles  Les séries chronologiques

 si la trace est une suite d’actions sur une interface  Nombre d’actions par tuteur ? Time code PersonneAction 10LucA 11LucA 13LucB 100EricC 102EricD 102ClaireC 104EricC 104ClaireA 106EricD PersonneNombre Luc3 Eric4 Claire2 …

 Des indicateurs statistiques, variables résumées PersonneNombreDurée (s)Temps moyen (s) Luc33s1,0s Eric46s2,0s Claire22s0,7s …

 Les quotas ◦ Caler les résultats sur les données du recensement de la population ou sur des informations globales sur la population étudiée. ◦ Le plus pratiqué car moins couteux  La méthode aléatoire ◦ Tirer au hasard dans une base de sondage. ◦ La probabilité d’inclusion d’un individu est connu sans biais. ◦ Couteux car l’individu tiré au hasard ne doit pas être abandonné  L’exhaustivité (le recensement) ◦ Avoir la totalité des individus ou des actions faites par les individus  Le plan expérimental ◦ Le nombre de sujets est fixé a priori en fonction des facteurs expérimentaux

 A partir des hypothèses à tester  Identifier les facteurs  Identifier les variables  Dénombrer le nombre d’individus  Exemple de plan : Utilisation de Copex Chimie (C.d’Ham et I.Girault, Metah) ◦ 120 étudiants en 1 ère année de physique, répartis en 5 groupes ◦ Facteurs : les niveaux d’accès au tuteur et à la description  full accès - accès limité - description limitée – accès et description limités – no tutor - pas de logiciel ◦ Variables : l’accès aux leçons et les erreurs commises (50 variables), le temps de la session ◦ Indicateurs : Les 50 variables sur le temps de la session ◦ Les « pas de logiciel » : groupe contrôle

 A partir des problématiques de Pedro, Rafik et Yves.  Décrire les données recueillies et le plan expérimental

Moyenne : Classe 1 : 10,4 Classe 2 : 10,4 Ecart type Classe 1 : 3,61 Classe 2 : 0,53 classe 1classe Etendue Classe 1 : 11 Classe 2 : 1 Médiane Classe 1 : 11 Classe 2 : 10 Classe 1 Note Classe 2 Note Coefficient de Variation % Classe 1 : 34,7 Classe 2 : 5,1

Pour une moyenne Pour une proportion

classe 1classe 2 moyenne10,4 Ecart type3,60,5 ET moyenne1,20,2 t à 5%2,0 IC-8,110,1 IC+12,810,8 etendue IC4,720,69

 Statistiques descriptives  Faire parler des données  Hans Rosling (3mn) Hans Rosling  Espérance de vie et nombre d’enfants par famille de 1962 à 2006

Charles Jospeh Minard,

Source : innovatechninc.com.

La plus grande part ?

13 Octobre 2009 Conférence IHM 2009, Grenoble. Ne pas utiliser la troisième dimension quand elle n’apporte aucune information

Source :Bertin J. (1973) : Le traitement graphique de l’Information –Colloque Informatique et Biosphère, p27. Merci à Monique Leguen CNRS-CES-MATISSE - Club SAS Stat et Pharma 15 Mai 2008

Ne pas utiliser de courbes quand les modalités ne sont pas des variables métriques. Croissance ?

Un histogramme avec les modalités triées par ordre croissant est directement « parlant ».

 Analyser ce jeu de données avec excel ◦ Graphique ◦ Statistiques descriptives  Tableaux croisés dynamiques  Pour la semaine prochaine avoir le logiciel R ou Tanagra installé.