Concepts fondamentaux: statistiques et distributions

Slides:



Advertisements
Présentations similaires
Puissance et NSN.
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Estimation ponctuelle Estimation par intervalle de confiance
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
Inférence statistique
Comparaison de plusieurs moyennes observées
Variable aléatoire, estimation ponctuelle et par intervalle
Échantillonnage-Estimation
Statistique et probabilités au collège
Probabilités et statistique en TS
Lectures Volume obligatoire: Chapitre 8
Méthodes de Biostatistique
Les principaux résumés de la statistique
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Comprendre la variation
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
Lectures Volume du cours : Chapitre 7
Théorème de la limite centrale l’inférence statistique
STATISTIQUES DESCRIPTIVES
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Tests d’ajustement à une distribution théorique
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations.
Quelques commentaires sur les tests statistiques
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Échantillonnage (STT-2000)
1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Distributions d’échantillonnage pour des proportions
Formation Green Belt Lean Six Sigma
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Concepts fondamentaux: statistiques et distributions Terminologie Propriétés d’une statistique Quelques statistiques utiles La distribution normale L’intervalle de confiance pour observations La distribution du t deStudent L’intervalle de confiance de la moyenne, la médiane, et la variance Design expérimental et puissance Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Concepts map Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Terminologie paramètre : définit une population statistique : estimés des paramètres d’une population par exemple: la moyenne de la population () versus la moyenne d’un échantillon ( ) Population () Échantillon Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Parametric statistical analysis X Y Sample Population Inference Estimating model parameters based on a finite sample and inferring from these estimates the values of the corresponding population parameters Therefore, parametric analysis requires relatively restrictive assumptions about the relationships between the sample and the population, i.e. about the distributions from which samples are drawn and the nature of the drawing (e.g., normal distributions and random sampling) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Non-parametric statistical analysis Calculation of model parameters based on a finite sample, but no inference to corresponding population parameters  Therefore, non-parametric analysis requires relatively minimal assumptions about the relationships between the sample and the population (e.g. normal distributions of sampled variables not required) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Propriétés d’une statistique Exactitude: une statistique est exacte si la valeur moyenne du paramètre calculée pour tous les échantillons s’approche de la valeur réelle de la population X Statistique moins exacte X Statistique plus exacte Échantillon Population Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Propriétés d’une statistique Précision: une statistique précise variera peu parmi les échantillons pris d’une même population X Statistique peu précise X Statistique plus précise Échantillon Population Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Propriétés d’une statistique Consistance: une statistique consistante approchera plus rapidement la valeur réelle de la population avec l’augmentation de la taille de l’échantillon. X Moins consistante X Échantillon Plus consistante Population Taille de l’échantillon (N) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Comparaison de statistiques bien connues Étendue de la variation Fréquence Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Statistiques: mesures de la tendance centrale moyenne: facile à calculer, la distribution est prévisible mais peut être influencée par des valeurs extrêmes médiane (M): est la valeur de la variable mesurée pour laquelle le nombre d’observations supérieures et inférieures est égal. Elle est moins influencée par les valeurs extrêmes que la moyenne. Fréquence X M Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Paramètres de dispersion: l’étendue de la variation L’étendue de la variation est définie par la valeur la plus grande et la valeur la plus petite de l’échantillon C’est une statistique simple mais qui est biaisée parce qu’elle sous-estime la valeur de la population. L’étendue de la variation de la population Fréquence L’étendue de la variation de l’échantillon Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Dispersion Trois distributions de fréquences avec la même moyenne et taille d’échantillon mais dont les patrons de dispersion sont différents. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Paramètres de dispersion: la variance, l’écart-type et le coefficient de variation Variance: somme des carrés des écarts à la moyenne pondérée pour l’effectif L’écart-type: racine carré de la variance Coefficient de variation: l’écart-type divisé par la moyenne de l’échantillon X 100) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

La distribution normale frel ^ 2 4 6 8 10 12 0.2 0.4 0.8 0.6 Y A B C Des changements pour les valeurs de la moyenne et la variance entraînent des changements dans la forme et la position de la distribution normale. A. m = 4, s = 1 B. m = 8, s = 1 C. m = 8, s = 0.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

La distribution normale standard Obtenue en centrant et en réduisant la distribution. Les valeurs observées sont converties en valeurs normales standard (Z) La distribution obtenue a une moyenne  = 0 et une variance 2 = 1 Probabilité -3 -2 -1 1 2 3 Transformée (Z) Observée Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

La distribution normale standard ± 2 68% de l’échantillon contenu par µ ±  96% contenu par µ ± 2 ± 1 Probabilité -3 -2 -1 1 2 3 Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalles de confiance pour les observations Intervalle qui comprend une proportion donnée de la population généralement centré sur la moyenne ± Z IC à 95.5% est ± 2 mais  et  sont rarement connus.... Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalles de confiance pour les observations: problèmes d’estimation Remplacer  et  par les paramètres de l’échantillon peut entraîner de sérieux biais. Simulation:échantillonner une distribution normale standard et, pour chaque échantillon, calculer la moyenne, la variance. Ensuite, calculer IC à partir des valeurs de la moyenne et de la variance de l’échantillon. Noter quelle proportion de la distribution se retrouve à l’extérieur de l’IC. Proportion (%) de la population hors de l ’IC à 95% Effectif=1000 100 200 300 400 500 20 40 60 80 Moyenne=5% Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalles de confiance pour les observations: problèmes d’estimation Quand la taille de l’échantillon est grande, les ICs estimés sont près des valeurs réelles. Toutefois, quand l’effectif est petit, les ICs estimés sont beaucoup trop petits. Effectif=3 50 100 150 20 40 60 80 Moyenne=23% Proportion (%) de la population hors de l’IC à 95% Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalles de confiance pour les observations: problèmes d’estimation Effectif de l'échantillon IC calculés avec Z 10 100 1000 10000 99% 99.9% 95% 90% 75% 50% 30 50 70 80 90 95 98 99 99.8 99.9 % de la population Les ICs estimés à partir des valeurs de Z se rapprochent des vrais ICs au fur et à mesure que l’effectif augmente. Toutefois quand N est petit, les ICs sont biaisés. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

La distribution du t de Student 0.4 0.4 distribution des différences entre la moyenne de l’échantillon et la moyenne de la population divisées par l’écart-type de la moyenne converge vers la distribution normale standard quand le nombre de dl est élevé plus pointue et avec des queues plus longues quand le nombre de dl est faible dl=2 0.3 0.3 Y Y 0.2 0.2 0.1 0.1 dl=1000 0.0 0.0 -5 -5 -4 -4 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 4 4 5 5 t Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalle de confiance calculés avec t IC calculés avec t 10 100 1000 10000 30 50 70 80 90 95 98 99 99.8 99.9 99% 99.9% 95% 90% 75% 50% Effectif de l'échantillon % de la population Quand l’effectif est petit, les ICs sont calculés en remplaçant Z par la valeur de t de la distribution de Student. C’est une amélioration mais quand l’effectif est très petit, les ICs sont trop encore trop petits. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalles de confiance pour la moyenne Intervalle dans lequel on retrouve, avec une certaine probabilité, la vraie moyenne de la population. Plus petit que l’IC pour les observations Moyennes des échantillons Observations Probabilité ou Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalle de confiance pour la médiane Si la distribution est fortement asymétrique, ou que l’effectif est petit, l’intervalle de confiance de la moyenne calculé avec t est biaisé (sous-estimé). une solution: calculer l’IC de la médiane. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalle de confiance de la médiane Calculés à partir de la distribution binomiale b(x) avec p = 0.5. Dans un échantillon de taille n=10, quelle est la probabilité d’obtenir seulement y observations sous la médiane? Comme b(x) est discontinue, il n’est généralement pas possible d’obtenir des ICs à exactement 1- p 1 2 3 4 5 6 7 8 9 10 IC 97.86% pour la médiane donné par les valeurs 1 et 9. IC 89.08% pour la médiane donné par les valeurs 2 et 8. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Intervalle de confiance pour la variance Variance estimée d’un échantillon est distribuée environ comme chi-carré avec n-1 degrés de liberté. 2 ou s2 est distribué comme chi-carré 5 10 15 20 c2 (dl = 5) 0.2 0.3 Probabilité p = a = 0.05 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Design expérimental Il vous faut Un but clair (précision nécessaire) Vous voulez savoir Comment atteindre le niveau de précision nécessaire? Combien de fois dois-je répéter cette expérience pour obtenir de “bons” résultats? Combien d’échantillon dois-je récolter pour obtenir une précision (Coefficient de variation) de 5% Comment obtenir un intervalle de confiance à 99% qui a n unités de largeur? Il vous faut Un but clair (précision nécessaire) un estimé de la variabilité (s2) expérience préliminaire expérience passée du “pif” Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Un exemple Pour un échantillon préliminaire de n = 10, on obtient une moyenne de 100 et un écart-type de 25. On désire que IC = 2 pour la moyenne, donc qu’il y ait 95% de chance que la moyenne de la population soit à l’intérieur de cet intervalle. Réponse (par itération): n=2404 Correct en moyenne, mais pas assez dans 50% des cas car utilise s2 au lieu de s2 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24

Effort d’échantillonnage requis (suite) combien faut-il de replicats pour obtenir un IC = 2 avec une probabilité (1-b ) que IC soit au moins aussi étroit? réponse: n = 6503! donne une probabilité (1-b ) que la précision obtenue sera au moins celle désirée. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24