La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Concepts fondamentaux: statistiques et distributions

Présentations similaires


Présentation au sujet: "Concepts fondamentaux: statistiques et distributions"— Transcription de la présentation:

1 Concepts fondamentaux: statistiques et distributions
Terminologie Propriétés d’une statistique Quelques statistiques utiles La distribution normale L’intervalle de confiance pour observations La distribution du t deStudent L’intervalle de confiance de la moyenne, la médiane, et la variance Design expérimental et puissance Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

2 Concepts map Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

3 Terminologie paramètre : définit une population
statistique : estimés des paramètres d’une population par exemple: la moyenne de la population () versus la moyenne d’un échantillon ( ) Population () Échantillon Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

4 Parametric statistical analysis
X Y Sample Population Inference Estimating model parameters based on a finite sample and inferring from these estimates the values of the corresponding population parameters Therefore, parametric analysis requires relatively restrictive assumptions about the relationships between the sample and the population, i.e. about the distributions from which samples are drawn and the nature of the drawing (e.g., normal distributions and random sampling) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

5 Non-parametric statistical analysis
Calculation of model parameters based on a finite sample, but no inference to corresponding population parameters Therefore, non-parametric analysis requires relatively minimal assumptions about the relationships between the sample and the population (e.g. normal distributions of sampled variables not required) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

6 Propriétés d’une statistique
Exactitude: une statistique est exacte si la valeur moyenne du paramètre calculée pour tous les échantillons s’approche de la valeur réelle de la population X Statistique moins exacte X Statistique plus exacte Échantillon Population Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

7 Propriétés d’une statistique
Précision: une statistique précise variera peu parmi les échantillons pris d’une même population X Statistique peu précise X Statistique plus précise Échantillon Population Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

8 Propriétés d’une statistique
Consistance: une statistique consistante approchera plus rapidement la valeur réelle de la population avec l’augmentation de la taille de l’échantillon. X Moins consistante X Échantillon Plus consistante Population Taille de l’échantillon (N) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

9 Comparaison de statistiques bien connues
Étendue de la variation Fréquence Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

10 Statistiques: mesures de la tendance centrale
moyenne: facile à calculer, la distribution est prévisible mais peut être influencée par des valeurs extrêmes médiane (M): est la valeur de la variable mesurée pour laquelle le nombre d’observations supérieures et inférieures est égal. Elle est moins influencée par les valeurs extrêmes que la moyenne. Fréquence X M Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

11 Paramètres de dispersion: l’étendue de la variation
L’étendue de la variation est définie par la valeur la plus grande et la valeur la plus petite de l’échantillon C’est une statistique simple mais qui est biaisée parce qu’elle sous-estime la valeur de la population. L’étendue de la variation de la population Fréquence L’étendue de la variation de l’échantillon Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

12 Dispersion Trois distributions de fréquences avec la même moyenne et taille d’échantillon mais dont les patrons de dispersion sont différents. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

13 Paramètres de dispersion: la variance, l’écart-type et le coefficient de variation
Variance: somme des carrés des écarts à la moyenne pondérée pour l’effectif L’écart-type: racine carré de la variance Coefficient de variation: l’écart-type divisé par la moyenne de l’échantillon X 100) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

14 La distribution normale
frel ^ 0.2 0.4 0.8 0.6 Y A B C Des changements pour les valeurs de la moyenne et la variance entraînent des changements dans la forme et la position de la distribution normale. A. m = 4, s = 1 B. m = 8, s = 1 C. m = 8, s = 0.5 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

15 La distribution normale standard
Obtenue en centrant et en réduisant la distribution. Les valeurs observées sont converties en valeurs normales standard (Z) La distribution obtenue a une moyenne  = 0 et une variance 2 = 1 Probabilité -3 -2 -1 1 2 3 Transformée (Z) Observée Z Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

16 La distribution normale standard
± 2 68% de l’échantillon contenu par µ ±  96% contenu par µ ± 2 ± 1 Probabilité -3 -2 -1 1 2 3 Z Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

17 Intervalles de confiance pour les observations
Intervalle qui comprend une proportion donnée de la population généralement centré sur la moyenne ± Z IC à 95.5% est ± 2 mais  et  sont rarement connus.... Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

18 Intervalles de confiance pour les observations: problèmes d’estimation
Remplacer  et  par les paramètres de l’échantillon peut entraîner de sérieux biais. Simulation:échantillonner une distribution normale standard et, pour chaque échantillon, calculer la moyenne, la variance. Ensuite, calculer IC à partir des valeurs de la moyenne et de la variance de l’échantillon. Noter quelle proportion de la distribution se retrouve à l’extérieur de l’IC. Proportion (%) de la population hors de l ’IC à 95% Effectif=1000 100 200 300 400 500 20 40 60 80 Moyenne=5% Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

19 Intervalles de confiance pour les observations: problèmes d’estimation
Quand la taille de l’échantillon est grande, les ICs estimés sont près des valeurs réelles. Toutefois, quand l’effectif est petit, les ICs estimés sont beaucoup trop petits. Effectif=3 50 100 150 20 40 60 80 Moyenne=23% Proportion (%) de la population hors de l’IC à 95% Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

20 Intervalles de confiance pour les observations: problèmes d’estimation
Effectif de l'échantillon IC calculés avec Z 10 100 1000 10000 99% 99.9% 95% 90% 75% 50% 30 50 70 80 90 95 98 99 99.8 99.9 % de la population Les ICs estimés à partir des valeurs de Z se rapprochent des vrais ICs au fur et à mesure que l’effectif augmente. Toutefois quand N est petit, les ICs sont biaisés. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

21 La distribution du t de Student
0.4 0.4 distribution des différences entre la moyenne de l’échantillon et la moyenne de la population divisées par l’écart-type de la moyenne converge vers la distribution normale standard quand le nombre de dl est élevé plus pointue et avec des queues plus longues quand le nombre de dl est faible dl=2 0.3 0.3 Y Y 0.2 0.2 0.1 0.1 dl=1000 0.0 0.0 -5 -5 -4 -4 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 4 4 5 5 t Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

22 Intervalle de confiance calculés avec t
IC calculés avec t 10 100 1000 10000 30 50 70 80 90 95 98 99 99.8 99.9 99% 99.9% 95% 90% 75% 50% Effectif de l'échantillon % de la population Quand l’effectif est petit, les ICs sont calculés en remplaçant Z par la valeur de t de la distribution de Student. C’est une amélioration mais quand l’effectif est très petit, les ICs sont trop encore trop petits. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

23 Intervalles de confiance pour la moyenne
Intervalle dans lequel on retrouve, avec une certaine probabilité, la vraie moyenne de la population. Plus petit que l’IC pour les observations Moyennes des échantillons Observations Probabilité ou Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

24 Intervalle de confiance pour la médiane
Si la distribution est fortement asymétrique, ou que l’effectif est petit, l’intervalle de confiance de la moyenne calculé avec t est biaisé (sous-estimé). une solution: calculer l’IC de la médiane. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

25 Intervalle de confiance de la médiane
Calculés à partir de la distribution binomiale b(x) avec p = 0.5. Dans un échantillon de taille n=10, quelle est la probabilité d’obtenir seulement y observations sous la médiane? Comme b(x) est discontinue, il n’est généralement pas possible d’obtenir des ICs à exactement 1- p 1 2 3 4 5 6 7 8 9 10 IC 97.86% pour la médiane donné par les valeurs 1 et 9. IC 89.08% pour la médiane donné par les valeurs 2 et 8. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

26 Intervalle de confiance pour la variance
Variance estimée d’un échantillon est distribuée environ comme chi-carré avec n-1 degrés de liberté. 2 ou s2 est distribué comme chi-carré 5 10 15 20 c2 (dl = 5) 0.2 0.3 Probabilité p = a = 0.05 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

27 Design expérimental Il vous faut Un but clair (précision nécessaire)
Vous voulez savoir Comment atteindre le niveau de précision nécessaire? Combien de fois dois-je répéter cette expérience pour obtenir de “bons” résultats? Combien d’échantillon dois-je récolter pour obtenir une précision (Coefficient de variation) de 5% Comment obtenir un intervalle de confiance à 99% qui a n unités de largeur? Il vous faut Un but clair (précision nécessaire) un estimé de la variabilité (s2) expérience préliminaire expérience passée du “pif” Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

28 Un exemple Pour un échantillon préliminaire de n = 10, on obtient une moyenne de 100 et un écart-type de 25. On désire que IC = 2 pour la moyenne, donc qu’il y ait 95% de chance que la moyenne de la population soit à l’intérieur de cet intervalle. Réponse (par itération): n=2404 Correct en moyenne, mais pas assez dans 50% des cas car utilise s2 au lieu de s2 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24

29 Effort d’échantillonnage requis (suite)
combien faut-il de replicats pour obtenir un IC = 2 avec une probabilité (1-b ) que IC soit au moins aussi étroit? réponse: n = 6503! donne une probabilité (1-b ) que la précision obtenue sera au moins celle désirée. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :24


Télécharger ppt "Concepts fondamentaux: statistiques et distributions"

Présentations similaires


Annonces Google