Concepts fondamentaux: statistiques et distributions Terminologie Propriétés d’une statistique Quelques statistiques utiles La distribution normale L’intervalle de confiance pour observations La distribution du t deStudent L’intervalle de confiance de la moyenne, la médiane, et la variance Design expérimental et puissance Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Concepts map Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Terminologie paramètre : définit une population statistique : estimés des paramètres d’une population par exemple: la moyenne de la population () versus la moyenne d’un échantillon ( ) Population () Échantillon Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Parametric statistical analysis X Y Sample Population Inference Estimating model parameters based on a finite sample and inferring from these estimates the values of the corresponding population parameters Therefore, parametric analysis requires relatively restrictive assumptions about the relationships between the sample and the population, i.e. about the distributions from which samples are drawn and the nature of the drawing (e.g., normal distributions and random sampling) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Non-parametric statistical analysis Calculation of model parameters based on a finite sample, but no inference to corresponding population parameters Therefore, non-parametric analysis requires relatively minimal assumptions about the relationships between the sample and the population (e.g. normal distributions of sampled variables not required) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Propriétés d’une statistique Exactitude: une statistique est exacte si la valeur moyenne du paramètre calculée pour tous les échantillons s’approche de la valeur réelle de la population X Statistique moins exacte X Statistique plus exacte Échantillon Population Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Propriétés d’une statistique Précision: une statistique précise variera peu parmi les échantillons pris d’une même population X Statistique peu précise X Statistique plus précise Échantillon Population Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Propriétés d’une statistique Consistance: une statistique consistante approchera plus rapidement la valeur réelle de la population avec l’augmentation de la taille de l’échantillon. X Moins consistante X Échantillon Plus consistante Population Taille de l’échantillon (N) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Comparaison de statistiques bien connues Étendue de la variation Fréquence Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Statistiques: mesures de la tendance centrale moyenne: facile à calculer, la distribution est prévisible mais peut être influencée par des valeurs extrêmes médiane (M): est la valeur de la variable mesurée pour laquelle le nombre d’observations supérieures et inférieures est égal. Elle est moins influencée par les valeurs extrêmes que la moyenne. Fréquence X M Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Paramètres de dispersion: l’étendue de la variation L’étendue de la variation est définie par la valeur la plus grande et la valeur la plus petite de l’échantillon C’est une statistique simple mais qui est biaisée parce qu’elle sous-estime la valeur de la population. L’étendue de la variation de la population Fréquence L’étendue de la variation de l’échantillon Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Dispersion Trois distributions de fréquences avec la même moyenne et taille d’échantillon mais dont les patrons de dispersion sont différents. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Paramètres de dispersion: la variance, l’écart-type et le coefficient de variation Variance: somme des carrés des écarts à la moyenne pondérée pour l’effectif L’écart-type: racine carré de la variance Coefficient de variation: l’écart-type divisé par la moyenne de l’échantillon X 100) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
La distribution normale frel ^ 2 4 6 8 10 12 0.2 0.4 0.8 0.6 Y A B C Des changements pour les valeurs de la moyenne et la variance entraînent des changements dans la forme et la position de la distribution normale. A. m = 4, s = 1 B. m = 8, s = 1 C. m = 8, s = 0.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
La distribution normale standard Obtenue en centrant et en réduisant la distribution. Les valeurs observées sont converties en valeurs normales standard (Z) La distribution obtenue a une moyenne = 0 et une variance 2 = 1 Probabilité -3 -2 -1 1 2 3 Transformée (Z) Observée Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
La distribution normale standard ± 2 68% de l’échantillon contenu par µ ± 96% contenu par µ ± 2 ± 1 Probabilité -3 -2 -1 1 2 3 Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalles de confiance pour les observations Intervalle qui comprend une proportion donnée de la population généralement centré sur la moyenne ± Z IC à 95.5% est ± 2 mais et sont rarement connus.... Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalles de confiance pour les observations: problèmes d’estimation Remplacer et par les paramètres de l’échantillon peut entraîner de sérieux biais. Simulation:échantillonner une distribution normale standard et, pour chaque échantillon, calculer la moyenne, la variance. Ensuite, calculer IC à partir des valeurs de la moyenne et de la variance de l’échantillon. Noter quelle proportion de la distribution se retrouve à l’extérieur de l’IC. Proportion (%) de la population hors de l ’IC à 95% Effectif=1000 100 200 300 400 500 20 40 60 80 Moyenne=5% Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalles de confiance pour les observations: problèmes d’estimation Quand la taille de l’échantillon est grande, les ICs estimés sont près des valeurs réelles. Toutefois, quand l’effectif est petit, les ICs estimés sont beaucoup trop petits. Effectif=3 50 100 150 20 40 60 80 Moyenne=23% Proportion (%) de la population hors de l’IC à 95% Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalles de confiance pour les observations: problèmes d’estimation Effectif de l'échantillon IC calculés avec Z 10 100 1000 10000 99% 99.9% 95% 90% 75% 50% 30 50 70 80 90 95 98 99 99.8 99.9 % de la population Les ICs estimés à partir des valeurs de Z se rapprochent des vrais ICs au fur et à mesure que l’effectif augmente. Toutefois quand N est petit, les ICs sont biaisés. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
La distribution du t de Student 0.4 0.4 distribution des différences entre la moyenne de l’échantillon et la moyenne de la population divisées par l’écart-type de la moyenne converge vers la distribution normale standard quand le nombre de dl est élevé plus pointue et avec des queues plus longues quand le nombre de dl est faible dl=2 0.3 0.3 Y Y 0.2 0.2 0.1 0.1 dl=1000 0.0 0.0 -5 -5 -4 -4 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 4 4 5 5 t Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalle de confiance calculés avec t IC calculés avec t 10 100 1000 10000 30 50 70 80 90 95 98 99 99.8 99.9 99% 99.9% 95% 90% 75% 50% Effectif de l'échantillon % de la population Quand l’effectif est petit, les ICs sont calculés en remplaçant Z par la valeur de t de la distribution de Student. C’est une amélioration mais quand l’effectif est très petit, les ICs sont trop encore trop petits. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalles de confiance pour la moyenne Intervalle dans lequel on retrouve, avec une certaine probabilité, la vraie moyenne de la population. Plus petit que l’IC pour les observations Moyennes des échantillons Observations Probabilité ou Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalle de confiance pour la médiane Si la distribution est fortement asymétrique, ou que l’effectif est petit, l’intervalle de confiance de la moyenne calculé avec t est biaisé (sous-estimé). une solution: calculer l’IC de la médiane. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalle de confiance de la médiane Calculés à partir de la distribution binomiale b(x) avec p = 0.5. Dans un échantillon de taille n=10, quelle est la probabilité d’obtenir seulement y observations sous la médiane? Comme b(x) est discontinue, il n’est généralement pas possible d’obtenir des ICs à exactement 1- p 1 2 3 4 5 6 7 8 9 10 IC 97.86% pour la médiane donné par les valeurs 1 et 9. IC 89.08% pour la médiane donné par les valeurs 2 et 8. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Intervalle de confiance pour la variance Variance estimée d’un échantillon est distribuée environ comme chi-carré avec n-1 degrés de liberté. 2 ou s2 est distribué comme chi-carré 5 10 15 20 c2 (dl = 5) 0.2 0.3 Probabilité p = a = 0.05 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Design expérimental Il vous faut Un but clair (précision nécessaire) Vous voulez savoir Comment atteindre le niveau de précision nécessaire? Combien de fois dois-je répéter cette expérience pour obtenir de “bons” résultats? Combien d’échantillon dois-je récolter pour obtenir une précision (Coefficient de variation) de 5% Comment obtenir un intervalle de confiance à 99% qui a n unités de largeur? Il vous faut Un but clair (précision nécessaire) un estimé de la variabilité (s2) expérience préliminaire expérience passée du “pif” Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Un exemple Pour un échantillon préliminaire de n = 10, on obtient une moyenne de 100 et un écart-type de 25. On désire que IC = 2 pour la moyenne, donc qu’il y ait 95% de chance que la moyenne de la population soit à l’intérieur de cet intervalle. Réponse (par itération): n=2404 Correct en moyenne, mais pas assez dans 50% des cas car utilise s2 au lieu de s2 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24
Effort d’échantillonnage requis (suite) combien faut-il de replicats pour obtenir un IC = 2 avec une probabilité (1-b ) que IC soit au moins aussi étroit? réponse: n = 6503! donne une probabilité (1-b ) que la précision obtenue sera au moins celle désirée. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-14 06:24