Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions Terminologie Propriétés dune statistique Quelques statistiques utiles La distribution normale Lintervalle de confiance pour observations La distribution du t deStudent Lintervalle de confiance de la moyenne, la médiane, et la variance Design expérimental et puissance
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 2 Terminologie paramètre : définit une population statistique : estimés des paramètres dune population par exemple: la moyenne de la population ( ) versus la moyenne dun échantillon ( ) Population ( ) Échantillon
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 3 Propriétés dune statistique Exactitude: une statistique est exacte si la valeur moyenne du paramètre calculée pour tous les échantillons sapproche de la valeur réelle de la population XX Échantillon Population Statistique moins exacte Statistique plus exacte
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 4 Propriétés dune statistique Précision: une statistique précise variera peu parmi les échantillons pris dune même population Échantillon Population XX Statistique peu précise Statistique plus précise
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 5 Propriétés dune statistique Consistance: une statistique consistante approchera plus rapidement la valeur réelle de la population avec laugmentation de la taille de léchantillon. Échantillon Population X Moins consistante Plus consistante X Taille de léchantillon (N)
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 6 Comparaison de statistiques bien connues Fréquence Étendue de la variation
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 7 Statistiques: mesures de la tendance centrale moyenne: facile à calculer, la distribution est prévisible mais peut être influencée par des valeurs extrêmes médiane (M): est la valeur de la variable mesurée pour laquelle le nombre dobservations supérieures et inférieures est égal. Elle est moins influencée par les valeurs extrêmes que la moyenne. X Fréquence M
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 8 Paramètres de dispersion: létendue de la variation Létendue de la variation est définie par la valeur la plus grande et la valeur la plus petite de léchantillon Cest une statistique simple mais qui est biaisée parce quelle sous-estime la valeur de la population. Fréquence Létendue de la variation de la population Létendue de la variation de léchantillon
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 9 Dispersion Trois distributions de fréquences avec la même moyenne et taille déchantillon mais dont les patrons de dispersion sont différents.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 10 Paramètres de dispersion: la variance, lécart- type et le coefficient de variation Variance: somme des carrés des écarts à la moyenne pondérée pour leffectif Lécart-type: racine carré de la variance Coefficient de variation: lécart-type divisé par la moyenne de léchantillon X 100)
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 11 f rel ^ Y A B C La distribution normale Des changements pour les valeurs de la moyenne et la variance entraînent des changements dans la forme et la position de la distribution normale. A. = 4, = 1 B. = 8, = 1 C. = 8, = 0.5
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 12 La distribution normale standard Obtenue en centrant et en réduisant la distribution. Les valeurs observées sont converties en valeurs normales standard (Z) La distribution obtenue a une moyenne = 0 et une variance 2 = 1 Probabilité Z Transformée (Z) Observée
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 13 La distribution normale standard 68% de léchantillon contenu par µ ± 96% contenu par µ ± 2 Probabilité Z ± 1 ± 2
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 14 Intervalles de confiance pour les observations Intervalle qui comprend une proportion donnée de la population généralement centré sur la moyenne ± Z IC à 95.5% est ± 2 mais et sont rarement connus....
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 15 Intervalles de confiance pour les observations: problèmes destimation Remplacer et par les paramètres de léchantillon peut entraîner de sérieux biais. Simulation:échantillonner une distribution normale standard et, pour chaque échantillon, calculer la moyenne, la variance. Ensuite, calculer IC à partir des valeurs de la moyenne et de la variance de léchantillon. Noter quelle proportion de la distribution se retrouve à lextérieur de lIC. Proportion (%) de la population hors de l IC à 95% Effectif= Moyenne=5%
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 16 Intervalles de confiance pour les observations: problèmes destimation Quand la taille de léchantillon est grande, les ICs estimés sont près des valeurs réelles. Toutefois, quand leffectif est petit, les ICs estimés sont beaucoup trop petits. Proportion (%) de la population hors de lIC à 95%
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 17 Intervalles de confiance pour les observations: problèmes destimation Les ICs estimés à partir des valeurs de Z se rapprochent des vrais ICs au fur et à mesure que leffectif augmente. Toutefois quand N est petit, les ICs sont biaisés.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 18 La distribution du t de Student distribution des différences entre la moyenne de léchantillon et la moyenne de la population divisées par lécart-type de la moyenne converge vers la distribution normale standard quand le nombre de dl est élevé plus pointue et avec des queues plus longues quand le nombre de dl est faible Y t Y dl=2 dl=1000
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 19 Intervalle de confiance calculés avec t Quand leffectif est petit, les ICs sont calculés en remplaçant Z par la valeur de t de la distribution de Student. Cest une amélioration mais quand leffectif est très petit, les ICs sont trop encore trop petits.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 20 Intervalles de confiance pour la moyenne Intervalle dans lequel on retrouve, avec une certaine probabilité, la vraie moyenne de la population. Plus petit que lIC pour les observations Probabilité ou Moyennes des échantillons Observations