Télécharger la présentation
Publié parFlavie Normand Modifié depuis plus de 9 années
1
Tests d’ajustement à une distribution théorique
Qualité d’ajustement à une distribution Tests d’ajustement à une distribution théorique Tests de normalité Note importante sur les tests de normalité! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
2
Qualité d’ajustement à une distribution théorique
Mesure de la distance entre la distribution observée et attendue selon H0 20 30 40 50 60 10 Fréquence Observée Attendue Longueur à la fourche Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
3
Principe des tests d’ajustement
20 30 Attendue Observée Accepter H0 Si les deux distributions (observée et attendue) sont plus différentes que ce que l’on s’attendait en prenant en considération la précision de la mesure, on doit rejeter l’hypothèse nulle. Fréquence 30 20 Rejeter H0 10 20 30 40 50 60 Longueur à la fourche Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
4
Tests d’ajustement à une distribution théorique: Chi-carré (C2)
Utilisé sur des données de fréquence par catégories Les fréquences observées sont comparées à des valeurs attendues théoriquement. Fréquence Catégorie/classe Observée Attendue Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
5
Comment traduire C2 en p? Comparer à la distribution 2 avec n -1 degrés de liberté Si p est inférieur au niveau désiré, il faut rejeter l’hypothèse nulle. 5 10 15 20 c2 (dl = 5) 0.2 0.3 Probabilité c2 = 8.5, p = 0.31 accepter p = a = 0.05 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
6
Tests d’ajustement à une distribution théorique: test du rapport du log de vraisemblance ou test de G Fréquence Catégorie/classe Observée Attendue Similaire à C2, donne généralement des résultats similaires Dans certains cas, G est plus conservateur (c’est-à-dire que les p obtenues sont plus élevées). Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
7
c2 versus la distribution de C2 ou G
Pour C2 et G, les valeurs de p sont calculés à partir de la distribution de 2 . mais quand n diminue, les deux distributions s’éloignent de celle de 2 . 0.3 Probabilité 0.2 5 10 15 20 c2/C2/G (dl = 5) C2/G, n très petit C2/G, n petit c2 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
8
Conditions d’application (C2 et G)
n plus grand que 30 fréquences attendues sont au moins 5 test est assez robuste sauf quand il n’y a que deux catégories (dl = 1) pour 2 catégories, X2 et G surestiment 2 , menant au rejet de l’hypothèse nulle avec une probabilité supérieure à , le test devient libéral Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
9
Que faire si n est trop petit, qu’il n’y a que 2 catégories, etc.?
augmenter n si n > 2, combiner des catégories si possible utiliser un facteur de correction utiliser un autre test Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
10
Corrections quand il n’y a que 2 catégories
pour 2 catégories, X2 et G surestiment 2 , menant au rejet de l’hypothèse nulle avec une probabilité supérieure à , le test devient libéral Ajustement pour continuité: s’obtient en ajoutant 0.5 aux fréquences observées Ajustement de Williams: consiste à diviser la statistique (G ou C2) par: Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
11
Distribution binômiale,
Test binômial utilisé quand il n’y a que 2 catégories aucune condition d’application calcule la probabilité exacte d’obtenir N - k individus dans la catégorie 1 et k individus dans la catégorie 2 ( k = 0, 1, 2,... N). Probabilité 1 2 3 4 5 6 7 8 9 10 Nombre d’observations Distribution binômiale, p = 0.5, N = 10 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
12
Exemple: rapport des sexes des castors
H0: rapport des sexes est 1:1, donc p = 0.5 = q. p(0 mâles, femelles) = p(1 mâle/femelle, 9 mâle/femelle) = .0195 p(9 individus ou plus du même sexe) = .0215, ou 2.15%. donc, on rejette H0 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
13
Test Multinômial pour plus de 2 catégories
les probabilités, p et q, pour l’hypothèse nulle doivent être spécifiées (p + q + r = 1.0) aucune condition d’application si compliqué qu’en pratique C2 est souvent utilisé Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
14
Test multinômial: rapport de ségrégation
Hypothèse: comme les deux parents sont Aa, le rapport de segrégation est 1 AA: 2 Aa: 1 aa Si H0, p =.25, q = .50, r = .25 Pour N = 60, p < .001 Alors on rejette H0 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
15
Tests de normalité Comme beaucoup de tests reposent sur la condition de normalité des données, il faut souvent éprouver la normalité C2 ou G, Kolmogorov-Smirnov, Wilks-Shapiro et Lilliefors Attendue selon l’hypothèse de normalité Observée Fréquence Catégorie/Classe Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
16
Distributions cumulées
1.0 Les aires sous la courbes de la distribution normale et distribution normale cumulée. Distribution normale cumulée 0.8 Distribution normale 0.6 50.00% F 0.4 2.28% 0.2 68.27% -3s -2s -s m s s 3s Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
17
Test de normalité C2 ou G regrouper les données en classes (histogramme) et calculer la fréquence attendue à partir d’une distribution normale calculer C2 l’effectif doit être grand (kmin = 10) peu puissant à cause de la perte d’information Attendue selon l’hypothèse de normalité Observée Fréquence Catégorie/Classe Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
18
Évaluation visuelle de la normalité
Faire un graphique de probabilité normale des valeurs Z en fonction de X Si les points forment approximativement une ligne, alors les données s ’approchent de la normalité Z Normale Non-normale X Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
19
Test de Kolmogorov-Smirnov
Compare la distribution cumulative observée à la distribution théorique p est calculée à partir de Dmax, soit la valeur absolue de la différence maximum entre les deux distributions cumulées. 0.2 0.4 0.6 0.8 1.0 Fréquences cumulées Dmax Y Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
20
Exemple: longueur des ailes de mouches
10 mouches dont la longueur des ailes: 4, 4.5, 4.9, 5.0, 5.1, 5.3, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0. Fréquences relative cumulées: .1, .2, .3, .4, .5, .6, .7, .8, .9, 1.0 0.2 0.4 0.6 0.8 1.0 Dmax Fréquences relatives cumulées 4.0 4.5 5.0 5.5 6.0 Longueur de l’aile Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
21
Test de Lilliefors Le test de normalité de KS est conservateur dans le cas des tests où la distribution attendue est calculée à partir de statistiques de l’échantillon le test de Lilliefors corrige ce conservatisme, le test devient plus fiable devrait être utilisé quand l’hypothèse nulle est intrinsèque vs extrinsèque Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
22
Note importante sur les tests de normalité!
Quand N est petit, la plupart des tests sont peu puissants Il faut que les différences soient grandes afin de rejeter l’hypothèse nulle Quand N est grand, la puissance est grande Même de petites différences peuvent amener un rejet de l’hypothèse nulle Utilisez votre gros bon sens! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :04
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.