La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Analyse de variance à un critère de classification.

Présentations similaires


Présentation au sujet: "Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Analyse de variance à un critère de classification."— Transcription de la présentation:

1 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 1 Analyse de variance à un critère de classification (ANOVA) Quand utiliser lANOVA Les modèles dANOVA et la répartition des sommes des carrés ANOVA: test dhypothèses ANOVA: conditions dapplication Alternative non-paramétrique: Kruskall-Wallis Puissance

2 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 2 Quand utiliser lANOVA Pour tester leffet dune variable indépendante discrète chaque variable indépendante est appelée un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: rendement du maïs fertilisé à lazote (N) ou au phosphore et à lazote (P+N) lANOVA teste si toutes les moyennes sont égales On lutilise quand le nombre de niveaux est supérieur à deux Témoin Expérimental (N) Expérimental (N+P) Rendement Fréquence C N N+P

3 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 3 Pourquoi ne pas utiliser plusieurs tests de t? Pour un nombre de comparaisons k, si H 0 est vraie, la probabilité de laccepter pour tous les k est (1 - ) k pour quatre moyennes, (1 - ) k =(0.95) 6 =.735 alors, (pour toutes les comparaisons) = alors en comparant les moyennes des quatre échantillons provenant de la même population on sattend à détecter des différences significatives pour une paire dans 27% des cas Contrôle Expérimental (N) Expérimental (N+ P) c : N N : N+P C : N+P Rendement Fréquence C N N+P

4 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 4 Possibilités et limites de lANOVA Permet de tester si toutes les moyennes sont égales (au niveau )... …mais si on rejette H 0, lANOVA ne dit pas lesquelles Rendement Fréquence C N N+P Témoin Expérimental (N) Expérimental (N+ P) Fréquence C N N+P

5 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 5 Types dANOVA Type I (effets fixes): les traitements sont déterminés par le chercheur Type II (effets aléatoires): les traitements ne sont pas sous le contrôle de lexpérimentateur Type III (modèle mixte): au moins un facteur du Type I et au moins un du Type II

6 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 6 ANOVA Type I: effet de la température sur le taux de croissance de la truite 3 traitements déterminés par le chercheur la variable dépendante est le taux de croissance ( ), et le facteur (X) est la température X étant contrôlé, on peut estimer leffet de laugmentation dune unité de X (température) sur le taux de croissance) …et prédire pour dautres températures Température (ºC) Taux de croissance (cm/jour)

7 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 7 ANOVA Type II: poids de lours noir et dispersion géographique 3 sites (groupes) échantillonnés variable dépendante est le poids, et le site est le facteur (X) Pour des sites différents les facteurs contrôlant la variabilité sont inconnus... …alors, on ne peut prédire le poids pour dautres sites Poids (kg) Riding Mountain Kluane Algonquin

8 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 8 Différences entre les modèles Pour le Type I, les facteurs peuvent être manipulés par lexpérimentateur, pas dans le Type II Le Type I nous permet destimer leffet du traitement, de faire des prédictions, pas le Type II Les calculs pour les deux types sont identiques mais seulement pour lANOVA à un critère de classification!

9 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 9 Pourquoi le nom ANOVA? Dans une ANOVA, la variance totale est répartie en deux composantes: –intergroupe: variance des moyennes des différents groupes (traitements) –intragroupe (erreur): variance des observations autour de la moyenne du groupe

10 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 10 ANOVA: modèle général Le modèle général: Les algorithmes de lANOVA suivent ce modèle (par les moindres carrés) afin destimer les i H 0 : tous les i = 0 Groupe Groupe 1 Groupe 2 Groupe 3 Y Y

11 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 11 Répartition de la somme des carrés totale Groupe 1 Groupe 2 Groupe 3 Y SC TotaleSC Modèle (Groupes)SC Erreur

12 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 12 Tableau dANOVA Sources de variation Somme des carrés Carré moyen (MS) Degré de liberté (dl) F Totale Erreur n - 1 n - k SC/dl Inter- groupe k - 1SC/dl MS intergroupe MS erreur i1 k ij j1 n 2 ( Y Y ) i i i i k n Y Y() 1 2 i1 k i j1 n 2 ( Y YiYi ) i j

13 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 13 Composantes de la variance et moyennes des groupes MS intergroupe mesure les différences moyennes au carré parmis les moyennes des groupes MS erreur est une mesure de la précision Témoin Expérimental (N) Expérimental (N+ P) Rendement Frequence C N N+P Frequence C N N+P F plus petit F plus grand

14 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 14 ANOVA: lhypothèse nulle H 0 : les moyennes de tous les groupes sont les mêmes, ou H 0 : il ny a pas deffet des groupes, i =0, ou H 0 : F = MS intergroupe / MS erreur = 0 pour k groupes et pour un nombre dobservations N, on compare avec la distribution de F au niveau avec k - 1 et N - k degrés de liberté Témoin Expérimental (N) Expérimental (N+ P) Rendement Frequence C N N+P Frequence C N N+P F plus petit F plus grand

15 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 15 Exemple (Lab): Variation temporelle de la taille de lesturgeon (ANOVA type II) Prédiction: la construction dun barrage a provoqué la perte des esturgeons de grande taille Test: comparer la taille des esturgeons avant et après la construction du barrage H 0 : la taille moyenne est la même pour toutes les années Année Construction du barrage Taille

16 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 16 Variation temporelle de la taille des esturgeons (résultats de lANOVA) Conclusion: rejeter H 0 Analysis of Variance Source Sum-of-Squares df Mean-Square F-ratio P YEAR Error

17 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 17 Conditions dapplication de lANOVA Les résidus sont indépendants les uns des autres Les résidus sont distribués normalement La variance des résidus ne varie pas entre les traitements (homoscédasticité) À noter: ces conditions sappliquent aux résidus et non aux données brutes …on doit tester les conditions dapplication après que lanalyse soit faite et que les résidus soient obtenus

18 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 18 Test de la normalité des résidus Vérifier la linéarité du graphique des probabilités normales des résidus Si nécessaire et justifié, faire un test de Lilliefors. Penser à la puissance!! Valeurs extrêmes

19 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 19 Test de lindépendance des résidus: graphique ACF Est-ce quil y a des corrélations à lextérieur de lintervalle de confiance à 95%?

20 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 20 Test dhomoscédasticité I: graphique des résidus par rapport aux estimés Létalement des résidus est-il le même pour tous les groupes? Valeur extrême?

21 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 21 Test de lhomoscédasticité II: test de Levene Calculer la moyenne absolue des résidus pour chaque groupe Cette moyenne varie-t- elle entre les groupes? Least Squares Means Année Res. Abs.

22 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 22 Test de lhomoscédasticité II: test de Levene (suite)

23 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 23 Effets de la violation des conditions dapplication Le calcul de p assume que p(F) = p(F*) mais, moins les résidus se conforment aux conditions dapplication, plus lécart entre les deux augmente alors, les valeurs de p sont incorrectes F, peu conforme F très conforme Vrai F (F*) F Probabilité

24 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 24 Robustesse de lANOVA aux violations des conditions dapplication

25 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 25 Questions sur lanalyse des résidus Quelles conditions dapplication sont violées? LANOVA est-elle robuste à ces violations? Quelle est la taille de leffectif? Est-ce que la violation des conditions est causée par la présence de valeurs extrêmes? Comment se comparent p et Éliminer les valeurs extrêmes et refaire analyse Transformer les données Essayer ANOVA non- paramétrique (recommandé si leffectif est petit, cest- à-dire < 10 par groupe)

26 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 26 Lalternative non-paramétrique: ANOVA de Kruskall-Wallis Calculer la somme des rangs (Rg) pour chaque groupe H 0 : RC = R1 = R2 Calculer la statistique K-W H: qui est distribué comme 2 avec k-1 dl si N pour chaque groupe est assez grand, autrement, utiliser la valeur critique de H

27 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 27 ANOVA: Analyse de puissance Si H 0 est vraie, alors t CM Groupes /CM erreur suit la distribution de F Mais si H0 est fausse, alors CM Groupes /CM erreur suit la distribution non- centrale de F, définie par 1, 2 et non- centralité). Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement C N N+P

28 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 28 ANOVA: Analyse de Puissance Ce quon peut calculer Puissance dun test sur k groupes avec n replicats par groupe au niveau lorsque (1) les moyennes de chaque groupe sont connues; (2) taille minimale de leffet à détecter est spécifié Effectif minimum ou différence minimale détectable Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement C N N+P

29 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 29 Puissance et effectif en ANOVA à un critère de classification ANOVA avec k groupes et n replicats par groupe au niveau. Si on a un estimé de la variabilité intragroupe s 2 (MS erreur ), on peut calculer : Témoin Expérimental (N) Expéerimental (N+P) Fréquence Rendement C N N+P

30 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 30 Calculer la puissance à partir de Calculer la puissance à partir de Pour 1, 2, et, on peut obtenir 1- à partir de tableaux ou courbes (e.g. Zar (1996), Appendix Figure B.1) 1- 2 décroissant 1 = 2 = = =.05) =.01)

31 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 31 ANOVA type I: différence minimale détectable Pour détecter une différence entre les deux groupes les plus différents (par au moins. Pour un test au seuil avec une puissance de 1 - on peut calculer l effectif minimal requis n min pour détecter, compte-tenu de la variance intragroupe s 2, et solutionnant itérativement: Frequency C N N+P Témoin Expérimental (N) Expérimental (N+P)

32 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 32 ANOVA type I: Puissance du test Si H 0 est acceptée, il est pertinent de calculer la puissance À partir de CM groupes, s 2 (= CM erreur ), et k, on peut calculer. Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement C N N+P

33 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 33 Puissance dun test: exemple Effet de la température sur le temps de développement d un insecte 3 températures (k = 3, n 1 = n 2 = 4, n 3 = 5) Il y a 67% des chances de faire une erreur de type II

34 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 34 Facteurs déterminant la puissance en ANOVA à un critère de classification Puissance augmente avec augmentation de Donc puissance augmente avec(1) augmentation de l effectif n; (2) augmentation des différences entre groupes (CM groupes ); (3) décroissance du nombre de groupes; (4) décroissance de la variance intragroupe s 2 (MS erreur ).

35 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 35 Puissance en ANOVA de type II On peut calculer 1- à partir de la distribution F centrale: À partir de 1, 2, et CM groupes, on peut calculer 1 -. Masse (kg) Riding Mountain Kluane Algonquin

36 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 36 Puissance en ANOVA non-paramétrique à un critère de classification Si conditions dapplication de lANOVA sont rencontrée, alors puissance ANOVA non-paramétrique est 3/ = 95% de celle de lANOVA. Calculer puissance de l ANOVA paramétrique comme estimé de la puissance de l ANOVA non-paramétrique.


Télécharger ppt "Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Analyse de variance à un critère de classification."

Présentations similaires


Annonces Google