Analyse de variance à un critère de classification (ANOVA)

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
ANOVA à un facteur (Rehailia)
Test statistique : principe
Les tests d’hypothèses (I)
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
1. Les caractéristiques de dispersion. 11. Utilité.
CONFORMITE d’une distribution expérimentale à une distribution théorique Professeur Pascale FRIANT-MICHEL > Faculté de Pharmacie
Les TESTS STATISTIQUES
Les tests d’hypothèses
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Méthodes de Biostatistique
Plans à groupes indépendants: organisation
Analyse de la variance : ANOVA à un facteur
Régression linéaire simple
LES NOMBRES PREMIERS ET COMPOSÉS
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Modeles Lineaires.
Une observation par cellule facteurs fixes versus facteurs aléatoires.
L’analyse de variance factorielle
Le test t.
L’analyse de variance.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
ANOVA à critères multiples
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
Analyse factorielle de variance: Principes d’expérimentation
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Méthodes de Biostatistique
Les Chiffres Prêts?
Rappels de statistiques descriptives
Howell Chap. 11: ANOVA. Du monde connu au monde inconnu Du test t à l’analyse de varianceDu test t à l’analyse de variance Trouvez des nouveaux noms pour.
M2 Sciences des Procédés - Sciences des Aliments
ANOVA à 1 facteur en groupes de mesure indépendants
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Concepts fondamentaux: statistiques et distributions
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Tests d’ajustement à une distribution théorique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Comparaison de plusieurs moyennes observées
Transcription de la présentation:

Analyse de variance à un critère de classification (ANOVA) Quand utiliser l’ANOVA Les modèles d’ANOVA et la répartition des sommes des carrés ANOVA: test d’hypothèses ANOVA: conditions d’application Alternative non-paramétrique: Kruskall-Wallis Puissance Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Quand utiliser l’ANOVA Pour tester l’effet d’une variable indépendante “discrète” chaque variable indépendante est appelée un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: rendement du maïs fertilisé à l’azote (N) ou au phosphore et à l’azote (P+N) l’ANOVA teste si toutes les moyennes sont égales On l’utilise quand le nombre de niveaux est supérieur à deux Rendement Fréquence mC mN mN+P Témoin Expérimental (N) Expérimental (N+P) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Pourquoi ne pas utiliser plusieurs tests de t? mc :mN mN:mN+P mC: mN+P Rendement Fréquence mC mN mN+P Pour un nombre de comparaisons k , si H0 est vraie, la probabilité de l’accepter pour tous les k est (1 - a)k pour quatre moyennes, (1 - a)k =(0.95)6 = .735 alors, a (pour toutes les comparaisons) = 0.265 alors en comparant les moyennes des quatre échantillons provenant de la même population on s’attend à détecter des différences significatives pour une paire dans 27% des cas Contrôle Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Possibilités et limites de l’ANOVA mN+P Fréquence Permet de tester si toutes les moyennes sont égales (au niveau a)... …mais si on rejette H0, l’ANOVA ne dit pas lesquelles mC mN Fréquence Témoin Expérimental (N) Expérimental (N+ P) mC mN mN+P Rendement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Types d’ANOVA Type I (“effets fixes”): les traitements sont déterminés par le chercheur Type II (“effets aléatoires”): les traitements ne sont pas sous le contrôle de l’expérimentateur Type III (“modèle mixte”): au moins un facteur du Type I et au moins un du Type II Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA Type I: effet de la température sur le taux de croissance de la truite 3 traitements déterminés par le chercheur la variable dépendante est le taux de croissance (l), et le facteur (X) est la température X étant contrôlé, on peut estimer l’effet de l’augmentation d’une unité de X (température) sur l (le taux de croissance)... …et prédire l pour d’autres températures Température (ºC) 16 20 24 28 0.00 0.04 0.08 0.12 0.16 0.20 Taux de croissance l (cm/jour) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA Type II: poids de l’ours noir et dispersion géographique 3 sites (groupes) échantillonnés variable dépendante est le poids, et le site est le facteur (X) Pour des sites différents les facteurs contrôlant la variabilité sont inconnus... …alors, on ne peut prédire le poids pour d’autres sites 120 160 200 240 280 Poids (kg) Riding Kluane Algonquin Mountain Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Différences entre les modèles Pour le Type I, les facteurs peuvent être manipulés par l’expérimentateur, pas dans le Type II Le Type I nous permet d’estimer l’effet du traitement, de faire des prédictions, pas le Type II Les calculs pour les deux types sont identiques mais seulement pour l’ANOVA à un critère de classification! Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Pourquoi le nom ANOVA? Dans une ANOVA, la variance totale est répartie en deux composantes: intergroupe: variance des moyennes des différents groupes (traitements) intragroupe (erreur): variance des observations autour de la moyenne du groupe Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA: modèle général Le modèle général: Y m Le modèle général: Les algorithmes de l’ANOVA suivent ce modèle (par les moindres carrés) afin d’estimer les ai H0: tous les ai = 0 m =m1 = m2 = m3 Y m a1 = a2 = a3= 0 Groupe 1 Groupe 2 Groupe 3 Groupe Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Répartition de la somme des carrés totale Y m m3 m1 SC Totale SC Modèle (Groupes) SC Erreur Groupe 1 Groupe 2 Groupe 3 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Tableau d’ANOVA å å ( - Y Y ) å n ( - Y ) Y ( å å Y - ) Yi Sources de variation Somme des carrés Degré de liberté (dl) Carré moyen (MS) F k n i å å ( - Totale Y Y ) 2 n - 1 SC/dl ij i = 1 j = 1 MSintergroupe MSerreur k Inter- groupe å n ( - Y ) Y 2 k - 1 SC/dl i i i = 1 k n i ( Erreur å å Y - ) 2 Yi n - k SC/dl i j i = 1 j = 1 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Composantes de la variance et moyennes des groupes Rendement Frequence mC mN mN+P F plus petit F plus grand MSintergroupe mesure les différences moyennes au carré parmis les moyennes des groupes MSerreur est une mesure de la précision Témoin Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA: l’hypothèse nulle Rendement Frequence mC mN mN+P F plus petit F plus grand H0: les moyennes de tous les groupes sont les mêmes, ou H0: il n’y a pas d’effet des groupes, ai =0 , ou H0: F = MSintergroupe/ MSerreur = 0 pour k groupes et pour un nombre d’observations N, on compare avec la distribution de F au niveau a avec k - 1 et N - k degrés de liberté Témoin Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Construction du barrage Exemple (Lab): Variation temporelle de la taille de l’esturgeon (ANOVA type II) 1954 1958 1965 1966 Année 35.0 38.8 42.6 46.4 50.2 54.0 Prédiction: la construction d’un barrage a provoqué la perte des esturgeons de grande taille Test: comparer la taille des esturgeons avant et après la construction du barrage H0: la taille moyenne est la même pour toutes les années Taille Construction du barrage Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Variation temporelle de la taille des esturgeons (résultats de l’ANOVA) Analysis of Variance Source Sum-of-Squares df Mean-Square F-ratio P YEAR 485.264 3 161.755 5 .957 0.001 Error 3095.295 114 27.152 Conclusion: rejeter H0 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Conditions d’application de l’ANOVA Les résidus sont indépendants les uns des autres Les résidus sont distribués normalement La variance des résidus ne varie pas entre les traitements (homoscédasticité) À noter: ces conditions s’appliquent aux résidus et non aux données brutes …on doit tester les conditions d’application après que l’analyse soit faite et que les résidus soient obtenus Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de la normalité des résidus Vérifier la linéarité du graphique des probabilités normales des résidus Si nécessaire et justifié, faire un test de Lilliefors. Penser à la puissance!! Valeurs extrêmes Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de l’indépendance des résidus: graphique ACF Est-ce qu’il y a des corrélations à l’extérieur de l’intervalle de confiance à 95%? Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test d’homoscédasticité I: graphique des résidus par rapport aux estimés L’étalement des résidus est-il le même pour tous les groupes? Valeur extrême? Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de l’homoscédasticité II: test de Levene Calculer la moyenne absolue des résidus pour chaque groupe Cette moyenne varie-t-elle entre les groupes? Least Squares Means 1954 1958 1965 1966 Année 2 4 6 Res. Abs. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de l’homoscédasticité II: test de Levene (suite) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Effets de la violation des conditions d’application 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité Le calcul de p assume que p(F) = p(F*) mais, moins les résidus se conforment aux conditions d’application, plus l’écart entre les deux augmente alors, les valeurs de p sont incorrectes F, peu conforme F, très conforme Vrai F (F*) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Robustesse de l’ANOVA aux violations des conditions d’application Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Questions sur l’analyse des résidus Quelles conditions d’application sont violées? L’ANOVA est-elle robuste à ces violations? Quelle est la taille de l’effectif? Est-ce que la violation des conditions est causée par la présence de valeurs extrêmes? Comment se comparent p et a? Éliminer les valeurs extrêmes et refaire analyse Transformer les données Essayer ANOVA non-paramétrique (recommandé si l’effectif est petit, c’est-à-dire < 10 par groupe) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

L’alternative non-paramétrique: ANOVA de Kruskall-Wallis Calculer la somme des rangs (Rg) pour chaque groupe H0: RC = R1 = R2 Calculer la statistique K-W H: qui est distribué comme c2 avec k-1 dl si N pour chaque groupe est assez grand, autrement, utiliser la valeur critique de H Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA: Analyse de puissance Si H0 est vraie, alors t CMGroupes/CMerreur suit la distribution de F Mais si H0 est fausse, alors CMGroupes/CMerreur suit la distribution non-centrale de F, définie par n1, n2 et f (non-centralité). Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement mC mN mN+P Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA: Analyse de Puissance Ce qu’on peut calculer Puissance d’un test sur k groupes avec n replicats par groupe au niveau a lorsque (1) les moyennes de chaque groupe sont connues; (2) taille minimale de l’effet à détecter est spécifié Effectif minimum ou différence minimale détectable Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement mC mN mN+P Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance et effectif en ANOVA à un critère de classification ANOVA avec k groupes et n replicats par groupe au niveau a . Si on a un estimé de la variabilité intragroupe s2 (MSerreur), on peut calculer f: Témoin Expérimental (N) Expéerimental (N+P) Fréquence Rendement mC mN mN+P Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Calculer la puissance à partir de f n2 décroissant n1 = 2 Pour n1 ,n2, a et f, on peut obtenir 1-b à partir de tableaux ou courbes (e.g. Zar (1996), Appendix Figure B.1) 1-b a = .05 a = .01 f(a = .05) f(a = .01) 2 3 4 5 1 1.5 2 2.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA type I: différence minimale détectable Témoin ANOVA type I: différence minimale détectable Expérimental (N) Expérimental (N+P) Frequency Pour détecter une différence entre les deux groupes les plus différents (par au moins d). Pour un test au seuil a avec une puissance de 1 - b on peut calculer l ’effectif minimal requis nmin pour détecter d, compte-tenu de la variance intragroupe s2, et solutionnant itérativement: mC mN mN+P d Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

ANOVA type I: Puissance du test Témoin Expérimental (N) Expérimental (N+P) Fréquence Rendement mC mN mN+P ANOVA type I: Puissance du test Si H0 est acceptée, il est pertinent de calculer la puissance À partir de CMgroupes , s2 (= CMerreur), et k, on peut calculer f. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance d’un test: exemple Effet de la température sur le temps de développement d ’un insecte 3 températures (k = 3, n1 = n2 = 4, n3 = 5) Il y a 67% des chances de faire une erreur de type II Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Facteurs déterminant la puissance en ANOVA à un critère de classification Puissance augmente avec augmentation de f. Donc puissance augmente avec(1) augmentation de l ’effectif n; (2) augmentation des différences entre groupes (CMgroupes); (3) décroissance du nombre de groupes; (4) décroissance de la variance intragroupe s2 (MSerreur). Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance en ANOVA de type II 120 160 200 240 280 Riding Mountain Kluane Algonquin On peut calculer 1- b à partir de la distribution F centrale: À partir de n1, n2, a et CMgroupes, on peut calculer 1 - b. Masse (kg) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance en ANOVA non-paramétrique à un critère de classification Si conditions d’application de l’ANOVA sont rencontrée, alors puissance ANOVA non-paramétrique est 3/p = 95% de celle de l’ANOVA. Calculer puissance de l ’ANOVA paramétrique comme estimé de la puissance de l ’ANOVA non-paramétrique. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05