Analyse de variance à un critère de classification (ANOVA)

Name: Analyse de variance à un critère de classification (ANOVA)
Uploaded: 2017-10-14T17:29:27+00:00
Duration: PTM23S8
Channel: Violette Falardeau
Description: Analyse de variance à un critère de classification (ANOVA)

Analyse de variance à un critère de classification (ANOVA)
Quand utiliser l’ANOVA Les modèles d’ANOVA et la répartition des sommes des carrés ANOVA: test d’hypothèses ANOVA: conditions d’application Alternative non-paramétrique: Kruskall-Wallis Puissance Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Quand utiliser l’ANOVA
Pour tester l’effet d’une variable indépendante “discrète” chaque variable indépendante est appelée un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: rendement du maïs fertilisé à l’azote (N) ou au phosphore et à l’azote (P+N) l’ANOVA teste si toutes les moyennes sont égales On l’utilise quand le nombre de niveaux est supérieur à deux Fréquence mC mN mN+P Rendement Contrôle Expérimental (N) Expérimental (N+P) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Pourquoi ne pas utiliser plusieurs tests de t?
mc :mN mN:mN+P mC: mN+P Rendement Fréquence mC mN mN+P Pour un nombre de comparaisons k , si H0 est vraie, la probabilité de l’accepter pour tous les k est (1 - a)k pour quatre moyennes, (1 - a)k =(0.95)6 = .735 alors, a (pour toutes les comparaisons) = 0.265 alors en comparant les moyennes des quatre échantillons provenant de la même population on s’attend à détecter des différences significatives pour une paire dans 27% des cas Contrôle Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Possibilités et limites de l’ANOVA
mN+P Fréquence Permet de tester si toutes les moyennes sont égales (au niveau a)... …mais si on rejette H0, l’ANOVA ne dit pas lesquelles mC mN Fréquence Témoin Expérimental (N) Expérimental (N+ P) mC mN mN+P Rendement Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Types d’ANOVA Type I (“effets fixes”): les traitements sont déterminés par le chercheur Type II (“effets aléatoires”): les traitements ne sont pas sous le contrôle de l’expérimentateur Type III (“modèle mixte”): au moins un facteur du Type I et au moins un du Type II Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

ANOVA Type I: effet de la température sur le taux de croissance de la truite
3 traitements déterminés par le chercheur la variable dépendante est le taux de croissance (l), et le facteur (X) est la température X étant contrôlé, on peut estimer l’effet de l’augmentation d’une unité de X (température) sur l (le taux de croissance)... …et prédire l pour d’autres températures ou dans d’autres expériences à la même température Température (ºC) 16 20 24 28 0.00 0.04 0.08 0.12 0.16 0.20 Taux de croissance l (cm/jour) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

ANOVA Type II: poids de l’ours noir et dispersion géographique
3 sites (groupes) échantillonnés variable dépendante est le poids, et le site est le facteur (X) Pour des sites différents les facteurs contrôlant la variabilité sont inconnus... …alors, on ne peut prédire le poids pour d’autres sites 120 160 200 240 280 Poids (kg) Riding Kluane Algonquin Mountain Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Différences entre les modèles
Pour le Type I, les facteurs peuvent être manipulés par l’expérimentateur, pas dans le Type II Le Type I nous permet d’estimer l’effet du traitement, de faire des prédictions, pas le Type II Les calculs pour les deux types sont identiques mais seulement pour l’ANOVA à un critère de classification! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Pourquoi le nom ANOVA? Dans une ANOVA, la variance totale est répartie en deux composantes: intergroupe: variance des moyennes des différents groupes (traitements) intragroupe (erreur): variance des observations autour de la moyenne du groupe Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

ANOVA: modèle général Le modèle général:
Y m Le modèle général: Les algorithmes de l’ANOVA suivent ce modèle (par les moindres carrés) afin d’estimer les ai H0: tous les ai = 0 m =m1 = m2 = m3 Y m a1 = a2 = a3= 0 Groupe 1 Groupe 2 Groupe 3 Groupe Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Répartition de la somme des carrés totale
Y m m3 m1 SC Totale SC Modèle (Groupes) SC Erreur Groupe 1 Groupe 2 Groupe 3 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Tableau d’ANOVA å å ( - Y Y ) å n ( - Y ) Y ( å å Y - ) Yi Sources
de variation Somme des carrés Degré de liberté (dl) Carré moyen (MS) F k n i å å ( - Totale Y Y ) 2 n - 1 SC/dl ij i = 1 j = 1 MSintergroupe MSerreur k Inter- groupe å n ( - Y ) Y 2 k - 1 SC/dl i i i = 1 k n i ( Erreur å å Y - ) 2 Yi n - k SC/dl i j i = 1 j = 1 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Composantes de la variance et moyennes des groupes
Rendement Frequence mC mN mN+P F plus petit F plus grand MSintergroupe mesure les différences moyennes au carré parmis les moyennes des groupes MSerreur est une mesure de la précision Témoin Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

ANOVA: l’hypothèse nulle
Rendement Frequence mC mN mN+P F plus petit F plus grand H0: les moyennes de tous les groupes sont les mêmes, ou H0: il n’y a pas d’effet des groupes, ai =0 , ou H0: F = MSintergroupe/ MSerreur = 1 pour k groupes et pour un nombre d’observations N, on compare avec la distribution de F au niveau a avec k - 1 et N - k degrés de liberté Témoin Expérimental (N) Expérimental (N+ P) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Construction du barrage
Exemple (Lab): Variation temporelle de la taille de l’esturgeon (ANOVA type II) Prédiction: la construction d’un barrage a provoqué la perte des esturgeons de grande taille Test: comparer la taille des esturgeons avant et après la construction du barrage H0: la taille moyenne est la même pour toutes les années Construction du barrage Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Variation temporelle de la taille des esturgeons (résultats de l’ANOVA)
*** Analysis of Variance Model *** Short Output: Call: aov(formula = FKLNGTH ~ YEAR, data = Dam10dat, na.action = na.exclude) Terms: YEAR Residuals Sum of Squares Deg. of Freedom Residual standard error: Estimated effects may be unbalanced Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) YEAR Residuals Conclusion: rejeter H0 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Conditions d’application de l’ANOVA
Les résidus sont indépendants les uns des autres Les résidus sont distribués normalement La variance des résidus ne varie pas entre les traitements (homoscédasticité) À noter: ces conditions s’appliquent aux résidus et non aux données brutes …on doit tester les conditions d’application après que l’analyse soit faite et que les résidus soient obtenus Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

ANOVA: modèle général Le modèle général:
Y m Le modèle général: Les algorithmes de l’ANOVA suivent ce modèle (par les moindres carrés) afin d’estimer les ai H0: tous les ai = 0 m =m1 = m2 = m3 Y m a1 = a2 = a3= 0 Groupe 1 Groupe 2 Groupe 3 Groupe Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Pourquoi les observations doivent-elles être indépendantes?
Si elles ne sont pas indépendantes, alors le nombre réel de degrés de liberté est plus petit que le nombre de dl calculé (parfois beaucoup plus petit) … la distribution utilisée pour calculer p ne sera pas la bonne … … et p sera sous-estimé. dl calculé dl réel Probabilité t -3 -2 -1 1 2 3 t Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Vérification de l’indépendance des observations (résidus)
Examiner design expérimental. (e.g. rechercher corrélation spatio-temporelle) Graphiques d’autocorrélation pour examiner corrélation sérielle Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Test de la normalité des résidus
Vérifier la linéarité du graphique des probabilités normales des résidus Si nécessaire et justifié, faire un test de Kolmogorov-Smirnov. Penser à la puissance!! Valeurs extrêmes Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Test d’homoscédasticité I: graphique des résidus par rapport aux estimés
L’étalement des résidus est-il le même pour tous les groupes? Valeur extrême? Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Test de l’homoscédasticité II: test de Levene
Calculer la moyenne absolue des résidus pour chaque groupe Cette moyenne varie-t-elle entre les groupes? Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Test de l’homoscédasticité II: test de Levene (suite)
*** Analysis of Variance Model *** Short Output: Call: aov(formula = absres ~ YEAR, data = Dam10dat, na.action = na.exclude) Terms: YEAR Residuals Sum of Squares Deg. of Freedom Residual standard error: Estimated effects may be unbalanced Df Sum of Sq Mean Sq F Value Pr(F) YEAR Residuals Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Effets de la violation des conditions d’application
1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité Le calcul de p assume que p(F) = p(F*) mais, moins les résidus se conforment aux conditions d’application, plus l’écart entre les deux augmente alors, les valeurs de p sont incorrectes F, peu conforme F, très conforme Vrai F (F*) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Robustesse de l’ANOVA aux violations des conditions d’application
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Questions sur l’analyse des résidus
Quelles conditions d’application sont violées? L’ANOVA est-elle robuste à ces violations? Quelle est la taille de l’effectif? Est-ce que la violation des conditions est causée par la présence de valeurs extrêmes? Comment se comparent p et a? Éliminer les valeurs extrêmes et refaire analyse Transformer les données Essayer ANOVA non-paramétrique (recommandé si l’effectif est petit, c’est-à-dire < 10 par groupe) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

L’alternative non-paramétrique: ANOVA de Kruskall-Wallis
Calculer la somme des rangs (Rg) pour chaque groupe H0: RC = R1 = R2 Calculer la statistique K-W H: qui est distribué comme c2 avec k-1 dl si N pour chaque groupe est assez grand, autrement, utiliser la valeur critique de H Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Puissance en ANOVA non-paramétrique à un critère de classification
Si conditions d’application de l’ANOVA sont rencontrée, alors puissance ANOVA non-paramétrique est 3/p = 95% de celle de l’ANOVA. Calculer puissance de l ’ANOVA paramétrique comme estimé de la puissance de l ’ANOVA non-paramétrique. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :29

Analyse de variance à un critère de classification (ANOVA)

Présentations similaires

Présentation au sujet: "Analyse de variance à un critère de classification (ANOVA)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Analyse de variance à un critère de classification (ANOVA)

Présentations similaires

Présentation au sujet: "Analyse de variance à un critère de classification (ANOVA)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back