et discussion de l'article 2 Cours 5 Analyse de variance et discussion de l'article 2 6 février BIO 3500 – Hiver 2017
Préambule Que signifie α?
Préambule Que signifie p? La probabilité que H0 soit vrai si on rejette H0 Autrement dit: la probabilité de se tromper en rejetant H0
Préambule Deux types d’erreurs lors d’une décision statistique Réalité (inconnu) Décision Ho vrai Ho fausse Rejet de Ho Erreur de première espèce (type I) P=α Décision correcte Puissance statistique Non-rejet de Ho Décision correcte P=1- α Erreur de seconde espèce (type II) Deux types d’erreurs lors d’une décision statistique
Préambule Si la valeur de p est supérieure à α, on rejette ou on ne rejette pas H0?
Préambule Si la valeur de p est supérieure à α, on rejette ou on ne rejette pas H0? On rejette!
Préambule Lorsqu’on pose une hypothèse, la partie mathématique doit être écrite: H0: μ1=μ2 H1: μ1≠μ2 pas ->H0: x1=x2 et H1: x1≠x2 Pourquoi à votre avis?
Préambule Lorsqu’on pose une hypothèse, la partie mathématique doit être écrite: H0: μ1=μ2 H1: μ1≠μ2 pas ->H0: x1=x2 et H1: x1≠x2 Pourquoi à votre avis? On veut inférer l’état de la population! On sait déjà si nos échantillons diffèrent.
Préambule Des questions sur le test de t et les autres éléments du cours?
Plan Discussion de l'article #2 ANOVA
Article # 2 Cézilly, F. and Boyd, V. 1989. Ajustement postural et capture des proies chez l'aigrette garzette, Egretta garzetta. Revue d'Écologie : Terre et Vie, 44(1), 95- 102.
Article # 2: Intro Difficulté de mesurer le fitness : Dans bien des cas, on veut déterminer ce qui est le mieux… mais mesurer la survie de la descendance, c’est un grand défi! Utilisation de proxy , ex: croissance
Article # 2: Intro Optimal foraging theory: Les animaux devraient théoriquement maximiser le gain en énergie/temps
Discussion de l’article En groupe de 3-4, 20-30 minutes: Questions sur le contenu de l’article Quelle est la question de recherche? En quoi est-elle différente de ce qui a été fait avant? Formulez les hypothèses pour les tests de t. Quel type de test de t? C’était le bon choix? Unilatéral ou bilatéral? Les résultats? On rejette H0? Quelles sont les réponses obtenues? Avez-vous trouvé l’article bien écrit? Qu’est-ce que vous n’avez pas compris? Des points qui pourraient remettre les résultats en cause?
Pour le 20 février Nous discuterons l'article #3 Vous devez lire l'article #3 attentivement. Pour chacune des sections suivantes, donnez quelques critiques positives ou négatives par rapport à ce que l'on a vu à propos de la FONCTION de chaque partie d'un article de recherche en faisant directement référence au contenu de l'article #3. Titre Résumé Introduction Méthodes Résultats Discussion
Plan Discussion de l'article #2 ANOVA
ANOVA Analyse de variance
Comparaison de moyennes Test de t pour comparer deux moyennes Analyse de variance ou ANOVA (de l’anglais analysis of variance) pour comparer plusieurs moyennes
Comparaison de moyennes Pourquoi ne pas faire pleins de tests de t pensez- vous? ex. 4 groupes -> 6 tests t
Comparaison de moyennes Pourquoi ne pas faire pleins de tests de t pensez- vous? ex. 4 groupes -> 6 tests t Ces comparaisons ne sont pas indépendantes. Si X1=X2 et X3>X1, alors probablement que X3>X1. L’erreur alpha augmente avec le nombre de comparaisons: 1-(1-alpha)c, où c=nbr de comparaisons
Comparaison de moyennes Une comparaison entre 2 groupes à un seuil alpha 0.05 donne une erreur alpha de 0.05 Une seconde comparaison dans le même échantillon occasionne une seconde erreur de 0.05, etc... Donc l’erreur augmente. ex: Pour 3 tests, alpha=1-(1-alpha)c=1-(1-0.05)3=0.143
Comparaison de moyennes Taux d’erreur pour un ensemble de comparaisons: α= Erreur réelle α= α= Nombre de comparaisons
L’ANOVA et le test t Lorsqu’il n’y a que deux moyennes à comparer, les deux tests s’appliquent également On trouvera qu’ils produisent la même probabilité et que la statistique F = la statistique t2 L’ANOVA utilise la loi de Fisher (distribution F) comme distribution des probabilités au lieu de la distribution de t.
L’analyse de variance H0: les moyennes sont égales H1: au moins une moyenne diffère des autres moyennes À noter: l’analyse de variance ne permet pas de distinguer qu’elle(s) moyenne(s) diffèrent des autres. Il faut faire un test à postériori pour les identifier (test post hoc).
L’analyse de variance Fonctionnement: Rapport de la variance intergroupe et de la variance intragroupe Variance inter: effet de traitement Variance intra: terme d’erreur, variance non expliquée L’analyse vérifie si la variance entre les moyennes est supérieure à la variance à l’intérieur de chaque variable.
L’analyse de variance
L’analyse de variance
L’analyse de variance
L’analyse de variance Variabilité intra Variabilité inter
ANOVA (exemple) Question: Est-ce que dormir 4h, 6h ou 8h avant un examen influence le résultat obtenu? H0: ? H1: ?
ANOVA (exemple) Question: Est-ce que dormir 4h, 6h ou 8h avant un examen influence le résultat obtenu? H0: La durée du sommeil n’influence pas les résultats aux examens: μ4h=μ6h=μ8h H1: La durée du sommeil influence les résultats aux examens: μi≠μj (au moins une moyenne diffère des autres)
ANOVA (exemple) k groupes 4h 3 2 1 6h 5 4 3 8h 7 6 5 N observations (9)
ANOVA (exemple) k groupes 4h 3 2 1 6/3 6h 5 4 3 12/3 8h 7 6 5 18/3 N observations (9) X = X = moyenne globale = (3+2+1+5+4+3+7+6+5) / 9 = 4
ANOVA (exemple) k groupes 4h 3 2 1 6h 5 4 3 8h 7 6 5 N observations (9) X = 4 X = totale
ANOVA (exemple) k groupes 4h 3 2 1 6h 5 4 3 8h 7 6 5 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 SSB= 24 2 N observations (9) X = 4 X =
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 SSB= 24 2 N observations (9) X = 4 X = SST = SSW + SSB Variance totale = variance intra + variance inter ddl total = ddl intra + ddl inter
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 SSB= 24 2 N observations (9) X = 4 X = statistique F = variance inter = SSB/(k-1) = 24/2 =12 variance intra SSW/(N-k) 6/6 F(2,6)=12 -> p=0.008 On rejette?
ANOVA (exemple) k groupes ddl 4h 3 2 1 6h 5 4 3 8h 7 6 5 SST = 30 8 SSW= 6 6 SSB= 24 2 N observations (9) X = 4 X = statistique F = variance inter = SSB/(k-1) = 24/2 =12 variance intra SSW/(N-k) 6/6 F(2,6)=12 -> p=0.008 On rejette? Oui!
Calculs pour l’analyse de variance Autrement dit: Il s’agit de diviser la variance des moyennes par la variance à l’intérieur des moyennes
ANOVA (exemple) S’il y a k moyennes à comparer basées sur un total de N observations, alors les degrés de libertés sont: k-1 pour le numérateur N-k pour le dénominateur.
La loi de Fisher (distribution F)
L’analyse de variance alpha=0.05, F(k-1, n-k) critique
L’analyse de variance Énoncer les hypothèses nulles et alternatives Calculer la moyenne pour chaque groupe et la moyenne globale Calculer la variance entre les moyennes (intergroupe) Calculer la variance à l’intérieur des groupes Diviser la variance inter par la variance intra pour obtenir une valeur de F Comparer la valeur de F avec la valeur critique Conclure
Un autre exemple Vous avez semé trois variétés de carottes dans votre jardin ce printemps. Laquelle a produit les plus lourdes carottes ? Votre échantillon vous donne (en gramme par carotte): Variété A: 43, 47, 50, 53, 57 Variété B: 42, 50, 56, 60 Variété C: 32, 40, 45
Résultat de l’analyse ANOVA Source des variations Somme des carrés Dégrés de liberté Moyenne des carrés F Probabilité Entre Groupes 326,917 2 163,4583 3,8112 0,0632 A l'intérieur des groupes 386 9 42,89 Total 712,917 11
Résultat de l’analyse Degrés de liberté? Variété A: 43, 47, 50, 53, 57 ANOVA Source des variations Somme des carrés Dégrés de liberté Moyenne des carrés F Probabilité Entre Groupes 326,917 2 163,4583 3,8112 0,0632 A l'intérieur des groupes 386 9 42,89 Total 712,917 11 Degrés de liberté? Variété A: 43, 47, 50, 53, 57 Variété B: 42, 50, 56, 60 Variété C: 32, 40, 45 ? ? ?
Résultat de l’analyse Conclusion ??? ANOVA Source des variations Somme des carrés Dégrés de liberté Moyenne des carrés F Probabilité Entre Groupes 326,917 2 163,4583 3,8112 0,0632 A l'intérieur des groupes 386 9 42,89 Total 712,917 11 Conclusion ???
Conclusion Il n’y a pas une forte évidence que les carottes d’une variété diffèrent de celles des autres. Il est possible que le test manque de puissance car l’effectif est petit. Réalité (inconnu) Décision Ho vrai Ho fausse Rejet de Ho Erreur de première espèce (type I) P=α Décision correcte Puissance statistique Non-rejet de Ho Décision correcte P=1- α Erreur de seconde espèce (type II)
La distribution de F est influencée par la variance des échantillons ! Plus la variance dans les groupes est élevée, plus le dénominateur sera grand -> plus f sera petit -> plus p sera élevé
Test post-hoc Si l’ANOVA est significative, on peut dire: H0: les moyennes sont égales H1: au moins une moyenne diffère des autres moyennes
Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt) Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur alpha afin d’obtenir un alpha global desiré. Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs
Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt) Test de Tuckey : Résultats Les groupes A et B ne diffèrent pas. Les groupes B et C non plus. A et C diffèrent. A, B et C diffèrent de D et E. Groupe A Groupe B Groupe C Groupe D Groupe E A B C
En équipe Développez pour l’ANOVA. 1 question Les hypothèses Les données à récoltées Les variables, leur types