Comparaison de plusieurs moyennes Analyse de variance FRT C5
Question posée Etude de la relation entre Une variable qualitative à plus de 2 classes Une variable quantitative X résumée par sa moyenne et sa variance
Question posée Etude de la relation entre Une variable qualitative à plus de 2 classes Une variable quantitative X résumée par sa moyenne et sa variance La variable qualitative qui distingue les populations est le facteur étudié; il peut être aléatoire ou fixe Comparaison du poids moyen de plusieurs portées de souris : facteur « portée » est aléatoire Comparaison d’un dosage biologique chez 3 groupes de malades traités par 3 traitements différents : facteur traitement est fixe Même problème mais 1 groupe recevant un placebo
Hypothèses H0 : 1 = 2 = ……. = k H1 : il existe au moins une différence entre les k moyennes (2 moyennes parmi k sont ≠) On fera l’hypothèse que la variance est la même ² dans les k populations Exemple : k=3, même variance ² Sous H1, 1,2,3 sont différentes en regroupant, la moyenne générale est et la variance totale T²
Représentation graphique ² T² X 2 ● 1 ● ● 3● H1 : les moyennes sont différentes La variance totale T²est plus grande que la variance ² de chaque population et d’autant plus grande que les moyennes sont + dispersées
Hypothèses H0 : 1 = 2 = ……. = k H1 : il existe au moins une différence entre les k moyennes On fera l’hypothèse que la variance est la même ² dans les k populations Exemple : k=3, même variance ² Sous H1, 1,2,3 sont différentes en regroupant la moyenne générale est et la variance totale T² Si H0 est vraie, T² = ²
Représentation graphique ² T² X X T² ² 2 ● 1 ● ● 1 ● 2 ● 3● ● 3● H0 : moyennes et variances étant égales dans les 3 populations, T² = ² H1 : les moyennes sont différentes La variance totale T²est plus grande que la variance ² de chaque population et d’autant plus grande que les moyennes sont + dispersées
Principe On peut comparer les moyennes de X dans les différentes populations en comparant la var ² de X à « l’intérieur » de chacune des populations à la var T² On transforme le problème initial en une comparaison de variance = analyse de variance
Principe On peut comparer les moyennes de X dans les différentes populations en comparant la var ² de X à « l’intérieur » de chacune des populations à la var T² On transforme le problème initial en une comparaison de variance = analyse de variance L’ampleur de la dispersion totale de T² dépend : De la dispersion au sein de chacune des k populations comparées, mesurée par ² De la dispersion entre ces populations
Représentation graphique moyennes plus dispersées, ² plus grande T² plus grande ² T² ² T² X X 2 ● 2 ● 1 ● ● 1 ● ● 3● 3●
Principe de l’ANOVA Décomposer la dispersion (=variabilité) totale en 2 parties permettant de distinguer : variabilité intra population et variabilité inter population Puis comparer ces 2 parties
Principe de l’ANOVA Décomposer la dispersion (=variabilité) totale en 2 parties permettant de distinguer : On s’intéresse à la somme des carrés des écarts qui est le numérateur de la variance Une réécriture de la SCET permet de faire apparaître SCET = (xij – mj)² + nj(mj – m)² = SCER + SCEA ij ij intra groupe inter groupes *résiduelle : ce qui reste une fois le facteur d’intérêt pris en compte résiduelle* ou intraclasses à (n-k) ddl due au facteur A ou interclasses à (k-1) ddl
Principe de l’ANOVA Les variances sont donc : Hypothèses : SCER et SCEA et sR²est une n – k k – 1 estimation de ² Hypothèses : H0 : A² = R² = ² H1 : A² > R² Test : sA² SCEA/(k-1) suit une loi de Fisher sR² SCER/(n-k) à (k-1) et (n-k) ddl notée F k-1 n-k
En pratique Quand une question posée est : les 3 traitements ont-ils ou non la même efficacité ? Traiter le pb globalement (comme un ² > 1 ddl) ANOVA 1) non rejet de H0 : stop 2) rejet de H0 : au moins 1 des traitements est différent des autres Comparaisons 2 à 2 pour savoir où se situe la différence (interdit si NS) En prenant un risque < 0,05 pour que globalement le risque soit de 0,05 Pour cela /nb de comparaisons, ici /3 = 0,017 (méthode de Bonferroni)