Comparaison de plusieurs moyennes observées = Analyse de Variance (ANOVA)
Position du problème : On a trois nouveaux traitements A, B et C contre l’hypertension artérielle. On désire savoir s’ils entraînent la même baisse de la tension artérielle systolique et si c‘est le cas lequel est le meilleur.
Méthode : Pour répondre au problème posé, on va administrer par tirage au sort, les trois traitements à trois groupes de patients +++. Problème : comment analyser les résultats ?
Hypothèses de départ : Ho = les moyennes des pressions artérielles dans les 3 groupes ne diffèrent pas Ho = µ1 = µ2 = µ3 H1 = les moyennes des pressions artérielles diffèrent : au moins deux des trois moyennes diffèrent
Principe de l’analyse de la Variance On peut comparer les moyennes observées dans nos trois groupes par un test Σ ou un test t : A x B, A x C, B x C mais on augmente notre risque +++ rappel : En effet, pour chaque test, on a un risque = 0,05, donc la probabilité de retenir H0 si H0 est vraie est égale à 0,95 et ceci pour chaque comparaison
la probabilité que nos 3 tests conduisent à une décision correcte va être alors = 0,95 3 = 0,85 il y a donc 15% de chances que l’un au moins des 3 tests détecte une différence statistique qui n’existe pas
Principe de l ’analyse de la Variance : On va essayer d ’éviter d ’augmenter le risque en scindant la variance totale observée sur l’ensemble des mesures, en variance inter- groupe et variance intra - groupe
Variabilité intra-groupes mesurée par la variance intra-groupe résiduelle variance« due au hasard » Variabilité inter-groupes mesurée par la variance inter-groupe
Principe du test d ’analyse de variance : La comparaison des moyennes de C ( avec C > 2) séries de mesures d ’une quantité X ( ex la Tension artérielle) est basée sur le rapport F : test de Fisher - Snedecor Variance " inter - groupes" F = Variance " intra - groupes" Conditions d’application du test d ’analyse de variance : Les distributions des populations d’où proviennent les échantillons doivent être normales et de même variance
Total général des carrés = x2 = 130 500 Calcul de F : Effectif total N = ni = 15 Total général de l’ensemble des valeurs TG = Ti = 1390 Total général des carrés = x2 = 130 500
å ( ) 1 - Calcul de la variance inter-groupes Somme des carrés des écarts (SCE) V = 1 Nombre de degrés de libertés SCE (avec C = nombre de groupes ) V = - 1 C 1 avec 2 2 å ( Ti ) TG - SCE N = ni
å å ( ) Ti = x - ni 2 - Calcul de la variance intra-groupes SCE Somme des carrés des écarts (SCE) V = 2 Nombre de degrés de libertés SCE avec V = 2 N - C ( å å Ti 2 ) = x 2 - SCE ni
3 - Déduction : variance totale 2 å SCE T 2 G - = x V = - N T N 1
Tableau de l ’analyse de variance Somme des carrés Nbre de degrés Origine Variance des écarts (2) de libertés (3) 2 2 å Ti ( ) Inter -groupes TG - - N C 1 V1 = (2)/(3) ni Intra-groupes ( å å ) Ti 2 x 2 - N - C V2 = (2)/(3) ni (ou résiduelle) 2 å T G x 2 - N - 1 Totale N Variance " inter - groupes" V1 F = = V2 Variance " intra - groupes"
å å ( ) ( ) ( ) ( ) ( ) T 1390 = = 128 806 N 15 x = 100 + 105 + 95 + Exemple numérique calcul ( ) 2 T 2 1390 = = G 128 806 N 15 ( ) 2 ( ) 2 ( ) 2 å ( ) 2 x 2 = 100 + 105 + 95 + ... + 95 = 130 500 å T 2 (500) 2 (415) 2 (475) 2 = + + = i 129 570 n 5 5 5 i déduction des ddl : C - 1 = 3 - 1 = 2 N - C = 15 - 3 = 12
å å å å ( ) ( ) Ti - ni x x Ti TG - N C - 1 = 2 381,6 ni N - C = 12 Somme des carrés Nbre de degrés Origine Variance des écarts (2) de libertés (3) 2 2 å Ti ( ) TG - Inter -groupes N C - 1 = 2 381,6 ni 129 570-128 806 = 763 å å ( 2 ) Intra-groupes x 2 - Ti ni (ou résiduelle) N - C = 12 77,5 130 500 -129 570 = 930 2 å T G Totale x - 2 N - 1 = 14 N 130 500 -128 806 = 1693 381,6 Variance " inter - groupes" F = 4,92 = = Variance " intra - groupes" 77,5
Statistique : On lit dans la table des F (Table de Fisher), pour un risque déterminé, la valeur correspondante. Cette valeur dépend du nombre de degrés de libertés du numérateur et du dénominateur du test F 1ère table pour = 0,05 F 2,12 = 3,89 2ème table pour = 0,01 F 2,12 = 6,93 Conclusion : Puisque F vaut 4,92, on peut en conclure avec un risque , inférieur à 5 % que 2 moyennes au moins différent
Cependant après avoir rejeté l ’hypothèse d ’égalité des moyennes des traitements (rejet Ho) on doit poursuivre l ’analyse pour rechercher 2 à 2 les moyennes qui diffèrent (A x B, A x C, B x C) Plusieurs tests sont disponibles : test de Newman-Keuls test de Bonferroni test de Dunnett test t dit « protégé »
exemple du test t dit « protégé » : on a rejeté l ’hypothèse Ho, on peut poursuivre l ’analyse en comparant les moyennes de 3 groupes 2 à 2, par un t test dit « protégé », qui utilise comme variance commune, la variance résiduelle et qui a comme ddl, le ddl de la résiduelle m - m 100 - 83 t = A B = A - B V V 77 , 5 77 , 5 2 + 2 + n n 5 5 A B
les t sont comparés à t = 5% avec ddl = N-C on regarde alors quelle(s) comparaison(s) 2 à 2 sont significatives