Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
On compare Une variable quantitative, Une variable qualitative ( plus de 2 catégories – vrai aussi pour 2 catégories) Exemple : Impact du niveau d’instruction (variable qualitative ordinale) sur le revenu (variable quantitative). …On conclura, sous certaines conditions, qu’il existe une relation si les moyennes de revenus des gens ne sont pas les mêmes dans les différentes catégories
Primaire.Secondaire.1er cycle.> 1er cycle Prim.Second.1er cycle. > 1er cycle. Salaire à 10 ans en milliers d' € r
Les différences sont-elles causées par des erreurs d’échantillonnage ou reflètent-elles aussi des différences réelles dans les quatre populations. Hypothèse nulle : Les moyennes de revenus entre les groupes sont égales. (« proviennent de la même population ») Hypothèse alternative : elles sont différentes
Deux conditions pour conclure que les moyennes dans les populations sont différentes. Plus les différences entre les moyennes d’échantillon sont grandes, plus il est probable que les différences entre les moyennes des populations sont réelles. Dans le langage de l’analyse de variance cela signifie que : plus la variance entre les moyennes de groupes est grande, plus la probabilité est forte que les différences entre les moyennes de populations existent. D’autre part, on sera plus confiant que les différences entre les moyennes de populations sont réelles si la variation autour de ces moyennes est petite. Dans le langage de l’analyse de variance, cela revient à dire que plus la variance autour des moyennes de groupes est petite, plus la probabilité est forte que les différences entre les moyennes de populations existent.
Calcul variance inter et intra groupe (1) Calculons la variance intergroupe et la variance intragroupe. Imaginons que nous prenons 20 observations aléatoires (x 1, x 2,..., x 20 ) de la même population statistique de moyenne théorique 5.0 et l'écart type de 20. Ensuite, nous calculons la variance entre ces 20 observations: Variance totale: ou n=20
Anova (2) Ici, S 2 totale représente la variance de toutes les observations ("la grande variance") Maintenant, nous divisons nos 20 observations au hasard dans 4 groupes de 5 observations. Puisque toutes ces observations viennent de la même population statistique normale avec un seul et un seul , les différences entre la variance mesurée à l’intérieur de chaque groupe sont dues seulement aux fluctuations d’échantillonnage. La variation entre les estimations des moyennes de chaque groupe est aussi due aux mêmes fluctuations d’échantillonnage. Le test de « F » est basé sur le fait que ces deux sortes de variances seront égales, sauf pour les fluctuations d’échantillonnage.
Anova (3) Pour mesurer ces deux sortes de variance, il faut décomposer la variance totale en variance intragroupe (à l’intérieur des groupes) et variance intergroupe (la variance entre les groupes). Décomposition de la variance totale Nous allons décomposer la variance totale en deux parties: une variance due aux différences à l'intérieur de chaque groupe (VARIANCE INTRAGROUPE) et une variance due aux différences entre les quatre moyennes des quatre groupes (VARIANCE INTERGROUPE).
VARIANCE INTRAGROUPE ou variance résiduelle 1 Ceci est la variation des observations dans chaque groupe autour de la moyenne de chaque groupe. Si nous voulions calculer ces variances indépendamment pour chaque groupe, nous pourrions calculer: groupe 1: groupe 2: groupe 3: groupe 4:
VARIANCE INTRAGROUPE ou variance résiduelle 2 Puisque nous voulons calculer la variance intragroupe simultanée, il faut utiliser la formule suivante: k= nombre de groupes On calcule les degrés de liberté pour la variance intragroupe qui est n-k.
VARIANCE INTERGROUPE La variance des moyennes de chaque groupe autour de la moyenne de toutes les observations ensemble. Ceci est la variance totale que nous aurions eu si la variance intragroupe était zéro. Les degrés de liberté pour la variance intergroupe sont k-1. Si les observations dans les différents groupes viennent toutes de la même population statistique, la variance intragroupe égale la variance intergroupe. Le ratio de ces deux variances (F) suit une distribution de Fisher, avec une moyenne théorique de 1.
Passage aux variances intra groupes et inter groupes N = nombre total d’observations k = nombre de catégories
Le test F : Hypothèse nulle : Les moyennes de revenus entre les groupes sont égales. Plus CMG est grand et CME petit, plus on aura tendance à penser que les moyennes de populations ne sont pas égales. F = Var inter / Var intra
F = variance intergroupe/ variance intra ou résiduelle On peut consulter la table des valeurs théoriques de F de Fisher. Degrés de liberté du numérateur: k-1 Degrés de liberté du dénominateur: N –k On peut de manière équivalente tester l’existence de la relation entre les deux variables en examinant la valeur p correspondant à F. Si cette valeur p est inférieure à 0,05, on rejette l'hypothèse nulle et on conclut que la relation existe..