La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation.

Présentations similaires


Présentation au sujet: "Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation."— Transcription de la présentation:

1 Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation

2 Analyse de la variance à 1 facteur Objectif : nous avons effectué des inférences sur une moyenne de population, puis comparé 2 moyennes. L’ANOVA à 1 facteur permet de comparer simplement plusieurs moyennes. Exemple : nous voulons comparer 3 machines. Mais la comparaison est délicate car leur production horaire respective est variable (facteur « humain » des individus qui les manipulent, etc.). Pour pallier ces variations en espérant qu’elles se compensent, on va prélever de manière aléatoire et pour chaque machine un échantillon de 5 productions horaires.  Les machines ont-elles vraiment des productions différentes ?

3 Analyse de la variance à 1 facteur Machine 1Machine 2Machine 3 47 53 49 50 46 55 54 58 61 52 54 50 51 49 = 49= 56= 51= 52 -34= 0 9161= 26

4 Analyse de la variance à 1 facteur « Les machines sont-elles vraiment différentes ? » revient à s’interroger sur les raisons des différences entre les 3 moyennes d’échantillon du tableau précédent. 2 explications sont possibles : les moyennes d’échantillon varient à cause des différences entre les moyennes des populations sous-jacentes μ1, μ2, μ3 (avec μ1 la production au cours de la durée de vie de la machine 1)  c’est ce que l’on veut montrer ou bien, les différences entre les moyennes d’échantillon ont comme origine les seules fluctuations aléatoires.  Les variations sont-elles dues à des fluctuations aléatoires ou sont- elles suffisantes pour indiquer une différence entre les μ sous-jacents ?

5 Analyse de la variance à 1 facteur Pour répondre à la question, il faut commencer par formuler l’hypothèse nulle H0 (absence de différence entre les μ): H0 : μ1 = μ2 = μ3 Pour tester cette hypothèse, il faut tout d’abord réaliser une mesure numérique des écarts entre les moyennes d’échantillon. On calcule donc la variance des moyennes : avec a = nombre de moyennes d’échantillons (ou de colonnes)

6 Analyse de la variance à 1 facteur On vient de calculer une variation entre machines. Cependant, si, au sein de chaque échantillon les variations étaient plus importantes (par exemple, que les mesures sur la machine 1 ne varient pas de 46 à 53 mais de 40 à 60), alors on se rend bien compte que notre analyse perdrait de sa pertinence, puisque les comparaisons entre machines seraient moins fiables.  On ne peut pas se contenter de la variance entre moyennes, il faut calculer la variance de production commune (totale) : i i i

7 Analyse de la variance à 1 facteur Calcul du carré des écarts au sein du 1er échantillon (machine 1) : On réalise le même calcul pour les échantillon (machines) 2 et 3, et on en fait la somme. On divise enfin par le nombre total de degrés de liberté pour l’ensemble des 3 échantillons (n-1 = 4 pour chacun). On obtient la variance commune (ou variance résiduelle) :

8 Analyse de la variance à 1 facteur Nous en arrivons à la question clé : la variance des moyennes d’échantillon est-elle plus grande que la variance commune ? Le rapport est-il grand ? On utilise en fait traditionnellement un rapport noté F en mémoire du célèbre statisticien anglais Sir Ronald Fisher (1890-1962) :

9 Analyse de la variance à 1 facteur On a introduit n au numérateur afin de le rendre égal, en moyenne, au dénominateur (sous H0), pour faire fluctuer le rapport F autour de 1 2. Si H0 n’est pas vraie (si les μ sont différents), alors sera relativement grand par rapport à V(p), et le rapport F tendra à être bien plus grand que 1. Par conséqeunt, plus F est grand, moins l’hypothèse nulle est crédible. Pour évaluer numériquement la crédibilité de H0, on calcule sa probabilité critique. La distribution de F dépend des ddl de la variance du numérateur (a-1) et de ceux de la variance du dénominateur a(n-1). ddl = (a-1) et a(n-1)

10 Analyse de la variance à 1 facteur Application à l’exemple introductif : Nous avons déjà calculé la variance des 3 moyennes : et la variance résiduelle au sein des 3 échantillons : V(p)=7,83 Nous pouvons donc calculer le F de Fisher : Et le nombre de degrés de liberté :ddl = (a-1) et a(n-1) ddl = (3-1) et 3(5-1) = 2 et 12

11 Analyse de la variance à 1 facteur On consulte une table de Fisher : pour ddl = 2 et 12, on trouve 5 valeurs critiques énumérées dans une colonne que l’on parcourt de haut en bas, jusqu’à ce que l’on trouve que la valeur observée de F (8,3) soit supérieure à F 0,01 = 6,93. On en conclut que p.c. < 0,1 Cela signifie que sous H0 (rappel : μ1 = μ2 = μ3) il y a 1 % de chances d’obtenir des moyennes d’échantillons qui diffèrent autant.  On rejette donc H0, et on conclut que les productions des 3 machines sont bien significativement différentes (avec une probabilité de se tromper inférieure à 1 %).

12 Analyse de la variance à 1 facteur p(F) F 01510 F 0,01 =6,93F observé=8,13 p.c. < 0,01 0,01 Valeur critique de la distribution de F sous H0 :

13 Analyse de la variance à 1 facteur Méthodologie : Présenter les données sous la forme de 2 colonnes : 1 colonne « machine » avec codage 1,2,3 et 1 colonne « production » avec les données brutes. Analyse  comparer les moyennes  ANOVA à 1 facteur Variable dépendante : production Critère : machine

14 Analyse de la variance à 1 facteur Présentation des résultats : Remarque : SPPS est programmé pour corriger de lui-même les comparaisons d’échantillons de tailles inégales facteur A résidu (erreur)

15 Analyse de la variance à 1 facteur Exercice 1 Les 3 machines suivantes ont-elles des productions significativement différentes ?à réaliser sous Excel (3 col) puis SPSS (2 colonnes) Machine 1Machine 2Machine 3 50 42 53 45 55 48 57 65 59 51 57 59 48 46 45

16 Analyse de la variance à 1 facteur Réponse : On a ddl = 2 et 12, et on trouve donc une valeur observée de F=1,67, ce qui est juste supérieur à F 0,025 =1,56. La p.c. est donc juste < 25%.  Ce niveau de crédibilité est insuffisant, on ne rejette pas H0. Il se peut fort bien que les différences entre les moyennes d’échantillon proviennent de l’irrégularité des machines et non d’une différence entre machines.

17 ANOVA à 2 facteurs Principe : décomposer la variance d’une variable en fonction de l’influence d’autres variables et d’une partie aléatoire : Pour comparer les machines, dans l’ANOVA à 1 facteur, on va prélever des échantillons aléatoires indépendants de 5 productions sur chacune des 3 machines, employant ainsi 15 ouvriers différents. Cela peut poser problème : les différences peuvent être liées aux ouvriers et non aux machines ! Pour éliminer ce « bruit externe », on emploi 5 ouvriers, et on fait travailler chacun d’entre eux sur les 3 machines. Les résultats fournis seraient alors du type 3 échantillons appariés (dépendants). Les notations sont plus complexes, mais on gagne en précision… Exemple :

18 18 MachinesVariations ouvriers Ouvrieri=1i=2i=3Moyenne ouvriers j=1 j=2 j=3 j=4 j=5 53 47 46 50 49 61 55 52 58 54 51 49 54 50 55 51 49 54 51 3 -3 2 9194191941 Moyenne machines 495651= 52024x3=72 Variations machinesa = 3 = nbre machines b = 5 = nbre ouvriers -340 916126x5=130

19 ANOVA à 2 facteurs L’analyse débute par le calcul des sommes carrées (SC) pour chacun des 2 facteurs A (machines) et B (ouvriers) : SC des machines : SC des ouvriers

20 ANOVA à 2 facteurs Il faut ensuite calculer la somme carrée des résidus… Dans l’ANOVA à 1 facteur, on calculait la SC résiduelle en observant la dispersion de chaque observation par rapport à sa valeur ajustée (la moyenne de la machine). Avec l’ANOVA à 2 facteurs, les valeurs ajustées (ou prévues) incluent à la fois la moyenne de l’ouvrier et de la machine. Par exemple, comment peut-on prédire la production du 1er ouvrier sur la 2nde machine ?

21 ANOVA à 2 facteurs La 2nde machine est relativement bonne (56) : elle dépasse la moyenne (52) des 3 machines de 4 unités. Le 1er ouvrier est aussi assez bon : il dépasse, avec 55, la moyenne des 5 ouvrier de 3 unités.  En ajoutant ces 2 composantes à la moyenne globale = 52, on obtient la valeur prévue X suivante : X 21 prévue=52+4+3=59 En comparant cette valeur prévue à la valeur observée X 21 =61 on calcule le résidu qui est : 61-59=2.

22 ANOVA à 2 facteurs Dans le cas général d’une ANOVA à 2 facteurs, on retiendra que : La valeur prévue est : ici : moyenne globale + ajustement « machine » + ajustement « ouvrier » La valeur résiduelle est : Résidu=X ij -X ij La somme carrée totale est égale à : SC totale = SC facteurA + SC facteurB + SC résidu

23 ANOVA à 2 facteurs Une fois que la somme carrée totale a été scindée en ses composantes (facteur 1 + facteur 2 + résidu), on peut tester s’il y a une différence discernable entre machines. On peut également tester s’il y a une différence discernable entre ouvriers. Dans chacun des 2 tests, l’influence externe de l’autre facteur sera prise en compte. On calculera, dans l’ordre les 2 coefficients de Fisher : F 1 =variance expliquée par les machines  variance inexpliquée et F 2 =variance expliquée par les ouvriers  variance inexpliquée

24 ANOVA à 2 facteurs Valeurs ajustéesValeurs résiduelles 52 48 46 51 48 59 55 53 58 55 54 50 48 53 50 1 0 1 2 0 0 -3 1 0 Somme des carrés résiduelle : SC résidu = 1 2 +2 2 +…+0 2 = 22

25 ANOVA à 2 facteurs SourceSCddlCMFp.c. Machines Ouvriers Résidu 130 72 22 248248 65 18 2,75 23,6 6,5 P<0,001 P<0,05 Total22414 Résultats : F 1 =65/2,75=23,6F 2 =18/2,75=6,5 CM=SC/ddl

26 ANOVA à 2 facteurs Interprétation : On conclut au seuil d’erreur de 5% qu’il y a une différence entre les ouvriers. On conclut aussi, cette fois avec un seuil d’erreur de 0,1% qu’il y a une différence entre machines.  On a affiné l’analyse ANOVA à 1 facteur en supprimant des interférences inutiles. Grâce à l’échantillon apparié, notre test est plus fiable.

27 ANOVA à 2 facteurs Exercice Sous SPSS, réalisez une ANOVA à 2 facteurs afin de déterminer dans quelles mesures les variations de production sont liées aux machines ou aux ouvriers. Machines Ouvrieri=1i=2i=3 j=1 j=2 j=3 j=4 j=5 53 47 46 50 49 61 55 52 58 54 51 49 54 50

28 ANOVA à 2 facteurs Réponse : Il faut recoder les données en trois colonnes : production, ouvriers et machines. Analyse  Modèle linéaire général  Univarié Variable dépendante : production Facteurs aléatoires : ouvriers et machines

29 ANOVA à 2 facteurs

30 Conditions d’utilisation L’ANOVA sert à évaluer les écarts des valeurs moyennes d’une variable dépendante quantitative sous l’effet d’une ou de plusieurs variables indépendantes qualitatives (ou encore « facteurs »). Si la série de variables indépendantes (facteurs) comprend à la fois des variables qualitatives (au moins 1) et quantitatives, on emploie l’analyse de la covariance (ANCOVA). Dans ce cas, les variables indépendantes qualitatives sont toujours appelées « facteurs », mais les variables indépendantes quantitatives s’appelent alors « covariables ».

31 Conditions d’utilisation Exemple Vous êtes chargé d’étude chez société de production agroalimentaire. Vous cherchez à comprendre quelles variables indépendantes expliquent la préférence envers votre marque. La préférence est évaluée de manière métrique, il s’agit donc d’une variable indépendante quantitative. Si vous retenez la consommation (faible vs moyenne vs forte) et la fidélité à la marque (fidèle vs non fidèle) comme variables indépendantes (qualitatives), vous devrez réaliser une ANOVA à 2 facteurs. Si en plus de ces 2 facteurs vous souhaitez considérer l’attitude (échelle métrique) des répondants en matière de nutrition, vous devrez avoir recours à une ANCOVA.

32 Conditions d’utilisation En toute rigueur, pour avoir recours à l’ANOVA ou l’ANCOVA, il est nécessaire que : les erreurs suivent une loi normale, avec une moyenne nulle et une variance constante. Dans le cas contraire, il est préférable d’utiliser un test non-paramétrique comme le U de Mann-Whitney ou un test de Kruskal-Walis. il ne doit pas y avoir de corrélation entre les erreurs. Dans le cas contraire (c’est à dire si les observations ne sont pas indépendantes), le test F peut être altéré.

33 Conditions d’utilisation Pour vérifier que la variable métrique dépendante suit bien une loi de distribution normale : Coefficient d’asymétrie (skewness) < 1 (en valeur absolue) Coefficient d’aplatissement (kurtosis) < 2 (en valeur absolue)  A vérifier lorsqu’on demande les fréquences des variables (dans le menu statistiques) Ou bien Test de Kolmogorov-Smirnov (Analyse  tests non paramétriques)

34 Conditions d’utilisation Si le test de Levene n’est pas significatif : on fait l’hypothèse de variances égales (ligne du haut). Si le test de Levene est significatif, on fait l’hypothèse de variances inégales (ligne du bas). Pour vérifier que les variances sont bien égales :


Télécharger ppt "Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation."

Présentations similaires


Annonces Google