Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation.

Slides:



Advertisements
Présentations similaires
M2 Sciences des Procédés - Sciences des Aliments
Advertisements

Comparaison de plusieurs moyennes observées
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Courbes d'Interpolation Interpolation de Lagrange, et Interpolation B-spline.
TP 7 : UNE PROPRIÉTÉ DES ONDES, LA DIFFRACTION BUSQUET Stéphane LENNE Karl-Eric TS Physique-Chimie.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
I) mesure et erreurs de mesure 1) le vocabulaire à connaitre
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Notions de statistiques et d’analyse de données
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Outils de Recherche Opérationnelle en Génie MTH 8414
Statistiques descriptives univariées
Valeurs de toutes les différences observables sous H0
Comparaison de deux pourcentages.
Chapitre 4: Variation dans le temps
Dossier 4 les coûts dans l'entreprise (suite)
Représentation de l’information en binaire:
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Coefficient de corrélation linéaire
Les plans de mélange Les plans d’expérience : Présentée par :
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 12
Révision et preparation à l’examen
4.3 Estimation d’une proportion
Les modèles linéaires (Generalized Linear Models, GLM)
2.2 Probabilité conditionnelle
4.4 Tests D’hypothèses sur une moyenne
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Introduction aux statistiques Intervalles de confiance
Présentation de l'organisme d'accueil
Introduction à la recherche appliquée Quel est l’impact des normes IFRS sur la fiabilité et la transparence des états financiers marocains? Clément Rodriguez.
Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence.
Free Powerpoint Templates Page 1 Free Powerpoint Templates L’indicateur technique: Relative Strength Index (RSI)
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
© 2005, Michel Cloutier La gestion des stocks – La gestion de l’incertitude Calcul du stock de sécurité.
Fluctuations d’une fréquence selon les échantillons, Probabilités
La méthode scientifique
Rappel (3): les étapes des tests statistiques
Lois de Probabilité Discrètes
Chapitre 4: Caractéristiques de dispersion
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Présentation 8 : Redressement des estimateurs
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
Centre d’études et de recherches sur les qualifications
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
PROGRAMMATION SCIENTIFIQUE EN C
Les méthodes quantitatives en éducation
Package JADE : Analyse en composantes principales (ACI)
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Récapitulation du jour 2ème
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Outils de Recherche Opérationnelle en Génie MTH 8414
Transcription de la présentation:

Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation

Analyse de la variance à 1 facteur Objectif : nous avons effectué des inférences sur une moyenne de population, puis comparé 2 moyennes. L’ANOVA à 1 facteur permet de comparer simplement plusieurs moyennes. Exemple : nous voulons comparer 3 machines. Mais la comparaison est délicate car leur production horaire respective est variable (facteur « humain » des individus qui les manipulent, etc.). Pour pallier ces variations en espérant qu’elles se compensent, on va prélever de manière aléatoire et pour chaque machine un échantillon de 5 productions horaires.  Les machines ont-elles vraiment des productions différentes ?

Analyse de la variance à 1 facteur Machine 1Machine 2Machine = 49= 56= 51= = = 26

Analyse de la variance à 1 facteur « Les machines sont-elles vraiment différentes ? » revient à s’interroger sur les raisons des différences entre les 3 moyennes d’échantillon du tableau précédent. 2 explications sont possibles : les moyennes d’échantillon varient à cause des différences entre les moyennes des populations sous-jacentes μ1, μ2, μ3 (avec μ1 la production au cours de la durée de vie de la machine 1)  c’est ce que l’on veut montrer ou bien, les différences entre les moyennes d’échantillon ont comme origine les seules fluctuations aléatoires.  Les variations sont-elles dues à des fluctuations aléatoires ou sont- elles suffisantes pour indiquer une différence entre les μ sous-jacents ?

Analyse de la variance à 1 facteur Pour répondre à la question, il faut commencer par formuler l’hypothèse nulle H0 (absence de différence entre les μ): H0 : μ1 = μ2 = μ3 Pour tester cette hypothèse, il faut tout d’abord réaliser une mesure numérique des écarts entre les moyennes d’échantillon. On calcule donc la variance des moyennes : avec a = nombre de moyennes d’échantillons (ou de colonnes)

Analyse de la variance à 1 facteur On vient de calculer une variation entre machines. Cependant, si, au sein de chaque échantillon les variations étaient plus importantes (par exemple, que les mesures sur la machine 1 ne varient pas de 46 à 53 mais de 40 à 60), alors on se rend bien compte que notre analyse perdrait de sa pertinence, puisque les comparaisons entre machines seraient moins fiables.  On ne peut pas se contenter de la variance entre moyennes, il faut calculer la variance de production commune (totale) : i i i

Analyse de la variance à 1 facteur Calcul du carré des écarts au sein du 1er échantillon (machine 1) : On réalise le même calcul pour les échantillon (machines) 2 et 3, et on en fait la somme. On divise enfin par le nombre total de degrés de liberté pour l’ensemble des 3 échantillons (n-1 = 4 pour chacun). On obtient la variance commune (ou variance résiduelle) :

Analyse de la variance à 1 facteur Nous en arrivons à la question clé : la variance des moyennes d’échantillon est-elle plus grande que la variance commune ? Le rapport est-il grand ? On utilise en fait traditionnellement un rapport noté F en mémoire du célèbre statisticien anglais Sir Ronald Fisher ( ) :

Analyse de la variance à 1 facteur On a introduit n au numérateur afin de le rendre égal, en moyenne, au dénominateur (sous H0), pour faire fluctuer le rapport F autour de 1 2. Si H0 n’est pas vraie (si les μ sont différents), alors sera relativement grand par rapport à V(p), et le rapport F tendra à être bien plus grand que 1. Par conséqeunt, plus F est grand, moins l’hypothèse nulle est crédible. Pour évaluer numériquement la crédibilité de H0, on calcule sa probabilité critique. La distribution de F dépend des ddl de la variance du numérateur (a-1) et de ceux de la variance du dénominateur a(n-1). ddl = (a-1) et a(n-1)

Analyse de la variance à 1 facteur Application à l’exemple introductif : Nous avons déjà calculé la variance des 3 moyennes : et la variance résiduelle au sein des 3 échantillons : V(p)=7,83 Nous pouvons donc calculer le F de Fisher : Et le nombre de degrés de liberté :ddl = (a-1) et a(n-1) ddl = (3-1) et 3(5-1) = 2 et 12

Analyse de la variance à 1 facteur On consulte une table de Fisher : pour ddl = 2 et 12, on trouve 5 valeurs critiques énumérées dans une colonne que l’on parcourt de haut en bas, jusqu’à ce que l’on trouve que la valeur observée de F (8,3) soit supérieure à F 0,01 = 6,93. On en conclut que p.c. < 0,1 Cela signifie que sous H0 (rappel : μ1 = μ2 = μ3) il y a 1 % de chances d’obtenir des moyennes d’échantillons qui diffèrent autant.  On rejette donc H0, et on conclut que les productions des 3 machines sont bien significativement différentes (avec une probabilité de se tromper inférieure à 1 %).

Analyse de la variance à 1 facteur p(F) F F 0,01 =6,93F observé=8,13 p.c. < 0,01 0,01 Valeur critique de la distribution de F sous H0 :

Analyse de la variance à 1 facteur Méthodologie : Présenter les données sous la forme de 2 colonnes : 1 colonne « machine » avec codage 1,2,3 et 1 colonne « production » avec les données brutes. Analyse  comparer les moyennes  ANOVA à 1 facteur Variable dépendante : production Critère : machine

Analyse de la variance à 1 facteur Présentation des résultats : Remarque : SPPS est programmé pour corriger de lui-même les comparaisons d’échantillons de tailles inégales facteur A résidu (erreur)

Analyse de la variance à 1 facteur Exercice 1 Les 3 machines suivantes ont-elles des productions significativement différentes ?à réaliser sous Excel (3 col) puis SPSS (2 colonnes) Machine 1Machine 2Machine

Analyse de la variance à 1 facteur Réponse : On a ddl = 2 et 12, et on trouve donc une valeur observée de F=1,67, ce qui est juste supérieur à F 0,025 =1,56. La p.c. est donc juste < 25%.  Ce niveau de crédibilité est insuffisant, on ne rejette pas H0. Il se peut fort bien que les différences entre les moyennes d’échantillon proviennent de l’irrégularité des machines et non d’une différence entre machines.

ANOVA à 2 facteurs Principe : décomposer la variance d’une variable en fonction de l’influence d’autres variables et d’une partie aléatoire : Pour comparer les machines, dans l’ANOVA à 1 facteur, on va prélever des échantillons aléatoires indépendants de 5 productions sur chacune des 3 machines, employant ainsi 15 ouvriers différents. Cela peut poser problème : les différences peuvent être liées aux ouvriers et non aux machines ! Pour éliminer ce « bruit externe », on emploi 5 ouvriers, et on fait travailler chacun d’entre eux sur les 3 machines. Les résultats fournis seraient alors du type 3 échantillons appariés (dépendants). Les notations sont plus complexes, mais on gagne en précision… Exemple :

18 MachinesVariations ouvriers Ouvrieri=1i=2i=3Moyenne ouvriers j=1 j=2 j=3 j=4 j= Moyenne machines = 52024x3=72 Variations machinesa = 3 = nbre machines b = 5 = nbre ouvriers x5=130

ANOVA à 2 facteurs L’analyse débute par le calcul des sommes carrées (SC) pour chacun des 2 facteurs A (machines) et B (ouvriers) : SC des machines : SC des ouvriers

ANOVA à 2 facteurs Il faut ensuite calculer la somme carrée des résidus… Dans l’ANOVA à 1 facteur, on calculait la SC résiduelle en observant la dispersion de chaque observation par rapport à sa valeur ajustée (la moyenne de la machine). Avec l’ANOVA à 2 facteurs, les valeurs ajustées (ou prévues) incluent à la fois la moyenne de l’ouvrier et de la machine. Par exemple, comment peut-on prédire la production du 1er ouvrier sur la 2nde machine ?

ANOVA à 2 facteurs La 2nde machine est relativement bonne (56) : elle dépasse la moyenne (52) des 3 machines de 4 unités. Le 1er ouvrier est aussi assez bon : il dépasse, avec 55, la moyenne des 5 ouvrier de 3 unités.  En ajoutant ces 2 composantes à la moyenne globale = 52, on obtient la valeur prévue X suivante : X 21 prévue=52+4+3=59 En comparant cette valeur prévue à la valeur observée X 21 =61 on calcule le résidu qui est : 61-59=2.

ANOVA à 2 facteurs Dans le cas général d’une ANOVA à 2 facteurs, on retiendra que : La valeur prévue est : ici : moyenne globale + ajustement « machine » + ajustement « ouvrier » La valeur résiduelle est : Résidu=X ij -X ij La somme carrée totale est égale à : SC totale = SC facteurA + SC facteurB + SC résidu

ANOVA à 2 facteurs Une fois que la somme carrée totale a été scindée en ses composantes (facteur 1 + facteur 2 + résidu), on peut tester s’il y a une différence discernable entre machines. On peut également tester s’il y a une différence discernable entre ouvriers. Dans chacun des 2 tests, l’influence externe de l’autre facteur sera prise en compte. On calculera, dans l’ordre les 2 coefficients de Fisher : F 1 =variance expliquée par les machines  variance inexpliquée et F 2 =variance expliquée par les ouvriers  variance inexpliquée

ANOVA à 2 facteurs Valeurs ajustéesValeurs résiduelles Somme des carrés résiduelle : SC résidu = …+0 2 = 22

ANOVA à 2 facteurs SourceSCddlCMFp.c. Machines Ouvriers Résidu ,75 23,6 6,5 P<0,001 P<0,05 Total22414 Résultats : F 1 =65/2,75=23,6F 2 =18/2,75=6,5 CM=SC/ddl

ANOVA à 2 facteurs Interprétation : On conclut au seuil d’erreur de 5% qu’il y a une différence entre les ouvriers. On conclut aussi, cette fois avec un seuil d’erreur de 0,1% qu’il y a une différence entre machines.  On a affiné l’analyse ANOVA à 1 facteur en supprimant des interférences inutiles. Grâce à l’échantillon apparié, notre test est plus fiable.

ANOVA à 2 facteurs Exercice Sous SPSS, réalisez une ANOVA à 2 facteurs afin de déterminer dans quelles mesures les variations de production sont liées aux machines ou aux ouvriers. Machines Ouvrieri=1i=2i=3 j=1 j=2 j=3 j=4 j=

ANOVA à 2 facteurs Réponse : Il faut recoder les données en trois colonnes : production, ouvriers et machines. Analyse  Modèle linéaire général  Univarié Variable dépendante : production Facteurs aléatoires : ouvriers et machines

ANOVA à 2 facteurs

Conditions d’utilisation L’ANOVA sert à évaluer les écarts des valeurs moyennes d’une variable dépendante quantitative sous l’effet d’une ou de plusieurs variables indépendantes qualitatives (ou encore « facteurs »). Si la série de variables indépendantes (facteurs) comprend à la fois des variables qualitatives (au moins 1) et quantitatives, on emploie l’analyse de la covariance (ANCOVA). Dans ce cas, les variables indépendantes qualitatives sont toujours appelées « facteurs », mais les variables indépendantes quantitatives s’appelent alors « covariables ».

Conditions d’utilisation Exemple Vous êtes chargé d’étude chez société de production agroalimentaire. Vous cherchez à comprendre quelles variables indépendantes expliquent la préférence envers votre marque. La préférence est évaluée de manière métrique, il s’agit donc d’une variable indépendante quantitative. Si vous retenez la consommation (faible vs moyenne vs forte) et la fidélité à la marque (fidèle vs non fidèle) comme variables indépendantes (qualitatives), vous devrez réaliser une ANOVA à 2 facteurs. Si en plus de ces 2 facteurs vous souhaitez considérer l’attitude (échelle métrique) des répondants en matière de nutrition, vous devrez avoir recours à une ANCOVA.

Conditions d’utilisation En toute rigueur, pour avoir recours à l’ANOVA ou l’ANCOVA, il est nécessaire que : les erreurs suivent une loi normale, avec une moyenne nulle et une variance constante. Dans le cas contraire, il est préférable d’utiliser un test non-paramétrique comme le U de Mann-Whitney ou un test de Kruskal-Walis. il ne doit pas y avoir de corrélation entre les erreurs. Dans le cas contraire (c’est à dire si les observations ne sont pas indépendantes), le test F peut être altéré.

Conditions d’utilisation Pour vérifier que la variable métrique dépendante suit bien une loi de distribution normale : Coefficient d’asymétrie (skewness) < 1 (en valeur absolue) Coefficient d’aplatissement (kurtosis) < 2 (en valeur absolue)  A vérifier lorsqu’on demande les fréquences des variables (dans le menu statistiques) Ou bien Test de Kolmogorov-Smirnov (Analyse  tests non paramétriques)

Conditions d’utilisation Si le test de Levene n’est pas significatif : on fait l’hypothèse de variances égales (ligne du haut). Si le test de Levene est significatif, on fait l’hypothèse de variances inégales (ligne du bas). Pour vérifier que les variances sont bien égales :