Chapitre 3 - Comparer plusieurs groupes

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Intervalles de confiance
Introduction à l’analyse
Introduction aux statistiques Intervalles de confiance
Comparaison d’une moyenne observée à une moyenne théorique
ANOVA à un facteur (Rehailia)
Risques d’erreur statistique et test statistique
Les tests d’hypothèses (I)
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests de comparaison de pourcentages
Comparaison de plusieurs moyennes Analyse de variance
Nombre de sujets nécessaires en recherche clinique
CONFORMITE d’une distribution expérimentale à une distribution théorique Professeur Pascale FRIANT-MICHEL > Faculté de Pharmacie
Tests non paramétriques de comparaison de moyennes
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Comparaison de plusieurs moyennes Analyse de variance
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
Plans à groupes indépendants: organisation
L’inférence statistique
Analyse de la variance : ANOVA à un facteur
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Test 2.
Problème Autre formulation :
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
La corrélation et la régression multiple
La corrélation et la régression
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
L’analyse de variance.
La puissance statistique
La puissance statistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Analyse factorielle de variance: Principes d’expérimentation
La régression multiple
Tests d’hypothèses.
Inéquations du premier degré à une inconnue
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
ANOVA : introduction.
Introduction à l’analyse statistique
Inéquations du premier degré à une inconnue
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Christophe Genolini INSERM U669 / Université de Paris X.
Rappels de statistiques descriptives
M2 Sciences des Procédés - Sciences des Aliments
Séance 8 30 novembre 2005 N. Yamaguchi
ANOVA à 1 facteur en groupes de mesure indépendants
1 Licence Stat-info CM5a 2004 V1Christophe Genolini Problème Détection d’un phénomène particulier : –Flûtiste exceptionnelle ou moyenne –Groupe de TD super.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Chapitre 3 - Comparer plusieurs groupes

2 groupes >2 groupes A B A B C Est-ce que la moyenne des 2 groupes diffère ? Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?

Comparer 2 groupes : le test t de Student Approche similaire au test Z. S’applique particulièrement pour de petits échantillons (n<30) Suppose la normalité des distributions et l’égalité des variances On pose H0: m1 - m2 = 0 pas de différence entre les moyennes H1: m1 - m2  0 différence entre les moyennes On calcule la statistique tc. La formule varie selon les caractéristiques des échantillons.

Dégré de liberté (DDL) important car la forme de la distribution change A spécifier lors du calcul de probabilité

n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2 (1) Pour rappel, test Z pour grands échantillons La loi de Student converge vers la loi normale pour n grand On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons

n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2 (2) (3) n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1)

Test unilatéral (à droite) On compare tobs à la valeur critique de t pour un risque a et pour un degré de liberté (ddl) déterminé Test unilatéral (à droite) a/2 ta/2 Test bilatéral ta/2 varie avec le ddl Si ItobsI < Ita/2I H0 acceptée Si ItobsI > Ita/2I H0 rejetée a ta ta varie avec le ddl Si tobs < ta H0 acceptée Si tobs > ta H0 rejetée

tobs=0.2427 Exemple d’application On teste la différence de taille moyenne des filles de 2 amphis n < 28, n inégaux formule (2) 0.020 0.0897 0.0757 tobs=0.2427 Amphi 1 158 163 151 … 175 168 165 28 1.64 0.28 Amphi 2 159 149 153 … 178 167 25 1.66 0.32 n Moyenne Ecart-type Test bilatéral

tobs=0.2427 < ta/2= H0 acceptée Valeurs données dans le tableau pour a/2 ! tobs=0.2427 < ta/2= H0 acceptée Pas de différence significative entre les tailles moyennes des 2 amphis

Comparer plus de 2 groupes Test ANOVA (ANalysis Of VAriance) Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux rivière étang fossé 15 16 6 20 18 7 12 9 13 17 14 22 11 8 10 21 25 5 1 2 3 k X11 X12 . X1k X21 Xn11 Xnkk group Comparer plus de 2 groupes Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ? Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ? On s’intéresse aux différentes sources de dispersion des données.

Rapport des variances F SCT SCI SCE Somme des carrés DDL N=nombre total d’individus k= nombre de groupes Variance Rapport des variances F

Fobs suit une loi de Fisher-Snedecor à n-k et k-1 degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)

Si Fobs < F(n-k, k-1) H0 acceptée On calcule F(n-k, k-1) pour le risque a et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl) Si Fobs < F(n-k, k-1) H0 acceptée Si Fobs > F(n-k, k-1) H0 rejetée Fa a H0

Critères d’application - normalité des populations d’origine (testable) - égalité des variances des différents groupes (testable) Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk Test de Levene Mais test ANOVA robuste aux - défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0. - Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.

Pourquoi ne pas faire plusieurs tests t ? Si a=0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0. Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage) On corrige donc le seuil a lors de comparaisons multiples Correction de Bonferroni a’=a/n n=nombre de comparaisons

Procédure à suivre On peut tester les différences entre groupes pris deux à deux si et seulement si on observe une différence significative globale entre les groupes. a doit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données. On utilise des tests post hoc ou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)

Exemple d’application On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines. H0= les 3 régimes n’influencent pas la taille des daphnies ou H0= les tailles moyennes dans les 3 groupes sont égales H1= au moins un des groupes diffère des autres 5 10 15 20 Régime 1 Régime 2 Régime 3 Groupe expérimental Taille à 3 semaines

Dispersion intra-groupe Régime 1 Régime 2 Régime 3 1 11.4 16.4 11.6 2 6.4 18.1 9.9 3 8.1 14.8 9.7 4 8.0 12.7 11.0 5 10.9 18.3 8.8 moyenne 9.0 16.1 10.2 SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06 SC2 = … = 22.00 SC3 = … = 4.74 SCintra=SC1+SC2+SC3 = 44.80 ddl intra = n-k = 15-3 = 12

Dispersion inter-groupe Régime 1 Régime 2 Régime 3 Total n 5 moyenne 8.95 16.07 10.20 11.74 SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38 ddlinter = k-1 = 3-1 = 2

Valeur seuil = F0.05 (1, 2) avec 1= ddl inter-groupe 2= ddl intra-groupe Exemples : F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0 Inter-groupe Intra-groupe

F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra) Rapport des variances F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra) = (144.38/2) / (44.80/12) = 19.33 F0.05, 2,12= Fseuil = 3.88 Fseuil Fobs Fobs > Fseuil H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres

Tableau d’ANOVA issu d’un logiciel Source de dispersion ddl SC CM F P inter-groupe 2 144.386 72.193 19.337 0.000 intra-groupe 12 44.802 3.733 total 14 189.188   p < a H0 est rejetée, H1 acceptée Au moins un des 3 groupes diffère des autres

Rejet d’une hypothèse nulle H0 correcte Deux types de risques Rejet d’une hypothèse nulle H0 correcte On décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas. zobs est fonction de x1-x2 Les 2 échantillons sont issus d’une même population mais zobs > za Pop échantillon 1 échantillon 2 za zobs

Acceptation d’une hypothèse nulle incorrecte On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont. zobs est fonction de x1-x2 Les 2 échantillons ne sont pas issus d’une même population mais zobs < za population 1 population 2 échantillon 1 échantillon 2 zobs za

Erreurs de type 1 et de type 2 Décision correcte effet détecté Erreur type I Risque a effet n’existe pas effet non détecté Erreur type II Risque b Rejet H0 Acceptation H0 Effet Pas d’effet Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée

On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1). Mais erreur type 2 peut avoir conséquences Programme de suivi d’une espèce en danger Si conclusion erronée d’une diminution des populations (type 1) Actions de conservation non nécessaires Si conclusion erronée d’une stabilité des populations (type 2) Risque d’extinction