Tests de comparaison de moyennes

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

L’échantillonnage & Ses Fluctuations
Statistique II Chapitre 3: Tests d’hypothèses
Comparaison d’une moyenne observée à une moyenne théorique
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
Test statistique : principe
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Inférence statistique
Comparaison de deux moyennes observées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les tests statistiques. Une situation à risques
Tests non paramétriques de comparaison de moyennes
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Régression -corrélation
Probabilités et statistique en TS
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Mathématiques Les statistiques et probabilités en STI2d/STL
La corrélation et la régression
Le test t.
La puissance statistique
La puissance statistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Objectifs du chapitre 8: Puissance statistique
Lien entre alpha et bêta
Tests d’hypothèses.
Les intervalles de confiance pour la moyenne d’une population
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
PRINCIPE DES TESTS D’HYPOTHÈSE
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
Test d'hypothèse pour des proportions:
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Probabilités et statistique Test d’hypothèse de deux moyennes
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Tests de comparaison de moyennes Dr Marc CUGGIA PACES 2013-2014

Comparaison d’une moyenne observée à une moyenne théorique (ou donnée) Soit un échantillon E de taille n, tirée d’une population inconnue P’ de moyenne μp’ sur lequel on a mesuré une variable quantitative de moyenne m et de variance s2e Soit une population P de référence, dans laquelle la moyenne pour cette variable quantitative est connue (μP) Problème posé : L’échantillon E provient il de la population P ? Y a t il une différence significative entre la moyenne m mesurée sur l’échantillon (tirée de P’) et μP ?

Comparaison d’une moyenne observée à un moyenne théorique (ou donnée) 2 hypothèses : Ho : (hypothèse nulle) l’échantillon provient de la population P les deux populations étudiées P et celle inconnue sont les mêmes μP’=μP H1 : (hypothèse alternative) L’échantillon provient d’une population P’ différente de P les deux populations P’ et P sont différentes μP’≠μP

Comparaison d’une moyenne observée à un moyenne théorique (ou donnée) Le choix entre les 2 hypothèses se résout par un test statistique. Le test s’effectue en plusieurs étapes : On définie Ho et H1 On calcule un certain indicateur U, exprimant l’écart des moyennes, et dont on connaît la distribution sous Ho On choisit un seuil de probabilité (ou un risque) pour le test statistique : en général α=5% ou α=1% α est le risque de rejeter Ho à tord (cad que Ho est en fait vrai)

4. On cherche dans la table de la distribution du paramètre choisi la valeur pour le risque α. ex : Uα=1,96 si α=5% veut dire que du seul fait du hasard, IUI a moins de 5 chances sur 100 d’être > à 1,96

Si I indicateurcalculéI ≥ indicateurtabulé 5. On compare l’indicateur calculé à l’indicateur donné (par ex la moyenne) par la table adéquate : 2 situations Si I indicateurcalculéI ≥ indicateurtabulé  on rejette Ho, et on accepte H1 car on sait que du seul fait du hasard, l’indicateur calculé a une probabilité < α d’atteindre l’indicateur tabulé On rejette Ho au risque α choisi (Ho est fausse au risque α) Si I indicateurcalculéI < indicateurtabulé  on accepte Ho On ne dit jamais que Ho est vraie On dit « on ne peut pas rejetter Ho », ou on ne met pas en évidence de différence significative entre μP et μP’

comparaison de moyennes Cas des grands échantillons (n≥30) On utilise en premier lieu le test de Z on sait sous Ho, on fixe α α=5%  Zα=1,96 α=1%  Zα=2,57 Si IZoI≥1,96 On rejette Ho au risque α choisi On conclut qu’il existe une différence significative entre μP et μP’ IZoI<1,96 on ne met pas en évidence de différence significative entre μP et μP’ Z~N(0;1)

Petits échantillons (n<30) et P est normale Dans ce cas, compte tenu du faible effectif de l’échantillon, les conditions d’applications ne sont pas respectées. Il est alors nécessaire de supposer que la distribution de la variable étudiée suit une loi normale et que la variance inconnue (σP’) soit égale à σP (on dit qu’il existe une égalité des variances ou une homoscedasticité entres les 2 populations)

Petits échantillons (n<30) et P est normale Si ces 2 conditions sont réunies, sous Ho, l’indicateur calculé est t suit une loi de Student à (n-1) ddl on calcule to On cherche dans la table de student le t tabuléà (n-1) ddl pour le risque α chosi On compare to à ttabulé si ItoI≥ttabulé  on rejette Ho  il n’existe pas de difference significative au seuil α entre si ItoI < ttabulé  on ne peut pas rejeter Ho. On ne met pas en évidence de différence significative entre μP et μP’ au seuil α choisi

Petits échantillons (n<30) et P est normale : exercice Le temps de réaction moyen d’un animal à un certain stimulus est μ=23,7s On mesure les temps de réaction chez 100 souris par un traitement médicamenteux X On trouve : m=22,9s, et s2=13,98s2 La drogue X modifie-t-elle le temps de réaction ? Même question si l’effectif est de 16 souris on calcule zo sous Ho les hypothèses sont : Ho = L’échantillon des 100 souris provient d’une population P’ identique à la population P (la drogue ne semble donc pas modifier les temps de réactions) H1= L’échantillon est tirée d’une population P’ différente de la population P. Le fait de donner le traitement X semble modifier les temps de réactions

Le test Z est choisi car comparaison de moyenne à une moyenne théorique et grand échantillon (n=100) Ztabulé=Zα=5%=1,96 Zo>Ztabulé  on rejette Ho au risque 5% « au seuil 5%, le traitement X modifie es temps de réaction au stimulus »

exemple Cas où n=16 Petit échantillon  test t de student Ho et H1 idem tα=5%;ddl=15=2,13 ItoI<ttabulé au risque 5% on ne met pas en évidence de modification du temps de réaction par X remarque quand n diminue, la puissance (1-β) diminue, et donc il est plus difficile de montrer une différence significative

Zone de non rejet d’Ho Zone de rejet d’Ho

Comparaison de moyennes observées sur deux échantillons indépendants μ1? σ1? P2 μ2? σ2? m2 s2 n2 m1 s1 n1 E1 E2 On dispose de deux échantillons E1 et E2 tirés de deux populations (P1 et P2) de moyennes et de variances inconnues (μ1;σ1) et (μ2;σ2) Le pb posé est de savoir si les deux échantillons proviennent de deux population similaires ou différentes? Y-a-t il une différence significative entre les moyennes des deux populations ?

H1 : Les deux échantillons proviennent de deux populations différentes Comparaison des moyennes observées sur deux échantillons indépendants : Grands échantillons (n1 et n2 >=30) Ho : Les deux échantillons proviennent de la même population P1 et P2 sont identiques Il n’y pas de différence significative entre les moyennes des deux populations P1 et P2 H1 : Les deux échantillons proviennent de deux populations différentes

Comparaison des moyennes observées sur deux échantillons indépendants : Grands échantillons (n1 et n2 >=30) Choix du test Z de comparaison de moyennes sur deux échantillons indépendants Ztabulé=Zα=5%=1,96 Comparer IzoI à Ztabulé Si IZoI≥1,96 On rejette Ho au risque α choisi On conclut qu’il existe une différence significative entre μP1 et μP2 IZoI<1,96 on ne met pas en évidence de différence significative entre μP1 et μP2

Poids des nouveau nés mesurés dans une maternité Comparaison des moyennes observées sur deux échantillons indépendants : Grands échantillons (n1 et n2 >=30) - Exercice Poids des nouveau nés mesurés dans une maternité Comparaison entre les moyennes des poids des NN filles et garçons Question : à partir de deux échantillons, peut on déduire une différence significative en général des poids des NN selon le sexe ?

Garcons: n1=41 m1=3,4kg s1=0,385 kg Filles: n2=65 m2=3,36kg s2=0,363 kg Peut on déduire une différence de poids significative entre ces 2 populations ? Ho: pas de différence H1: il existe une différence zo=0,54 Ztabulé=Zα=5%=1,96 Zo<Zα=5%  on ne rejette pas Ho Donc au seuil 5%, on ne montre pas de différence significative entre les poids des NN selon le sexe

test Kolmogorov Smirnoff Comparaison des moyennes observées sur deux échantillons indépendants : petits échantillons (n1 ou n2 < 30) Les tests utilisés sont fonction de deux conditions d’applications La normalité de la distribution de la variable étudiée dans la population d’origine l’égalité des variances des populations (homocedasticité) Normalité ? test Kolmogorov Smirnoff oui non égalité des variances Test F de Snedecor Test de mann whitney non oui test de Cochran test T de Student

Comparaison des variances Les variances σ21 et σ22 des deux populations étudiées sont inconnues On les estime à partir des échantillons en calculant s21 et s22 On les compare avec un test de F de snedecor L’indicateur calculé est Ho : égalité des variances H1 : inégalité des variances Sous Ho, F suit une loi de distribution qui est tabulée en fonction de α,ν1 et ν2 ν1 degrés de liberté de la variance du numérateur= taille de l’échantillon le plus grand -1 ν2 degrés de liberté de la variance au dénominateur= taille de l’échantillon le plus petit -1

Comparaison des variances Par construction, on lit la valeur seuil en bilateral sur une table de F au risque de 2,5% Si Fc<Fα=2,5%; ν1ν2 On accepte Ho : il y a égalité des variances Si Fc≥Fα=2,5%; ν1ν2 On rejette Ho, on accepte H1 Les variances sont différentes au seuil α Dans ce cas on effectue un test de cochran (hors programme)

Test t de student Pour effectuer le test t, on estime la variance commune s2 de la population par : Sous Ho, les 2 échantillons de moyennes m1 et m2 proviennent d’une même population de moyenne μ ou il n’existe pas de différence significative entre les moyennes des 2 populations Sous H1, les 2 échantillons proviennent de 2 populations différentes

to suit une loi de student à n1+n2-2 ddl

pour un risque α donné on va chercher la valeur de tα à n1+n2-2 ddl on compare to avec tα si ItoI>tα, on rejette Ho et l’on conclut qu’il existe une différence significative au seuil α entre les 2 moyennes si ItoI<tα , on ne rejette pas Ho  il n’y a pas de différence significative au seuil α entre les 2 moyennes

test Kolmogorov Smirnoff Normalité ? test Kolmogorov Smirnoff oui non égalité des variances Test F de Snedecor Test de mann whitney non oui test de Cochran test T de Student

test de Mann et Whitney Utilisé lors que la distribution n’est pas normale ou inconnue Test non paramétrique La comparaison ne s’effectue pas sur la variable elle-même Mais sur les rangs des valeurs Après avoir classé les valeurs prises par la variable par ordre croissant ou décroissant

test « tout terrain » utilisable quelque soit la nature de la distribution test non paramétrique car ne fait appel à aucun des paramètres de la distribution (ex m ou σ2)

exemple On souhaite comparer les notes obtenues à un test psychomoteurs par des patients atteints de la maladie A et B On classe l’ensemble des notes par valeurs croissants maladie A (nA=7) 48 60 42 58 50 31 maladie B (nB=5) 41 23 28 maladie A (nA=7) 31 42 48 50 58 60 maladie B (nB=5) 23 28 41 RANGS 1 2 3,5 5 7 9 10 11 12

Ici il y des rangs ex-equo On effectue les calculs intermédiaires suivants TA=ΣRang A=3,5+7+7+9+10+11+12=59,5 TB=Σrang B=1+2+3,5+5+7=18,5 Puis les statistiques UA et UB

exemple On souhaite comparer les notes obtenues à un test psychomoteurs par des patients atteints de la maladie A et B On classe l’ensemble des notes par valeurs croissants maladie A (nA=7) 48 60 42 58 50 31 maladie B (nB=5) 41 23 28 maladie A (nA=7) 31 42 48 50 58 60 maladie B (nB=5) 23 28 41 RANGS 1 2 3,5 5 7 9 10 11 12

exemple On souhaite comparer les notes obtenues à un test psychomoteurs par des patients atteints de la maladie A et B On classe l’ensemble des notes par valeurs croissants maladie A (nA=7) 48 60 42 58 50 31 maladie B (nB=5) 41 23 28 maladie A (nA=7) 31 42 48 50 58 60 maladie B (nB=5) 23 28 41 RANGS 1 2 3,5 5 7 9 10 11 12

Situation 1 : si nA ou nB < 10 on détermine la statistique U de mann & Whitney Situation 1 : si nA ou nB < 10 Uo=min (UA,UB) que l’on compare aux valeurs de la table Sous Ho, les 2 échantillons proviennent d’une même population la table donne les valeurs de U tel que Proba(Uo≤Utable)=α (attention !!!)

attention ici m n’est pas une moyenne !!! pour lire Utable il faut déterminer m et n tels que m=max(na,nb) n=min(na,nb) on lit Utable à l’intersection de m-n et n si min(UA,UB)<Utable rejet de Ho au risque α si min(UA,UB)>Utable on accepte Ho attention ici m n’est pas une moyenne !!!

Ici UA=3,5 m=7 n=5 m-n=2 α=5% Utable=5 UA<Utable  on rejette Ho au seuil α il existe une différence significative entre les maladies A et les maladie B

Situation 2 : nA et nB ≥10 UA et UB suivent une distribution normale de On compare Uo à la valeur de la table de la loi normale au risque α Uo<Utabulé  on accepte Ho Uo>Utabulé  on rejette Ho et on accepte H1

Mann & Whitney Cas sans ex-aequo En cas de non ex-aequo on peut calculer directement UA et UB (plus rapide) On détermine UAB le nombre nombre de fois où une valeur de rang du groupe B précède une valeur du groupe A UBA le nombre nombre de fois où une valeur de rang du groupe A précède une valeur du groupe B

Seulement si pas d’ex aequo 11 21 25 52 71 79 B 22 43 72 91 116 Rang 1 2 3 4 5 6 7 8 9 10 Seulement si pas d’ex aequo UAB = 0 + 0 + 1 + 2 + 2 + 3 = 8 UBA = 2 + 3 + 5 + 6 + 6 = 22 Equivalent à

Comparaison de moyennes de séries appariées Situation ou l’on veut comparer des données de 2 échantillons qui sont « liés » Essai thérapeutique ou le patient est son propre témoin : on mesure une variable (ex glycémie) avant et après traitement Les données recueillies avant et après sont dites appariées

Comparaison de moyennes de séries appariées : tests paramétriques ex: on mesure la TAs avant et après 1 mois de traitement par le médicament X, sur N patients Y-a-t il une différence significative entre les TAs avant et après traitement n° patient 1 2 3 … N TA avant 18 16 15 TA après 17 14 d (différence) +2 -1 +1

Pour faire le test, on calcule les différences d1,d2,d3

Sous Ho, il n’existe pas de différence significative entre la TA avant et après traitement Dans ce cas la moyenne des d dans la population est nulle H1 : il existe une différence des valeurs avant et après. Le traitement semble avoir un effet sur la TA

On choisit α et on lit dans la table tα à (n-1) dll. on calcule : On choisit α et on lit dans la table tα à (n-1) dll. On compare to et tα Si to>tα on rejette Ho au risque α, on accepte H1 si to<tα, on accepte Ho : il n’y a pas de difference significative entre la TAs avant et après traitement Qui suit une loi de Student à (n-1) ddl Cela est vrai pour toute distribution des d si n>=30 Cela est vrai si la distribution des d suit une loi normale si n<30

Comparaison de moyennes appariées : test non paramétrique de Wilcoxon Ne suppose aucune condition sur la distribution des di Utilisé pour les petits échantillons, lorsqu’on ne peut pas vérifier ou qu’on ne connaît pas la distribution des di Classement des di par ordre croissant Détermination des rang des di Si il existe des di de même valeur absolue, on leur affecte un rang moyen. On enlève les d nulles, s’il en existe (il reste N’ di) On calcule : R+ : somme des rangs des di positifs R- : Somme des rangs des di négatifs

si N’d≠0>25 on montre que R+ et R- suivent une loi normale on calcule Uo : Puis on se reporte à la table de la loi normale

On prend R=min(R+ et R-) Si N’d≠0 ≤ 25 On prend R=min(R+ et R-) et on compare R à la table de Wilcoxon pour un α choisi. Si R<Rtable  on rejette Ho au risque α Il existe une différence significative entre les valeurs Si R>Rtable on accepte Ho, donc on ne met pas en évidence de différence significative entre les valeurs