Comparaison de deux échantillons

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Intervalles de confiance
Introduction aux statistiques Intervalles de confiance
Comparaison d’une moyenne observée à une moyenne théorique
Test statistique : principe
Association entre variables
Introduction aux statistiques
Les tests d’hypothèses (II)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les tests d’hypothèses
1 Analyse de la variance multivariée Michel Tenenhaus.
Tests de comparaison de moyennes
Autres LOIS de PROBABILITES
Méthodes de Biostatistique
Nombre de sujets nécessaires en recherche clinique
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
ANOVA à critères multiples
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
Howell Chap. 7, test t. Différence entre une moyenne tirée dun échantillon et une moyenne dune population quand la moyenne et lécart- type de la population.
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Méthodes de Biostatistique
Tests d’hypothèse Tests de conformité Tests d’égalité
STATISTIQUES DESCRIPTIVES
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Concepts fondamentaux: statistiques et distributions
Comparaison de deux échantillons
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Tests d’ajustement à une distribution théorique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :44 1 Epistémologie, méthode scientifique et.
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Transcription de la présentation:

Comparaison de deux échantillons Principes de base Comparaison des paramètres de deux populations: moyennes, variances et médianes Tests appariés Analyse de puissance Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison entre deux échantillons Le nombre de groupes comparés = 2 on peut comparer plusieurs statistiques de ces groupes: moyennes, variances, médianes, etc… s2C s2T Fréquence Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Un exemple Deux groupes (1, 2) ayant des moyennes qui diffèrent par d. Quelle est la probabilité p d’observer une telle différence si les deux moyennes sont égales (H0)? Groupe 1 Groupe 2 Fréquence Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Un exemple (suite) Groupe 2 Fréquence Groupe 1 Si H0 est vraie, la statistique t sera distribuée comme le t de Student: Probabilité (p) t -3 -2 -1 1 2 3 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Un exemple (suite) Fréquence Groupe 2 Fréquence Groupe 1 Pour les deux groupes, supposons que t = 2.01 Quelle est la probabilité d’obtenir un t d’au moins 2.01 si les deux moyennes sont égales (H0 )? Comme p est faible, il est improbable que H0 soit vrai. On rejette donc H0. -3 -2 -1 1 2 3 Probabilité t = 2.01 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaisons de 2 échantillons: échantillons indépendants Régime Lorsqu’il n’y a pas de corrélation ou d’appariement entre les observations (sujets) des deux groupes. Ex: Poids à 6 mois de porcelets engraissés en suivant deux régimes différents. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaisons de deux échantillons: échantillons appariés Régime Dans les échantillons appariés, les observations (sujets) dans un groupes forment des paires avec les observations (sujets) de l’autre groupe. Ex: Le poids à six mois de porcelets ayant la même mais soumis à deux régimes différents. Truies Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison de deux échantillons: le groupe contrôle vs groupe traité Deux champs de maïs, un témoin et un fertilisé avec de l’azote. Prédiction biologique: la fertilisation avec l’azote augmente le rendement H0: mT  mC (unilatéral) Frequence Rendement Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison de moyennes: le test de t Calculer la différence entre les deux moyennes H0 (unilatéral) Calculer t et le p correspondant: Fréquence Rendement Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Que sont les degrés de liberté? Le nombre de degrés de liberté est l’effectif moins le nombre de paramètres. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Pourquoi se soucier du nombre de degrés de liberté? 0.4 0.4 La distribution des statistiques dépend du nombre de degrés de liberté. Donc, selon le nombre de degrés de liberté, la même valeur de la statistique peut sera convertie en probabilités différentes. 8 dl 0.3 0.3 Probabilité 0.2 0.2 1 dl 0.1 0.1 0.0 0.0 -5 -5 -4 -4 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 4 4 5 5 t Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison de deux moyennes: le test U de Mann-Whitney On veut comparer le rendement du groupe témoin et du groupe traitement. Chacun des groupe contient 4 champs (ch.) (réplicats) Calculer la somme des rangs (RC, RT) pour chacun des groupes. H0: RC = RT Calculer U et le p correspondant Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison de moyennes: tests paramétriques (P) vs tests non-paramétriques (NP) *si les conditions d’application sont respectées Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Indépendance Observations sont souvent dépendantes lorsque corrélées dans le temps ou l’espace. Ex: mesures des éléments nutritifs en amont et en aval d’une source ponctuelle de pollution sur un cours d’eau. Site amont Site aval Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Pourquoi insister sur l’indépendance? Si les observations ne sont pas indépendantes, on surestime le nombre de degrés de … … la conversion de la statistique en valeur de p sera biaisée … … et on sousestimera p. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Procédure générale si N >20 pour chaque échantillon tester la normalité tester l’homoscedasticité si les deux échantillons sont distribués normalement et que les variances sont égales, utiliser le test de t (“variance commune”) si les deux échantillons sont distribués normalement mais que les variances sont inégales, utiliser le test approximatif de Welch (“variance séparées”) si un ou les deux échantillons ne sont pas distribués normalement, essayer de transformer les données ou utiliser le test de U de Mann-Whitney. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Procédures générales N<10 pour chaque groupe Utiliser le test de U de Mann-Whitney 10<N<20 pour chaque groupe utiliser 2 tests: test de t (variance commune ou variances séparées) et test de U Mann-Whitney … et espérer que l’inférence est la même! Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Sortie d’un test de t fait avec SYSTAT: Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de t fait avec SYSTAT: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Sortie d’un test de Mann-Whitney (SYSTAT) Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de Mann-Whitney (SYSTAT) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Vérification de la normalité Faire un graphique des probabilités normales si, à l’oeil, c’est linéaire, ça va si on est pas certain, faire le test de Lilliefors Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

La distribution cumulative normale 0.2 0.4 0.6 0.8 1.0 -3s -2s -s m s 2s 3s 2.28% 50.00% 68.27% F Distribution normale Didtribution cumulative normale L’aire sous les courbes des fonctions de densité des probabilités normales et distribution cumulative normale Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Valeurs Z Transformation des pourcentages cumulés en valeurs Z -1.64 -0.52 0.52 1.64 -1.28 0 1.28 0.05 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.95 1.00 Normal equivalent deviates Cumulative percent Transformation des pourcentages cumulés en valeurs Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Courbes des probabilités normales NED 3.72 -3.72 A B C D E F Exemples de distributions de fréquences et leurs distributions cumulées A: Normale; B: mélange égal des deux distributions normales; C: Étirée vers la gauche; D: Étirée vers la droitet; E: Platykurtique; F: Leptokurtique. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Exemple: Taille des esturgeons des sites The Pas et Cumberland Diagrammes de probabilités normales pour les longueurs à la fourche à The Pas et Cumberland sont: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Exemple: Taille des esturgeons (suite) Sortie SYSTAT d’un test Lilliefors: normalité des longueurs à The Pas KOLMOGOROV-SMIRNOV ONE SAMPLE TEST USING STANDARD NORMAL VARIABLE N-OF-CASES MAXDIF LILLIEFORS PROBABILITY (2-TAIL) FKLNGTH 101.00000 0.07814 0.12662 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Égalité des variances (homoscédasticité): le test de F Si les variances sont égales, alors s2C = s2T H0 (ratio F): Ce test est très sensible à une déviation de la normalité Rendement Fréquence Témoin Traitement s2C s2T Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Égalité des variances (homoscédasticité), utilisation du test de Levene Si les variances sont égales, alors: s2C = s2T H0 (Levene): Ce test est plus robuste à une déviation de la normalité Rendement Fréquence Témoin Traitement s2C s2T Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Comparaison de médianes: le test des médianes Témoin Calculer la médiane M pour les deux échantillons Classer chaque observation (plus grande ou plus petite que M) afin de créer un tableau 2X2 Faire un C2 ou un test de G, pour tester l’indépendance Traitement Fréquence M Rendement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Tests sur des échantillons appariés Utilisés quand il y a corrélation entre les observations des deux échantillons. Par exemple, le poids de rats avant et après un traitement H0 (unilatéral): utiliser un test de t pour échantillons appariés Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de t pour échantillons appariés vs test de t pour échantillons indépendants En présence de corrélation, un test de t pour échantillons appariés est beaucoup plus puissant. L’erreur-type des différences moyennes entre les paires est habituellement plus petite que l’erreur-type de la différence entre les deux moyennes S’il n’y a pas de corrélation, un test de t pour échantillons appariés est moins puissant (N représente le nombre de paires et non le nombre d’observations). S2b = 8.67, S2a= 21.58, S2DW = 2.81 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Test de t pour échantillons appariés vs test de t pour échantillons indépendants: effet de l’âge sur la largeur du visage Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance: calcul de l’effectif requis Éch. 1 Éch. 2 Fréquence À partir de a, b, d ’un estimé de la variance commune sp2 et de la différence d qu’on veut détecter, on peut calculer nmin, l’effectif minimal requis Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance: calcul de la différence minimale détectable Fréquence Éch. 1 Éch. 2 À partir de a, b, d’un estimé de la variance commune sp2 et de l’effectif n, on peut calculer dmin, la différence minimale détectable Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance: calcul de la puissance d’un test (a priori) Éch. 1 Éch. 2 Fréquence À partir de a, d, n, et d’un estimé de la variance commune sp2 on peut calculer t b(1)n et utiliser la distribution de t pour trouver (1-b), la puissance du test. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Puissance: calcul de la puissance d’un test (a posteriori) Éch. 1 Éch. 2 Fréquence Si on accepte H0, on peut estimer la puissance du test. À partir de a, d=d, n, et d’un estimé de la variance commune sp2 on peut calculer le f de la distribution de F non centrale. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Calcul de la puissance à partir de f n2 décroissant Pour un test de t, n1=1 ,n2= 2(n-1). À partir de a et f, on peut trouver 1-b dans tableaux ou graphiques (voir Zar (1996), Appendix Figure B.1) n1 = 1 1-b a = .05 a = .01 f(a = .01) f(a = .05) 2 3 4 5 1 1.5 2 2.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Exemple: Puissance d’une comparaison de 2 moyennes Quelle est la probabilité de détecter une différence de 1.01 si a(2)=.05? … et ... Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Calcul de la puissance à partir de f n2 décroissant Si a =.01 et f =2.21, 1-b = 0.78 dans la figure Donc, la probabilité d’une erreur de type II est environ 0.22 n1 = 1 1-b a = .05 a = .01 f(a = .01) f(a = .05) 2 3 4 5 1 1.5 2 2.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05

Quizz Dans quelles conditions utiliseriez vous un test de t pour échantillons appariés au lieu d’un test de t pour échantillons indépendants? Dans quelles conditions utiliseriez vous un test de t à variances séparées vs à variance commune? Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05