Inférence statistique

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Introduction aux statistiques Intervalles de confiance
L’échantillonnage & Ses Fluctuations
Statistique II Chapitre 3: Tests d’hypothèses
Comparaison d’une moyenne observée à une moyenne théorique
Corrélation Position du problème Définition covariance (X,Y) r =
ANOVA à un facteur (Rehailia)
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
Test statistique : principe
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Variable aléatoire, estimation ponctuelle et par intervalle
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les tests statistiques. Une situation à risques
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Régression -corrélation
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Problème Autre formulation :
Corrélation et régression linéaire simple
Le test t.
La puissance statistique
La puissance statistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Tests d’hypothèses.
Probabilités et Statistiques Année 2010/2011
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :
Probabilités et statistique MQT-1102
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Inférence statistique Estimation de la moyenne et de la variance d'une population à partir des données de l'échantillon Les tests statistiques Variables quantitatives Les problèmes Comparaisons de moyennes Comparaisons de variances La corrélation Les solutions Tests paramètriques Tests non paramétriques Variables qualitatives Comparaisons de fréquences L'étude de la survie et autres phénomènes temporels Les analyses multivariées xx © SPI-EAO Faculté de médecine de Nancy 1

Estimation des paramètres de la population Variables quantitatives : moyenne et écart type Rappels : N = Effectif de l'échantillon (nombre de mesures) T = Total des valeurs U = Total des carrés SCE = somme des carrés des écarts à la moyenne Note : p = nombre de valeurs différentes • Moyenne • Ecart type xx © SPI-EAO Faculté de médecine de Nancy 2

Le problème A partir des paramètres obtenus sur l'échantillon on veut estimer les paramètres de la population dont cet échantillon est extrait. Ceci peut se faire uniquement si : L'échantillon a été correctement constitué (notion d'échantillon représentatif). Que penseriez vous d'un expérimentateur qui voudrait généraliser les observations qu'il a réalisées, vis à vis du mal de dos, en n'ayant observé que des secrétaires médicales ? Si la loi de probabilité qui régit la distributions des paramètres à estimer est connue => respect des conditions d'application Le problème : Population Échantillon m s Inconnus X S Connus A partir de X et de S, on veut estimer (on essaie d'approcher le mieux possible) m et s xx © SPI-EAO Faculté de médecine de Nancy 3

Estimation de la moyenne de la population La distribution des moyennes d'échantillons indépendants de faible effectif tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes peut être approchée par une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. L'écart type de la distribution des moyennes d'échantillons indépendants tirés de la même population peut être estimé à partir de l'écart type de l'échantillon S (ou de l'estimateur de l'écart type de la population s ). N s S s = ESM = = m N-1 (Standard deviation of the mean) • La variable aléatoire : X - m suit une loi de student à N-1 DDL t = S N-1 => Si N > 30, il y a une probabilité de 95% que la moyenne se trouve dans l'intervalle m ± 2 * ESM xx © SPI-EAO Faculté de médecine de Nancy 4

Estimation de l'écart type de la population L'écart type de l'échantillon n'est pas un bon estimateur de l'écart type de la population. Il existe une erreur systématique : c'est un estimateur biaisé. La distribution des variances d'échantillons aléatoires indépendants a comme moyenne E(S ) 2 = (N-1) * s N • et comme variance dans le acs d'une population normale Var (S ) 2 = 2*(N-1) * s 4 N • Dans le cas d'une population normale la quantité : 2 N * S suit une loi du khi 2 à N-1 DDL 2 s • Notons que si 2 2 s N * S est une bonne estimation de la variance, sa racine carré n'est pas une estimation absolument correcte de l'écart type. On peut montrer que les résultats ainsi obtenus sont systématiquement trop faibles avec une erreur relative de 1/4(N-1) = (N-1) xx © SPI-EAO Faculté de médecine de Nancy 5

L'intervalle de confiance de la moyenne L'estimation ponctuelle d'un paramètre ne présente que peu d'intérêt si on a aucune idée de la précision de l'estimation obtenue. Supposons que l'on s'intéresse à la moyenne m dont on posséde un estimateur X et que l'on s'efforce de déterminer de part et d'autre de X les limites G1 et G2 d'un intervalle qui a forte probabilité de contenir m. Pour résoudre se problème, on se donne un coefficient de confiance (ou de sécurité) voisin de 1, en général 0,95 (95%). L'intervalle G1-G2 est appelé intervalle de confiance avec un risque a = 1- coefficient de confiance Cependant le fait de fixer le degré de confiance ne suffit pas pour connaître les limites G1 et G2. En général, on répartit le risque d'erreur en deux partie égale : P(m<G1) = P(m>G2) = a /2 Les bornes de l'intervalle de confiance de la moyenne sont obtenues par : N X ± t * s a t suit une loi de Student à N-1 DDL ESM • Si N > 30 et a =0,05 on approche par la loi normale et l'intervalle devient X ± 2 * ESM • Attention à l'interprétation : si a = 0,05, cela ne veut pas dire qu'il y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une constante et n'est pas une variable aléatoire. En conséquence, elle est ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui sont des variables aléatoires. Il est exact de dire que dans 95 % des cas, l'intervalle ainsi construit contient m xx © SPI-EAO Faculté de médecine de Nancy 6

Nombre de sujets nécessaires pour atteindre une précision donnée dans l'estimation de la moyenne Cette question est liée à l'intervalle de confiance. Soit l'erreur maximum toléré d pour un degré de confiance 1 - a, c'est à dire que l'écart |X-m| ne dépasse d qu'avec une probabilité a Pour résoudre ce problème, il faut que préalablement soit fixés a, d et s On a, en utilisant l'approximation normale et a = 0,05 : 2 d = 2 N s => N = 4 s d • Il faut quadrupler le nombre de sujets pour doubler la précision (réduire de moitié la longueur de l'intervalle) • Le calcul du nombre de sujets nécessaires dépendant du type de problème (précision d'estimation d'un paramètre, tests statistiques...). Pour chaque problème des formules ou des tables existent mais il faut toujours que préalablement un certain nombre de paramètres soit fixés. xx © SPI-EAO Faculté de médecine de Nancy 7

qu’un test statistique ? Qu’est ce qu’un test statistique ? A. Hypothèses statistiques B. Tests d’hypothèses et de signification C. Quelques rappels de logique : D. Tests bilatéraux et tests unilatéraux E. Les erreurs de première et de deuxième espèces F. Significativité ou niveau de signification H. Quelques exemples de questions xx © SPI-EAO Faculté de médecine de Nancy 8

A. Hypothèses statistiques Ce sont des affirmations relatives aux distributions de probabilité. Ces affirmations peuvent être vraie ou fausse. Dans la plupart des tests on formule une hypothèse dans le but de la rejeter. Exemple : le pourcentage observé dans la population est de 10%. Si l’on veut décider que le pourcentage observé dans un groupe particulier diffère du pourcentage observé dans la population. On supposera qu’il n’y a aucune différence. On peut encore formuler cette hypothèse sous la forme : “Toutes les différences observées sont dues à des fluctuations d’échantillonnage : dues au hasard. Une telle hypothèse est appelée hypothèse nulle notée H0. Toutes les autres hypothèses sont dites hypothèses alternatives et sont notées H1. xx © SPI-EAO Faculté de médecine de Nancy 9

B. Tests d’hypothèses et de signification On appelle test d’hypothèses ou de signification les procédés statistiques qui permettent de décider si les hypothèses sont vraies ou fausses afin d’appréhender la réalité que l’on ne connaît pas. C'est un domaine des statistiques inférentielles Il existe des tests différents en fonction du type de variables étudiées (quantitative/qualitative) du type de problème (comparaison de 2 moyennes/comparaison de plus de 2 moyennes) des conditions d'application (modélisation en terme de loi de probabilité) Cependant la suite logique du déroulement d'un test est toujours la même xx © SPI-EAO Faculté de médecine de Nancy 10

C. Quelques rappels de logique : Proposition A : deux valeurs possibles : vrai, faux notées 1,0 Proposition B : deux valeurs possibles : vrai, faux notées 1,0 A B A et B A ou B A implique B 1 1 1 1 1 1 0 0 1 0 0 1 0 1 1 0 0 0 0 1 ex A : Pierre est un homme B : Pierre est mortel Si A est vraie alors B Si B est vrai : Pierre est mortel A->B est vrai Si B est faux : Pierre n’est pas mortel donc A->B est faux Quelques rappels d’arithmétiques ... A=B A#B => soit A>B soit A<B xx © SPI-EAO Faculté de médecine de Nancy 11

D. Tests bilatéraux et tests unilatéraux L’hypothèse nulle H0 retenue est le plus souvent l’égalité. Les hypothèses alternatives peuvent être alors toutes les autres situations que l’on peut diviser en deux grandes catégories : plus grand que; plus petit que. Lorsque l’on considére l’ensemble des hypothèses alternatives on parle de test bilatéral. Lorsque pour des questions de bon sens à priori, on ne considère qu’une partie des hypothèses alternatives : soit plus grand que soit plus petit que on parle de test unilatéral. ex : on désire comparer la taille des enfants de 3 et 4 ans. Le test est unilatéral, on ne "raccourcit pas les gosses" xx © SPI-EAO Faculté de médecine de Nancy 12

E. Les erreurs de première et de deuxième espèces Risques alpha et beta 1. L’erreur de première espèce : Le système de décision que l’on emploie nous amène à rejeter l’hypothèse nulle alors que celle si est vraie. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à un différence des traitements alors que cela n’est pas la réalité. On commet un erreur de première espèce. 2. L’erreur de deuxième espèce : Elle représente une situation en miroir du premier cas. On accepte l’hypothèse nulle (le plus souvent d’égalité et on conclut à l’équivalence) alors que dans la réalité ce n’est pas vrai. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à l’équivalence des traitements alors que cela n’est pas la réalité. On commet un erreur de deuxième espèce. 3. Remarque Dans les tests unilatéraux, on peut isoler un cas particulier d’erreur dite de troisièmes espèce. C’est le cas ou l’on accepte l’hypothèse alternative (on rejette l’hypothèse nulle). On conclut alors à une différence signée (A>B par exemple) alors que dans la réalité, il y a une différence mais dans l’autre sens. xx © SPI-EAO Faculté de médecine de Nancy 13

ou niveau de signification p F. Significativité ou niveau de signification p Lorsque l’on teste une hypothèse, la probabilité avec laquelle on accepte de réaliser une erreur de première espèce est appelée seuil de signification du test et est notée usuellement alpha. Ce risque est spécifié avant l’expérience, au moment où l’on pose le problème. La probabilité avec laquelle on accepte de réaliser une erreur de deuxième espèce est notée usuellement beta. La probabilité de rejeter H0 alors qu’elle est fausse est appelée puissance du test Puissance = 1- beta Il n’y a pas de lien direct entre les deux risques alpha et beta. L’idéal serait de choisir alpha et beta aussi proche de 0 que possible. En général on choisit alpha très petit = 0.05 et l’on essaie de minimiser beta (en général 0,1). Cf calcul du nombre de sujets nécessaires. Le seuil de signification p est la probabilité, sous l’hypothèse nulle d’observer une telle différence du fait du hasard (Cf étapes d’un test). xx © SPI-EAO Faculté de médecine de Nancy 14

G. Les étapes d’un tests 1. Énoncé de H0 que l’on accepte provisoirement 2. Énoncé des hypothèses alternatives H1 et choix d’un test bilatéral ou unilatéral 3. Choix d’une statistique T (ex Khi2, t de Student, Epsilon ...) : fonction des observations dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre une décision. 4. Détermination de la valeur critique C calculée d’après cette loi et d’après le risque alpha accepté 5. Calcul tiré de l’échantillon de la valeur prise t par cette statistique T 6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0 7. Calcul du seuil de signification p : probabilité d’observer au moins cette différence du fait du hasard. xx © SPI-EAO Faculté de médecine de Nancy 15

H. Quelques exemples de questions On tire deux échantillons représentatifs d’une population traitée par les produits A et B. On observe les pourcentages P1 et P2 de guérison. On consent un risque alpha de 5%. La puissance du test que l’on emploie est de 80%. Le risque beta est de A 5% B 10% C 20% D 95% E autre chose On tire deux échantillons représentatifs d’une population traitée par les produits A et B. On observe les pourcentages P1 et P2 de guérison. On consent un risque alpha de 5%. La puissance du test que l’on emploie est de 80%. L’hypothèse nulle est l’égalité d’efficacité des traitements. Au terme du test on trouve p < 3%. Quelle est (sont) la (les) affirmation(s) exacte(s) : A) le traitement A est équivalent au traitement B B) le traitement A est différent du traitement B C) il y a une différence d’au moins 3% entre les traitements A et B D) Il y a 3% d’observer au moins une telle différence entre les traitement A et B du fait du hasard. E) le traitement A est supérieur au traitement B xx © SPI-EAO Faculté de médecine de Nancy 16