La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Xx © SPI-EAO Faculté de médecine de Nancy Inférence statistique Estimation de la moyenne et de la variance d'une population à partir des données de l'échantillon.

Présentations similaires


Présentation au sujet: "Xx © SPI-EAO Faculté de médecine de Nancy Inférence statistique Estimation de la moyenne et de la variance d'une population à partir des données de l'échantillon."— Transcription de la présentation:

1 xx © SPI-EAO Faculté de médecine de Nancy Inférence statistique Estimation de la moyenne et de la variance d'une population à partir des données de l'échantillon Les tests statistiques Variables quantitatives Les problèmes Comparaisons de moyennes Comparaisons de variances La corrélation Les solutions Tests paramètriques Tests non paramétriques Variables qualitatives Comparaisons de fréquences L'étude de la survie et autres phénomènes temporels Les analyses multivariées 1

2 xx © SPI-EAO Faculté de médecine de Nancy Estimation des paramètres de la population Variables quantitatives : moyenne et écart type Rappels : N = Effectif de l'échantillon (nombre de mesures) T = Total des valeurs U = Total des carrés SCE = somme des carrés des écarts à la moyenne 2 Ecart type Moyenne Note : p = nombre de valeurs différentes

3 xx © SPI-EAO Faculté de médecine de Nancy Le problème A partir des paramètres obtenus sur l'échantillon on veut estimer les paramètres de la population dont cet échantillon est extrait. Ceci peut se faire uniquement si : L'échantillon a été correctement constitué (notion d'échantillon représentatif). Que penseriez vous d'un expérimentateur qui voudrait généraliser les observations qu'il a réalisées, vis à vis du mal de dos, en n'ayant observé que des secrétaires médicales ? Si la loi de probabilité qui régit la distributions des paramètres à estimer est connue => respect des conditions d'application Le problème : 3 Population m Inconnus Échantillon XSXS Connus A partir de X et de S, on veut estimer (on essaie d'approcher le mieux possible) m et

4 xx © SPI-EAO Faculté de médecine de Nancy Estimation de la moyenne de la population La distribution des moyennes d'échantillons indépendants de faible effectif tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes peut être approchée par une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. L'écart type de la distribution des moyennes d'échantillons indépendants tirés de la même population peut être estimé à partir de l'écart type de l'échantillon S (ou de l'estimateur de l'écart type de la population ). 4 m = ESM = S N-1 = N (Standard deviation of the mean) => Si N > 30, il y a une probabilité de 95% que la moyenne se trouve dans l'intervalle m ± 2 * ESM La variable aléatoire : t = X - m S N-1 suit une loi de student à N-1 DDL

5 xx © SPI-EAO Faculté de médecine de Nancy Estimation de l'écart type de la population L'écart type de l'échantillon n'est pas un bon estimateur de l'écart type de la population. Il existe une erreur systématique : c'est un estimateur biaisé. La distribution des variances d'échantillons aléatoires indépendants a comme moyenne 5 E(S ) 2 = (N-1) * 2 N et comme variance dans le acs d'une population normale Var (S ) 2 = 2*(N-1) * 4 N 2 Dans le cas d'une population normale la quantité : 2 N * S 2 suit une loi du khi 2 à N-1 DDL Notons que si N * S 2 = (N-1) 2 est une bonne estimation de la variance, sa racine carré n'est pas une estimation absolument correcte de l'écart type. On peut montrer que les résultats ainsi obtenus sont systématiquement trop faibles avec une erreur relative de 1/4(N-1)

6 xx © SPI-EAO Faculté de médecine de Nancy L'intervalle de confiance de la moyenne L'estimation ponctuelle d'un paramètre ne présente que peu d'intérêt si on a aucune idée de la précision de l'estimation obtenue. Supposons que l'on s'intéresse à la moyenne m dont on posséde un estimateur X et que l'on s'efforce de déterminer de part et d'autre de X les limites G1 et G2 d'un intervalle qui a forte probabilité de contenir m. Pour résoudre se problème, on se donne un coefficient de confiance (ou de sécurité) voisin de 1, en général 0,95 (95%). L'intervalle G1-G2 est appelé intervalle de confiance avec un risque = 1- coefficient de confiance Cependant le fait de fixer le degré de confiance ne suffit pas pour connaître les limites G1 et G2. En général, on répartit le risque d'erreur en deux partie égale : P(m G2) = /2 Les bornes de l'intervalle de confiance de la moyenne sont obtenues par : 6 N X ± t * t suit une loi de Student à N-1 DDL Attention à l'interprétation : si = 0,05, cela ne veut pas dire qu'il y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une constante et n'est pas une variable aléatoire. En conséquence, elle est ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui sont des variables aléatoires. Il est exact de dire que dans 95 % des cas, l'intervalle ainsi construit contient m Si N > 30 et =0,05 on approche par la loi normale et l'intervalle devient X ± 2 * ESM ESM

7 xx © SPI-EAO Faculté de médecine de Nancy Nombre de sujets nécessaires pour atteindre une précision donnée dans l'estimation de la moyenne Cette question est liée à l'intervalle de confiance. Soit l'erreur maximum toléré d pour un degré de confiance 1 -, c'est à dire que l'écart |X-m| ne dépasse d qu'avec une probabilité Pour résoudre ce problème, il faut que préalablement soit fixés, d et On a, en utilisant l'approximation normale et = 0,05 : 7 2 d = 2 N => N = 4 d 2 Il faut quadrupler le nombre de sujets pour doubler la précision (réduire de moitié la longueur de l'intervalle) Le calcul du nombre de sujets nécessaires dépendant du type de problème (précision d'estimation d'un paramètre, tests statistiques...). Pour chaque problème des formules ou des tables existent mais il faut toujours que préalablement un certain nombre de paramètres soit fixés.

8 xx © SPI-EAO Faculté de médecine de Nancy Quest ce quun test statistique ? A. Hypothèses statistiques B. Tests dhypothèses et de signification C. Quelques rappels de logique : D. Tests bilatéraux et tests unilatéraux E. Les erreurs de première et de deuxième espèces F. Significativité ou niveau de signification H. Quelques exemples de questions 8

9 xx © SPI-EAO Faculté de médecine de Nancy A. Hypothèses statistiques Ce sont des affirmations relatives aux distributions de probabilité. Ces affirmations peuvent être vraie ou fausse. Dans la plupart des tests on formule une hypothèse dans le but de la rejeter. Exemple : le pourcentage observé dans la population est de 10%. Si lon veut décider que le pourcentage observé dans un groupe particulier diffère du pourcentage observé dans la population. On supposera quil ny a aucune différence. On peut encore formuler cette hypothèse sous la forme : Toutes les différences observées sont dues à des fluctuations déchantillonnage : dues au hasard. Une telle hypothèse est appelée hypothèse nulle notée H0. Toutes les autres hypothèses sont dites hypothèses alternatives et sont notées H1. 9

10 xx © SPI-EAO Faculté de médecine de Nancy B. Tests dhypothèses et de signification On appelle test dhypothèses ou de signification les procédés statistiques qui permettent de décider si les hypothèses sont vraies ou fausses afin dappréhender la réalité que lon ne connaît pas. C'est un domaine des statistiques inférentielles Il existe des tests différents en fonction du type de variables étudiées (quantitative/qualitative) du type de problème (comparaison de 2 moyennes/comparaison de plus de 2 moyennes) des conditions d'application (modélisation en terme de loi de probabilité) Cependant la suite logique du déroulement d'un test est toujours la même 10

11 xx © SPI-EAO Faculté de médecine de Nancy C. Quelques rappels de logique : Proposition A : deux valeurs possibles : vrai, faux notées 1,0 Proposition B : deux valeurs possibles : vrai, faux notées 1,0 ABA et BA ou BA implique B ex A : Pierre est un homme B : Pierre est mortel Si A est vraie alors B Si B est vrai : Pierre est mortel A->B est vrai Si B est faux : Pierre nest pas mortel donc A->B est faux Quelques rappels darithmétiques... A=B A#B => soit A>B soit A

12 xx © SPI-EAO Faculté de médecine de Nancy D. Tests bilatéraux et tests unilatéraux Lhypothèse nulle H0 retenue est le plus souvent légalité. Les hypothèses alternatives peuvent être alors toutes les autres situations que lon peut diviser en deux grandes catégories : plus grand que; plus petit que. Lorsque lon considére lensemble des hypothèses alternatives on parle de test bilatéral. Lorsque pour des questions de bon sens à priori, on ne considère quune partie des hypothèses alternatives : soit plus grand que soit plus petit que on parle de test unilatéral. ex : on désire comparer la taille des enfants de 3 et 4 ans. Le test est unilatéral, on ne "raccourcit pas les gosses" 12

13 xx © SPI-EAO Faculté de médecine de Nancy E. Les erreurs de première et de deuxième espèces Risques alpha et beta 1. Lerreur de première espèce : Le système de décision que lon emploie nous amène à rejeter lhypothèse nulle alors que celle si est vraie. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à un différence des traitements alors que cela nest pas la réalité. On commet un erreur de première espèce. 2. Lerreur de deuxième espèce : Elle représente une situation en miroir du premier cas. On accepte lhypothèse nulle (le plus souvent dégalité et on conclut à léquivalence) alors que dans la réalité ce nest pas vrai. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à léquivalence des traitements alors que cela nest pas la réalité. On commet un erreur de deuxième espèce. 3. Remarque Dans les tests unilatéraux, on peut isoler un cas particulier derreur dite de troisièmes espèce. Cest le cas ou lon accepte lhypothèse alternative (on rejette lhypothèse nulle). On conclut alors à une différence signée (A>B par exemple) alors que dans la réalité, il y a une différence mais dans lautre sens. 13

14 xx © SPI-EAO Faculté de médecine de Nancy F. Significativité ou niveau de signification p Lorsque lon teste une hypothèse, la probabilité avec laquelle on accepte de réaliser une erreur de première espèce est appelée seuil de signification du test et est notée usuellement alpha. Ce risque est spécifié avant lexpérience, au moment où lon pose le problème. La probabilité avec laquelle on accepte de réaliser une erreur de deuxième espèce est notée usuellement beta. La probabilité de rejeter H0 alors quelle est fausse est appelée puissance du test Puissance = 1- beta Il ny a pas de lien direct entre les deux risques alpha et beta. Lidéal serait de choisir alpha et beta aussi proche de 0 que possible. En général on choisit alpha très petit = 0.05 et lon essaie de minimiser beta (en général 0,1). Cf calcul du nombre de sujets nécessaires. Le seuil de signification p est la probabilité, sous lhypothèse nulle dobserver une telle différence du fait du hasard (Cf étapes dun test). 14

15 xx © SPI-EAO Faculté de médecine de Nancy G. Les étapes dun tests 1. Énoncé de H0 que lon accepte provisoirement 2. Énoncé des hypothèses alternatives H1 et choix dun test bilatéral ou unilatéral 3. Choix dune statistique T (ex Khi2, t de Student, Epsilon...) : fonction des observations dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre une décision. 4. Détermination de la valeur critique C calculée daprès cette loi et daprès le risque alpha accepté 5. Calcul tiré de léchantillon de la valeur prise t par cette statistique T 6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0 7. Calcul du seuil de signification p : probabilité dobserver au moins cette différence du fait du hasard. 15

16 xx © SPI-EAO Faculté de médecine de Nancy H. Quelques exemples de questions On tire deux échantillons représentatifs dune population traitée par les produits A et B. On observe les pourcentages P1 et P2 de guérison. On consent un risque alpha de 5%. La puissance du test que lon emploie est de 80%. Le risque beta est de A 5% B 10% C 20% D 95% E autre chose On tire deux échantillons représentatifs dune population traitée par les produits A et B. On observe les pourcentages P1 et P2 de guérison. On consent un risque alpha de 5%. La puissance du test que lon emploie est de 80%. Lhypothèse nulle est légalité defficacité des traitements. Au terme du test on trouve p < 3%. Quelle est (sont) la (les) affirmation(s) exacte(s) : A) le traitement A est équivalent au traitement B B) le traitement A est différent du traitement B C) il y a une différence dau moins 3% entre les traitements A et B D) Il y a 3% dobserver au moins une telle différence entre les traitement A et B du fait du hasard. E) le traitement A est supérieur au traitement B 16


Télécharger ppt "Xx © SPI-EAO Faculté de médecine de Nancy Inférence statistique Estimation de la moyenne et de la variance d'une population à partir des données de l'échantillon."

Présentations similaires


Annonces Google