La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Inférence statistique Distribution déchantillonnage Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon.

Présentations similaires


Présentation au sujet: "Inférence statistique Distribution déchantillonnage Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon."— Transcription de la présentation:

1 Inférence statistique Distribution déchantillonnage Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon Estimation de la variance d'une population à partir des données de l'échantillon Estimation dun paramètre dune distribution Intervalle de confiance Nombre de sujets nécessaires 1

2 Estimation des paramètres de la population Variables quantitatives : moyenne et écart type –Rappels : N = Effectif de l'échantillon (nombre de mesures) T = Total des valeurs U = Total des carrés SCE = somme des carrés des écarts à la moyenne 2 Ecart type Moyenne Note : p = nombre de valeurs différentes

3 La distribution de la moyenne Supposons que dans une population on ait prélevé un premier échantillon de N individu : Si lon prélève dans les mêmes circonstance un 2ième, 3ième… échantillon, on obtient x 1 …. x n et x 1 …x n avec les moyennes correspondantes. On peut considérer la suite infinie des observations x 1, x 1, x 1 …. Comme des valeurs observées dune VA X 1 et ainsi de suite pour x 2, x 2, x 2 …. Dune VA X 2 Dans ces conditions, les moyennes observées sont elles même des valeurs dune VA :

4 Distribution de la moyenne Tout comme X 1 …. X n la VA X possède une distribution de probabilité. Cest las distribution déchantillonnage de la moyenne. Les VA X 1 …. X n ont toutes la même distribution de probabilité dont la moyenne est désignée par m et la variance par 2.

5 Estimation de la moyenne de la population La distribution des moyennes d'échantillons indépendants de faible effectif tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes peut être approchée par une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. L'écart type de la distribution des moyennes d'échantillons indépendants tirés de la même population peut être estimé à partir de l'écart type de l'échantillon S (ou de l'estimateur de l'écart type de la population s ). 4 m = ESM = S N-1 = N (Standard deviation of the mean) => Si N > 30, il y a une probabilité de 95% que la moyenne se trouve dans l'intervalle m ± 2 * ESM La variable aléatoire : t = X - m S N-1 suit une loi de student à N-1 DDL

6 Estimation de l'écart type de la population L'écart type de l'échantillon n'est pas un bon estimateur de l'écart type de la population. Il existe une erreur systématique : c'est un estimateur biaisé. La distribution des variances d'échantillons aléatoires indépendants a comme moyenne 5 E(S ) 2 = (N-1) * 2 N et comme variance dans le cas d'une population normale Var (S ) 2 = 2*(N-1) * 4 N 2 Dans le cas d'une population normale la quantité : 2 N * S 2 suit une loi du khi 2 à N-1 DDL Notons que si N * S 2 = (N-1) 2 est une bonne estimation de la variance, sa racine carré n'est pas une estimation absolument correcte de l'écart type. On peut montrer que les résultats ainsi obtenus sont systématiquement trop faibles avec une erreur relative de 1/4(N-1)

7 Méthode du maximum de vraisemblance (likelihood) On appelle fonction de vraisemblance la probabilité ou la densité de probabilité relative aux valeurs observées x 1 …x n, exprimée en fonction du ou des paramètres de la population. Pour un échantillon aléatoire simple et pour une population définie par un seul paramètre, la fonction de vraisemblance est : Les estimateurs du maximum de vraisemblance correspondent par définition au maximum de cette fonction. La recherche de ce maximum peut être réalisé en annulant la dérivé de cette fonction ou en annulant la dérivé de son logarithme Cette notion peut être tendue au cas de plusieurs paramètres, la recherche du maximum nécessite alors le calcul des dérivés partielles

8 Méthode du maximum de vraisemblance (likelihood) Exemple : estimation dun pourcentage. Soit une population infinie, dont les individus possèdent ou non un caractère (yeux bleu) et supposons que lon veuille estimer la proportion des p individus possédant ce caractère. On associe au caractère une VA X qui vaut 1 quand le caractère est présent et 0 lorsquil est absent. La distribution de probabilité est : P(X=1 = p et P(X=0) = 1-p Pour un échantillon aléatoire simple deffectif N dont x individus sont porteurs du caractère considéré le logarithme de la fonction de vraisemblance est : Sa dérivée par rapport à p est : Lestimation du maximum de vraisemblance est : La fréquence relative est le meilleur estimateur du pourcentage

9 A partir des paramètres obtenus sur l'échantillon on veut estimer les paramètres de la population dont cet échantillon est extrait. –Ceci peut se faire uniquement si : L'échantillon a été correctement constitué (notion d'échantillon représentatif). Que penseriez vous d'un expérimentateur qui voudrait généraliser les observations qu'il a réalisées, vis à vis du mal de dos, en n'ayant observé que des secrétaires médicales ? Si la loi de probabilité qui régit la distributions des paramètres à estimer est connue => respect des conditions d'application –Au-delà de lestimation ponctuelle un risque accepté sur la méthode permet de bâtir un intervalle de confiance Le problème 3 Population m Inconnus Échantillon XSXS Connus

10 L'intervalle de confiance de la moyenne L'estimation ponctuelle d'un paramètre ne présente que peu d'intérêt si on a aucune idée de la précision de l'estimation obtenue. Supposons que l'on s'intéresse à la moyenne m dont on possède un estimateur X et que l'on s'efforce de déterminer de part et d'autre de X les limites G1 et G2 d'un intervalle qui a forte probabilité de contenir m. Pour résoudre se problème, on se donne un coefficient de confiance (ou de sécurité) voisin de 1, en général 0,95 (95%). L'intervalle G1-G2 est appelé intervalle de confiance avec un risque a = 1- coefficient de confiance Cependant le fait de fixer le degré de confiance ne suffit pas pour connaître les limites G1 et G2. En général, on répartit le risque d'erreur en deux partie égale : P(m G2) = a /2 Les bornes de l'intervalle de confiance de la moyenne sont obtenues par : 6 N X ± t * t suit une loi de Student à N-1 DDL Attention à l'interprétation : si = 0,05, cela ne veut pas dire qu'il y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une constante et n'est pas une variable aléatoire. En conséquence, elle est ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui sont des variables aléatoires. Il est exact de dire que dans 95 % des cas, l'intervalle ainsi construit contient m Si N > 30 et a =0,05 on approche par la loi normale et l'intervalle devient X ± 1,96 * ESM ESM

11 Application au PMSI Les contrôles de qualité ancienne méthode avait comme objectif de savoir si les points ISA transmis par un établissement devaient être redressés ou non en fonction du résultat du contrôle de qualité. Pour cela on tirait au sort 100 RSS et lon faisait la différence,x, pour chaque RSS des points ISA transmis et des points ISA contrôle.. Construire un intervalle de confiance autour au de la moyenne au risque 5% Méthode : Lintervalle de confiance est

12 Nombre de sujets nécessaires pour atteindre une précision donnée dans l'estimation de la moyenne Cette question est liée à l'intervalle de confiance. Soit l'erreur maximum toléré d pour un degré de confiance 1 - a, c'est à dire que l'écart |X-m| ne dépasse d qu'avec une probabilité alpha Pour résoudre ce problème, il faut que préalablement soit fixés alpha, d et s On a, en utilisant l'approximation normale et alpha = 0,05 (approximation u 97,5% = 2) : 7 2 d = 2 N => N = 4 d 2 Il faut quadrupler le nombre de sujets pour doubler la précision (réduire de moitié la longueur de l'intervalle) Le calcul du nombre de sujets nécessaires dépendant du type de problème (précision d'estimation d'un paramètre, tests statistiques...). Pour chaque problème des formules ou des tables existent mais il faut toujours que préalablement un certain nombre de paramètres soit fixés.


Télécharger ppt "Inférence statistique Distribution déchantillonnage Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon."

Présentations similaires


Annonces Google