Inférence statistique

Slides:

Advertisements

Présentations similaires

Intervalles de confiance

Advertisements

Introduction aux statistiques Intervalles de confiance

L’échantillonnage & Ses Fluctuations

Comparaison d’une moyenne observée à une moyenne théorique

Corrélation Position du problème Définition covariance (X,Y) r =

Probabilités et statistiques au lycée

STATISTIQUE INFERENTIELLE L ’ESTIMATION

Estimation ponctuelle Estimation par intervalle de confiance

TESTS RELATIFS AUX CARACTERES QUANTITATIFS

Echantillonnage Introduction

Collecte de données F. Kohler.

Inférence statistique

C1 Bio-statistiques F. KOHLER

Comparaison de deux moyennes observées

Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER

Comparaison d'une distribution observée à une distribution théorique

Comparaison de deux pourcentages observés

Comparaison de plusieurs moyennes observées

Variable aléatoire, estimation ponctuelle et par intervalle

Les TESTS STATISTIQUES

Tests de comparaison de pourcentages

Nombre de sujets nécessaires en recherche clinique

Les TESTS STATISTIQUES

Échantillonnage-Estimation

Moyenne, écart type et incertitude de mesure.

Les tests d’hypothèses

Régression -corrélation

Probabilités et statistique en TS

La loi normale et l’estimation de paramètres

Lectures Volume obligatoire: Chapitre 8

COURS 5 Les tableaux croisés, le chi-carré et la corrélation

Chapitre 2 Les indices.

Autres LOIS de PROBABILITES

Méthodes de Biostatistique

1 - Construction d'un abaque Exemple

L’inférence statistique

Nombre de sujets nécessaires en recherche clinique

Régression linéaire simple

Échantillonnage (STT-2000)

Comprendre la variation

Groupe 1: Classes de même intervalle

Comprendre la variation dans les données: Notions de base

La corrélation et la régression

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.

Régression linéaire (STT-2400)

Les intervalles de confiance pour la moyenne d’une population

1 - Programme de Seconde (juin 2009) Statistique et probabilités

Méthodes de Biostatistique

ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage

Rappels de statistiques descriptives

STATISTIQUES DESCRIPTIVES

Micro-intro aux stats.

Intervalles de confiance pour des proportions L’inférence statistique

Échantillonnage (STT-2000)

Concepts fondamentaux: statistiques et distributions

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Chapitre 4 Variables aléatoires discrètes

Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.

Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.

1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :

LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE

1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.

ECHANTILLONAGE ET ESTIMATION

Comparaison de plusieurs moyennes observées

Introduction aux statistiques Intervalles de confiance

UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.

Transcription de la présentation:

Inférence statistique Distribution d’échantillonnage Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon Estimation de la variance d'une population à partir des données de l'échantillon Estimation d’un paramètre d’une distribution Intervalle de confiance Nombre de sujets nécessaires 1

Estimation des paramètres de la population Variables quantitatives : moyenne et écart type Rappels : N = Effectif de l'échantillon (nombre de mesures) T = Total des valeurs U = Total des carrés SCE = somme des carrés des écarts à la moyenne Note : p = nombre de valeurs différentes • Moyenne • Ecart type 2

La distribution de la moyenne Supposons que dans une population on ait prélevé un premier échantillon de N individu : Si l’on prélève dans les mêmes circonstance un 2ième, 3ième… échantillon, on obtient x’1…. x’n et x’’1…x’’n avec les moyennes correspondantes. On peut considérer la suite infinie des observations x1, x’1, x’’1…. Comme des valeurs observées d’une VA X1 et ainsi de suite pour x2, x’2, x’’2…. D’une VA X2 Dans ces conditions, les moyennes observées sont elles même des valeurs d’une VA :

Distribution de la moyenne Tout comme X1…. Xn la VA X possède une distribution de probabilité. C’est las distribution d’échantillonnage de la moyenne. Les VA X1…. Xn ont toutes la même distribution de probabilité dont la moyenne est désignée par m et la variance par s2.

Estimation de la moyenne de la population La distribution des moyennes d'échantillons indépendants de faible effectif tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes peut être approchée par une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. L'écart type de la distribution des moyennes d'échantillons indépendants tirés de la même population peut être estimé à partir de l'écart type de l'échantillon S (ou de l'estimateur de l'écart type de la population s ). N s S s = ESM = = m N-1 (Standard deviation of the mean) • La variable aléatoire : X - m suit une loi de student à N-1 DDL t = S N-1 => Si N > 30, il y a une probabilité de 95% que la moyenne se trouve dans l'intervalle m ± 2 * ESM 4

Estimation de l'écart type de la population L'écart type de l'échantillon n'est pas un bon estimateur de l'écart type de la population. Il existe une erreur systématique : c'est un estimateur biaisé. La distribution des variances d'échantillons aléatoires indépendants a comme moyenne E(S ) 2 = (N-1) * s N • et comme variance dans le cas d'une population normale Var (S ) 2 = 2*(N-1) * s 4 N • Dans le cas d'une population normale la quantité : 2 N * S suit une loi du khi 2 à N-1 DDL 2 s • Notons que si 2 2 s N * S est une bonne estimation de la variance, sa racine carré n'est pas une estimation absolument correcte de l'écart type. On peut montrer que les résultats ainsi obtenus sont systématiquement trop faibles avec une erreur relative de 1/4(N-1) = (N-1) 5

Méthode du maximum de vraisemblance (likelihood) On appelle fonction de vraisemblance la probabilité ou la densité de probabilité relative aux valeurs observées x1…xn, exprimée en fonction du ou des paramètres de la population. Pour un échantillon aléatoire simple et pour une population définie par un seul paramètre g, la fonction de vraisemblance est : Les estimateurs du maximum de vraisemblance correspondent par définition au maximum de cette fonction. La recherche de ce maximum peut être réalisé en annulant la dérivé de cette fonction ou en annulant la dérivé de son logarithme Cette notion peut être tendue au cas de plusieurs paramètres, la recherche du maximum nécessite alors le calcul des dérivés partielles

Méthode du maximum de vraisemblance (likelihood) Exemple : estimation d’un pourcentage. Soit une population infinie, dont les individus possèdent ou non un caractère (yeux bleu) et supposons que l’on veuille estimer la proportion des p individus possédant ce caractère. On associe au caractère une VA X qui vaut 1 quand le caractère est présent et 0 lorsqu’il est absent. La distribution de probabilité est : P(X=1 = p et P(X=0) = 1-p Pour un échantillon aléatoire simple d’effectif N dont x individus sont porteurs du caractère considéré le logarithme de la fonction de vraisemblance est : Sa dérivée par rapport à p est : L’estimation du maximum de vraisemblance est : La fréquence relative est le meilleur estimateur du pourcentage

m s X S Le problème Population Échantillon Inconnus Connus A partir des paramètres obtenus sur l'échantillon on veut estimer les paramètres de la population dont cet échantillon est extrait. Ceci peut se faire uniquement si : L'échantillon a été correctement constitué (notion d'échantillon représentatif). Que penseriez vous d'un expérimentateur qui voudrait généraliser les observations qu'il a réalisées, vis à vis du mal de dos, en n'ayant observé que des secrétaires médicales ? Si la loi de probabilité qui régit la distributions des paramètres à estimer est connue => respect des conditions d'application Au-delà de l’estimation ponctuelle un risque accepté sur la méthode permet de bâtir un intervalle de confiance 3

L'intervalle de confiance de la moyenne L'estimation ponctuelle d'un paramètre ne présente que peu d'intérêt si on a aucune idée de la précision de l'estimation obtenue. Supposons que l'on s'intéresse à la moyenne m dont on possède un estimateur X et que l'on s'efforce de déterminer de part et d'autre de X les limites G1 et G2 d'un intervalle qui a forte probabilité de contenir m. Pour résoudre se problème, on se donne un coefficient de confiance (ou de sécurité) voisin de 1, en général 0,95 (95%). L'intervalle G1-G2 est appelé intervalle de confiance avec un risque a = 1- coefficient de confiance Cependant le fait de fixer le degré de confiance ne suffit pas pour connaître les limites G1 et G2. En général, on répartit le risque d'erreur en deux partie égale : P(m<G1) = P(m>G2) = a /2 Les bornes de l'intervalle de confiance de la moyenne sont obtenues par : N X ± t * s a t suit une loi de Student à N-1 DDL ESM • Si N > 30 et a =0,05 on approche par la loi normale et l'intervalle devient X ± 1,96 * ESM • Attention à l'interprétation : si a = 0,05, cela ne veut pas dire qu'il y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une constante et n'est pas une variable aléatoire. En conséquence, elle est ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui sont des variables aléatoires. Il est exact de dire que dans 95 % des cas, l'intervalle ainsi construit contient m 6

Application au PMSI Les contrôles de qualité ancienne méthode avait comme objectif de savoir si les points ISA transmis par un établissement devaient être redressés ou non en fonction du résultat du contrôle de qualité. Pour cela on tirait au sort 100 RSS et l’on faisait la différence,x, pour chaque RSS des points ISA transmis et des points ISA contrôle.. Construire un intervalle de confiance autour au de la moyenne au risque 5% Méthode : L’intervalle de confiance est

Nombre de sujets nécessaires pour atteindre une précision donnée dans l'estimation de la moyenne Cette question est liée à l'intervalle de confiance. Soit l'erreur maximum toléré d pour un degré de confiance 1 - a, c'est à dire que l'écart |X-m| ne dépasse d qu'avec une probabilité alpha Pour résoudre ce problème, il faut que préalablement soit fixés alpha, d et s On a, en utilisant l'approximation normale et alpha = 0,05 (approximation u97,5% = 2) : 2 d = 2 N s => N = 4 s d • Il faut quadrupler le nombre de sujets pour doubler la précision (réduire de moitié la longueur de l'intervalle) • Le calcul du nombre de sujets nécessaires dépendant du type de problème (précision d'estimation d'un paramètre, tests statistiques...). Pour chaque problème des formules ou des tables existent mais il faut toujours que préalablement un certain nombre de paramètres soit fixés. 7