ECHANTILLONAGE ET ESTIMATION DE PARAMETRES
Situation classique en statistique : on s’intéresse à une population, mais on ne peut étudier la population dans son ensemble on extrait un échantillon de cette population à partir de cet échantillon, comment estimer des paramètres de la population?
en statistique: un échantillon est un ensemble d’individus extraits d’une population initiale de manière aléatoire pour qu’il soit représentatif de cette population Sondage : méthode utilisée pour constituer un échantillon
Sondage : définition population : ensemble des individus ( unités statistiques) qu’on veut étudier les unités statistiques ne sont pas toujours des individus ( services hospitaliers, écoles…) base de sondage : liste des unités statistiques issues de la population servant à sélectionner un échantillon Tirage au sort : randomisation
Sondage systématique : base de sondage de grande taille déterminer le pas de sondage ex N = 10 000 et n = 500 : pas de sondage = n/N = 20 TAS du 1er sujet entre 1et n Puis tirage d’un sujet tous les 20
Sondage à plusieurs degrés : population de très grande taille +++ sondage à 2 ou n degrés COURS N°4
sondage en grappe : variante d’un sondage à n degrés on prend tous les individus du dernier degré
Sondage stratifié: Cas où l’on sait qu’il y a une liaison entre un caractère particulier de la population et la variable étudiée Exemple : on étudie le comportement par rapport au tabac chez des lycéens d ’une école ( 800 élèves) : proportion variable par classe : 2nd 10% ; 1ére : 20%, Term: 40%) . Stratifié sur la classe en faisant le TAS dans chaque strate
MESURES STATISTIQUES SUR UN ECHANTILLON Sur un échantillon, on peut mesurer les mêmes types de paramètres de position et de distribution que sur une population Utilisés comme estimateurs des paramètres inconnus dans la population
Postulats de base : la valeur observée sur un échantillon a peu de chances d’être exactement la valeur inconnue de la population que cette valeur est néanmoins assez proche de la valeur inconnue si notre échantillon est représentatif +++ En répétant l’échantillonnage, on trouve d’autres valeurs, toutes assez proches les unes des autres
En statistique on a la problématique suivante : on a un échantillon de n valeurs on veut en déduire quelque chose de la population dont est issu cet échantillon
On connaît notre échantillon : Variable quantitative : moyenne observée (m), variance observée (s2 ) variable qualitative : fréquence observée (p0).
Soit X une v. a de moyenne µ et de variance 2 Soit X une v. a de moyenne µ et de variance 2. On tire au sort un échantillon de n sujets : on mesure m et S2 Est-ce que m est un bon estimateur de ? Est-ce que s 2 est un bon estimateur de 2 ?
Paramètres de position : Moyenne: on appelle m la moyenne d’une variable quantitative calculée sur un échantillon, μ étant la moyenne inconnue dans la population. Avec x: les valeurs de la variable, Σx la somme de ces valeurs et n la taille de l’échantillon m = Σx / n La moyenne m est l’estimateur de la moyenne μ inconnue
un bon estimateur de µ (population) : sans biais et convergent La valeur m de cet échantillon est un bon estimateur de µ (population) : sans biais et convergent
Paramètres de dispersion : la valeur = pas une bonne estimation de 2 inconnue (population) on a calculé les écarts par rapport à la moyenne observée m et non la moyenne théorique µ S 2
å ( ) x - m S = n-1 S2 est un bon estimateur de 2 : il est sans biais et convergent å ( x - ) 2 m S 2 = n-1
Estimation de proportions : Soit une population dans laquelle on observe une proportion P d’individus ayant une caractéristique. On cherche à estimer P par la proportion observée p d’un échantillon de cette population. p = k / n avec n = taille échantillon et K le nombre d’individus présentant la caractéristique p est un bon estimateur de P, sans biais et convergent
Estimation par intervalle de confiance : Un intervalle de confiance d’un paramètre inconnu est une fourchette de valeurs dans laquelle le paramètre inconnu qu’on veut estimer a une probabilité 1-α de se trouver (et α de ne pas se trouver) m − IεIα sm < μ < m + IεI α sm Ici, on connaît m et on cherche à déterminer μ.
1- Estimation d’une moyenne µ inconnue par un intervalle de confiance : c’est donner les valeurs qui vont encadrer µ avec une probabilité ( 1- α ) de trouver µ : Pr (m - k < µ < m + k ) = ( 1 – α ) ex : IC 95% = Intervalle de confiance qui a 95% de chance de contenir µ
= ± e Grand échantillon (n30) d ’après le théorème central limite: l’observation d ’une moyenne m sur un échantillon de n observations, permet d ’assigner à la moyenne inconnue µ, l ’intervalle de confiance à 95% : dérivée formule générale : S 2 ( = 5% : =1,96) IC = m ± 1,96 95% n é ù S 2 d 2 d 2 IC = m ± e IC = ê m - e ú ; m + e 1 - a a n 1 - a ê a a n n ú ë û
é ù S S IC = ê m - t ( n - 1 ) ; m + t ( n - 1 ) ú ê n n ú ë û petit échantillon (n < 30) a) la variable aléatoire X suit une loi normale : remplacer par une autre variable, plus dispersée = t de student, définie en fonction du degré de liberté (n-1) de S2 - IC pour µ inconnue é ù S 2 S 2 IC = ê m - t ( n - 1 ) ; m + t ( n - 1 ) ú 1 - a a/é a ê n n ú ë û
2 - Estimation d ’un pourcentage par un intervalle de confiance : Conditions de validité à vérifier : n p0 et n q0 5
l ’observation d ’un pourcentage p0 sur un échantillon de n cas permet d ’assigner au pourcentage inconnu p mesuré dans une population, l ’intervalle de confiance à 95% dérivée formule générale p q IC = p ± 1 , 96 95 % n p q = ± e IC p a 1 - a n