1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation
2 Statistique inférentielle: Tirer des conclusions sur une population générale en utilisant un échantillon d’individus tirés au sort dans cette population Tirer des conclusions sur l’échantillon à partir de la population Exemple savoir quel va être le vainqueur d’une élection Savoir si un médicament est plus efficace qu’un autre Savoir si techniques de dépistage identifie bien les sujets malades Savoir si deux techniques de dosages sont équivalentes …
3 LA POPULATION Sa taille très grande, voire infinie, l’étude de tous ses individus est quasi impossible Les caractères mesurés ont des valeurs aléatoires Les mesures prennent des valeurs différentes, elles varient selon les phénomènes du hasard Les probabilités permettent de modéliser les phénomènes liés au hasard. Les loi de probabilités, ou lois de distribution théoriques. Elles décrivent la probabilité de réalisation de chacune des modalités de la variable aléatoire
4 Tracer une loi de densité de probabilité quelconque d’une variable aléatoire quantitative continue X Que représente toute la surface comprise entre la courbe et l’axe des x? Que représente la surface comprise entre la courbe et l’axe des x mais seulement entre les valeurs x=1 et x=3 Que représente la surface restante?
5 x Loi de densité quelconque
6 x En bleu: probabilité que la variable prenne toutes les valeurs possibles = certitude=1
7 x1 3 En bleu: probabilité que la variable prenne une valeur comprise entre 1 et 3
8 x1 3 En bleu: probabilité que la variable ne prenne pas une valeur comprise entre 1 et 3
9 Dessiner approximativement une loi normale de moyenne et de variance ² Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre - 2 et + 2 ? Que peut on dire des surfaces sous la courbe pour des valeurs de x non comprises entre - 2 et +2 ?
10 Loi normale Loi normale N(x; , ) Moyenne: Variance: ² Ecart type:
11 Loi normale: répartition des tailles Il y a une probabilité de 95% que la variable x prenne une valeur entre - 2 et + 2
12 Loi normale: répartition des tailles Il y a une probabilité de 5% que la variable x ne prenne pas une valeur entre - 2 et + 2 0,025
13 Dessiner approximativement une loi normale de moyenne =0 et de variance ²=1 Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre -2 et 2 ? Que peut on dire des surfaces sous la courbe pour des valeurs de x non comprises entre -2 et 2 ?
14 Loi normale centrée réduite Loi normale N(x; 0, 1) Moyenne: = 0 Variance: ²=1 Ecart type: =1
15 Loi normale centrée réduite Il y a une probabilité de 95% que la variable x prenne une valeur entre -2 et
16 Loi normale centrée réduite Il y a une probabilité de 5% que la variable x ne prenne pas une valeur entre -2 et + 2 0,
17 Utilisation de la loi normale centrée réduite Dessiner approximativement une loi normale de moyenne =1,7m et de variance =0,05 m Que devient si on l’exprime chaque mesure en cm Que devient si on l’exprime chaque mesure en cm Que devient si on soustrait 1,70m à chaque mesure Que devient si on soustrait 1,70 m à chaque mesure
18 0,05 1,70
19 Transformation de variable Que devient si on l’exprime chaque mesure en cm Si x’=100 x ’ = (x’ 1 + x’ 2 +…..+ x’ n )/n = 100 (x 1 + x 2 +…..+ x n )/n ’=100 Que devient si on l’exprime chaque mesure en cm Si x’=100 x ’= ((x’ 1 - ’)²+ (x’ 2 - ’)²+…+ (x’ n - ’)²)n =((100x )²+ (100x )²+…+ (100x n -100 )²)/n = 100 ((x 1 - )²+(x 2 - )²+…+(x n - )²)/n ’=100
Effet sur la distribution normale d’une variable transformée par multiplication ou division
21 Transformation de variable Que devient si on soustrait 0,20m à chaque mesure Si x’=x - 20, ’= - 20 ’ = ((x’ ) + (x’ 2 -20)+…..+ (x’ n -20))/n = (x 1 + x 2 +…..+ x n )/n - 20n/n Que devient si on soustrait 0,20 m à chaque mesure Si x’= x - 20 ; ’= ’= ((x ’)²+ (x ’)²+…+ (x n ’)²)/n =((x 1 -20)-( -20))²+((x 2 -20)-( -20))²+…+ ((x n -20)-( -20)²))/n = (x 1 - )²+(x 2 - )²+…+(x n - )²)/n
22 Effet sur la distribution normale d’une variable transformer par addition ou soustraction
23 Quelles transformations de variables pour passer d’une loi normale N(x; , ) à une loi normale centrée réduite N(z;0;1) 1,7 0,
24 Quelles transformations de variables pour passer d’une loi normale N(x; , ) à une loi normale centrée réduite N(z;0;1) 1,7 0, Faire passer la moyenne de 1,7 à 0 V=X-1,7 suit N (V,0,0,05) Faire passer l’écart type de 0,05 à 1 Z=V/0,05 = (X-1,7)/0,05 suit N(Z, 0, 1)
25 Quelles transformations de variables pour passer d’une loi normale N(x; , ) à une loi normale centrée réduite N(z;0;1) 1,7 0, Création d’une variable centrée réduite
26 Création d’une variable centrée réduite et utilisation de la loi normale centrée réduite La variable taille X suit dans la population une loi normale de moyenne = 1,749 m et d’écart type =0,78 m. Quelle est la probabilité qu’un individu ait une taille supérieure à 1,67 m? Représenter graphiquement cette question. Calculer une variable centrée réduite et donner le résultat en utilisant la table de la loi normale centrée réduite.
27 Loi Normale Centrée Réduite X Pour calculer la probabilité que la taille soit supérieure à 1.67: Pr(X>1,67). Quelle est la valeur de z pour x=1,67? table 3.1 z.z. 1- =Pr(Z< z .) Pr(X>1.67) équivaut à Pr(Z>-1). Pr(Z>-1)=1-Pr(Z<-1)= =0.841 La probabilité que X soit supérieure à 1.67 m est donc de Z
28 L’ECHANTILLON Sous ensemble de la population de dimension étudiable Ses individus sont représentatifs de la population (INCERTITUDE) La loi de distribution dans la population n’est souvent pas entièrement connue Mais on peut connaître uniquement des indices résumés sur ces distributions Des estimateurs de ces indices peuvent aussi être calculés sur les échantillons La connaissance de ces indices résumés est souvent suffisante pour réaliser des inférences
29 Méthodes d’échantillonnage
30 échantillonnage = opération consistant à identifier un sous groupe d’individus dans une population afin d ’y recueillir des données statistiques échantillon = groupe d ’individus qui a été sélectionné sondage=méthode utilisée pour échantillonner. Avantage : économie de moyens Inconvénient : imprécision dans la mesure But: extrapoler les données observées à l ’ensemble de la population. Les paramètres mesurés sur un échantillon sont des estimateurs des valeurs inconnues dans la population. La qualité primordiale d’un échantillon est d ’être représentatif de la population qu’il est sensé décrire.
31 Lorsqu ’un échantillon n’est pas représentatif, il fournit des données biaisées. Le processus de sélection des individus ne doit pas procéder d ’un choix subjectif, il doit être indépendant de toute caractéristiques des individus. On introduit un biais de sélection dès que le processus de sélection influe sur le résultat ex: interroger les passants dans la rue (quid des sujets ne se déplaçant pas, ne fréquentant pas le quartier?) ex: interroger les lycéens d ’un seul établissement pour connaître certains comportements (influence conditions sociales et localisation géographique de l ’établissement) BIAIS DE SELECTION
32 Faire confiance au hasard lors de la sélection des individus: tirage au sort = randomisation Sondages aléatoires : ils ne laissent aucune liberté de choix à l’expérimentateur, seul le hasard détermine la sélection de l’échantillon: Chaque membre de la population a une chance d’être sélectionné Utilisation de tables de nombre aléatoires ou générateurs de nombres aléatoires. SONDAGES ALEATOIRES
33 Base de sondage : chaque sujet de la population d’étude est numéroté (si la population est très grande, il n’est pas envisageable de faire cette base de sondage) Taille de l’échantillon n est fixée Tous les individus de la population ont a priori la même probabilité d ’être sélectionnés. Cette probabilité est de n/N = fraction de sondage (N=taille de la population) Tirage avec remise: la probabilité d ’être tiré au sort reste identique au cours du tirage au sort = CAS IDEAL Tirage sans remise: la probabilité d ’être tiré au sort diminue au cours du tirage. En pratique on néglige ce problème tant que l’échantillon est petit par rapport à la population SONDAGE ELEMENTAIRE
34
35 La base de sondage est ordonnée mais non numérotée. On détermine un pas de sondage : N/n (N=taille population, n=taille échantillon Le premier individu est tiré au sort entre 1 et N/n. Les individus suivants sont ensuite sélectionnés de pas en pas Risque de biais si l’ordre des individus correspond à une caractéristique dont la présence revienne exactement avec la même périodicité que le pas de sondage. Exemple les individus sont ordonnés en alternant les sujets de sexe opposés (M F M F….), si le pas de sondage est pair, l ’échantillon sera composé d ’individus de même sexe. SONDAGE SYSTEMATIQUE
36 Tirage au sort systématique
37 Population de très grande taille On réalise une partition de la population en Unités Primaires (UP =groupe de population). La liste des UP constitue la base de sondage. sondage à 2 degrés :On réalise un premier sondage élémentaire ou systématique sur cette base.On pratique un 2ème sondage élémentaire ou systématique sur les individus des UP qui ont été tirées effet de grappe :variance intra-groupe faible, variance inter-groupe grande. Plus l ’effet de grappe est élevé, plus la précision de l’estimation diminue SONDAGE A PLUSIEURS DEGRES
38
39 SONDAGE EN GRAPPES Variante du sondage à plusieurs niveaux. Tous les individus de l ’ultime niveau sont sélectionnés. SONDAGE EN GRAPPES,
40
41 La variance de la variable étudiée peut dépendre d’un caractère particulier de la population. Si cette liaison est connue, on peut diviser la population en strates correspondantes aux classes de ce caractère. A l ’intérieur de chaque strate la variance devient plus homogène. On réalise un sondage à l ’intérieur de chaque strate SONDAGE STRATIFIE
42
43 La fluctuation d’échantillonnage Chaque échantillon a une composition en individus différente à chaque tirage Comment tirer des conclusions sur des mesures variant d’un échantillon à l’autre?
44 Comportement de la moyenne expérimentale
45 Distribution de la variable taille: loi normale de moyenne 1,749 m et d’écart type 0,78
46 1,74 1,83 1,891,771,76 1,781,741,771,76 Moyenne=
47 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus
48 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus
49 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus
50 Distribution de la moyenne expérimentale de la taille pour 90 échantillons de 10 individus
51 Distribution de la moyenne expérimentale de la taille pour un très grand nombre d’échantillons de 10 individus
52 Distribution de la moyenne expérimentale de la taille : effet de la taille de l’échantillon
53 Pour chaque série, la distribution de la moyenne de l’échantillon est différente (fluctuations d’échantillonnage) –La moyenne observée sur un échantillon est donc une variable aléatoire globalement pour chaque série, la distribution de la variable aléatoire moyenne de l’échantillon présente les particularités communes suivantes : - elle est centrée sur la moyenne théorique de la taille dans la population - la dispersion de ses valeurs par rapport à la moyenne est faible - Lorsque la taille de l’échantillon augmente, la dispersion se réduit autour de la moyenne
54 POPULATION Echantillon de n individus = Moyenne théorique ² = Variance théorique m=Moyenne expérimentale s²=Variance expérimentale X m Distribution d’une moyenne expérimentale Lorsque qu’une variable aléatoire quantitative X suit une loi normale de moyenne et de variance ², la moyenne expérimentale observé sur un échantillon de n individus suit une loi normale de moyenne et de variance ²/n = variance de la moyenne m, moyenne expérimentale calculée sur n réalisations de X suit une loi normale N(m, , / n) si X suit N(x, , )
boules 20 sont marquées 1 20 sont marquées 2 20 sont marquées 3 20 sont marquées 4 20 sont marquées 5 Quelle est la distribution de la variable aléatoire valeur de la boule?
56 distribution de la variable aléatoire valeur de la boule Moyenne=3, Variance = 1,33
57 Je tire 25 échantillons de 2 boules. Je calcule la moyenne des valeurs des 2 boules à chaque fois.
58 Je tire 25 échantillons de 5 boules. Je calcule la moyenne des valeurs des 5 boules à chaque fois.
59 Je tire 25 échantillons de 10 boules. Je calcule la moyenne des valeurs des 10 boules à chaque fois.
60 Je tire 25 échantillons de 20 boules. Je calcule la moyenne des valeurs des 20 boules à chaque fois.
61 Je réalise toute les combinaisons de 4 boules dans N échantillons = distribution théorique de la moyenne de 4 boules
62 POPULATION Echantillon de n individus = Moyenne théorique ² = Variance théorique m=Moyenne expérimentale s²=Variance expérimentale X p Distribution d’une moyenne expérimentale Lorsque qu’une variable aléatoire quantitative X suit une loi quelconque de moyenne et de variance ², la moyenne expérimentale observée sur un échantillon de 30 individus ou plus suit une loi normale de moyenne et de variance ²/n Théorème central limite : m, moyenne expérimentale calculée sur n réalisations de X suit une loi normale N(m, (m converge avec , / n) si n 30 ?
63 Population: Distribution de la variable X inconnue, mais moyenne = 10, ²=4 Quelle distribution suit la moyenne expérimentale mesurée sur 30 individus? Dessiner cette distribution. Que peut on dire des surfaces sous la courbe pour des valeurs de m comprises entre - 2 / n et + 2 / n ? Quelles sont les bornes de l’intervalle pour lesquelles il y a 95% de chances de trouver la moyenne expérimentale? La 68% de surface sous la courbe est comprise entre - 1 / n et + 1 / n. Quelles sont les bornes de l’intervalle pour lesquelles il y a 68% de chance de trouver la moyenne expérimentale?
64 Population: Distribution de la variable X inconnue, mais moyenne = 10, ²=4 Si on extrait un échantillon de 30 individus, la moyenne observée dans l’échantillon suit une loi normale de moyenne =10 et de variance =4/30=0,13 et d’écart type =0,36 Il y a 95% de chance de trouver une moyenne expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus, a et b étant distants de 2 écarts type de la moyenne 10 ab
65 Il y a 95% de chance de trouver une moyenne expérimentale comprise entre [a et b] lorsqu’on tire un échantillon de 30 individus Pour 100 échantillons de 30 individus, la moyenne expérimentale ne sera pas comprise entre [a et b] pour 5 d’entre eux a=10-2x0,36b=10+2x0,36 2 x 0,36 10 a= - 2 / nb = + 2 / n
66 Il y a 68% de chance de trouver une moyenne expérimentale comprise entre [a et b] lorsqu’on tire un échantillon de 30 individus Pour 100 échantillons de 30 individus, la moyenne expérimentale ne sera pas comprise entre [a et b] pour 31 d’entre eux 10-1x0,36 =a b=10+1x0,36 1 x 0, ,5%
67 POPULATION Echantillon de n individus = Moyenne théorique ² = Variance théorique m=Moyenne expérimentale ? s²=Variance expérimentale? X m Déduction Statistique inférentielle: Pour 95% des échantillons de n individus que je vais tirer, la moyenne expérimentale de la variable étudiée sera comprise dans l’intervalle [a-b] (intervalle de pari) (5% de chance de se tromper= risque , z =1,96)
68 Intervalle de pari Pour 95% des échantillons de n individus que je vais tirer, la moyenne expérimentale de la variable étudiée sera comprise dans l’intervalle [a-b] (intervalle de pari), je risque de me tromper dans 5% des cas Si j’augmente le risque de me tromper, l’intervalle de pari diminue Si je diminue le risque de me tromper, l’intervalle de pari augmente Si j’augmente la taille de mon échantillon, l’intervalle de pari diminue Si je diminue la taille de mon échantillon, l’intervalle de pari augmente.
69 Comportement de la proportion expérimentale
70 POPULATION Echantillon de n individus P = proportion théorique p o =proportion expérimentale X p Distribution d’une proportion expérimentale la proportion expérimentale observée sur un grand échantillon de n individus (nP>5 et n(1-P)>5) suit une loi normale de moyenne P et de variance P(1-P)/n Théorème central limite
71 Dans la population, la proportion de fille P=0,56. Quelle distribution suit la proportion expérimentale de filles mesurée sur 30 individus? Dessiner cette distribution. Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre - 2 (P(1-P)/n) et + 2 (P(1-P)/n) ? Quelles sont les bornes de l’intervalle pour lesquelles il y a 95% de chances de trouver la moyenne expérimentale?
72 Si on extrait un échantillon de 30 individus, la proportion observée sur 30 individus suit une loi normale de moyenne =0,56 et de variance =(0,56*0,44)/30=0,008 et d’écart type =racine(variance)=0,09 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus, a et b étant distants de 2 écarts type de la moyenne 0,56 ab
73 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus a=0,56-2x0,09b=0,56+2x0,09 2 x 0,09 0,56 P a= P - 2 (P(1-P)/n)b = + 2 (P(1-P)/n) Sur 100 échantillons de 30 individus, pour 5 d’entre eux, la proportion expérimentale ne sera pas comprise entre [a et b]
74 POPULATION Echantillon de n individus P = Proportion théorique P o =Proportion expérimentale ? X m Déduction Statistique inférentielle: Pour 95% des échantillons de n individus que je vais tirer, la proportion expérimentale sera comprise dans l’intervalle [a-b] (intervalle de pari) (5% de chance de se tromper= risque , z =1,96)
75 Statistique inférentielle: Quand on extrait des échantillons d’une population, la fluctuation des moyennes observées peut être parfaitement décrite si on connaît la moyenne et la variance ² dans la population. Dans la réalité ces indices ne sont pas connus On peut avoir en avoir une valeur approchée, une estimation à partir d’un échantillon
76 Estimateur - Estimation Définitions Estimation : Mesure faite sur l’échantillon permettant d’obtenir une valeur du paramètre étudié dans la population (valeur numérique) Estimateur: Formule mathématique utilisée pour obtenir l’estimation. Le calcul dépend de la façon dont l’échantillon est tiré Propriétés Absence de biais: les estimations successives sur des échantillons différents ne s’écartent pas de la vraie valeur de façon systématique (moyenne des estimations = valeur vraie) Variance faible: les estimations sont peu dispersées (peu d’écart entre les valeurs de 2 échantillons)
77 Variance faible Variance élevée Absence de biais Présence de biais
78 Estimateur Condition de constitution de l’échantillon Tirage au sort simple Taille de l’échantillon < 10% taille population Estimateur p o d’un pourcentage P Population où le pourcentage vrai de malades est P, et soit un échantillon tiré au hasard dans cette population comprenant n sujets dont k malades. L’estimation de P à partir de cet échantillon est p o
79 Estimateur L’estimation de ² à partir de cet échantillon est s² Estimateur m d’une moyenne , Estimateur s² d’une variance ² Soit une population dans laquelle une variable X a une moyenne vraie et une variance vraie et soit un échantillon de n sujets tirés au sort dans cette population. x 1, x 2,…x n sont les valeurs de X observées sur l’échantillon. L’estimation de à partir de cet échantillon est m
80 Estimation par intervalle de confiance A partir de la valeur obtenue sur l’échantillon, que puis-je dire sur la valeur vraie dans la population? - je ne peux pas la connaître avec certitude du fait des fluctuations d’échantillonnage - je peux calculer la probabilité qu’elle se trouve dans un intervalle de valeur fortement probable
81 Il y a 95% de chance qu’un intervalle de confiance calculé à partir d’un échantillon contienne la valeur vraie de la population
82 POPULATION Echantillon de n individus = Moyenne théorique ? ² = Variance théorique ? m=Moyenne expérimentale s²=Variance expérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la moyenne théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque ) (n 30) ? ?
83 POPULATION Echantillon de n individus P = Proportion théorique ? p o =Proportionexpérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la proportion théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque ) (np inf 5, np sup 5, n(1-p inf ) 5, n(1-p sup ) 5) ?
84 Précision de l’estimation varie en fonction du risque de se tromper choisi Précision de l’estimation varie en fonction de l’effectif de l’échantillon
85 Constituer un échantillon - Quelle est la précision souhaitée = quelle largeur pour l’intervalle de confiance? La précision dépend : - du risque α = risque d’avoir un échantillon qui ne contiendra pas la vraie valeur de la population (5%, 10%) - du nombre d’individus dans l’échantillon
86 Taille de l’échantillon - Intervalle de confiance IC 1- α : [P-Z α √(P(1-P)/n) ; P+Z α √(P(1-P)/n)] Largeur de l’intervalle = 2Z α √(P(1-P)/n On suppose que la prévalence dans la population est connue, P (cf bibliographie, par defaut P=0,5) On choisit le risque α (10%: Z α =1,64, 5%: Z α =1,96 ) On choisit la précision=largeur de l’intervalle (10%) n= (2Z α / )² (P(1-P)