1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et 2 2 - La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation.

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Collecte de données F. Kohler.
Inférence statistique
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Échantillonnage-Estimation
1 - Construction d'un abaque Exemple
Thème 6 : l'échantillonnage et l'enquête
Comprendre la variation dans les données: Notions de base
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Simulation d’un processus de Poisson
Intervalles de confiance pour des proportions L’inférence statistique
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Échantillonnage aléatoire simple
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
Échantillonnage (STT-2000)
Statistique Descriptive Les Paramètres de Tendance Centrale
M. Bétrancourt et C. Rebetez - Méthodologie expérimentale Diplôme MALTT Année La méthodologie expérimentale Fondements et bases d’application.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Cours de Biostatistiques 14 avril 2012 Noémi ARDITI Delphine COUDRAY.
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
1 Biostatistique et lecture critique d’articles médicaux Pr A Venot UFR SMBH Université Paris 13.
19 mai 2011 Gwennaëlle BRILHAULT INSEE – Dép.de la Démographie Séminaire SFDS Les calculs de précision dans le recensement rénové.
Maths en Jean : Nager dans le brouillard. Présentation du sujet Une personne part du bord de la plage et nage 500 mètres en ligne droite dans une direction.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et Introduction au principe des test statistiques.
1 M1 MQSE 1 - L’outil statistique pour tirer des conclusions dans un monde de variabilité 2 - Utiliser la statistique: se confronter au hasard 3 - La statistique:
Initiation aux bases de données et à la programmation événementielle Outil de création des tables Support de TD rédigé par Bernard COFFIN Université Paris.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Rappels de LCA Thérapeutique Raphaël Favory. Biais de sélection Je ne randomise pas (je choisi à qui je vais donner le traitement test): Je vais avoir.
CEA DSM Dapnia P. KANIKI - Compréhension des phénomènes mis en jeu lors d’imprégnations29/08/ Compréhension des phénomènes mis en jeu lors de l’imprégnation.
Aurélien Besnard.  Des fréquences (points-contacts) évaluées sur…  …des transects choisis dans…  …des Aires de Présence (de surfaces évaluées) dans…
Etude commerciale de Probabilités dans un système de file d’attente ABBAS Thomas CHUNG Fabien KLOTZ Raphaël.
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 7 Support de cours rédigé par Bernard COFFIN Université.
Chapitre 5 Interprétation des données d’enquête 1.
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
Justesse Fidélité et Expression du résultat
Les Statistiques.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
II. Les variables quantitatives
1 Pour aller directement à la reprise du cours. Interprétation des données d’enquête Rappel 1: l’essentiel vu jusqu’ici : Intervention inéluctable du.
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Profile Likelihood Une petite revue succincte. Petite citation a méditer… « a probability of 1 in is almost impossible to estimate » R. P.
Chapitre 5 Interprétation des données d’enquête 1.
Reprise du cours ( ) Chapitre 5 : interprétation des données d’enquêtes hasard  prudence  incertitude et imprécision formules : marge et fourchette.
Eléments de correction. Exercice 1. Méthodes d’interpolation et cartes de températures (7 points) Présentation de la carte et des enjeux de la représentation.
En prélude Quelques brefs rappels 1. Moyenne  Un exercice (3.6, p. 34) o Données o Quelle est la densité moyenne de l’ensemble formé par le Bénin et.
AUTOMATISME Chapitre 2: Le GRAFCET.
Faculté de Médecine de Marseille, Université de la Méditerranée Laboratoire d’Enseignement et de Recherche sur le Traitement.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Introduction aux statistiques Intervalles de confiance
Chapitre 3 : Caractéristiques de tendance centrale
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Transcription de la présentation:

1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation

2 Statistique inférentielle: Tirer des conclusions sur une population générale en utilisant un échantillon d’individus tirés au sort dans cette population Tirer des conclusions sur l’échantillon à partir de la population Exemple savoir quel va être le vainqueur d’une élection Savoir si un médicament est plus efficace qu’un autre Savoir si techniques de dépistage identifie bien les sujets malades Savoir si deux techniques de dosages sont équivalentes …

3 LA POPULATION Sa taille très grande, voire infinie, l’étude de tous ses individus est quasi impossible Les caractères mesurés ont des valeurs aléatoires Les mesures prennent des valeurs différentes, elles varient selon les phénomènes du hasard Les probabilités permettent de modéliser les phénomènes liés au hasard. Les loi de probabilités, ou lois de distribution théoriques. Elles décrivent la probabilité de réalisation de chacune des modalités de la variable aléatoire

4 Tracer une loi de densité de probabilité quelconque d’une variable aléatoire quantitative continue X Que représente toute la surface comprise entre la courbe et l’axe des x? Que représente la surface comprise entre la courbe et l’axe des x mais seulement entre les valeurs x=1 et x=3 Que représente la surface restante?

5 x Loi de densité quelconque

6 x En bleu: probabilité que la variable prenne toutes les valeurs possibles = certitude=1

7 x1 3 En bleu: probabilité que la variable prenne une valeur comprise entre 1 et 3

8 x1 3 En bleu: probabilité que la variable ne prenne pas une valeur comprise entre 1 et 3

9 Dessiner approximativement une loi normale de moyenne  et de variance  ² Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre  - 2  et  + 2  ? Que peut on dire des surfaces sous la courbe pour des valeurs de x non comprises entre  - 2  et  +2  ?

10 Loi normale Loi normale N(x; ,  ) Moyenne:  Variance:  ² Ecart type: 

11 Loi normale: répartition des tailles Il y a une probabilité de 95% que la variable x prenne une valeur entre  - 2  et  + 2 

12 Loi normale: répartition des tailles Il y a une probabilité de 5% que la variable x ne prenne pas une valeur entre  - 2  et  + 2  0,025

13 Dessiner approximativement une loi normale de moyenne  =0 et de variance  ²=1 Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre -2 et 2 ? Que peut on dire des surfaces sous la courbe pour des valeurs de x non comprises entre -2 et 2 ?

14 Loi normale centrée réduite Loi normale N(x; 0, 1) Moyenne:  = 0 Variance:  ²=1 Ecart type:  =1

15 Loi normale centrée réduite Il y a une probabilité de 95% que la variable x prenne une valeur entre -2 et

16 Loi normale centrée réduite Il y a une probabilité de 5% que la variable x ne prenne pas une valeur entre -2 et + 2 0,

17 Utilisation de la loi normale centrée réduite Dessiner approximativement une loi normale de moyenne  =1,7m et de variance  =0,05 m Que devient  si on l’exprime chaque mesure en cm Que devient  si on l’exprime chaque mesure en cm Que devient  si on soustrait 1,70m à chaque mesure Que devient si on soustrait 1,70 m à chaque mesure

18 0,05 1,70

19 Transformation de variable Que devient  si on l’exprime chaque mesure en cm Si x’=100 x  ’ = (x’ 1 + x’ 2 +…..+ x’ n )/n = 100 (x 1 + x 2 +…..+ x n )/n  ’=100  Que devient  si on l’exprime chaque mesure en cm Si x’=100 x  ’= ((x’ 1 -  ’)²+ (x’ 2 -  ’)²+…+ (x’ n -  ’)²)n =((100x  )²+ (100x  )²+…+ (100x n -100  )²)/n = 100 ((x 1 -  )²+(x 2 -  )²+…+(x n -  )²)/n  ’=100 

Effet sur la distribution normale d’une variable transformée par multiplication ou division

21 Transformation de variable Que devient  si on soustrait 0,20m à chaque mesure Si x’=x - 20,  ’=  - 20  ’ = ((x’ ) + (x’ 2 -20)+…..+ (x’ n -20))/n = (x 1 + x 2 +…..+ x n )/n - 20n/n Que devient si on soustrait 0,20 m à chaque mesure Si x’= x - 20 ;  ’=   ’= ((x  ’)²+ (x  ’)²+…+ (x n  ’)²)/n =((x 1 -20)-(  -20))²+((x 2 -20)-(  -20))²+…+ ((x n -20)-(  -20)²))/n = (x 1 -  )²+(x 2 -  )²+…+(x n -  )²)/n

22 Effet sur la distribution normale d’une variable transformer par addition ou soustraction

23 Quelles transformations de variables pour passer d’une loi normale N(x; ,  ) à une loi normale centrée réduite N(z;0;1) 1,7 0, 

24 Quelles transformations de variables pour passer d’une loi normale N(x; ,  ) à une loi normale centrée réduite N(z;0;1) 1,7 0,  Faire passer la moyenne de 1,7 à 0 V=X-1,7 suit N (V,0,0,05) Faire passer l’écart type de 0,05 à 1 Z=V/0,05 = (X-1,7)/0,05 suit N(Z, 0, 1)

25 Quelles transformations de variables pour passer d’une loi normale N(x; ,  ) à une loi normale centrée réduite N(z;0;1) 1,7 0,  Création d’une variable centrée réduite

26 Création d’une variable centrée réduite et utilisation de la loi normale centrée réduite La variable taille X suit dans la population une loi normale de moyenne  = 1,749 m et d’écart type  =0,78 m. Quelle est la probabilité qu’un individu ait une taille supérieure à 1,67 m? Représenter graphiquement cette question. Calculer une variable centrée réduite et donner le résultat en utilisant la table de la loi normale centrée réduite.

27 Loi Normale Centrée Réduite X Pour calculer la probabilité que la taille soit supérieure à 1.67: Pr(X>1,67). Quelle est la valeur de z pour x=1,67? table 3.1 z.z. 1-  =Pr(Z< z .) Pr(X>1.67) équivaut à Pr(Z>-1). Pr(Z>-1)=1-Pr(Z<-1)= =0.841 La probabilité que X soit supérieure à 1.67 m est donc de Z

28 L’ECHANTILLON Sous ensemble de la population de dimension étudiable Ses individus sont représentatifs de la population (INCERTITUDE) La loi de distribution dans la population n’est souvent pas entièrement connue Mais on peut connaître uniquement des indices résumés sur ces distributions Des estimateurs de ces indices peuvent aussi être calculés sur les échantillons La connaissance de ces indices résumés est souvent suffisante pour réaliser des inférences

29 Méthodes d’échantillonnage

30 échantillonnage = opération consistant à identifier un sous groupe d’individus dans une population afin d ’y recueillir des données statistiques échantillon = groupe d ’individus qui a été sélectionné sondage=méthode utilisée pour échantillonner. Avantage : économie de moyens Inconvénient : imprécision dans la mesure But: extrapoler les données observées à l ’ensemble de la population. Les paramètres mesurés sur un échantillon sont des estimateurs des valeurs inconnues dans la population. La qualité primordiale d’un échantillon est d ’être représentatif de la population qu’il est sensé décrire.

31 Lorsqu ’un échantillon n’est pas représentatif, il fournit des données biaisées. Le processus de sélection des individus ne doit pas procéder d ’un choix subjectif, il doit être indépendant de toute caractéristiques des individus. On introduit un biais de sélection dès que le processus de sélection influe sur le résultat ex: interroger les passants dans la rue (quid des sujets ne se déplaçant pas, ne fréquentant pas le quartier?) ex: interroger les lycéens d ’un seul établissement pour connaître certains comportements (influence conditions sociales et localisation géographique de l ’établissement) BIAIS DE SELECTION

32 Faire confiance au hasard lors de la sélection des individus: tirage au sort = randomisation Sondages aléatoires : ils ne laissent aucune liberté de choix à l’expérimentateur, seul le hasard détermine la sélection de l’échantillon: Chaque membre de la population a une chance d’être sélectionné Utilisation de tables de nombre aléatoires ou générateurs de nombres aléatoires. SONDAGES ALEATOIRES

33 Base de sondage : chaque sujet de la population d’étude est numéroté (si la population est très grande, il n’est pas envisageable de faire cette base de sondage) Taille de l’échantillon n est fixée Tous les individus de la population ont a priori la même probabilité d ’être sélectionnés. Cette probabilité est de n/N = fraction de sondage (N=taille de la population) Tirage avec remise: la probabilité d ’être tiré au sort reste identique au cours du tirage au sort = CAS IDEAL Tirage sans remise: la probabilité d ’être tiré au sort diminue au cours du tirage. En pratique on néglige ce problème tant que l’échantillon est petit par rapport à la population SONDAGE ELEMENTAIRE

34

35 La base de sondage est ordonnée mais non numérotée. On détermine un pas de sondage : N/n (N=taille population, n=taille échantillon Le premier individu est tiré au sort entre 1 et N/n. Les individus suivants sont ensuite sélectionnés de pas en pas Risque de biais si l’ordre des individus correspond à une caractéristique dont la présence revienne exactement avec la même périodicité que le pas de sondage. Exemple les individus sont ordonnés en alternant les sujets de sexe opposés (M F M F….), si le pas de sondage est pair, l ’échantillon sera composé d ’individus de même sexe. SONDAGE SYSTEMATIQUE

36 Tirage au sort systématique

37 Population de très grande taille On réalise une partition de la population en Unités Primaires (UP =groupe de population). La liste des UP constitue la base de sondage. sondage à 2 degrés :On réalise un premier sondage élémentaire ou systématique sur cette base.On pratique un 2ème sondage élémentaire ou systématique sur les individus des UP qui ont été tirées effet de grappe :variance intra-groupe faible, variance inter-groupe grande. Plus l ’effet de grappe est élevé, plus la précision de l’estimation diminue SONDAGE A PLUSIEURS DEGRES

38

39 SONDAGE EN GRAPPES Variante du sondage à plusieurs niveaux. Tous les individus de l ’ultime niveau sont sélectionnés. SONDAGE EN GRAPPES,

40

41 La variance de la variable étudiée peut dépendre d’un caractère particulier de la population. Si cette liaison est connue, on peut diviser la population en strates correspondantes aux classes de ce caractère. A l ’intérieur de chaque strate la variance devient plus homogène. On réalise un sondage à l ’intérieur de chaque strate SONDAGE STRATIFIE

42

43 La fluctuation d’échantillonnage Chaque échantillon a une composition en individus différente à chaque tirage Comment tirer des conclusions sur des mesures variant d’un échantillon à l’autre?

44 Comportement de la moyenne expérimentale

45 Distribution de la variable taille: loi normale de moyenne 1,749 m et d’écart type 0,78

46 1,74 1,83 1,891,771,76 1,781,741,771,76 Moyenne=

47 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus

48 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus

49 Distribution de la moyenne expérimentale de la taille pour 30 échantillons de 10 individus

50 Distribution de la moyenne expérimentale de la taille pour 90 échantillons de 10 individus

51 Distribution de la moyenne expérimentale de la taille pour un très grand nombre d’échantillons de 10 individus

52 Distribution de la moyenne expérimentale de la taille : effet de la taille de l’échantillon

53 Pour chaque série, la distribution de la moyenne de l’échantillon est différente (fluctuations d’échantillonnage) –La moyenne observée sur un échantillon est donc une variable aléatoire globalement pour chaque série, la distribution de la variable aléatoire moyenne de l’échantillon présente les particularités communes suivantes : - elle est centrée sur la moyenne théorique de la taille dans la population - la dispersion de ses valeurs par rapport à la moyenne est faible - Lorsque la taille de l’échantillon augmente, la dispersion se réduit autour de la moyenne

54 POPULATION Echantillon de n individus  = Moyenne théorique  ² = Variance théorique m=Moyenne expérimentale s²=Variance expérimentale X m Distribution d’une moyenne expérimentale Lorsque qu’une variable aléatoire quantitative X suit une loi normale de moyenne  et de variance  ², la moyenne expérimentale observé sur un échantillon de n individus suit une loi normale de moyenne  et de variance  ²/n = variance de la moyenne m, moyenne expérimentale calculée sur n réalisations de X suit une loi normale N(m, ,  /  n) si X suit N(x, ,  )

boules 20 sont marquées 1 20 sont marquées 2 20 sont marquées 3 20 sont marquées 4 20 sont marquées 5 Quelle est la distribution de la variable aléatoire valeur de la boule?

56 distribution de la variable aléatoire valeur de la boule Moyenne=3, Variance = 1,33

57 Je tire 25 échantillons de 2 boules. Je calcule la moyenne des valeurs des 2 boules à chaque fois.

58 Je tire 25 échantillons de 5 boules. Je calcule la moyenne des valeurs des 5 boules à chaque fois.

59 Je tire 25 échantillons de 10 boules. Je calcule la moyenne des valeurs des 10 boules à chaque fois.

60 Je tire 25 échantillons de 20 boules. Je calcule la moyenne des valeurs des 20 boules à chaque fois.

61 Je réalise toute les combinaisons de 4 boules dans N échantillons = distribution théorique de la moyenne de 4 boules

62 POPULATION Echantillon de n individus  = Moyenne théorique  ² = Variance théorique m=Moyenne expérimentale s²=Variance expérimentale X p Distribution d’une moyenne expérimentale Lorsque qu’une variable aléatoire quantitative X suit une loi quelconque de moyenne  et de variance  ², la moyenne expérimentale observée sur un échantillon de 30 individus ou plus suit une loi normale de moyenne  et de variance  ²/n Théorème central limite : m, moyenne expérimentale calculée sur n réalisations de X suit une loi normale N(m, (m converge avec ,  /  n) si n  30 ?

63 Population: Distribution de la variable X inconnue, mais moyenne  = 10,  ²=4 Quelle distribution suit la moyenne expérimentale mesurée sur 30 individus? Dessiner cette distribution. Que peut on dire des surfaces sous la courbe pour des valeurs de m comprises entre  - 2  /  n et  + 2  /  n ? Quelles sont les bornes de l’intervalle pour lesquelles il y a 95% de chances de trouver la moyenne expérimentale? La 68% de surface sous la courbe est comprise entre  - 1  /  n et  + 1  /  n. Quelles sont les bornes de l’intervalle pour lesquelles il y a 68% de chance de trouver la moyenne expérimentale?

64 Population: Distribution de la variable X inconnue, mais moyenne  = 10,  ²=4 Si on extrait un échantillon de 30 individus, la moyenne observée dans l’échantillon suit une loi normale de moyenne =10 et de variance =4/30=0,13 et d’écart type =0,36 Il y a 95% de chance de trouver une moyenne expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus, a et b étant distants de 2 écarts type de la moyenne 10 ab

65 Il y a 95% de chance de trouver une moyenne expérimentale comprise entre [a et b] lorsqu’on tire un échantillon de 30 individus Pour 100 échantillons de 30 individus, la moyenne expérimentale ne sera pas comprise entre [a et b] pour 5 d’entre eux a=10-2x0,36b=10+2x0,36 2 x 0,36 10  a=  - 2  /  nb =  + 2  /  n

66 Il y a 68% de chance de trouver une moyenne expérimentale comprise entre [a et b] lorsqu’on tire un échantillon de 30 individus Pour 100 échantillons de 30 individus, la moyenne expérimentale ne sera pas comprise entre [a et b] pour 31 d’entre eux 10-1x0,36 =a b=10+1x0,36 1 x 0, ,5%

67 POPULATION Echantillon de n individus  = Moyenne théorique  ² = Variance théorique m=Moyenne expérimentale ? s²=Variance expérimentale? X m Déduction Statistique inférentielle: Pour 95% des échantillons de n individus que je vais tirer, la moyenne expérimentale de la variable étudiée sera comprise dans l’intervalle [a-b] (intervalle de pari) (5% de chance de se tromper= risque , z  =1,96)

68 Intervalle de pari Pour 95% des échantillons de n individus que je vais tirer, la moyenne expérimentale de la variable étudiée sera comprise dans l’intervalle [a-b] (intervalle de pari), je risque de me tromper dans 5% des cas Si j’augmente le risque de me tromper, l’intervalle de pari diminue Si je diminue le risque de me tromper, l’intervalle de pari augmente Si j’augmente la taille de mon échantillon, l’intervalle de pari diminue Si je diminue la taille de mon échantillon, l’intervalle de pari augmente.

69 Comportement de la proportion expérimentale

70 POPULATION Echantillon de n individus  P = proportion théorique p o =proportion expérimentale X p Distribution d’une proportion expérimentale la proportion expérimentale observée sur un grand échantillon de n individus (nP>5 et n(1-P)>5) suit une loi normale de moyenne P et de variance P(1-P)/n Théorème central limite

71 Dans la population, la proportion de fille P=0,56. Quelle distribution suit la proportion expérimentale de filles mesurée sur 30 individus? Dessiner cette distribution. Que peut on dire des surfaces sous la courbe pour des valeurs de x comprises entre  - 2  (P(1-P)/n) et  + 2  (P(1-P)/n) ? Quelles sont les bornes de l’intervalle pour lesquelles il y a 95% de chances de trouver la moyenne expérimentale?

72 Si on extrait un échantillon de 30 individus, la proportion observée sur 30 individus suit une loi normale de moyenne =0,56 et de variance =(0,56*0,44)/30=0,008 et d’écart type =racine(variance)=0,09 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus, a et b étant distants de 2 écarts type de la moyenne 0,56 ab

73 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus a=0,56-2x0,09b=0,56+2x0,09 2 x 0,09 0,56 P a= P - 2  (P(1-P)/n)b =  + 2  (P(1-P)/n) Sur 100 échantillons de 30 individus, pour 5 d’entre eux, la proportion expérimentale ne sera pas comprise entre [a et b]

74 POPULATION Echantillon de n individus  P = Proportion théorique P o =Proportion expérimentale ? X m Déduction Statistique inférentielle: Pour 95% des échantillons de n individus que je vais tirer, la proportion expérimentale sera comprise dans l’intervalle [a-b] (intervalle de pari) (5% de chance de se tromper= risque , z  =1,96)

75 Statistique inférentielle: Quand on extrait des échantillons d’une population, la fluctuation des moyennes observées peut être parfaitement décrite si on connaît la moyenne  et la variance  ² dans la population. Dans la réalité ces indices ne sont pas connus On peut avoir en avoir une valeur approchée, une estimation à partir d’un échantillon

76 Estimateur - Estimation Définitions Estimation : Mesure faite sur l’échantillon permettant d’obtenir une valeur du paramètre étudié dans la population (valeur numérique) Estimateur: Formule mathématique utilisée pour obtenir l’estimation. Le calcul dépend de la façon dont l’échantillon est tiré Propriétés Absence de biais: les estimations successives sur des échantillons différents ne s’écartent pas de la vraie valeur de façon systématique (moyenne des estimations = valeur vraie) Variance faible: les estimations sont peu dispersées (peu d’écart entre les valeurs de 2 échantillons)

77 Variance faible Variance élevée Absence de biais Présence de biais

78 Estimateur Condition de constitution de l’échantillon Tirage au sort simple Taille de l’échantillon < 10% taille population Estimateur p o d’un pourcentage P Population où le pourcentage vrai de malades est P, et soit un échantillon tiré au hasard dans cette population comprenant n sujets dont k malades. L’estimation de P à partir de cet échantillon est p o

79 Estimateur L’estimation de  ² à partir de cet échantillon est s² Estimateur m d’une moyenne , Estimateur s² d’une variance  ² Soit une population dans laquelle une variable X a une moyenne vraie  et une variance vraie et soit un échantillon de n sujets tirés au sort dans cette population. x 1, x 2,…x n sont les valeurs de X observées sur l’échantillon. L’estimation de  à partir de cet échantillon est m

80 Estimation par intervalle de confiance A partir de la valeur obtenue sur l’échantillon, que puis-je dire sur la valeur vraie dans la population? - je ne peux pas la connaître avec certitude du fait des fluctuations d’échantillonnage - je peux calculer la probabilité qu’elle se trouve dans un intervalle de valeur fortement probable

81  Il y a 95% de chance qu’un intervalle de confiance calculé à partir d’un échantillon contienne la valeur vraie de la population

82 POPULATION Echantillon de n individus  = Moyenne théorique ?  ² = Variance théorique ? m=Moyenne expérimentale s²=Variance expérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la moyenne théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque  ) (n  30) ? ?

83 POPULATION Echantillon de n individus  P = Proportion théorique ? p o =Proportionexpérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la proportion théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque  ) (np inf  5, np sup  5, n(1-p inf )  5, n(1-p sup )  5) ?

84 Précision de l’estimation varie en fonction du risque  de se tromper choisi Précision de l’estimation varie en fonction de l’effectif de l’échantillon

85 Constituer un échantillon - Quelle est la précision souhaitée = quelle largeur pour l’intervalle de confiance? La précision dépend : - du risque α = risque d’avoir un échantillon qui ne contiendra pas la vraie valeur de la population (5%, 10%) - du nombre d’individus dans l’échantillon

86 Taille de l’échantillon - Intervalle de confiance IC 1- α : [P-Z α √(P(1-P)/n) ; P+Z α √(P(1-P)/n)] Largeur de l’intervalle  = 2Z α √(P(1-P)/n On suppose que la prévalence dans la population est connue, P (cf bibliographie, par defaut P=0,5) On choisit le risque α (10%: Z α =1,64, 5%: Z α =1,96 ) On choisit la précision=largeur de l’intervalle (10%) n= (2Z α /  )² (P(1-P)