Atelier 1 Le problème du surpoids sur géogébra
Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite estimer la prévalence du surpoids dans une ville V, c'est-à-dire la proportion de personnes ayant une masse trop importante par rapport à leur taille. Pour cela 400 personnes ont été sélectionnées de manière aléatoire à partir de la liste des logements connue par la municipalité, c'est-à-dire que le fait d’avoir été sélectionné pour participer à l’étude est uniquement dû au hasard. 22
Partie 1: On donne ci-dessous les résultats du sondage sur les 400 personnes interrogées réparties selon deux critères : le sexe et l’âge. On sait que, dans la population, il y a 46% d’hommes et 18% de personnes de plus de 60 ans. Question 1 : Cet échantillon est-il représentatif ? 33
Comme l’effectif de la population est important par rapport aux 400 personnes sondées, on peut modéliser la réalisation de l’échantillon par un tirage aléatoire avec remise. (condition pour faire intervenir les probabilités) 4 Pour une étude, mettant en jeu le lien avec certaines caractéristiques connues de la population on considère qu’un échantillon est représentatif, si la fréquence f observée de ces caractéristiques est dans l’intervalle de fluctuation au seuil de confiance de 95%. Au travail ! 4
Classe de Seconde : On utilise l’intervalle de fluctuation à condition que p soit compris entre 0,2 et 0,8 et que la taille de l’échantillon soit supérieure à 25 Premier critère : Le sexe. Proportion d’hommes. 0,46 [0,2 ; 0,8] et 400 >25 donc avec 5% d’erreur, la proportion observée doit être comprise entre 0,41 et 0,51. C’est le cas puisque 195/400≈0,4875. Deuxième critère : L’âge. Proportion de plus de 60 ans. 0,18 [0,2 ; 0,8] on ne peut pas utiliser l'intervalle de fluctuation de seconde et conclure. 55
Classe de Première : …Le sondage des 400 personnes peut s’apparenter à une répétition (400 expériences identiques et indépendantes) d’une expérience aléatoire à deux issues. La personne est un homme ou ne l’est pas et la personne a plus de 60 ans ou moins de 60 ans. Si X est la variable aléatoire qui compte le nombre d’individus de l’échantillon qui sont des hommes, alors X suit la loi binomiale B(400;0,46). Si Y est la variable aléatoire qui compte le nombre d’individus de l’échantillon qui ont moins de 60 ans alors Y suit la loi binomiale B(400;0,18). 66
Avec la calculatrice,Géogébra ou excel, on obtient les résultats ci-dessus d’où l’on peut extraire les deux intervalles de fluctuation au seuil de 95% pour les fréquences des valeurs de X et Y sont : Le plus petit entier a tel que P(X≤a)>0,025 et le plus petit entier b tel que P(X≤b)≥0,975 Pour X : IF = [165;204] Pour Y : IF = [58;87] Premier critère : Le sexe. Proportion d’hommes. La proportion observée doit être comprise entre 165/400 et 204/400. C’est le cas puisque elle est de 198/400. Deuxième critère : L’âge. Proportion de plus de 60 ans. La proportion observée doit être comprise entre 57/400 et 87/400. C’est le cas puisque 87/400. Réponse : L’échantillon convient avec ces deux critères. Il est donc représentatif pour ce sondage. 77
Situation problème : Et si la taille de l’échantillon est très grande ……. par exemple 1200, peut-on simplifier les calculs des probabilités ? 88
Partie 2 : On donne ci-dessous les résultats du sondage sur les 1200 personnes interrogées réparties selon deux critères : le sexe et l’âge. On sait que, dans la population, il y a 46% d’hommes et 18% de personnes de plus de 60 ans. Question 1 : Cet échantillon est-il représentatif ? 99
Classe de Terminale : La calculatrice ne permet plus de faire les calculs ! On poursuit le travail de première mais pour éviter des calculs laborieux, on va approcher la loi binomiale par une loi normale. B(n,p) est approchée par N(np,np(1-p)) et l’intervalle de fluctuation au seuil de confiance de 95% donné par la loi normale est majorée par celui de seconde. 10
11 Les calculs des probabilités des valeurs de la variable aléatoire qui suit une grande binomiale sont compliqués. Observons les diagrammes en bâtons des grandes binomiales : Les sommets des bâtons font apparaître la courbe en cloche caractéristique d’une loi normale. 11 B(100;0,3) B(200;0,6) B(60;0,7) Résumons la procédure …
La différence avec les filières ES et S. 12 X n suit B(n;p) On centre et on réduit On obtient Z n Z qui suit N(0 ; 1) converge Y qui suit N (np; npq) n tend vers l’infini 12 approximation Dépend de n Théorème de Moivre-Laplace ES-S ES-S STMG
Premier critère : Le sexe. Proportion d’hommes. X suit la loi binomiale B(1200;0,46) ; 1200>30. Au seuil de 95%, on obtient l’intervalle de fluctuation suivant : On note que 562/1200 [0,43;0,49]. Avec la règle de décision choisie, on peut affirmer que l’échantillon est représentatif pour ce critère.
Deuxième critère : L’âge. Proportion de plus de 60 ans Même raisonnement pour la variable Y qui suit la loi binomiale B(1200;0,18) ; 1200>30. Au seuil de 95%, on obtient l’intervalle de fluctuation : On note que 249/1200=0,2075 est dans cet intervalle Avec la règle de décision choisie, on peut affirmer que l’échantillon est représentatif pour ce critère.
Après les tests, l’estimation : Partie 3: L’étude a montré que l’échantillon des 400 personnes était représentatif pour les deux critères, le sexe et l’âge. On observe que 29% des personnes de l’échantillon sont en surpoids. Question : Estimer la proportion de personnes en surpoids dans la population. 15
Quelle estimation peut-on donner de la proportion d’une population en observant un échantillon ? On a 95% de chances que la proportion observée f appartienne à Si on inverse les rôles, on, peut encore dire qu’en choisissant au hasard un des intervalles centrées en f, on a 95% de chances d’en obtenir un qui contienne p mais en fixant f, on perd l’aléatoire puisque p ne varie pas et on ne peut donc pas donner une mesure de probabilité. Alors on parle de niveau de confiance à 0,95 que l’affirmation soit vraie.
Classe de Seconde et terminale : Avec l’échantillon de 400 personnes : f observée = 29% Réponse : On peut donc estimer, après l’observation de cet échantillon, avec un niveau de confiance de 0,95, que la proportion d’individus en surpoids dans la population est comprise entre 24% et 34%.