AUTOUR DE LA LOI NORMALE

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Introduction aux statistiques Intervalles de confiance
L’échantillonnage & Ses Fluctuations
Comparaison d’une moyenne observée à une moyenne théorique
Probabilités et statistiques au lycée
Le programme de troisième (2008) partie probabilités extrait d’une présentation de Michel HENRY, président de l’IREM de Besançon.
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Échantillonnage-Estimation
Les tests d’hypothèses
Probabilités et statistiques en première S, ES, L
Statistiques et probabilités en première
Statistique descriptive
Statistiques et probabilité :
Probabilités et statistique en TS
Intervalle de confiance pour p en %
La loi normale et l’estimation de paramètres
Enseigner les Probabilités en Bac Pro 3 ans
Programmes du cycle terminal
Statistiques et Probabilités au lycée
Présentation des nouveaux programmes de la série STMG Jeudi 20 décembre Lycée René Descartes Cournon dAuvergne.
Atelier Probabilités et statistiques
Méthodes de Biostatistique
Applications des statistiques
Fluctuation d’échantillonnage
1 - Construction d'un abaque Exemple
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Échantillonnage (STT-2000)
Mathématiques Les statistiques et probabilités en STI2d/STL
Comprendre la variation
Des situations familières concernant les instruments produisant du hasard Présentation.
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
STATISTIQUES – PROBABILITÉS
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Statistiques et probabilités
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
Lectures Volume du cours : Chapitre 7
De la troisième à la seconde dans le champ du programme probabilités et statistiques Année scolaire
1 - Programme de Seconde (juin 2009) Statistique et probabilités
On cherche des renseignements sur p.
Joseph CHONG, Mauduit Pergent
Activités mentales rapides
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
STATISTIQUES – PROBABILITÉS
Échantillonnage (STT-2000)
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Mois de naissance Comment se répartissent les naissances ?
1 Naissance selon les jours de la semaine - Comment se répartissent les naissances : données recueillies dans un lycée. -Quelques éléments plus généraux.
PROBABILITES ET STATISTIQUE Révisions. OUTILS FICHE DE COURS Établies au fur et à mesure de l’avancement des chapitres ROC Sur le cours distribué D D.
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
Seconde 8 Chapitre 10: Echantillonnage M. FELT 1.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Transcription de la présentation:

AUTOUR DE LA LOI NORMALE Formation nouveaux programmes de Terminales S et ES

Les objectifs du programme de statistique en terminale Poursuivre le travail de statistique inférentielle commencé en classe de Seconde et de Première Prise de décision en situation de risque Estimation par intervalle de confiance Avec un nouvel outil : la loi normale Nous allons commencer par un exemple Formation nouveaux programmes de Terminales Formation nouveaux programmes de Terminales

POURQUOI LA LOI NORMALE ? Formation nouveaux programmes de Terminales S et ES Formation nouveaux programmes de Terminales

Un exemple : Etude du surpoids Dans la population étudiée, il y a 46% d’hommes et 18% de personnes de plus de 60 ans.  Un sondage a été réalisé par un tirage au hasard de 400 personnes, et peut être assimilé à un tirage avec remise. Dans l’échantillon prélevé pour cette étude on observe :  Cet échantillon est-il représentatif ? 2. L’étude montre que dans cet échantillon 29% des personnes sont en surpoids. Estimer la proportion de personnes en surpoids dans cette population. Hommes Femmes 195 205 < 60 ans > 60 ans 313 87 formation nouveaux programmes de terminales

Un exemple : Etude du surpoids Pour une étude, mettant en jeu le lien avec certaines caractéristiques connues de la population on considère qu’un échantillon est représentatif, si la fréquence f observée de ces caractéristiques est dans l’intervalle de fluctuation au seuil de 95%. Dans la population étudiée, il y a 46% d’hommes et 18% de personnes de plus de 60 ans.  Le sondage a été réalisé par un tirage au hasard de 400 personnes et peut être assimilé à un tirage avec remise.   Présentation du fichier Excel « surpoids ». L’objectif est de sensibiliser à la fluctuation des fréquences, indispensable à la compréhension du programme. Au travail ! Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Etude du surpoids : un scénario possible Pour une étude, mettant en jeu le lien avec certaines caractéristiques connues de la population on considère qu’un échantillon est représentatif, si la fréquence f observée de ces caractéristiques est dans l’intervalle de fluctuation au seuil de confiance de 95%. Dans la population étudiée, il y a 46% d’hommes et 18% de personnes de plus de 60 ans.  le sondage a été réalisé par un tirage au hasard de 400 personnes et peut être assimilé à un tirage avec remise.   1. Réaliser un échantillon. par simulation, Cet échantillon est-il représentatif  en ce qui concerne la répartition des hommes ? Présentation du fichier Excel « surpoids ». L’objectif est de sensibiliser à la fluctuation des fréquences, indispensable à la compréhension du programme. Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Etude du surpoids : réinvestir Dans l’échantillon prélevé pour cette étude on observe :    Cet échantillon est-il représentatif ?   Pour les hommes : p =0,46 (outil de seconde) Pour un seuil de 95%, on a obtenu IFH =[0,41 ;0,51] f =195/400 = 0,4875 donc f IFH donc cet échantillon est représentatif pour les hommes Pour les plus de 60 ans : p=0,18 (outil première) cette méthode ne s’applique pas, il faut 0,2<p<0,8 On établit IFV avec la fonction de répartition de la loi binomiale B(400;0,18) , à l’aide d’une calculatrice ou d’un tableur : IFv=[57/400;87/400] donc cet un échantillon est représentatif pour les plus de 60 ans. Hommes Femmes 195 205 < 60 ans > 60 ans 313 87 Présentation du fichier Excel pour les plus de 60 ans formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Etude du surpoids : outil de 2de 3. L’étude montre que dans cet échantillon 29% des personnes sont en surpoids. Estimer la proportion de personnes en surpoids dans cette population. L’intervalle de confiance de la classe de seconde donne [0,29- 0,05 ; 0,29+0,05] Donc la proportion de personnes en surpoids est dans l’intervalle [0,24 ; 0,33] au niveau de confiance de 95%. On dit aussi pour un seuil de risque de 5%. Remarque l’IC de seconde est celui qui est privilégié encore en classe de terminale formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Un exemple : Etude du surpoids 4. On veut réaliser une étude plus précise en réalisant un échantillon de taille 1200. Dans l’échantillon prélevé pour cette étude on observe :    Cet échantillon est-il représentatif ? Le calcul n’est ici plus possible avec une calculatrice, cela dépasse ses capacités de calcul. L’étude montre que dans cet échantillon 32% des personnes sont en surpoids. Estimer la proportion de personnes en surpoids dans cette population. Remarque l’IC de sconde est celui qui est privilégié encore en classe de terminale formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Observation des binomiales pour n grand En utilisant Geogebra et l’outil de calcul des probabilités, on peut explorer le comportement des grandes binomiales Des formes similaires dites « forme en cloche » Rapidement montrer l’outil et observer quelques grandes binomiales formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

TP centrer- réduire : le foie gras Les foies gras d'oie commercialisés en 2012 par un producteur du Sud Ouest ont une masse dont la moyenne est 750 grammes et dont l'écart type est 100 grammes. Le pesage, en grammes, d'un foie pris au hasard dans la production détermine une V.A. G telle que E(G)=750 et (G)=100. L'année précédente, en 2011, les foies gras commercialisés par ce même producteur avaient un poids moyen de 680 g et un écart type de 120g. Un client fidèle a acheté un foie de 750 g en 2011 et un de 800 g en 2012. Quel classement peut-on faire de ces deux foies comparativement à la production annuelle dont ils sont issus ? Ouvrir le fichier Foie gras formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

LOI NORMALE et BINOMIALE Formation nouveaux programmes de Terminales S et ES

L’idée centrale Une première idée simplifiée du théorème : Lorsqu’on observe les représentations graphiques des grandes binomiales, elles présentent une forme commune dite « forme en cloche », connue sous le nom de courbe de Gauss, et qui correspond à la fonction de densité de la loi normale. On a donc l’idée intuitive qu’on peut approcher les lois binomiales par les normales, pour n grand. La formalisation de ce constat est énoncée par le « théorème de Moivre-Laplace », ce qui va nécessiter quelques détours… Formation nouveaux programmes de terminales

Le théorème de Moivre-Laplace Premières remarques : On reconnait à droite P(a < Z < b) où Z suit la loi normale N(0;1). Ce n’est pas sur Xn que porte la convergence vers la loi normale, mais sur la « variable centrée réduite » Zn. On s’intéresse à des probabilités d’intervalles. Nous allons expliciter davantage ces trois points formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Le théorème de Moivre-Laplace Autre remarque Ce théorème définit une convergence en loi : Ce n’est pas Zn qui converge vers Z, mais la fonction de répartition de Zn qui converge vers la fonction de répartition de Z. formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

le théorème de Moivre-Laplace On centre et on réduit Xn suit B(n;p) On obtient Zn converge converge n tend vers l’infini Le théorème qui formalise notre constat est le théorème de Moivre-Laplace Il ne porte pas sur la va Xn de la binomiale B(n,p), mais sur la variable centrée-réduite Zn ; de quoi s’agit-il ? Z qui suit N(0 ; 1) Y qui suit N (np; npq) Dépend de n Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Premier problème : le passage du discret au continu On va donc plonger la loi binomiale dans le monde des aires la loi binomiale est une loi discrète P(X=a) Diagramme en bâtons la loi normale est une loi continue P(a<X<b) Aire sous une courbe Pour une loi continue, p(X=a) est nulle ; pour ne loi discrète, la proba d’n intervalle est la somme des probas discrètes qu’il contient formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Passage du discret au continu On considère une variable aléatoire Xn qui suit la loi discrète B(n;p) V = npq avec q=1-p E(Xn) = np = µ V(Xn) = np(1-p) = σ² Formation nouveaux programmes de Terminales Formation nouveaux programmes de Terminales

Problème du passage du discret au continu La loi binomiale, loi discrète, se représente par un diagramme en bâtons, qu’il faut convertir en histogramme pour que les probabilités puissent être interprétées en termes d’aires. Le bâton représentant p(X=k) = pk doit devenir une colonne d’aire pk. On l’obtient en traçant une colonne de largeur 1 centrée sur k : [k - 0,5 ; k + 0,5] de hauteur pk. formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Passage du discret au continu On considère une variable aléatoire Xn qui suit la loi discrète B(n;p) E(Xn) = µ et V(Xn) = σ² On assimile donc ces deux va : Xn = X’n Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Passage du discret au continu On considère une variable aléatoire Xn qui suit la loi discrète B(n;p) Et on a : P(a  Xn  b) = somme des aires des rectangles On assimile donc ces deux va : Xn = X’n Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Comment centrer X est une variable aléatoire centrée signifie que E(X) = 0 La variable Yn = Xn – µ est centrée E(X+b)=E(X)+b Attention : Yn ne suit pas une loi binomiale : Cette variable aléatoire prend des valeurs négatives ! Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

E(Yn) = 0 V(Yn) = ² Comment centrer E(X+b) = E(X)+ b donc La variable Yn = Xn – µ est centrée E(X+b)=E(X)+b E(X+b) = E(X)+ b donc E(Yn) = 0 V(aX+b) = a²V(X) donc V(Yn) = ² Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Comment réduire E(Zn) = 0 Sa variance est égale à 1 : La variable aléatoire Zn = Yn/ est centrée E(Zn) = 0 Sa variance est égale à 1 : V(aX+b)=a²V(X) V(aX+b) = a²V(X) formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Comment réduire Zn = Yn / On a pris la variable aléatoire On raisonne sur des aires, on veut conserver des rectangles d’aire pk ; donc si on réduit les abscisses en les divisant par , on doit compenser en multipliant les ordonnées par . On conserve une aire totale de 1. V(aX+b)=a²V(X) formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Bilan sur Zn, variable centrée réduite E(Zn) = 0 V(Zn) = 1 formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Loi normale centrée réduite Les histogrammes représentant Zn ont tous exactement la même allure La courbe qui approxime cette allure c’est la courbe de Gauss représentant la fonction f définie par : f(x) = C’est la fonction de densité de la loi normale N(0;1) nouvelle fonction de référence à étudier formation nouveaux programmes de terminales

Lien entre binomiale et normale Le théorème qui formalise ce constat est le théorème de Moivre- Laplace (TML). On centre et on réduit On obtient Zn Xn suit B(n;p) TML converge Approxim° On ne pouvait pas se contenter de prendre Fn=Xn/n car , si E(Fn)=1/n*E(Xn) = p ne dépend pas de n, en revanche V(Fn) = 1/n²*V(Xn) = pq/n dépend de n. Z qui suit N(0 ; 1) Y qui suit N (np; npq) Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

FLUCTUATION ET CONFIANCE Formation nouveaux programmes de Terminales S et ES

Second théorème du programme Si Z suit N(0 ; 1) alors pour tout réel α [0 ; 1], il existe un réel u tel que P(-u<Z< u ) =1- f(x) = On remplace un intervalle [a,b] quelconque par un intervalle symétrique [-u,u] formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Second théorème du programme On cherche un intervalle I=[-u ; u] tel que P(Z  I)=1- où Z suit N(0 ;1) I est un intervalle de fluctuation au seuil de 1-α pour une V.A. qui suit la loi normale standard N(0 ; 1) . U existe car fonction continue strictement croissante (TVI) formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Application à l’intervalle de fluctuation pour une v. a Application à l’intervalle de fluctuation pour une v.a. qui suit B(n,p)  un réel donné et u le réel tel que P(-u<Z< u ) =1- où Z suit N(0 ; 1) Si Xn suit B(n ; p) et Fn = Xn/n et In l’intervalle : d’après le théorème de Moivre-Laplace, on aura : Donc pour n « assez grand » on a : P(Fn In) ≃ 1 -  In est un intervalle de fluctuation dit asymptotique au seuil 1-, Remarques : on peut aussi interpréter Xn/n comme moyenne. Niveau de confiance et seuil de risque ne sont pas les termes employés dans le programme. Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Intervalle de fluctuation pour la loi normale N(0 ; 1) au seuil de 95% α = 0,05 Uα ≃ 1,96 Comme la loi est continue, on peut obtenir exactement p(FIF)=0,95, u0,05 P(F[-u0,05 ; u0,05]) = 0,95 P(F[-1,96 ; 1,96])≃>0,95 formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Intervalle de fluctuation pour une v. a Intervalle de fluctuation pour une v.a. qui suit B(n ; p) au seuil de 95% α = 0,05 uα ≃ 1,96 Comme la loi est continue, on peut obtenir exactement p(FIF)=0,95, u0,05 u0,05 ≃ 1,96 on en déduit au seuil de 95% formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Intervalle de fluctuation pour une v. a Intervalle de fluctuation pour une v.a. qui suit B(n ; p) au seuil de 95% Pour p et n fixé on devrait plutôt parler d’intervalle approché. Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Intervalles de fluctuation avec la loi N( ; ²) formation nouveaux programmes de terminales

Différents intervalles de fluctuation possibles . intervalle unilatéral à droite: IF = [A;1] avec A tel que p(f A)  0,95 ou p(f<A)  0,05 Intervalle d’amplitude minimale intervalle bilatéral (on symétrise les risques): IF = [A;B] avec A tel que p(f <A)  0,025 et B tel que p(f>B)  0,025 intervalle centré sur p : IF = [p-e;p+e] p(p-e<f<p+e)  0,95 2de - term Il est peu pertinent de prendre un intervalle d’effectif [a;b] comme le suggère le doc ressource. 1ère formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

trois intervalles de fluctuation au seuil de 95% 2nde IF = 1ère Sa détermination nécessite un tableur ou un algorithme Term. formule Pas de formule formation nouveaux programmes de terminales Faire remarquer aussi le centré sur p (2de et term) / bilatéral (1ère) formule Formation nouveaux programmes de Terminales

trois intervalles de fluctuation au seuil de 95% 2nde Pas de base théorique : simulations approximation de l’IF de terminale  contraintes : n 25 et 0,2<p<0,8 1ère Base théorique : loi binomiale sans contraintes sur n et p Term. Base théorique : TML Intervalle asymptotique  contraintes : n 30 et np5 et n(1-p)5 Environ 95% Au moins 95% formation nouveaux programmes de terminales Sans contrainte définies mais il n’est pas utilisé pour n’importe quelle valeur par les statisticiens Environ 95% Formation nouveaux programmes de Terminales

Un exemple : Etude du surpoids 4. On veut réaliser une étude plus précise en réalisant un échantillon de taille 1200. Dans l’échantillon prélevé pour cette étude on observe :    Cet échantillon est-il représentatif ? L’étude montre que dans cet échantillon 32% des personnes sont en surpoids. Estimer la proportion de personnes en surpoids dans cette population. Remarque l’IC de sconde est celui qui est privilégié encore en classe de terminale formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Un exemple : Etude du surpoids 4. On veut réaliser une étude plus précise en réalisant un échantillon de taille 1200. Dans l’échantillon prélevé pour cette étude on observe :   Intervalle de fluctuation asymptotique au niveau de confiance de 0,95 on a p=0,46 et n =1200 donc np >5 IFH = [0,46-1,96x0,014; 0,46-1,96x0,014] =[0,43;0,49] Or fH ≃ 0,46 et fH  IFH donc l’échantillon est représentatif. De même IFV =[0,158;0,202] et fV ≃ 0,207 et fH IFH donc l’échantillon n’est pas représentatif. L’étude montre que dans cet échantillon 32% des personnes sont en surpoids. Estimer la proportion de personnes en surpoids dans cette population. [0,32-1/rac(1200) ; 0,32 +1/rac(1200)]≃[0,29 ; 0,35] Donc au niveau de confiance de 0,95 p [0,29 ; 0,35] Remarque l’IC de sconde est celui qui est privilégié encore en classe de terminale formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Bilan : Intervalle de confiance f la fréquence observée sur un échantillon de taille n. Si n  30, nf  5 et n(1-f)  5 Un intervalle de confiance IC au niveau de confiance de 95% est . et on a P( pIC) ≃ 0,95. Pour n et f déterminés, on parlera d’une fourchette de sondage. f est un estimateur de p Formation nouveaux programmes de Terminales Formation nouveaux programmes de Terminales

Détermination de l’intervalle de confiance par lecture des abaques Fréquence observée fn formation nouveaux programmes de terminales

Détermination de l’intervalle de confiance par lecture des abaques Fréquence observée fn Intervalle de confiance formation nouveaux programmes de terminales

A quoi servent les sondages x E Extraction d ’un échantillon x P Étude sur l ’échantillon x E Extrapolation à la population Formation nouveaux programmes de Terminales Formation nouveaux programmes de Terminales

Statistiques inférentielles l’ECHANTILLONNAGE au lycée Échantillonnage Population Je connais p, j’en déduis f Échantillon Proportion p Fréquence f Statistiques inférentielles Je connais f, j’en déduis p formation nouveaux programmes de terminales

APPLICATIONS DE L’ECHANTILLLONNAGE Théorie des tests, quand on dispose d’une hypothèse sur p Théorie de l'estimation, quand on ne connait pas p. fréquence f sur un échantillon de taille n Intervalle de fluctuation Rejet ou non de l’hypothèse sur p Toute valeur de f est un estimateur de p. fréquence f sur un échantillon de taille n Intervalle de confiance Estimation de p Formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Prise de décision : un exemple Dans la réserve indienne d’Aamjiwnaag, située au Canada à proximité d’industries chimiques, il est né entre 1999 et 2003, 132 enfants dont 46 garçons. Ces observations sont-elles le fruit du hasard ? Règle de décision : Si f  IF c’est le fruit du hasard, sinon ce n’est pas le fruit du hasard. On a f = 46/132 ≃ 0,35 et IFasyptotique =[0,42 ; 0,60] Donc ce n’est pas le fruit du hasard Hypothèse vraie Hypothèse fausse J’accepte l’hypothèse 1 -  β Je rejette l’hypothèse α 1-β Formation nouveaux programmes de Terminales

Conclusion : pourquoi les statistiques? Le statisticien est une personne qui préfère les vrais doutes aux fausses certitudes. Je sais que je me trompe, mais je peux quantifier mon erreur. Vrais doutes = formation nouveaux programmes de terminales Formation nouveaux programmes de Terminales

Quels types d’exercices en terminale La situation est modélisée par une loi normale On connait μ et σ, on calcule une probabilité On connait μ, σ et p, on détermine x tel que P(X<x) = p On connait x et p, on détermine μ et σ La situation est modélisée par une loi binomiale On connait μ et p, on cherche la précision ε telle que P(X[μ- ε ; μ + ε]) = p en approximant par une loi normale Avec une loi normale ou binomiale Prise de décision avec IF asymptotique Estimation de p avec IC seconde Détermination de la précision d’une estimation. Présentation d’extraits du florilège Formation nouveaux programmes de Terminales Formation nouveaux programmes de Terminales