La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

STATISTIQUE INFERENTIELLE

Présentations similaires


Présentation au sujet: "STATISTIQUE INFERENTIELLE"— Transcription de la présentation:

1 STATISTIQUE INFERENTIELLE
STAGE ACADEMIQUE LA REUNION Isabelle ABOU Professeure Formatrice

2 PLAN DE L’EXPOSE 1ière PARTIE: GÉNÉRALITÉS I. INTRODUCTION
II. SITUATIONS PROBLEMES III. LA STATISTIQUE INFERENTIELLE IV. LE PROGRAMME DE SECONDE 2ième PARTIE: LA THÉORIE DE L’ECHANTILLONNAGE I. LOI NORMALE II. THEORIE DE L’ECHANTILLONNAGE III. PRISE DE DECISION IV. THEORIE DE L’ESTIMATION V. ESTIMATION D’UNE PROPORTION VI. EVALUATION DE TRAVAUX AVEC TIC 3ième PARTIE: APPROFONDISSEMENT I. TESTS STATISTIQUES II. COMPLEMENTS Isabelle ABOU

3 2ième PARTIE: LATHÉORIE
Isabelle ABOU

4 I. LA LOI NORMALE PLAGES DE NORMALITE Isabelle ABOU

5 POURQUOI ABORDER LA LOI NORMALE?
Elle tient son importance, en mathématiques, d’un des théorèmes fondamentaux de la Théorie des Probabilités: le théorème Central Limite. Ce théorème établit une propriété qui va justifier l'importance considérable de la loi normale, à la fois comme modèle pour décrire des situations pratiques, mais aussi comme outil théorique. Isabelle ABOU

6 THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE
Soit n variables aléatoires X1,X2,…,Xn - indépendantes, - de même loi, - de même espérance mathématique m, - de même variance , Alors, lorsque n est « suffisamment » grand, la loi de probabilité de la variable aléatoire Moyenne Mn= (X1+X2+…+Xn)/n tend en loi vers la loi normale Isabelle ABOU

7 INTERPRETATION Ce théorème établit la convergence en loi d'une suite de variables aléatoires vers la loi normale. Intuitivement, ce résultat affirme que toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne. En s'éloignant de la théorie, on peut dire que bon nombre de phénomènes naturels sont dûs à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi normale les représente de manière raisonnablement efficace, mais il s’agit plutôt d’une modélisation. Isabelle ABOU

8 DANS LA VIE COURANTE Des variables concernant des phénomènes naturels ou démographiques, comme les débits annuels moyens d’un fleuve sur au moins 5O ans, l’espérance de vie d’une population, peuvent être approchés par la loi normale. Les variables biologiques, comme le taux de triglycérides dans le sang, le taux de cholestérol, la glycémie, sont modélisées par des gaussiennes. Cependant, on peut dire qu'aucun phénomène concret n'est vraiment gaussien car il ne peut dépasser certaines limites. Isabelle ABOU

9 INTERET DE LA LOI NORMALE DANS LES CALCULS
La loi Normale a de « bonnes » propriétés mathématiques. C’est une loi de probabilité symétrique, La somme de v.a gaussiennes est une v.a gaussienne, La moyenne de v.a gaussiennes est une v.a gaussienne, On possède la table de sa fonction de répartition. Nous allons aborder rapidement ses propriétés. Isabelle ABOU

10 LA LOI NORMALE ou LOI DE LAPLACE-GAUSS
Isabelle ABOU

11 LOI NORMALE CENTREE REDUITE
Théorème : changement de variable Isabelle ABOU

12 TABLE DE LA LOI NORMALE CENTREE REDUITE
Intérêt de ce théorème: ramener toute loi normale à la loi normale centrée réduite. Pour calculer les valeurs de la table de la loi N(0;1) on utilise le fait que c’est une loi de probabilité, et ses propriétés de symétrie. La table de la loi N(0;1) permettra donc de calculer les valeurs de toutes les fonctions de répartition de toutes les lois normales. Isabelle ABOU

13 BOÎTES EN CARTON Une entreprise fabrique en série des boîtes en carton. On note X la variable aléatoire qui prend pour valeur la hauteur d’une boîte en carton. On admet que X suit la loi normale de moyenne 2,5 cm et d’écart type 0,2 cm. 1. Calculer la probabilité qu’une boîte, choisie au hasard dans la production, ait une hauteur inférieure à 2,25cm. 2. Déterminer le réel α tel que la probabilité que X soit inférieure à α, ait pour valeur 0,67. Isabelle ABOU

14 RESOLUTION 1. X suit une loi normale avec m=2,5 et σ=0,2 soit N(2,5;0,2). La probabilité cherchée est P(X<2,25). On effectue le changement de variable T=(X-m)/σ soit T=(X-2,5)/0,2 d’où: P(X<2,25)= P(T<(2,25-2,5)/0,2) = P(T<-1,25) = 1-P(T<1,25) par symétrie de la loi de T ~ 1-0,8944 ~ 0,1056 Isabelle ABOU

15 RESOLUTION suite 2. le problème revient à résoudre l’équation P(X < α) = 0,67. A l’aide du changement de variable, ceci équivaut à : P(T < (α – 2,5)/0,2) = 0,67 Or, d’après la table, on a P(T < t) = 0,67 pour t = 0,44. On résout donc (α – 2,5)/0,2 = 0,44 α = 0,44*0,2 + 2,5 Ce qui donne α = 2,588. Isabelle ABOU

16 PLAGES DE NORMALITE X v.a suivant N(m, σ ) et T v.a suivant N(0;1)
Les intervalles suivants ou plages de normalité se calculent grâce aux égalités ci-dessous, obtenues grâce à la table de la loi N(0;1) : P(m-σ <X<m+ σ)= P(-1<T<+1)= 0,68. P(m-1,6 σ <X<m+1,6 σ)= P(-1,6<T<+1,6)= 0,90. P(m-1,96 σ <X<m+1,96 σ)= P(-1,96<T<+1,96)= 0,95. P(m-3,09 σ <X<m+3,09 σ)= P(-3,09<T<+3,09)= 0,99. Isabelle ABOU

17 PLAGE DE NORMALITE LOI NORMALE CENTREE REDUITE
On considère la v.a X suivant N(m, σ ), et la v.a T suivant N(0;1). L’égalité: P(m-1,96 σ < X < m+1,96 σ)= P(-1,96 < T < +1,96)= 0,95, signifie que T se trouve dans l’intervalle [-1,96; +1,96], avec une probabilité égale à 0,95. Si T suit la loi normale de moyenne 0 et d’écart type 1, on a : P(– 1,96 £ T £ 1,96) » 0,95. –1, ,96 95% ~ 0,95. Isabelle ABOU

18 SIGNIFICATION On appelle intervalle de normalité au niveau de confiance de 95%, l’intervalle de centre m dans lequel on peut s’attendre à trouver 95% des observations. Pour toutes les v.a gaussiennes, l’intervalle de normalité au niveau de confiance de 95% est: I = [ m - 1,96 σ ; m + 1,96 σ ]. On lui préfère souvent [ m - 2 σ ; m + 2 σ ] qui contient au moins 95% des observations. Isabelle ABOU

19 II. THEORIE DE L’ÉCHANTILLONNAGE
Isabelle ABOU

20 INTRODUCTION Avant d’aborder la théorie de l’échantillonnage, il nous faut rappeler quelques définitions et propriétés concernant les opérations sur les variables aléatoires. On considère par exemple le problème suivant: Pour améliorer le stockage d’un produit, un supermarché fait une étude sur la vente de packs de 6 bouteilles d’eau de marques A et B. X la v.a mesure le nb de packs d’eau de marque A achetés Y la v.a mesure le nb de packs d’eau de marque B achetés. La probabilité P(X=xi et Y=yi) est donnée par le tableau: X Y 1 2 3 0,1 0,2 0,3 Isabelle ABOU

21 SOMME DE VARIABLES ALEATOIRES
Soit X et Y deux v.a. La somme X+Y est une v.a S: S=X+Y. La loi de probabilité de S est obtenue en associant, à chaque valeur s de S, la somme des probabilités correspondantes à tous les couples dont la somme des termes est égale à s. Dans le cas de l’exemple précédent, la v.a S mesure le nombre de packs des marques A et B achetés. Isabelle ABOU

22 Si on considère en rouge la somme: X Y 1 2 3 0,1 s=2 0,2 s=3 s=4 0,3
La loi de probabilité de S est donnée par le tableau: S 2 3 4 5 P(S=si) 0,1 0,3 0,5 Isabelle ABOU

23 THEOREMES S=X+Y E(S)=E(X)+E(Y)
Si X et Y sont indépendantes: V(S)=V(X)+V(Y). De même: D=X-Y est une v.a. E(D)=E(X)-E(Y), et Si X et Y sont indépendantes: V(D)=V(X)+V(Y). Isabelle ABOU

24 COROLLAIRE Soit X une variable aléatoire et n variables aléatoires X1,X2,…,Xn indépendantes et de même loi que X. Alors, la v.a « Moyenne des Xn » Yn, définie par: Yn= (X1+X2+…+Xn)/n. Vérifie: E(Yn)=E(Σ(Xi)/n)=(ΣE(Xi))/n=nE(X)/n=E(X). V(Yn)=V(Σ(Xi)/n)=(ΣV(Xi))/n²=(nV(X))/n²=V(X)/n. σ(Yn)=σ(X)/√n. Isabelle ABOU

25 THEOREME FONDAMENTAL LOI FAIBLE DES GRANDS NOMBRES
ou THEOREME DE BERNOULLI Soit X une variable aléatoire et n variables aléatoires X1,X2,…,Xn de même loi que X. Alors, la v.a Yn, définie par Yn= (X1+X2+…+Xn)/n tend en probabilité vers l’espérance mathématique de X, c.a.d E(X). Rem: Yn est la v.a Moyenne des Xn=E(Xn). Isabelle ABOU

26 COMMENTAIRE La loi des grands nombre donne une justification de l’approche fréquentiste des probabilités. Si on prend une expérience aléatoire à deux issues, succès et échec, c’est-à-dire une épreuve de Bernoulli. On obtient une v.a X tq E(X)=p, où p est un nombre fixé en théorie. Par exemple pour le lancer d’un dé équilibré avec comme succès obtenir un 6, la théorie nous apprend que E(X)=1/6. En répétant n fois cette expérience aléatoire, on obtient n v.a X1, X2, …, Xn, v.a de même loi de probabilité, avec E(X1)=E(X2)=…=E(Xn)=p. Pour connaître le nombre de succès, on étudie la v.a Yn:  «fréquence des succès »=(Nombre de succès)/(Nombre d’exp aléatoire)=(X1+X2+…+Xn)/n. Yn=E(Xn), et E(Yn)=p. La loi des grands nombres dit que, quand n tend vers l’infini, la limite de P(l Yn – p l< ε)= 1, pour un ε arbitrairement petit. Dans l’exemple choisi, Yn=(Nombre de 6)/(Nombre de lancers). Le théorème dit que, plus n est grand, plus E(Yn) se rapproche de la valeur théorique p=1/6. Ce qui est assez intuitif. Isabelle ABOU

27 ILLUSTRATION Pour illustrer la loi faible des grands nombre, nous proposons ci-après un programme sur Algobox qui simule le lancer d’une pièce de monnaie équilibrée, pour des échantillons de taille croissante, de 1 à 1000. Après avoir fait tourner le programme, on voit bien la fréquence moyenne converger vers la probabilité de « face » (ce pourrait être symétriquement de « pile ») qui est de 0,5. Pour aider à la compréhension du programme, nous avons introduit des commentaires explicatifs écrits en rouge. Isabelle ABOU

28 PROGRAMME ALGOBOX 1 VARIABLES 2 x EST_DU_TYPE LISTE
3 y EST_DU_TYPE LISTE 4 i EST_DU_TYPE NOMBRE 5 nbalea EST_DU_TYPE NOMBRE 6 n EST_DU_TYPE LISTE 7 DEBUT_ALGORITHME 8 //abscisse du 1ier point vaut 0 9 x[0] PREND_LA_VALEUR 0 10 //i est la taille de l'échantillon 11 i PREND_LA_VALEUR 0 12 //nbalea est la valeur du tirage aléatoire 0 (pile) ou 1 (face) 13 nbalea PREND_LA_VALEUR floor(2*random()) 16 //n[0] valeur du 1ier tirage aléatoire 17 n[0] PREND_LA_VALEUR nbalea 18 //ordonnée du 1ier point vaut n[0] 19 y[0] PREND_LA_VALEUR n[0] 20 //simulations: fréquences en fonction de la taille de l'échantillon, boucle allant d’une taille 2 jusqu'à 1000 21 POUR i ALLANT_DE 1 A 999 22 DEBUT_POUR 23 nbalea PREND_LA_VALEUR floor(2*random()) 26 //x[i] abscisse du i+1 ième point 27 x[i] PREND_LA_VALEUR i 28 //n[i] est la valeur i+1 ième tirage plus ceux des précédents 29 n[i] PREND_LA_VALEUR nbalea+n[i-1] 30 //y[i] ordonnée du point qui a pour valeur la fréquence moyenne de "face" sur les i+1 tirages 31 y[i] PREND_LA_VALEUR n[i]/(i+1) 32 TRACER_POINT (x[i],y[i]) 33 FIN_POUR 34 FIN_ALGORITHME

29 THEOREME DE DE MOIVRE-LAPLACE
Convergence en loi de la loi Binomiale vers la loi de Laplace-Gauss Xn étant une suite de v.a binomiales B(n;p), alors la suite de v.a (Xn-np)/( √(npq)) tend en loi vers N(0;1). Rappel: Si X~B(n;p) Alors E(X)=np et V(X)=np(1-p)=npq. Isabelle ABOU

30 COMMENTAIRE Lorsque n est «assez grand», on prend en pratique n≥30, p «voisin de 0», p<0.1, et np≥5 et nq≥5, on peut approximer la loi Binomiale B(n,p) par la loi normale N(m; σ) avec m=np et σ=√(npq). L’étude de somme de v.a indépendantes et de même loi joue un rôle capital en statistique, c’est le théorème Central Limite qui établit la convergence vers la loi de Gauss sous des hypothèses peu contraignantes. Nous le rappelons une nouvelle fois, pour en donner ensuite ses applications aux lois d’échantillonnage. Isabelle ABOU

31 THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE
Soit n variables aléatoires X1,X2,…,Xn - indépendantes, - de même loi, - de même espérance mathématique m, - de même variance , Alors, lorsque n est ‘suffisamment’ grand, la loi de probabilité de la variable aléatoire Moyenne Mn= (X1+X2+…+Xn)/n tend en loi vers la loi normale Isabelle ABOU

32 THEORIE DE L’ECHANTILLONNAGE
Comme on l’a vu, en statistique, il est en général impossible d’étudier un caractère sur toute une population de taille élevée, c’est-à-dire de faire un recensement. Avant d’aborder le problème de l’estimation de paramètres inconnus de la population, il est indispensable de commencer par l’étude de l’échantillonnage. Dans ce cas, les paramètres du caractère étudié dans la population sont connus, et on en déduit les propriétés sur l’ensemble des échantillons prélevés dans la population. Nous n’envisagerons que des échantillons aléatoires, c’est-à-dire que tout élément de l’échantillon est choisi au hasard, et de plus, les choix sont indépendants car supposés avec remise. Isabelle ABOU

33 LOI D’ECHANTILLONNAGE DE LA MOYENNE
On considère une population de taille N élevée, une variable aléatoire X définissant le caractère étudié, avec E(X)=m, et σ(X)= σ . On prélève un échantillon de taille n, n<<N, c.a.d on procède à n épreuves indépendantes auxquelles correspondent n v.a X1,X2,…,Xn, de même loi que X. Soit la v.a Yn=(X1+X2+…Xn)/n, elle associe à tout échantillon de taille n, la v.a Moyenne de l’échantillon. D’après le théorème central Limite, la v.a Yn suit « approximativement » une loi Normale. Isabelle ABOU

34 EN PRATIQUE Valeurs caractéristiques de cette loi:
E(Yn)=m et V(Yn)=σ²/n ou bien σ(Yn)=σ/√n. En pratique, quand n devient ’’grand’’, n>=30, la loi de Yn peut être approchée par la loi normale N(m,σ/√n). Isabelle ABOU

35 LOI D’ECHANTILLONNAGE DE LA FREQUENCE
On étudie, dans une population de taille N élevée, un caractère à deux éventualités, c’est-à-dire une épreuve de Bernoulli. On obtient une v.a X tq E(X)=p, et V(X)=p(1-p). On prélève un échantillon de taille n, n<<N, (épreuve répétée n fois de façon identique et indépendante). On obtient n v.a X1,X2,…,Xn de même moi que X. La v.a Fn=(X1+X2+…Xn)/n associe à tout échantillon de taille n la fréquence de succès sur cet échantillon. Alors E(Fn)=p et V(Fn)=(p(1-p))/n. Quand n devient ’’grand’’ (n>=50), la loi de Fn peut être approchée par la loi normale Isabelle ABOU

36 EN PRATIQUE On prélève indépendamment et avec remise n individus d’une population séparée en deux sous-populations A et son complémentaire , de proportions respectives p et 1-p. Soit K le nombre d’individus de la sous-population A obtenus dans l’échantillon. On sait que K suit une loi binomiale B(n , p). Notons F = K/n, la fréquence empirique de A. F est la moyenne arithmétique de n v.a de Bernoulli de paramètre p, indépendantes. Donc E(F)=p et V(F)=(p(1-p))/n. Et si n est grand, F suit N(p;√(p(1-p)/n)) en raison de la loi d’échantillonnage de la fréquence (conséquence du théorème central limite). Isabelle ABOU

37 LIEN AVEC L’INTERVALLE DE FLUCTUATION
Or on sait que, pour la loi normale N(m,σ), l’intervalle de fluctuation au seuil 95% est: [m-1,96σ; m+1,96σ]. Donc, l’intervalle de fluctuation à 95% de p est: Environ 95% des échantillons aléatoires de taille n fournissent une fréquence comprise dans cet intervalle. Ce résultat est très important car il mesure la variabilité « naturelle » des phénomènes aléatoires. Isabelle ABOU

38 APPROXIMATION DU PROGRAMME DE SECONDE
Dans le programme de seconde, il est donné une version simplifiée de cet intervalle en le majorant En effet, la fonction pp(1-p) atteint son maximum pour p=1/2, on a donc, pour tout p, p(1-p) ≤ 1/4 et on en déduit que Aussi l’intervalle I1= est inclus dans l’intervalle I2= Isabelle ABOU

39 VALEURS DE p Dans le programme de Seconde, il est mentionné, de plus, que p doit être compris entre 0,2 et 0,8. La raison en est que l’approximation est trop grossière pour les valeurs de p inférieures à 0,2 (ou supérieures à 0,8, puisqu’il y a symétrie de la formule p(1-p) ). Le tableau suivant compare les nombres 1,96/√(p(1-p)/n) et 1/√(n), pour n=25 et n=100, et pour des valeurs de p entre 0,1 et 0,5. Rappelons que ces nombres ne sont toutefois pas supposés être égaux puisque I2 contient I1. Plus de 95% des échantillons aléatoires de taille n fournissent une fréquence appartenant à I2. Isabelle ABOU

40 COMPARAISON DE CES DEUX NOMBRES
1,96√( p(1-p)/n) 1/√(n) 1,96√(p(1-p)/n) P=0,1 0,118 0,2 0,059 0,1 P=0,2 0,157 0,078 P=0,25 0,170 0,085 P=0,3 0,180 0,090 P=0,35 0,187 0,093 P=0,4 0,192 0,096 P=0,45 0,195 0,097 P=0,5 0,196 0,098 Isabelle ABOU

41 FLUCTUATION DE LA FREQUENCE SELON LES ECHANTILLONS
On peut expérimenter, par simulation à l’aide des T.I.C, qu’environ plus de 95% des échantillons de taille n fournissent une fréquence comprise dans l’intervalle . Pour p donné, on peut faire calculer les bornes de cet intervalle pour quelques valeurs de n, et faire remarquer qu’il faut multiplier la taille de l’échantillon par k² pour diviser par k l’amplitude de l’intervalle. On pourra calculer l’amplitude correspondant aux échantillons de taille 1000, souvent retenue dans les sondages. Isabelle ABOU

42 EXEMPLE D’APPLICATION
On considère un échantillon de 400 pièces issues d’une fabrication où 10% sont défectueuses. Soit K la v.a qui mesure le nombre de pièces défectueuses, K est une v.a de Bernoulli B(400;0,1). Notons F = K/n, la fréquence empirique de l’événement « la pièce est défectueuse », sur un échantillon de taille n. F est la moyenne arithmétique de n v.a de Bernoulli de paramètre p, indépendantes. Donc E(F)=p=0,1 et V(F)=(p(1-p))/n=(0,1*0,9)/400. Quand n est grand, F suit N(p;√(p(1-p)/n)), donc ici F suit N(0,1 ; √((0,1*0,9)/400)). Donc on peut s’attendre à trouver dans 95% des cas, un pourcentage de défectueux dans l’échantillon, compris entre et C.a.d F est comprise entre 0,0706 et 0,1294. Ou encore, entre 7,1% et 12,9%, dans 95% des cas. Isabelle ABOU

43 III. PRISE DE DÉCISION SITUATIONS PROBLEMES Isabelle ABOU

44 INTRODUCTION Dans les exercices qui suivent, on a besoin de générer des nombres pseudo-aléatoires, on rappelle ci-après quelques méthodes utilisées sur calculatrice et tableur. Le schéma de base pour simuler une v.a de Bernoulli est de simuler une urne bicolore, qui servira aussi à simuler le lancer d’un dé. La plupart des calculatrices, même les modèles « collège », et les tableurs sont pourvues d’un générateur de nombres pseudo-aléatoires qui simule le tirage d’un nombre décimal au hasard dans l’intervalle [0, 1[ (c’est-à-dire une réalisation d’une variable aléatoire de loi uniforme sur l’intervalle [0, 1[ ). Sur une calculatrice, ce générateur de nombres aléatoires correspond à la fonction « random » souvent notée rand ou Ran#. Sur un tableur, il correspond à la fonction ALEA(), introduite avec des parenthèses vides. Isabelle ABOU

45 SIMULATION D’UN URNE BICOLORE
À partir de ce générateur de nombres aléatoires, on peut facilement simuler un tirage au hasard dans une urne bicolore. Supposons que la proportion des boules dont la couleur nous intéresse soit, dans l’urne de 30 %. Sur un tableur, l’instruction =ALEA()+0,30 correspond au tirage au hasard d’un nombre de l’intervalle [0,30 ; 1,30[. En prenant la partie entière, le résultat vaut 0 si le nombre appartient à [0,30 ; 1[ et 1 si le nombre appartient à [1 ; 1,30[. Compte-tenu des longueurs respectives de ces intervalles, on a 70% de chances d’avoir 0 et 30 % de chances d’avoir 1 (voir le graphique). 1 Isabelle ABOU

46 SIMULATION (suite) Sur une calculatrice, il suffit d’entrer l’instruction rand ou Ran# et de faire plusieurs fois ENTER ou EXE pour simuler des tirages avec remise dans cette urne, en ne tenant compte que de la partie avant la virgule (0 ou 1). Sur un tableur, il suffit d’entrer dans une cellule la formule =ENT(ALEA()+0,3) puis d’approcher le pointeur de la souris du coin inférieur droit de la cellule. Lorsque le pointeur de la souris prend la forme d’une croix noire, on enfonce le bouton gauche puis on « glisse » vers le bas pour constituer un échantillon (on nomme « recopie » cette manipulation). On peut ensuite sélectionner l’échantillon (avec le pointeur en forme de croix blanche) puis le recopier vers la droite (avec le pointeur en forme de croix noire) pour constituer plusieurs échantillons. Isabelle ABOU

47 CONTRÔLE DE QUALITE Dans le contrôle de qualité industrielle, on s’interroge sur le réglage d’une machine lorsque dans un lot de pièces produites, la fréquence des défauts observés est peu probable au regard du modèle indiquant une probabilité p de défauts. C’est-à-dire qu’on veut prendre une décision à partir de l’étude d’un échantillon. Rappelons que dans ce cas on connaît les paramètres de la v.a mère, c.a.d ici la probabilité théorique de défauts dans la chaîne de fabrication. Isabelle ABOU

48 DEFAUTS DE PEINTURE Dans une usine automobile, on contrôle les défauts de peinture de type « grains ponctuels sur le capot ». Lorsque le processus est sous contrôle, on a 20 % de ce type de défauts. Lors du contrôle aléatoire de 50 véhicules, on observe 26 % de défauts (13 sur 50). Faut-il s’inquiéter ? Isabelle ABOU

49 RESOLUTION En supposant que la situation est sous contrôle, c.a.d que la proportion présentant ce défaut est de 0,20, un échantillon aléatoire de 50 véhicules présentera une proportion de défauts comprise, dans plus de 95% des cas, entre 0,20-1/√50 et 0,20+1/√50 soit entre environ 6% et 34%. Il n’y a donc pas lieu de considérer une observation de 26% comme « anormale ». Isabelle ABOU

50 RESPECT DE LA PARITE Deux entreprises A et B recrutent dans un bassin d’emploi où il y a autant de femmes que d’hommes, avec la contrainte du respect de la parité. Dans l’entreprise A, il y a 100 employés dont 43 femmes. Dans l’entreprise B, il y a 2500 employés dont 1150 femmes. Quelle est l’entreprise qui respecte le mieux la parité ? Isabelle ABOU

51 RESOLUTION Dans l’entreprise A, il y a 100 employés dont 43 femmes (soit 43%); dans l’entreprise B, il y a 2500 employés dont 1150 femmes (soit 46%). Or 46% est plus proche de 50% que 43%, les chiffres parlent d’eux-mêmes, pourrait-on dire, et B respecte mieux la parité que A. Si on admet que la parité, c’est exactement 50% de femmes, il est vrai que B en est plus proche que A. Mais une telle définition a-t-elle ici un sens? La parité signifie que l’identité sexuelle n’intervient pas au niveau du recrutement, c.a.d qu’au niveau du caractère étudié homme ou femme, les résultats observés pourraient être obtenus par choix, au hasard, des individus dans la population. Isabelle ABOU

52 RESOLUTION (suite) Dans ce cadre, l’entreprise A est assimilable à un échantillon de taille 100 du modèle de Bernoulli, avec p=0,5, et l’entreprise B à un échantillon de taille 2500. L’intervalle de fluctuation de p pour l’entreprise A est [0,4;0,6], et pour l’entreprise B de [0,48;0,52]. La valeur 0,43 pour l’entreprise A est dans l’intervalle de fluctuation, alors que la valeur 0,46 ne l’est pas pour B. Autrement dit, pour B, la proportion de 46% s’observe dans moins de 5% des échantillons obtenus selon le modèle accordant une probabilité égale d’obtenir un homme et une femme. On peut alors rejeter l’hypothèse selon laquelle cette entreprise respecte la parité. Isabelle ABOU

53 ECHANTILLON CONFORME OU REPRESENTATIF
Un échantillon est représentatif ou conforme si f , la fréquence de l’échantillon, appartient à l’intervalle de fluctuation de la fréquence théorique p à un niveau de confiance donné. Les problèmes qui précèdent reviennent donc à se demander si un échantillon est conforme. Ce type de problème se prête bien à l’écriture d’un algorithme qui permettra de savoir si l’échantillon est conforme. Dans l’algorithme suivant, on entre la fréquence de l’échantillon, et en réponse on a la prise de décision: l’échantillon est conforme ou pas, au risque de 5%. Cet algorithme comporte un contrôle de saisie. On peut également écrire un algorithme où on entrerait le nombre de personnes qui ont le caractère étudié, et qui calculerait également f . Isabelle ABOU

54 ALLERGIE Dans une population de grand effectif, on a observé que 40% des individus sont allergiques à un médicament A. Dans un échantillon de 100 individus, 31 révèlent une allergie à A. Au seuil de 5%, peut-on déduire que l’échantillon est représentatif de la population pour l’allergie A? Isabelle ABOU

55 RESOLUTION On détermine l’intervalle: Ce qui donne:
Comme f = 0,31 appartient à cet intervalle, on accepte H0 au seuil de 5%. Conclusion: l’échantillon est représentatif de la population allergique à A. Isabelle ABOU

56 ALGORITHME ECHANTILLON CONFORME
Déclaration Variable p, f en Numérique Variable n en Entier Entrée Afficher ‘’Entrer la valeur de la proportion du caractère dans la population totale’’ Lire p Afficher ‘’Entrer la taille de l’échantillon’’ Lire n TantQue n<25 Afficher ‘’L’échantillon est trop petit. Recommencer’’ FinTantQue Afficher ‘’Entrer la valeur de la fréquence dans l’échantillon’’ Lire f Traitement et Sortie Si [((p-1/racine(n))<=f) et (f<=(p+1/racine(n)))] Alors Ecrire ‘’Au risque de 5%, l’échantillon est représentatif’’ Sinon Ecrire ‘’Au risque de 5%, l’échantillon n’est pas représentatif’’ Isabelle ABOU

57 PROGRAMME ALGOBOX ECHANTILLON CONFORME
1 VARIABLES 2 p EST_DU_TYPE NOMBRE 3 f EST_DU_TYPE NOMBRE 4 n EST_DU_TYPE NOMBRE 5 DEBUT_ALGORITHME 6 AFFICHER "Entrer la proportion du caractère, en valeur décimale, dans la population totale" 7 LIRE p 8 AFFICHER "Entrer la taille de l'échantillon" 9 LIRE n 10 TANT_QUE (n<25) FAIRE DEBUT_TANT_QUE AFFICHER "La taille de l'échantillon est trop petite. Recommencer." AFFICHER "Entrer la taille de l'échantillon" LIRE n FIN_TANT_QUE 16 AFFICHER "Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon" 17 LIRE f 18 SI (((p-1/sqrt(n))<=f) ET (f<=(p+1/sqrt(n))) ALORS DEBUT_SI AFFICHER "Au risque de 5%, cet échantillon est représentatif de la population" FIN_SI SINON DEBUT_SINON AFFICHER "Au risque de 5%, cet échantillon n'est pas représentatif de la population" FIN_SINON 26 FIN_ALGORITHME Isabelle ABOU

58 MALADIE DES REINS A l’hôpital, on peut lire une affiche où il est écrit: « 1 français sur 20 est malade des reins et ne le sait pas. Pensez à vous faire dépister… ». On considère deux échantillons, le premier de taille 1000, constitué de personnes entre 0 et 35 ans et le second de taille 2000, constitué de personnes entre 36 et 80 ans. Pour, le premier 18 personnes ont des problèmes de reins, pour le second, il sont 120. Dire, pour chaque échantillon s’il est représentatif de la population française. Isabelle ABOU

59 EXECUTIONS 2ième échantillon: 1ier échantillon:
. n=2000, p=0.05, f= 120/2000 ***Algorithme lancé*** Entrer la proportion du caractère, en valeur décimale, dans la population totale Entrer la taille de l'échantillon Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon Au risque de 5%, cet échantillon est représentatif de la population ***Algorithme terminé*** 1ier échantillon: n=1000, p=0.05, et f=18/1000 ***Algorithme lancé*** Entrer la proportion du caractère, en valeur décimale, dans la population totale Entrer la taille de l'échantillon Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon Au risque de 5%, cet échantillon n'est pas représentatif de la population ***Algorithme terminé*** Isabelle ABOU

60 EN RESUME Le raisonnement pour apprécier si une fréquence observée f sur un échantillon de taille n est compatible ou non avec un modèle de Bernoulli de probabilité p, est le suivant: on regarde si cette fréquence est dans l’intervalle de fluctuation à 0,95 relatif aux échantillons de taille n du modèle. C’est-à-dire si l’écart entre f et p est probable, au sens où le hasard produirait un tel écart dans 95% des échantillons envisageables. Si f est en dehors de l’intervalle de fluctuation, on considère que l’observation n’est pas compatible avec le modèle, en ce sens avec un tel modèle elle ne s’observerait que dans 5% des échantillons de taille n (avec un risque de prendre la mauvaise décision dans 5% des cas). Ce type de raisonnement est à la base de ce qu’on appelle parfois la « preuve statistique ». Isabelle ABOU

61 TAUX ANORMAL DE LEUCEMIES
Une petite ville des États-Unis a connu 9 cas de leucémie chez de jeunes garçons en l’espace de 10 années. Doit-on, comme l’ont alors affirmé les autorités, en accuser le hasard ? Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des États-Unis. Du milieu à la fin des années 1970, la communauté locale s’émeut d’un grand nombre de leucémies infantiles survenant en particulier chez les garçons dans certains quartiers de la ville. Les familles se lancent alors dans l’exploration des causes et constatent la présence de décharges et de friches industrielles ainsi que l’existence de polluants. Dans un premier temps, les experts gouvernementaux concluent qu’il n’y a rien d’étrange. Mais les familles s’obstinent et saisissent leurs propres experts. Une étude statistique montre qu’il se passe sans doute quelque chose « d’étrange ». Isabelle ABOU

62 TABLEAU DE DONNEES Le tableau suivant résume les données statistiques concernant les garçons de moins de 15 ans, pour la période (Source : Massachusetts Department of Public Health). Population des garçons de moins de 15 ans à Woburn selon le recensement de 1970 : n Nombre de cas de leucémie infantile observés chez les garçons à Woburn entre 1969 et 1979 Fréquence des leucémies aux Etats-Unis (garçons) : p 5 969 9 0,000 52 Isabelle ABOU

63 RESOLUTION La question statistique qui se pose est de savoir si le hasard seul peut raisonnablement expliquer le nombre de leucémies observées chez les jeunes garçons de Woburn, considérés comme résultant d’un échantillon prélevé dans la population américaine. Les conditions requises pour appliquer le résultat du cours ne sont pas toutes respectées ici (p n’est pas comprise entre 0,2 et 0,8). Il faut donc observer de plus près la fluctuation d’échantillonnage. La population des États-Unis étant très grande par rapport à celle de Woburn, on peut considérer que l’échantillon résulte d’un tirage avec remise et simuler des tirages de taille n avec le tableur. Isabelle ABOU

64 GENERATION DE NOMBRE ALEATOIRE
On simule sur le tableur 100 échantillons de taille n = prélevés au hasard dans une population de garçons où la probabilité de leucémie est p = 0, (cas « normal ») en utilisant l’instruction : =ENT(ALEA()+0,000 52) . L’instruction =ALEA() génère un nombre aléatoire dans l’intervalle [0, 1[. Or, choisir un réel au hasard entre 0 et 1, c’est le choisir suivant la loi uniforme sur [0;1]. L’instruction =ALEA()+0, génère donc un nombre aléatoire dans l’intervalle [0,000 52 ; 1,000 52[. L’instruction =ENT(ALEA()+0,000 52), où ENT désigne la partie entière, vaut donc la plupart du temps 0 « non malade » (en fait avec une probabilité égale à 1-0,00052=0,99948),et vaut 1 « malade » avec la probabilité égale à 0, Sur chaque échantillon, en faisant la somme, on obtient le nombre de cas observés, sous l’hypothèse d’une probabilité « normale ». Isabelle ABOU

65 SIMULATION SUR TABLEUR
On représente ensuite sur un graphique les 100 résultats observés sur les échantillons ainsi simulés. Les simulations montrent que le nombre de cas observés à Woburn (9 cas) est extrêmement rare (de l’ordre de 1 % des simulations sur un grand nombre d’essais), sous l’hypothèse d’une probabilité « normale ». On peut donc rejeter l’hypothèse que l’échantillon soit compatible avec le modèle. Il est donc raisonnable de penser que le niveau très « significativement » élevé des leucémies infantiles observées chez les garçons de Woburn n’est pas dû au hasard. Ce taux anormalement élevé de leucémies est officiellement confirmé par le Département de Santé Publique du Massachusetts en avril Les soupçons se portent alors sur la qualité de l’eau de la nappe phréatique qui, par des forages, alimente la ville. On découvre ainsi le syndrome du trichloréthylène. Isabelle ABOU

66 METHODE DETAILLEE On construit 100 échantillons de taille 5969 où chaque colonne contient un échantillon, et chaque cellule contient l’instruction =ENT(ALEA()+0,000 52). On crée une ligne où on fait la somme de chaque colonne, cette ligne contient le cas de leucémies dans chaque échantillon. On crée ensuite un graphique où on aura en abscisse chaque échantillon et en ordonnée le nombre de cas de leucémies. Isabelle ABOU

67 IV. THEORIE DE L’ÉSTIMATION
Isabelle ABOU

68 PROBLEMATIQUE La problématique est ici tout autre.
On ne connaît pas un ou des paramètres d’une v.a liée à une population mère. On veut estimer les valeurs caractéristiques inconnues de cette v.a, à l’aide de l’étude d’un échantillon d’effectif n (n>=30) issu de cette population. Isabelle ABOU

69 ESTIMATION On suppose vérifiée l’hypothèse d’échantillonnage aléatoire simple. Deux types d’estimation: - L’estimation ponctuelle - L’estimation par intervalle de confiance. Ceci en vue d’une prise de décision à partir d’un échantillon. Isabelle ABOU

70 ESTIMATION PONCTUELLE
Les lois de grands nombres justifient l’usage de comme estimation de m, et l’usage de s² comme estimation de σ²car tend p.s vers m et S² tend p.s vers σ². De même la fréquence empirique f d’un événement est une estimation de sa probabilité. Les v.a , S², et F sont appelées estimateurs de m, σ², et p respectivement. Isabelle ABOU

71 ESTIMATEUR Soit t un paramètre à estimer, et T un estimateur.
Qualités d’un estimateur: - Il doit être convergent: quand n tend vers l’infini, T doit tendre vers t. - Il doit être précis: converger ‘’assez vite’’. - Il doit être sans biais c’est-à-dire E(T) doit être égal à t. Le biais: L’erreur d’estimation entre T et t est la v.a T - t. On décompose la différence T - t =(T - E(T))+(E(T) - t) * T-E(T) représente les fluctuations aléatoires de T autour de sa valeur moyenne. * E(T)-t est assimilable à une erreur systématique due au fait que T varie autour de sa valeur centrale E(T), et non autour de t. La quantité E(T)-t s’appelle le biais. Il est donc souhaitable d’utiliser des estimateurs sans biais tq E(T)=t. Isabelle ABOU

72 THEOREMES SUR L’ESTIMATION
1) Si (X1, ,Xn) est un échantillon d'une loi quelconque de moyenne m, alors X= (X Xn)/n est un estimateur sans biais de m. 2) En particulier, si (X1, ,Xn) est un échantillon de Bernoulli B(p), p є [0, 1], alorsF := (X Xn)/n est un estimateur sans biais de p. 3) Si (X1, ,Xn) est un échantillon d'une loi quelconque de variance σ² finie, alors S² =(1/n) Σ(Xi − ¯X )² est un estimateur biaisé de σ². En effet: E[S²] = ((n − 1)/n)σ². Par contre l'estimateur corrigé S²corr := (n/n − 1)S²=(1/(n − 1)) Σ(Xi − ¯X )² est sans biais. Pour une démonstration de l’estimation de la variance et du biais, voir un cours de statistique de l’université de Brest à l’adresse: Isabelle ABOU

73 APPLICATION A L’ECHANTILLONNAGE
On considère une v.a X définissant le caractère étudié, avec E(X)=m et L’échantillon a pour moyenne et pour écart type s. - La meilleure estimation de m est - La meilleure estimation de est , où le coefficient est une correction du biais. On considère une population où chaque élément peut, ou non, posséder une propriété. Soit p la proportion d’éléments de la population mère et f la proportion d’éléments de l’échantillon possédant cette propriété. - La meilleure estimation de p est f. Isabelle ABOU

74 ENGRENAGES [23,59;23,61[ [23,61;23,63[ [23,63;23,65[ [23,65;23,67[
Une usine fabrique des engrenages. On mesure en mm le diamètre de 100 engrenages: La moyenne de l’échantillon est 23,644 mm, son écart type est 0,018. Une estimation de la moyenne de la production totale est donc 23,644 mm, et une estimation de l’écart type de la production totale est 0,018*√(100/99)=0,0181. Diamètre [23,59;23,61[ [23,61;23,63[ [23,63;23,65[ [23,65;23,67[ [23,67;23,68] Effectif 6 8 51 30 5 Isabelle ABOU

75 ENGRENAGES (suite) Dans un échantillon de 150 pièces, on a relevé 3 pièces défectueuses. Une estimation du nombre de pièces défectueuses dans la production est: 3/150=0,02 soit 2%. On peut donc estimer que 2% des pièces produites sont défectueuses. Isabelle ABOU

76 ESTIMATION PAR INTERVALLE DE CONFIANCE
L’estimation ponctuelle est souvent peu réaliste, il est donc plus intéressant de fournir une fourchette d’estimation, et de plus l’estimation ponctuelle n’indique pas le risque que l’on a de se tromper. Il s’agit de déterminer un intervalle contenant la valeur de la moyenne ou de la fréquence avec un risque d’erreur décidé à l’avance. Puis de prendre des décisions sur la population mère à partir de l’étude d’un ou de plusieurs échantillons. Isabelle ABOU

77 INTERVALLE DE CONFIANCE DE LA MOYENNE
La loi d’échantillonnage de la moyenne est la loi normale La moyenne m est supposée inconnue et on a calculé la moyenne d’un échantillon de taille n. L’intervalle de confiance de m au risque de 5% est l’intervalle centré en : . Isabelle ABOU

78 DEMONSTRATION La loi d’échantillonnage de la moyenne est la loi normale N(m,σ/√n). Soit Y la v.a Y= suit la loi N(0;1). Soit α le risque d’erreur ou seuil de risque, α est une probabilité fixée à l’avance (par exemple α =0,05). La probabilité pour que Y n’appartienne pas à [-t;t] est P(lYl>t)=α ou encore P(lYl<= t)=1-α. Ceci donne P(-t<= Y<= t)=1-α Soit C’est à dire Isabelle ABOU

79 INTERPRETATION On a obtenu ce qui signifie
que pour 100*(1-α)% des échantillons, m appartient à l’intervalle Cet intervalle est l’intervalle de confiance de la moyenne au seuil de risque α. On dit que 1-α est le coefficient de confiance. t est le nombre tel que , et se lit dans la table de la loi N(0,1). On a α 0,01 0,05 0,10 t 2,58 1,96 1,645 Isabelle ABOU

80 AMPOULES ELECTRIQUES On suppose que la durée de vie d’une ampoule électrique, exprimée en heures, suit la loi normale de moyenne M inconnue et d’écart type σ =20. Une étude sur un échantillon de 16 ampoules donne une moyenne de vie égale à 3000. Déterminer l’intervalle de confiance de m au seuil de 10%. Résolution: α=0,1 d’où t=1,645. Un intervalle de confiance de M est: [3000-1,645*(20/√16) ; ,645*(20/√16)] = [2991 ; 3009]. Isabelle ABOU

81 INTERVALLE DE CONFIANCE DE LA FREQUENCE
La loi d’échantillonnage de la fréquence est la loi normale p étant inconnu, l’écart type est remplacé par son estimation ponctuelle Par analogie avec la méthode précédente, l’intervalle de confiance de la fréquence au risque 5% est l’intervalle centré en f: Isabelle ABOU

82 SONDAGE DANS LES TRANSPORTS
Un sondage dans une commune révèle que sur les 500 personnes interrogées, 42% des personnes sont mécontentes de l’organisation des transports. Déterminer au seuil de risque de 5%, un intervalle de confiance du pourcentage de personnes mécontentes dans la commune. Isabelle ABOU

83 RESOLUTION Dans l’échantillon, la fréquence de personnes mécontentes est f=0,42. La taille de l’échantillon est n=500,l’intervalle de confiance de la fréquence est donc: Le pourcentage de personnes mécontentes dans la commune a une probabilité égale à 95% de se trouver dans l’intervalle [37,67;44,21]. Isabelle ABOU

84 V. ÉSTIMATION D’UNE PROPORTION
SITUATIONS PROBLEMES Isabelle ABOU

85 PROGRAMME DE SECONDE On peut modéliser de nombreuses situations aléatoires à l’aide de l’urne de Bernoulli, c.a.d comprenant deux sortes de boules. La situation de référence est une urne contenant plusieurs centaines de boules rouges et blanches, dans une proportion inconnue p de boules rouges. On cherche à estimer p à partir d’un échantillon de taille n. On note X la v.a correspondant au nombre de boules rouges dans l’échantillon. X est une v.a binomiale et on note F la v.a X/n. On considère un échantillon de taille n, parmi tous ceux qu’on aurait pu obtenir. f est une réalisation de F. On sait qu’environ 95% des fréquences observées sont dans l’intervalle [p-1/√n; p+1/√n]. Isabelle ABOU

86 INTERVALLE DE CONFIANCE
Comme P(p-1/√n ≤ F ≤ p+1/√n) ≥ 0,95 équivaut à P(F-1/√n ≤ p ≤ F+1/√n) ≥ 0,95 L’appartenance f à [p-1/√n; p+1/√n] équivaut à celle de p à [f-1/√n; f+1/√n], appelée fourchette de sondage. Ceci permet de dire que, parmi tous les échantillons de taille n possibles, 95% des intervalles associés [f-1/√n; f+1/√n] contiennent le nombre p. Pour exprimer l’idée qu’avant tirage de l’échantillon on avait 95% de chances d’obtenir une fourchette [f-1/√n; f+1/√n] qui contienne p, on dira que le fourchette obtenue, une fois l’échantillon tiré, est un intervalle de confiance au niveau 95% de p. Il ne dépend que de la taille n de l’échantillon et non de la taille de la population. Isabelle ABOU

87 ESTIMATION DE p INCONNUE
A la problématique: « combien faut-il tirer de boules dans une urne de Bernoulli pour pouvoir faire une estimation de sa composition avec une précision donnée à priori? », on peut répondre: en tirant n boules avec remise, on obtient une estimation de par un intervalle d’amplitude 2/√n, avec une confiance de plus de 95%. Si on tire 1000 boules (avec remise), on a une estimation de p, à plus de 95%, par un intervalle d’amplitude 6%. Si par exemple le tirage de 1000 boules fournit une fréquence de boules rouges égale à 0,47, on peut estimer avec plus de 95% de confiance, que la proportion p de boules rouges dans l’urne est comprise entre 0,44 et 0,50. Les sondages, par exemple, sont souvent pratiqués sur un échantillon de 1000 personnes. Isabelle ABOU

88 SOMME DE DEUX DÉS L’approche fréquentiste des probabilités est une application de la loi faible des grands nombres. En voici un grand classique: On lance deux dés équilibrés dont les faces sont numérotées 1, 2, 3, 4, 5 et 6. On additionne les nombres lus sur les faces supérieures. On gagne si on obtient 9. Quelle est la probabilité de gagner ? Isabelle ABOU

89 RESOLUTION A ce stade, les élèves ne connaissant pas la probabilité d’apparition du 9. Ils peuvent simuler des échantillons de taille de plus en plus grande et estimer la probabilité d’apparition du 9. On peut ensuite comparer les résultats avec la probabilité effective, trouvée à l’aide d’un arbre. La probabilité théorique est de 1/9 soit environ 0,11111. Isabelle ABOU

90 SUR TABLEUR La simulation du lancer d’un dé se fait par l’instruction =ENT(6*ALEA()+1). Ceci car ALEA() fournit un nombre aléatoire entre 0 et1 (1 non compris). 6*ALEA() fournit un nombre aléatoire entre 0 et 6 (6 non compris). Donc en opérant la translation de 1, on a =ENT(6*ALEA()+1) fournit un nombre entier de 1 à 6. Manipulation sur tableur: Dans la colonne A on numérote les échantillons, par exemple à partir de la ligne 4. En colonnes B et C , on simule des lancers. En colonne D, on écrit le test du type =SI(SOMME(B4:C4=9);1;0)). Si le test est vérifié, la valeur correspondante est 1, sinon elle vaut 0. Isabelle ABOU

91 SUR TABLEUR (suite) En colonne E, on calcule les fréquences:
- la fréquence du premier échantillon sur la 1ière ligne, - la fréquence du 1ier et du 2ième échantillon sur la 2ième ligne, - la fréquence du 1ier, du 2ième et du 3ième échantillon sur la 3ième ligne. Le premier échantillon considéré est donc de taille 1, le 2ième de taille 2, le 3ième de taille 3, et ainsi de suite jusqu’à 100. Dans la colonne E, on a écrit, en 3ième ligne =SOMME(D$4:D6)/A6. On voit qu’à partir d’une certaine valeur de n, la fréquence tend vers la probabilité théorique. Isabelle ABOU

92 FLUCTUATIONS D’ECHANTILLONNAGE
Si on fait plusieurs simulations, on peut observer des fluctuations d’échantillonnage relativement importantes en augmentant la taille des échantillons jusqu’à 100. Isabelle ABOU

93 Fluctuations d’échantillonnage en augmentant la taille des échantillons jusqu’à 5000
Isabelle ABOU

94 SONDAGE Un candidat à une élection effectue un sondage dans sa circonscription comportant électeurs : sur 1068 personnes interrogées, 550 déclarent vouloir voter pour ce candidat. Pour gagner les élections au premier tour, un candidat doit obtenir 50% des voix. Le candidat affirme : « si les élections avaient eu lieu le jour du sondage et si les réponses au sondage étaient sincères, alors j’aurai été élu au premier tour ». Qu’en pensez-vous ? Isabelle ABOU

95 RESOLUTION Nous sommes dans les conditions requises par le cours, n vaut 1068. Ici, f = 0,51498 et n = 1068 donc la fourchette de sondage est [0,4843 ; 0,5456] au niveau 0,95. D’après la fourchette de sondage, p a 95% de chance d’être dans cet intervalle. Donc on ne peut pas certifier que p sera supérieur ou égal à 0,5. L’affirmation du candidat est très hâtive, on ne peut pas l’accepter. Isabelle ABOU

96 PREMIER TOUR DES PRESIDENTIELLES 2002
Voici un extrait d’article, publié dans le journal « Le Monde » par le statisticien Michel Lejeune, après le premier tour de l’élection présidentielle de 2002. « Pour les rares scientifiques qui savent comment sont produites les estimations, il était clair que l'écart des intentions de vote entre les candidats Le Pen et Jospin rendait tout à fait plausible le scénario qui s'est réalisé. En effet, certains des derniers sondages indiquaient 18 % pour Jospin et 14 % pour Le Pen. Si l'on se réfère à un sondage qui serait effectué dans des conditions idéales [...], on obtient sur de tels pourcentages une incertitude de plus ou moins 3 % étant donné la taille de l'échantillon [...]. » Isabelle ABOU

97 PRESIDENTIELLES 2002 ÉNONCÉ
1. Si l’on tient compte de l’incertitude liée au sondage, entre quels pourcentages pourraient se situer réellement (à 95 % de confiance) les deux candidats lorsque le sondage donne 18 % pour l’un et 14 % pour l’autre ? 2. Représenter sur un même graphique les deux « fourchettes » calculées à la question précédente. Peut-on prévoir l’ordre des candidats ? Au premier tour de l’élection présidentielle de 2002, L. Jospin a obtenu 16,18 % des voix et J.-M. Le Pen 16,86 %. 3. Expliquer la phrase « l'écart des intentions de vote entre les candidats Le Pen et Jospin rendait tout à fait plausible le scénario qui s'est réalisé ». Isabelle ABOU

98 RESOLUTION 1. Pour L. Jospin, entre 15 % et 21 %. Pour J.-M. Le Pen, entre 11 % et 17 %. 2. Un dessin possible. Si on utilise ces fourchettes, on ne peut pas prévoir l’ordre des candidats car elles ont une partie commune. 3. La phrase correspond au fait que les pourcentages obtenus à l’élection sont situés dans les fourchettes du sondage. 15 % 20 % 10 % Isabelle ABOU

99 VI. ÉVALUATION DE TRAVAUX AVEC TIC
Isabelle ABOU

100 INTRODUCTION Les problèmes qui suivent sont des évaluations de travaux faits avec des TIC, du type « Epreuve pratique ». On trouve de très bons documents de ce type à l’adresse: Dans le premier problème, on détaille, à la fin, les compétences mises en jeu dans la résolution de cette activité. On rappelle les 4 compétences de base: o C1 : savoir utiliser et compléter ses connaissances o C2 : s’informer, rechercher, extraire et organiser de l’information utile (écrite, orale, observable, numérique) o C3 : raisonner, argumenter, pratiquer une démarche scientifique, démontrer o C4 : communiquer à l’aide de langages et d’outils adaptés. On peut décliner ces 4 compétences dans le domaine du travail avec les TIC. On essaiera, dans tous les cas, de développer l’autonomie et l’initiative chez l’élève. Isabelle ABOU

101 SURRESERVATION Une compagnie aérienne dispose d’un avion de 100 places et vend 107 réservations. L’objectif est d’évaluer la probabilité de surréservation de cette compagnie, autrement dit le risque que plus de 100 passagers se présentent à l’embarquement. Isabelle ABOU

102 Pour cela, dans une feuille de calcul du tableur :
1. On suppose que toute personne réservant une place d’avion a une chance sur 10 de ne pas se présenter à l’embarquement. Réaliser une simulation du nombre de personnes se présentant à l’embarquement d’un vol de 100 places pour 107 réservations, sur un échantillon aléatoire obtenu à l’aide d’un tableur. Pour cela, dans une feuille de calcul du tableur : saisir « =ENT(ALEA()+0,9) » dans la cellule A1 et recopier cette formule vers la droite jusqu’en DC1 pour obtenir 107 réalisations , saisir « =SOMME(A1:DC1) » dans la cellule DD1. Appel n° 1 : Appeler le professeur pour valider cette simulation. 2. Réaliser une simulation du nombre de personnes se présentant à l’embarquement de 1 000 vols de 100 places pour 107 réservations à chaque vol. Appel n° 2 : Appeler le professeur pour valider cette simulation. 3. Déterminer, pour cette simulation de 1 000 vols, la proportion des cas où l’effectif des passagers se présentant à l’embarquement est supérieur à 100. Pour cela : - dans une cellule de votre choix, utiliser la formule « =NB.SI(DD1:DD1000;">100") », - dans une cellule de votre choix, en déduire la fréquence demandée. Appel n° 3 : Appeler le professeur pour valider ces calculs. 4. a) En utilisant la touche F9, réaliser plusieurs simulations, puis évaluer la probabilité que plus de 100 personnes se présentent à l’embarquement. b) Évaluer, en pourcentage, le risque de surréservation pour la compagnie aérienne. Appel n° 4 : Appeler le professeur pour lui donner les réponses. Isabelle ABOU

103 RESOLUTION Tout type de tableur convient, par exemple Excel ou OpenOffice Calc. Il suffit d’inscrire la formule « =ENT(ALEA()+0,9) » dans la cellule A1, de la recopier horizontalement pour qu’elle soit calculée 107 fois, puis d’effectuer la somme. L’élève doit comprendre que lorsque la formule affiche 1, le passager se présente à l’embarquement et lorsqu’elle affiche 0, le passager ne se présente pas. Il s’agit de sélectionner les cellules de la simulation de la question 1. puis de recopier vers le bas. L’instruction NB.SI fournit un effectif. On s’attache à la différence qui est faite entre effectif et fréquence. L’élève doit comprendre que la probabilité de surréservation est la valeur autour de laquelle fluctuent les fréquences lorsqu’on appuie sur la touche F9. On accepte toute évaluation comprise entre 0,06 et 0,10. Signalons pour le professeur que le calcul de cette probabilité peut s’effectuer par la formule « =1-LOI.BINOMIALE(100;107;0,9;VRAI) » qui donne comme réponse environ 0,08 (ou 8 %). Isabelle ABOU

104 SIMULATION SUR TABLEUR
Isabelle ABOU

105 L’élève est capable de réaliser la simulation
Question COMPETENCES EVALUEES 1 L’élève est capable de réaliser la simulation L’élève comprend le sens de l’affichage 1 ou 0 de l’instruction « =ENT(ALEA()+0,9) »  2 L’élève est capable de réaliser la simulation de taille 1 000. 3 L’élève connaît la différence de sens entre effectif et fréquence et est capable de calculer la fréquence. 4 L’élève identifie la probabilité comme l’invariant autour duquel fluctuent les fréquences observées. L’élève donne une évaluation convenable de la probabilité. L’élève sait exprimer, en pourcentages, le risque de surréservation. Sur tout le TP L’élève tire profit des indications éventuellement données à l’oral. Ces indications peuvent être des aides logicielles nécessaires pour réaliser ce qu’il a prévu. Isabelle ABOU

106 CRAPS Le Craps est un jeu d'argent venant des États-Unis qui se joue avec deux dés à six faces. Les paris portent sur les combinaisons successives obtenues avec la somme des faces des deux dés.Il faut jeter deux dés à six faces sur une table avec des parois verticales de 40 cm de hauteur pour que les dés ne sortent pas de l'aire de jeu. Le total des 2 faces opposées de chacun des deux dés doit toujours être égale à 7 : 1+6, 2+5, 3+4. Au premier lancer, le lanceur perd sa mise s'il 2 (1+1) ou 3 (2+1) ou 12 (6+6). On dit qu'il a fait un Craps. Source : wikipedia.org Isabelle ABOU

107 Est-il plus facile d'obtenir un total de 6 ou de 7 avec deux dés ?
1. Simulation de lancés de deux dés et calcul des fréquences d'apparition des sommes des faces obtenues. 1.1. Lancer le tableur (Excel ou Open Office Calc) et :  écrire, dans la cellule A1, l'expression : Simulation de 10 lancés d'une paire de dés ;  ajuster la largeur de la colonne ;  entrer, dans la cellule A2, la formule : = ENT(ALEA()*6+1)+ENT(ALEA()*6+1).  incrémenter la cellule A2, jusqu'à la cellule A11 (soit 10 cases correspondant aux 10 premiers lancés) ;  écrire, dans la cellule C6, l'expression : Nombre de 6 : ;  entrer, dans la cellule D6, la formule : = NB.SI(A2:A11;6) ;  écrire, dans la cellule C7, l'expression : Nombre de 7 : ;  entrer, dans la cellule D7, la formule : = NB.SI(A2:A11;7) ;  appuyer plusieurs fois sur la touche F9 afin de faire afficher d'autres lancés. Cette simulation permet-elle répondre au problème posé ? Appel n° 1 : appeler le professeur pour faire vérifier feuille de calculs. Isabelle ABOU

108  ajuster la largeur de la colonne ;
1.2. Reprendre la précédente feuille de calcul (Excel ou Open Office Calc) et :  écrire, dans la cellule A1, l'expression : Simulation de 10 000 lancés d'une paire de dés ;  ajuster la largeur de la colonne ;  incrémenter la cellule A2 jusqu'à la cellule A10001 (soit 10 000 cellules correspondant aux 10 000 premiers lancés) ;  modifier, dans la cellule D6, la formule entrée par : = NB.SI(A2:A10001;6) ;  entrer, dans la cellule E6, la formule : =D6/10000*100 ;  modifier, dans la cellule D7, la formule entrée par : =NB.SI(A2:A10001;7) ;  entrer, dans la cellule E7, la formule : =D7/10000*100 ;  appuyer plusieurs fois sur la touche F9 afin de faire afficher d'autres lancés. Isabelle ABOU

109 6 7 1.3. Est-il plus facile d'obtenir un total de 6 ou de 7 ?
1.4. A quoi correspondent les valeurs obtenues dans les cellules E6 et E7 ? 2. Étude des fréquences d'apparition des sommes de deux dés. Compléter le tableau ci-dessous à l'aide des résultats obtenus précédemment. Pour chaque somme, calculez les fréquences en effectuant la division du nombre d'apparitions, ni, par le nombre total de lancer, N = 10 000. Somme des faces des deux dés 6 7 Nombre d'apparition (ni) Fréquence (f i = ) Isabelle ABOU

110 2.1.2. Combien y a t-il d'éventualités d'obtenir un total de 6 ?
2.1. Ces fréquences ont été calculées à partir d'une simulation de 10 000 lancés. Compléter le tableau suivant en inscrivant dans chaque case la somme des points obtenus avec chaque dé. Combien y a t-il d'éventualités d'obtenir un total de 6 ? Déterminer sa probabilité d'apparition : Combien y a t-il d'éventualités d'obtenir un total de 7 ? Déterminer sa probabilité d'apparition : Parmi toutes ces éventualités l'une d'entre elle a plus de chance d'apparaître, laquelle ? 1ier dé 2ième dé 1 2 3 4 5 6 Isabelle ABOU

111 A SUIVRE… 3ième PARTIE APPROFONDISSEMENT Isabelle ABOU


Télécharger ppt "STATISTIQUE INFERENTIELLE"

Présentations similaires


Annonces Google