La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Initiation aux statistiques inférentielles Chapitre 1 : les échantillons Chapitre 2 : la loi normale : première loi déchantillonnage Chapitre 3 : lestimation.

Présentations similaires


Présentation au sujet: "1 Initiation aux statistiques inférentielles Chapitre 1 : les échantillons Chapitre 2 : la loi normale : première loi déchantillonnage Chapitre 3 : lestimation."— Transcription de la présentation:

1 1 Initiation aux statistiques inférentielles Chapitre 1 : les échantillons Chapitre 2 : la loi normale : première loi déchantillonnage Chapitre 3 : lestimation ponctuelle et par intervalle de confiance Chapitre 4 : linitiation aux tests dhypothèse

2 2 INTRODUCTION A. Les indicateurs des échantillons 1°) Exemple 1. 2°) Exemple 2. 3°) Exemple 3. B. Les fluctuations déchantillonage. 1°) Objectif. 2°) Exemple. C. Les sondages classiques 1°) Les sondages aléatoires. 2°) les sondages empiriques. Mises en garde. CHAPITRE 1 : LES ECHANTILLONS

3 3 Si dans un échantillon de personnes, 200 votent pour A alors est-on vraiment certain que A réalisera un score de 20 % lors de l élection ? Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de trouver un échantillon de poids moyen 249 grammes Le comportement des échantillons est incertain : Troisième objectif : comparer deux (ou plus) traitements différents : en ressources humaines, peut-on affirmer que depuis la création de la crèche d entreprise, le taux d absentéisme a baissé ; en marketing, les ventes réalisées sont-elles différentes avec ce nouvel emballage ? Deuxième objectif : Vérifier si la production est conforme aux attentes ou spécifications. Premier objectif : Connaître les propriétés de la population dont est extrait l échantillon. Les objectifs CHAPITRE 1 : LES ECHANTILLONS

4 4 Incertain et Aléatoire Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de trouver un échantillon de poids moyen 249 grammes mais avec quelle probabilité ? Autre exemple : si dans un échantillon de personnes, 200 votent pour A alors est-on vraiment certain que A réalisera un score de 20 % lors de l élection ? Avec quelle certitude ? entre 19 % et 21 % ? On peut penser que, si le sondage est bien fait, A réalisera un score «autour» de 20 % mais la question devient alors : entre 17 % et 23 % ? entre 10 % et 30 % ? «il va peut-être pleuvoir» et «il y a une probabilité de 30 % quil pleuve» Si je connais cette probabilité, jadapte mon comportement et je prends ou pas mon parapluie CHAPITRE 1 : LES ECHANTILLONS

5 5 Parmi ces trois échantillons qui suivent, y en a-t-il qui sont manifestement gaussiens ? Parmi ces trois échantillons, y en a-t-il qui sont manifestement gaussiens ? Lutilisation de la loi normale dont la caractéristique principale est sa forme de «courbe en cloche» est fondamentale Echantillon Gaussien CHAPITRE 1 : LES ECHANTILLONS

6 6 Gaussien ? Oui ! CHAPITRE 1 : LES ECHANTILLONS

7 7 Gaussien ? Non ! CHAPITRE 1 : LES ECHANTILLONS

8 8 Gaussien ? ?? ? CHAPITRE 1 : LES ECHANTILLONS

9 9 A. Les indicateurs des échantillons 1°) Exemple 1 : Dans une PME, durant les 25 derniers jours ouvrés, on a relevé chaque jour le nombre de salariés en arrêt de travail : la variable est numérique est il est bien difficile de savoir si la représentation est proche dune courbe en cloche Nombre de personnes en arrêt Nombre de jours CHAPITRE 1 : LES ECHANTILLONS

10 10 A. Les indicateurs des échantillons 2°) Exemple 2 : Une entreprise a étudié son chiffre d affaires sur les derniers jours: la variable est numérique et la représentation est proche dune courbe en cloche Chiffre daffaires [0,1[[1,2[[2,3[[3,4[[4,5[[5,6[[6,7[[7,8[ Nombre de journées On rappelle que dans le cas dune série continue, les xi représentent alors les centres de classe CHAPITRE 1 : LES ECHANTILLONS

11 11 CHAPITRE 1 : LES ECHANTILLONS

12 12 A. Les indicateurs des échantillons 3°) Exemple 3 : Dans ce groupe de 135 étudiants, il y a 80 filles : 51 de moins de 21 ans et 29 de plus de 21 ans et 55 garçons : 25 de moins de 21 ans et 30 de plus de 21 ans. Quelle est la proportion de filles ? Elle est de Quelle est la proportion d étudiants de moins de 21 ans ? Elle est de Quelle est la proportion de filles parmi les étudiants de moins de 21 ans ? Elle est de Les variables étudiées sont : le sexe, variable qualitative lâge, variable quantitative mais comme léchantillon est séparé en deux groupes, jeunes et moins jeunes, la variable est devenue qualitative. CHAPITRE 1 : LES ECHANTILLONS

13 13 Urne : 180 blanches et 20 noires On en tire 10. Quelle est la probabilité davoir 1 noire ? Ceci est le point de vue probabiliste. Quelle est la probabilité davoir au moins 3 noires ? B. Les fluctuations déchantillonage. CHAPITRE 1 : LES ECHANTILLONS

14 14 Urne : 1000 boules On en tire 15 Peut-on en déduire le nombre de noires dans lurne ? par exemple on en obtient 3 noires soit 20 % Cest le point de vue du sondeur B. Les fluctuations déchantillonage. CHAPITRE 1 : LES ECHANTILLONS

15 15 Urne : beaucoup de boules On en tire 15 Peut-on en déduire le nombre de noires dans lurne ? par exemple on en obtient 3 noires soit 20 % Cest le point de vue du sondeur Peut-on en déduire la proportion de noires dans lurne ? B. Les fluctuations déchantillonage. CHAPITRE 1 : LES ECHANTILLONS

16 16 Plage avec beaucoup de grains de sable On maffirme 10 % de grains noirs et je prends un échantillon de 80 grains. Je trouve non pas 8 grains noirs comme attendu mais 9. Que décider ? Cest le point de vue du contrôleur B. Les fluctuations déchantillonage. CHAPITRE 1 : LES ECHANTILLONS

17 17 B. Les fluctuations déchantillonage 2°) Exemple : On considère les 5 notes obtenues par un étudiant : 7 ; 8 ; 10 ; 11 ; 14 a) la moyenne : la variance : lécart-type : et parmi ces 5 notes la proportion p de notes supérieure à 12 est Attention Si on considère que ces 5 notes constituent la population, les indicateurs de la population sont notés : On va prélever dans cette population de 5 notes des échantillons de taille 2 CHAPITRE 1 : LES ECHANTILLONS

18 18 Echantillon n°note 1note 2MoyenneVariance Ecart- type proportion de notes supérieures à ,50,250, ,52,251, ,5 12,2 5 3,50,5 6877,50,250, ,52,251, , ,52,251, ,50,250, , ,52,251, ,50,250, ,52,251,50, ,512,253,50, , , ,52,251,50, Les 25 échantillons possibles pour le premier échantillon : moyenne variance proportion pour le cinquième échantillon : moyenne variance proportion Attention Si on considère que ces 2 notes constituent un des échantillons, les indicateurs de cet échantillon sont notés : Remarque : si la population était de N=7 notes et que l'on s'intéressait aux échantillons de taille 3, on aurait obtenu 7 3 échantillons ! CHAPITRE 1 : LES ECHANTILLONS

19 19 On ne retrouve pas dans ces échantillons les indicateurs de la population. Des outils de probabilité apparaissent rapidement : La moyenne observée, la variance observée et la proportion observée sont aléatoires (elles dépendent de l échantillon pris au hasard). Par convention, on conserve les majuscules pour ces variables aléatoires. moyenne de léchantillon77,588,599,51010, ,514total pipi 0,040,080,040,080,160,080,040,160,120,08 0,041 nombre d observations L espérance est On retrouve une propriété bien pratique pour la suite : la moyenne observée dans un échantillon est une variable aléatoire. cette variable aléatoire a pour espérance la moyenne de la population le même travail fait pour la variance de léchantillon montre que la variance est aussi aléatoire mais son espérance nest pas la variance de la population : il faut y apporter une correction qui dépend de la taille de léchantillon : CHAPITRE 1 : LES ECHANTILLONS

20 20 C. Les sondages classiques 1°) Les sondages aléatoires Les sondages aléatoires simples : on prend au hasard dans la population un échantillon (c est facile sur une fabrication en série ou sur un ensemble de chèques mais c est moins facile sur une population humaine : si on réalise un sondage dans les rues piétonnes le samedi après-midi, je risque de louper des tranches considérables de la population et de ne trouver que des jeunes et étudiants). Les sondages par strates : chaque catégorie de la clientèle est considérée comme une population : on étudiera par exemple la population classée suivant son âge ou bien la population classée suivant son sexe. 2°) les sondages empiriques : La méthode des quotas : on essaie de conserver dans notre échantillon les proportions de la population : si la population-mère contient 25 % de femmes de moins de 25 ans, on gardera 25 % de femmes de moins de 25 ans dans notre échantillon. Avantages : la précision est aussi bonne que dans les échantillon aléatoires simples, le coût est faible. Inconvénient : il demande beaucoup de dextérité et d expérience pour bien relever les variables importantes : le sexe ? l âge ? la CSP ? le milieu rural ou urbain ? le niveau d études ? la religion ? le nombre d enfants ? les revenus annuels ? le nombre de salles de cinémas dans un rayon de 20 km ? (c'est une variable importante si vous réalisez un sondage sur la fréquentation des cinémas !). En cette période post-électorale, on pourra se demander quelles sont les variables (ou critères) utilisées pour les sondages politiques et pourquoi celles-là. On pourrait aussi faire une enquête sur la taille des échantillons utilisés. CHAPITRE 1 : LES ECHANTILLONS

21 21 Mises en garde : 1°) On ne s intéresse dans la suite quaux sondages aléatoires simples où la taille de l échantillon est inférieure au dixième de la taille de la population (ce qui permet de négliger la correction d exhaustivité et de pas tenir compte du sondage avec ou sans remise). 2°) Les sondages ne peuvent s appliquer que sur des processus stabilisés : certains voulaient estimer une moyenne à venir alors que l on connaissait les ventes des 4 mois précédents. Oui, pourquoi pas ? Quand j'ai su que l on comptait lancer une campagne promotionnelle sur ce produit, tout était fortement déstabilisé. Quand de plus j'ai appris que ce produit était le CD d'un groupe de musique régional (et donc soumis aux effets de mode) j'ai renoncé! CHAPITRE 1 : LES ECHANTILLONS

22 22 On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités p(X 38)= Méthode 1 : 38=33+1*5 donc p(X38)=(1)=0,8413 Méthode 2 : p(X38)=((38-33)/5)=(1)=0,8413 On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités p(X 27)= Méthode 1 : 27=33-1,2*5 donc p(X27)=(-1,2)=1-(1,2)=1-0,8849=0,1151 Méthode 2 : p(X27)=((27-33)/5)=(-1,2)=0, écart-type au dessus de la moyenne 1,2 écart-type en dessous de la moyenne A. Prérequis : la loi normale. 1°) Les intervalles de référence. Cas d un intervalle unilatéral (ayant une borne infinie) CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

23 23 Déterminer un intervalle du type ]- ; a] qui contienne 80 % de la population La table de la page 46 donne 0,80=(0,840) donc a= 33+0,840*5=37,2 Lintervalle est donc ]- ; 37,2] 15 % de la population La table de la page 46 donne 0,15=(-1,040) donc a= 33-1,040*5=27,8 Lintervalle est donc ]- ; 27,8] La table de la page 46 donne 0,95=(1,96) La table de la page 46 donne 0,90=(1,65) La table de la page 46 donne 0,05=(-1,96) Cas d un intervalle unilatéral Les pourcentages classiques CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

24 24 On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités p(28 X 38) On remarque que 28=33- 1 *5 et que 38=33+ 1 *5. cet intervalle est centré sur la moyenne et il y a un écart-type de part et dautre de la moyenne p(28 X 38)= 2(1)-1=2*0,8413-1=0,6826 p(23 X 43) On remarque que 23=33-2 * 5 et que 38=33+ 2 *5. cet intervalle est centré sur la moyenne et il y a deux écarts-type de part et dautre de la moyenne p(23 X 33)= 2(2)-1=2*0,9772-1=0,954 p( 30 X 42) On remarque que 30=33-0,6*5 et que 42=33+1,8*5. cet intervalle nest pas centré sur la moyenne et il faut revenir aux outils classiques : Cas d un intervalle bilatéral CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

25 25 2°) Les propriétés de la loi normale a) Théorème 1: Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont indépendantes et suivent des lois normales de moyennes respectives 100 et 120 et décarts-type respectifs 30 et 40. Quelle est la loi suivie par Q, quantité de produits vendues quotidiennement ? b) Théorème 2 : la somme de 2 lois normales indépendantes est une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances. Quelle est la probabilité que Q soit supérieure à 250 ? CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

26 26 Corollaire : La somme de lois normales indépendantes de mêmes moyennes et de mêmes écarts-type est une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances. Exemple : Les ventes quotidiennes pour un certain produit sont indépendantes et peuvent être approchées par une loi normale de paramètre 120 et 30. On dispose d un stock de 2500 objets. a) Quelle est la probabilité que le stock soit épuisé en 20 jours ? Les ventes totales en 20 jours est bien une variable aléatoire notée VT. VT est la somme de 20 lois normales de même moyenne (120), de même écart-type (30) et indépendantes. Daprès le théorème : Le stock est épuisé si les ventes VT ont dépassé ce stock : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

27 27 La table de la page 46 donne 0,99=(2,330) b) Si on ne tolère la rupture de stock quavec une probabilité inférieure à 1 %, au bout de combien de jours doit- on réapprovisionner ce stock ? On cherche le stock inconnu (que lon va noter x) tel que la probabilité que les ventes soient supérieures aux stocks soit inférieure à 1%. ou par événement contraire tel que la probabilité que les ventes soient inférieures aux stocks soit supérieure à 99 % On prévoira un stock de 2713 objets CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

28 28 c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la différence des moyennes et la variance est la somme des variances. Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont indépendantes et suivent des lois normales de moyennes respectives 100 et 120 et décarts-type respectifs 30 et 40. Quelle est la probabilité, un jour fixé, de vendre plus de A que de B ? On cherche la probabilité que VA soit supérieure à VB cest à dire p(VAVB) Cest aussi p(VA-VB0) Notons D=VA-VB alors, daprès le théorème 2°) Les propriétés de la loi normale CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

29 29 3°) Théorème central limite : a) Le Théorème : La somme de beaucoup de lois indépendantes de mêmes moyennes et de mêmes écarts-type peut être approchée par une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances Ce théorème est un des théorèmes de référence des statistiques inférentielles cependant il faut bien noter les nuances (importantes) par rapport au théorème vu précédemment : Les lois utilisées ne sont pas nécessairement normales. Il faut que lon additionne beaucoup de lois ( au moins 30) On a seulement une approximation b) Exercice de référence : Sur un site internet, on sait que le nombre de visites par minute a pour moyenne 20 et pour écart-type 30. 1°) Quelle est la loi suivie par le nombre de visites sur une journée de 24 heures soit 1440 minutes ? On peut considérer que les minutes sont indépendantes alors le théorème central limite donne : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

30 30 2) On considère une journée de 1440 minutes qui est la base (ou léchantillon) pour réaliser une étude statistique sur le nombre de visites par minute. et en particulier sur le premier indicateur classique : la moyenne. Pourquoi la moyenne par minute est-elle une variable aléatoire ? La moyenne observée dépend de léchantillon (qui est pris au hasard), elle est donc aléatoire et se note avec une majuscule. Pour calculer une moyenne, il suffit de tout additionner et de diviser par le nombre dobservations donc : Donner un intervalle bilatéral qui contienne 90 % des valeurs de cette moyenne. Si on cherche un intervalle centré sur la moyenne qui contient un pourcentage ß de la population alors cet intervalle sera du type I=[m-a.s ; m+a.s] avec 2(a)-1=ß Ici ß=0,90 donc 2(a)-1=0,9 et (a)=0,95. La table donne a=1,65 Lintervalle sera donc I= [20-1,65.0,79 ; 20+1,65.0,79] Linterprétation est intéressante : dans 90 % des échantillons dune durée dune journée, le nombre moyen de visiteurs par minute sera compris entre 18,70 et 21,30. 3°) Théorème central limite : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

31 31 c) Un corollaire : approximation d une loi binomiale par une loi normale : Exemple : dans une région de habitants, 20 % des personnes votent pour A. On prend un échantillon de 852 personnes et X est la variable aléatoire qui prend pour valeurs le nombre de personnes qui votent pour A. X est une loi hypergéométrique : Première approximation de X : Comme la taille de la population est au moins 10 fois supérieure à la taille de léchantillon ( N10n), on peut approcher X par une loi binomiale : Deuxième approximation de X : Comme n=852 est supérieur ou égal à 30 et np=852*0,20=170,4 est supérieur ou égal à 5, cette loi binomiale peut être approchée par une loi normale : 3°) Théorème central limite : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

32 32 Soit F la variable aléatoire qui prend pour valeurs le pourcentage observé de personnes qui votent pour A dans l échantillon. Quelle est la loi de F ? F est la proportion observée donc cest bien le rapport entre le nombre de cas favorables dans léchantillon (X) et le nombre de personnes dans léchantillon donc Calculer p(F0,22) et interpréter le résultat trouvé On a donc environ 7,2 % de chances de trouver un échantillon de 852 personnes qui contiendra plus de 22 % pour A alors que ce pourcentage nest que de 20 % dans la population. 3°) Théorème central limite : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

33 33 En utilisant le théorème central limite, si n30, Remarque : si léchantillon est de taille inférieure à 30 mais chacune des lois est normale, alors le corollaire sur la somme de lois normales sapplique Attention : Il faut que lécart-type de la population soit connu. Si léchantillon est de taille inférieure à 30 et si nous ne savons pas si cet échantillon est gaussien, le théorème ne peut sappliquer B. Loi suivie par la moyenne d un échantillon prélevé dans une population décart-type σ connu. Théorème : Si n30 ou si l échantillon est gaussien, la moyenne de cet échantillon de taille n prélevé dans une population de moyenne m et d écart-type σ suit une loi normale de paramètres m et Démonstration : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

34 34 Exercice 1 : Dans une population de moyenne 85 et d écart-type 12, on prélève un échantillon de taille 50. Quelle est la probabilité dobserver un échantillon de moyenne inférieure à 82 ? Déterminer un intervalle du type ]-; a] qui contienne 95 % des moyennes des échantillons de taille 50. On a alors (a)=0,95 et la table donne a=1,65 Cet intervalle sera : Déterminer un intervalle de centre 85 qui contienne 95 % des moyennes des échantillons de taille 50. On cherche un intervalle centré sur la moyenne qui contienne un pourcentage α=95 % alors 2(a)-1=0,95 et (a)=0,975 donc a=1,96. Cet intervalle sera : Daprès le théorème précédent, léchantillon est de taille supérieure à 30, la population est décart-type connu donc : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

35 35 Démonstration : La fréquence observée (dans léchantillon) est bien le nombre de cas favorables divisé par la taille de léchantillon. Cette fréquence, notée F, est aussi une variable aléatoire Appelons X la variable aléatoire qui prend pour valeurs le nombre de cas favorables observé dans léchantillon. X est une loi hypergéométrique de paramètres N, n et p. X peut être approchée par une loi binomiale de paramètres n et p X peut être approchée par une loi normale car on a supposé que léchantillon est grand. C. Loi suivie par la fréquence d un grand échantillon. Théorème : La fréquence dans un grand échantillon prélevé dans une population de proportion p suit une loi normale de paramètres p et CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

36 36 Exercice 1: Dans une population, 20 % des individus sont de type B. On prélève un échantillon de taille 210. Est-il possible d observer un échantillon où la fréquence observée d individus de type B est inférieure à 15 % ? Pourquoi pas ! Si oui, avec quelle probabilité? Déterminer un intervalle du type ]- ; a] qui contienne 95 % des fréquences observées dans des échantillons de taille 210. Déterminer un intervalle de centre 20 % qui contienne 95 % des fréquences observées dans des échantillons de taille 210. Nous avons vu précédemment que lintervalle centré sur la moyenne qui contient 95 % de la population pour une loi normale était obtenu avec 1,96 écart-type donc Interprétation : nous savons (avant de prélever léchantillon) que, dans 95 % des échantillons, le pourcentage observé sera compris entre 14,5 % et 25,5 % Comme précédemment, lintervalle sera : CHAPITRE 2 : LES LOIS DE LECHANTILLONNAGE

37 37 Bien entendu, on ne pourra pas donner des probabilités sur ces valeurs car ce ne sont pas des variables aléatoires, elles sont fixes et dépendent de la population. On définira alors des intervalles de confiance. ATTENTION : On distinguera nettement les indicateurs de l échantillon et les indicateurs de la population Nos conventions sont résumées par le schéma suivant PRESENTATION DU PROBLEME : Population Taille N ? Moyenne m ? Ecart-type σ ? Proportion p ? Echantillon Taille n Moyenne Ecart-type s Proportion f CHAPITRE 3 : LESTIMATION On connaît les caractéristiques f ou et s d un échantillon, on voudrait en déduire des caractéristiques p et m et de la population.

38 38 A. Estimations ponctuelles Quelques exemples de «biais statistiques» : Un premier biais statistique est connu par les sondeurs politiques : lexpérience a montré que lors de sondages, certains électeurs nosent pas «avouer» leur préférence. Ainsi, à laide de lexpérience, les sondeurs corrigent ce biais en ajoutant environ 3 % à ce parti politique : Si dans léchantillon, ce parti est à 11 % alors les instituts de sondage laffichent à 14 % !. Dautres biais statistiques apparaissent dans les sondages, ces biais statistiques peuvent être corrigés de deux façons : à la louche comme au dessus ou bien à laide de définitions mathématiques 1°) Usage : si g est un indicateur que l on veut connaître par sondage, on note ĝ la meilleure estimation de g. Cette estimation s appuie sur la valeur observée dans l échantillon. 2°) Estimation ponctuelles usuelles Pour m : On sait, d après le chapitre 1, que alors la meilleure estimation de m ( que l on notera ) est Pour p : On sait, d après le chapitre 1, que alors la meilleure estimation de p ( que l on notera ) est Pour σ : On sait, d après le chapitre 1, que alors la meilleure estimation de σ (que l on notera ) est CHAPITRE 3 : LESTIMATION

39 39 Exemple : Dans une production de paquets de café, on prélève un échantillon de taille 50. Dans cet échantillon de taille 50, la moyenne observée est 248 grammes, lécart-type observé est de1,2 gramme et un paquets sur les 50 pèsent moins de 245 grammes. Donner des estimations ponctuelles de la masse moyenne dun paquet de café, de lécart-type de la masse dun paquet de café et de la proportion de paquets de café pesant moins de 245 grammes Daprès les formules précédentes, on a A. Estimations ponctuelles CHAPITRE 3 : LESTIMATION

40 40 Problème de fiabilité : Illustration : Supposons que dans la production, la proportion de paquets de café défectueux soit de 4 %. Prenons un lot de 50 paquets de café et X est la variable aléatoire qui prend pour valeurs le nombre de défectueux dans le lot. X suit une loi hypergéométrique : X=HYP(N ; 50 ; 0,04) X peut être approchée par une loi binomiale : X=BIN(50 ; 0,04) X peut être approchée par une loi de Poisson : X=POI(2) en effet n est grand ( 30) et np est petit (5) A laide de la table de la loi de Poisson de paramètre 2, comparons les probabilités davoir dans ce lot 1 défectueux, puis 2. k p(X=k)0,13530,2707 0,18040,09020,0361 p(X=1)=0,2707 p(X=2)=0,2707 Conclusion : il y avait autant de chances davoir 1 paquet défectueux que davoir 2 paquets défectueux. Réciproquement, supposons que la proportion dans la population nest pas connue ( cest bien le principe de lestimation) et que le sondeur ait la même probabilité davoir 1 défectueux que 2 alors lestimation ponctuelle peut prendre plusieurs valeurs : dans le premier cas jaurais dit que la proportion estimée est de 1 sur 50 soit 2 % dans le deuxième cas, jaurais dit que la proportion estimée est de 2 sur 50 soit 4 % Enfin p(X=5)=0,0361 Enfin, il était possible davoir 5 paquets défectueux (probabilité de 0,036) et dans ce cas, jaurai déclaré que la proportion estimée est 5 sur 50 soit 10 %. A. Estimations ponctuelles CHAPITRE 3 : LESTIMATION

41 41 B) Estimation par intervalle de confiance d un indicateur statistique : Stratégie : On a vu dans le chapitre précédent, les indicateurs statistiques des échantillons sont aléatoires (ils dépendent de l échantillon pris au hasard) et suivent les lois d échantillonnage. Appelons l indicateur G e de l échantillon correspondant à l indicateur g p de la population. On sait que G e est une variable aléatoire. Si g p est connu, alors il y a une probabilité α que l indicateur G e soit dans un intervalle de centre g p cest à dire : Cest à dire que la distance entre g p et G e est inférieure à avec une probabilité α. Et donc, on peut mesurer la distance entre g p et G e. On obtient donc un encadrement du type La stratégie de l'estimation par intervalle de confiance est de remplacer la variable aléatoire G e par la valeur observée dans l'échantillon notée g e. α n est plus une probabilité car g p nest pas aléatoire, α est appelé niveau de confiance CHAPITRE 3 : LESTIMATION

42 42 Comment faire en pratique ? L énoncé donne les caractéristiques de l échantillon : sa taille, sa moyenne, son écart-type et la proportion observée Dans une population normale décart-type 9, on a prélevé un échantillon de taille 51 et de moyenne observée 30. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 82 % Première étape : On donne les estimations ponctuelles. Deuxième étape : On construit lintervalle de confiance a) On donne la loi suivie par lindicateur de léchantillon. b) On donne, sous forme d encadrement, un intervalle centré qui contienne un pourcentage α= 82 % des indicateurs de l échantillon. 2(a)-1=0,82 2(a)=1,82 (a)=0,91 a=1,340 On permute dans cet encadrement lindicateur de la population et celui de léchantillon avec les propriétés des encadrements c) Enfin on remplace dans cet intervalle la variable aléatoire de léchantillon par la valeur estimée. Interprétation : la valeur de m cherchée est comprise entre 28,29 et 31,71 avec une méthode fiable à 82 % B) Estimation par intervalle de confiance d un indicateur statistique : m est inconnue CHAPITRE 3 : LESTIMATION

43 43 Exercice 1 : Dans une population normale d écart-type 38, on a prélevé un échantillon de taille 15, de moyenne observée 30. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 98 %. Estimation ponctuelle : b) 2(a)-1=0,98 2(a)=1,98 (a)=0,99 a=2,33 c) Enfin on remplace dans cet intervalle la variable aléatoire de léchantillon par la valeur estimée. Commentaires : pourquoi un intervalle aussi large : A cause de lécart-type de la population (grand) A cause du niveau de confiance élevé A cause de la taille de léchantillon ( petite) B) Estimation par intervalle de confiance d un indicateur statistique : Intervalle de confiance de m au niveau de confiance 98 % : a) Loi suivie par : m est inconnue CHAPITRE 3 : LESTIMATION

44 44 Exercice 2 : Dans une population, on a prélevé un échantillon de taille 200, et parmi ces 200 individus, 48 possède une caractéristique notée C. Donner un intervalle de confiance de la proportion d individus présentant la caractéristique C dans la population au niveau de confiance 94 %. Estimation ponctuelle : Intervalle de confiance de p au niveau de confiance 94 % : a) Loi suivie par F : b) Intervalle de centre p qui contient 94 % des valeurs de F : c) Intervalle de confiance de p : Par permutation : 2(a)-1=0,94 2(a)=1,94 (a)=0,97 a=1,88 On sait que lon remplacera F par la valeur observée dans léchantillon mais p est inconnue. Deux stratégies sopposent : - la première, très rigoureuse, utilise le fait que pour toute valeur de p entre 0 et 1 et on a alors : - la deuxième remplace la valeur de p par son estimation ponctuelle : c'est la méthode fréquemment utilisée - Premier cas : - Deuxième cas : CHAPITRE 3 : LESTIMATION

45 45 Exercice 3 où il y danger : Dans une population normale, on a prélevé un échantillon de taille 300, de moyenne 51 et d écart-type 9. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 95 %. Estimation ponctuelle : Si léchantillon est grand et si lécart-type de la population est inconnu, on démontre que l on peut utiliser lestimation ponctuelle de cet écart-type. Intervalle de confiance de m au niveau de confiance 95 % : a) Loi suivie par : Attention : lécart-type de la population nest pas donné, on donne lécart-type de léchantillon ! b) 2(a)-1=0,95 2(a)=1,95 (a)=0,975 a=1,96 Par permutation : c) Enfin on remplace dans cet intervalle la variable aléatoire de léchantillon par la valeur estimée. CHAPITRE 3 : LESTIMATION

46 46 L'estimation par intervalle de confiance sous un aspect pédagogique : Dans la dernière minute du cours d'amphi, demander aux 140 étudiants présents le travail suivant pour la prochaine fois : Lancer 100 fois une pièce de monnaie (la même, par exemple de 1) et de noter la série de résultats obtenus sous la forme P, F, P, F, F.... Lors du cours suivant, vérifier que tout le monde l' a fait (et faire confiance), passer un léger savon à ceux qui ont recopié ou fait ensemble (Comme il y avait ,26×10 30 séries possibles, quelle est la probabilité d'avoir le même résultat que le voisin ?) Demander aux étudiants de compter le nombre de piles obtenus, puis de calculer la fréquence de piles obtenus noté f) Calculer les bornes de l'intervalle Attention aux parenthèses ! J'affirme alors que 90 % des étudiants ont la valeur 0,5 dans cet intervalle et donc que 10 % n'ont pas la valeur 0,5 dans cet intervalle. Je demande aux 14 attendus (soit 10 % de 140) de lever la main. Je constate que je ne suis pas loin des 14. Remarques : je n'ai pas travaillé avec les échantillons mais avec seulement 140 (mais statistiquement, ces deux nombres sont grands). Définition : Je constate que 90 % des intervalles construits de cette façon contiennent la vraie valeur de p : j'ai construit un intervalle de confiance de p avec un niveau de confiance de 90 %. Enfin, on peut recommencer avec les 50 premiers lancers (on divise par 50) et constater que les résultats restent vrais mais l'amplitude de l'intervalle est plus large. L'expérience a montré que cela reste valable avec des effectifs plus petits ( on peut même descendre à 20 étudiants, en prenant un peu de marge : entre 1 et 3 n'auront pas la vraie valeur de p dans leur intervalle). CHAPITRE 3 : LESTIMATION

47 47 CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

48 48 Premier exercice de référence : Un médecin sait que chez les personnes en bonne santé, le taux X de.. suit une loi normale de paramètre 1,5 et 0,4. Dans sa pratique, il a décidé que si le taux observé chez un patient est inférieur ou égal à 2,2 alors il déclare ce patient non malade. Question 1 : Un patient en bonne santé se présente, quelle est la probabilité que le médecin ne le déclare pas malade ? En rendant sa décision, le médecin a commis un risque dit de 1° espèce noté α : cest la probabilité que le médecin le déclare malade alors quil ne lest pas ( le patient est en bonne santé) Quelle est la probabilité quil soit déclaré malade ? CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

49 49 En fait, ce médecin ne sait pas que pour un malade, ce taux suit une loi normale de paramètre 2,5 et 0,4. Question 2 : Un patient malade se présente. quelle est alors la probabilité que le médecin le déclare non malade ? En rendant sa décision, le médecin a commis une erreur dite erreur de 2° espèce notée ß : cest la probabilité de le déclarer pas malade alors quil lest. La puissance du test est 1-ß=77 % CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

50 50 Décision Etat de santé inconnu Pas de symptômesymptôme pas malade OKα = probabilité de rejeter H0 alors que H0 est vraie malade ß = probabilité daccepter H0 alors que H1 est vraie OK Codage des informations : En fait, si linformation initiale pour un patient non malade est correcte, laffirmation pour un malade est sujette à caution et dautres affirment que pour un malade, ce taux suit alors une loi normale de paramètres 2,8 et 0,3. Quelle est alors le risque de 2° espèce ? Quelle est la puissance du test ? Le risque de 2° espèce est de 2 % La puissance du test est de 98 % CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

51 51 Deuxième exercice de référence : Une pièce mest affirmée bien équilibrée. Je décide de la lancer 100 fois et si elle tombe entre 45 et 55 fois sur pile, jaccepte laffirmation. X est la variable aléatoire qui prend pour valeurs le nombre de fois où pile apparait sur les 100 lancers. Quelle est la loi de X ? Donner une approximation de X. Quel est le risque de 1° espèce ? Cest la probabilité de rejeter laffirmation alors quelle est vraie cest-à-dire si le nombre de pile obtenus nest pas compris entre 45 et 55 : α= 1- 0,68=0,32 Quelle est la probabilité que jaccepte laffirmation ? CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

52 52 La personne qui m a donnée cette pièce sait que en fait la probabilité quelle tombe sur pile est 1/3. Y est la variable aléatoire qui prend pour valeurs le nombre de fois où pile apparait sur les 100 lancers. Quelle est la loi de Y ? Le risque de 2° espèce est 0,007 La puissance du test est 0,993 Donner une approximation de Y. Codage des informations : La pièce nest pas truquée ; la pièce est truquée Décision Etat de la pièce Pas truquéeTruquée Pas truquéeOKα=0,32 Truquéeß=0,007OK CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

53 53 Généralisation : Le risque de 1° espèce est donné par énoncé : en général 10 %, 5% ou 1%. Lhypothèse nulle notée H 0 est celle qui permet de faire les calculs et de construire un intervalle de décision I. Je décide : Soit la valeur observée dans léchantillon est dans I et jaccepte H 0 ( avec un risque.... Soit la valeur observée dans léchantillon nest pas dans I et je rejette H 0 (avec un risque α) En réalité, nous n'avons qu'une seule envie : celle de rejeter H 0 mais parfois l'échantillon ne me permet pas de la rejetter alors, contraint et forcé, j'accepte H 0 Bien souvent, lhypothèse alternative H 1 nest pas explicite et on se contentera de la négation de H 0 et en ce cas, on n'étudiera plus le risque de seconde espèce ni la puissance du test. La phrase-type associée est alors : « Si H 0 est vraie alors dans 90 % (ou 95 % ou 99%) des échantillons l'indicateur statistique observé est dans I » CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

54 54 B. Deux exercices classiques 1°) Test bilatéral ou unilatéral ? Le test bilatéral teste une égalité contre une différence mais il peut présenter certaines difficultés : Si par exemple, on me promet dans une production moins de 8 % de défectueux, je serai contraint avec bon sens d accepter toutes les livraisons avec un pourcentage inférieur à 8 % (et même 0 % qui est très loin de laffirmation !) et je devrai même accepter les livraisons où le pourcentage est légèrement supérieur à 8 %. Ou bien, cette étiquette : Ce qui est écrit nest pas la valeur exacte: cest une valeur promise pour la moyenne par le fabricant, cependant, si à des fins de contrôle, un échantillon affiche une moyenne de 800 g, je ne vais pas me fâcher ! On se souviendra que légalité doit se trouver dans lhypothèse nulle. On se souviendra aussi que si on veut tester laffirmation «lécart-type est inférieur à 8», il faut entendre «lécart-type est significativement inférieur à 8 (au risque de...%)» CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

55 55 Le sens statistique de significatif : Première approche : Un hypermarché a étudié les ventes quotidiennes d'un produit et a on a observé une moyenne quotidienne de 50 produits. Le fournisseur décide de changer l'emballage (dans quel but ?) et lors des 30 jours suivants, la moyenne quotidienne observée est de 52 produits. On peut se demander si 52 est vraiment loin de 50 et on pourrait en déduire que la différence n'est pas significative. Si par contre, la moyenne de ces 30 jours était passée à 94, on pourrait penser qu'elle l'est. Cependant : On sait qu'une moyenne est souvent un outil insuffisant et qu'il faut lui associer l'écart-type. On travaille sur un échantillon de 30 jours et les clients n'étaient peut être pas d'humeur et un autre échantillon aurait pu donner une autre moyenne observée que 52. On sait que le comportement des indicateurs des échantillons est aléatoire, que l'on peut y associer des lois et donc calculer des probabilités ( et des risques) CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

56 56 Donner la loi suivie par cet indicateur statistique en rappelant les conditions dapplication. Schéma : Léchantillon nest pas de taille supérieure à 30 mais la population est supposée normale. Lécart-type de la population est connu. Le risque est 5 % et lhypothèse alternative contient le signe donc lintervalle est bilatéral 2(a)-1=0,95 donc 2(a)=1,95 donc (a)=0,975 et a=1,96 Dans 95 % des échantillons, la moyenne observée vérifie Lintervalle de décision est donc I=[29,938 ; 30,062] Décision : la moyenne observée (de 29,95 l) est dans I et jaccepte H 0 avec un certain risque ß que H 0 soit fausse. En fait j'accepte H 0 parce que je ne peux pas la rejetter ! 2°) Exercice 1 : Une étude a été réalisée auprès de quelques stations-services sur des pleins de 30 litres et dans l une delle, on a réalisé 10 pleins de 30 litres et on a relevé sur ces pleins une moyenne de 29,95 litres. On sait que lécart-type est de 0,1 litre. On sait que le volume distribué suit une loi normale. On veut tester différentes affirmations au risque de 5% a) Le gérant de la station service affirme que la moyenne est de 30 litres. Sur quel indicateur statistique est posée la question ? La question est posée sur la moyenne des pleins. Ecrire les deux hypothèses H0 et H1. H0 : m=30 ; H1 : m30 CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

57 57 b) Une association de consommateurs affirme que la moyenne est inférieure à 30 litres. Ecrire les deux hypothèses H 0 et H 1. H 0 : m<30 ; H 1 : m30 Une difficulté apparait ici : le signe = doit se trouver dans H 0 On est obligé de permuter les hypothèses : H 0 : m30 ; H 1 : m<30 H 0 : m=30 (et m>30) ; H 1 : m<30 Le risque est 95 % et lhypothèse alternative contient le signe < donc lintervalle est unilatéral : il contient une borne infinie. Laquelle ? + ou - Ici, cest + car on accepte (a)=0,95 donc a=1,65 Dans 95 % des échantillons, la moyenne observée vérifie Lintervalle de décision est donc I=[29,947 ; +[ Décision : la moyenne observée (de 29,95 l) est dans I et jaccepte H 0 m30 (ou plus exactement, je ne peux pas la rejetter). Je ne peux pas accepter le point de vue des consommateurs qui déclaraient m<30 2°) Exercice 1 : CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

58 58 c) les textes prévoient que la moyenne soit supérieure ou égale à 30 litres. Ecrire les deux hypothèses H 0 et H 1. H 0 : m30 ; H 1 : m<30 H 0 : m=30 (et m>30) ; H 1 : m<30 Les hypothèses sont inchangées par rapport au b) et lintervalle de décision aussi : Lintervalle de décision est donc I=[29,947 ; +[ Décision : la moyenne observée (de 29,95 l) est dans I et jaccepte H 0 m30. ( en fait, je ne peux rejetter H 0 ) Commentaire : avec une moyenne sur léchantillon de 29,95 litres, le gérant ne peut être pénalisé : il est conforme au texte (au risque de 5 %). Certaines enseignes réussissent ainsi à gagner 0,05 litre par plein (et pleins par an !) d) Pour conclure On constate que le choix de l'hypothèse nulle n'est pas sans conséquence et l' association de consommateurs pourraient émettre l'hypothèse H 0 : m 29,9 et le calcul montre que H 0 est acceptée (ou plus exactement, je ne peux pas la rejeter) Le cas le plus classique est donné par l'usine de traitement de déchets radioactifs de la Hague : Pendant de nombreuses années, cette usine a rejeté de l'eau en bas de la falaise et les riverains et les écologistes l'ont soupçonné de favoriser le développement de certains types de cancers (il y en avait plus dans la région que dans d'autre régions) mais au sens statistique, la différence n'était pas significative (au risque de 1 % souvent utilisé en médecine). Depuis, cette usine a construit un long tuyau de plus d'un kilomètre lui permettant de rejeter ses effluents beaucoup plus loin en mer... CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

59 59 3°) Exercice 2 : « Ce nouveau procédé de fabrication va nous permettre de modifier la proportion d objets défectueux qui est aujourdhui de 3 % » Sur 300 nouveaux objets testés, 10 sont défectueux. Décider au risque de 5% suivant les 3 points de vue le point de vue de linstallateur de la machine qui prévoit une diminution. le point de vue du sceptique : gestionnaire de lentreprise qui prévoit une augmentation le point de vue de lindifférent. Sur quel indicateur statistique est posée la question ? La question est bien posée sur une proportion de pièces défectueuses Ecrire les deux hypothèses H 0 et H 1. On rappelle que pour la fréquence observée dans un échantillon de taille supérieure à 30 : a) H 0 : p<0,03 ; H 1 : p0,03 H 0 : p0,03 ; H 1 : p<0,03 b) H 0 : p>0,03 ; H 1 : p0,03 H 0 : p0,03 ; H 1 : p>0,03 c) H 0 : p=0,03 ; H 1 : p0,03 Unilatéral avec pour borne +Unilatéral avec pour borne -Bilatéral risque 0,05 donc (a)=0,95 donc a=1,65 risque 0,05 donc (a)=0,95 donc a=1,65 risque 0,05 donc 2(a)-1=0,95 donc a=1,96 CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

60 60 : jaccepte H 0 Décision : la fréquence observée est de 10 sur 300 soit f= 0,033 3°) Exercice 2 : Là encore, l'écritue de l'hypothèse nulle n'est pas sans effet car tout le monde a raison (ou plus exactement, je ne sais pas prouver que quelqu'un à tort). Mais : a) l'installateur connait-il vraiment les tests statistiques et qui lui permettraient de sortir de l'épineuse situation ? Une phrase du type : «on va refaire une série car l'échantillon est vraiment mauvais» serait du plus mauvais goût b) le gestionnaire fera-t-il confiance si l'échantillon affiche plus que promis ? CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

61 61 C. Un exercice sur les tests de comparaison déchantillons indépendants : On a prélevé dans deux fabrications différentes et supposées normales, d écarts types respectifs 5 et 8, deux échantillons de tailles respectives 50 et 80 et de moyennes observées 248 et 261. Au risque de 5 %, la différence des moyennes est-elle significative ? Ecriture des hypothèses : On rappelle que lhypothèse nulle doit contenir légalité, on va donc supposer que les moyennes sont égales. H 0 : m 1 =m 2 ; H 1 : m 1 m 2 H 0 : m 1 -m 2 =0 ; H 1 : m 1 -m 2 0 Donner la loi suivie par la moyenne observée dans le premier échantillon. La population est normale et lécart-type est connu donc De même, la moyenne du deuxième échantillon suit Rappeler le théorème sur la différence de 2 lois normales c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la différence des moyennes et la variance est la somme des variances. CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

62 62 Mais on a supposé que m 1 -m 2 =0 et par simplification : Donner la loi suivie par la différence des moyennes. Lintervalle est bilatéral, le risque est de 5% donc la valeur de a est 1,96 et lintervalle de décision est Interprétation : si H 0 est vraie alors dans 95 % des cas, la différence des moyennes observées dans les échantillons se trouve dans l intervalle de décision. Décision : ici la différence des moyennes observées est =13 qui nappartient pas à I. Je rejette H 0 et jaccepte H1 avec un risque inférieur à 5 % que H 0 soit vraie. C. Un exercice sur les tests de comparaison déchantillons indépendants : CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

63 63 D. Tests de comparaison de moyennes d échantillons appariés. On veut évaluer les différences de notation sur deux correcteurs ayant corrigé les mêmes copies : n° de la copie note A note B n° de la copie note A note B Au risque de 5 %, la différence des moyennes est-elle significative ? On travaille sur un seul échantillon mais on évalue sur cet échantillon deux traitements différents : on parle déchantillons appariés. Si il n y a pas de différence de notation alors la différence observée entre A et B doit être nulle en moyenne. Ecrire les hypothèses : H 0 : la différence est nulle en moyenne ; H 1 : la différence nest pas nulle en moyenne ou bien H 0 : la moyenne de la différence est nulle ; H 1 : la moyenne de la différence nest pas nulle n° de la copie note A note B différence n° de la copie note A note B différence CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES

64 64 =note A-note B effectifs Calculons la moyenne, la variance et lécart-type de cet échantillon : Lécart-type de nest pas connu mais comme léchantillon est de taille supérieure à 30, on peut utiliser son estimation ponctuelle : On a supposé dans H 0 que m =0 donc Lintervalle est bilatéral, le risque est de 5% donc la valeur de a est 1,96 et lintervalle de décision est Interprétation : si il n y a pas de différence de notation des copies alors dans 95 % des échantillons, la différence des notes présente sa moyenne dans I. Décision : dans notre échantillon, la moyenne observée est -0,34375 qui appartient à I : jaccepte H 0 et je ne peux pas conclure à une différente de notation. Donner la loi suivie par la moyenne de la différence. Léchantillon est de taille supérieure à 30 donc la normalité de nest pas nécessaire. CHAPITRE 4 : LINITIATION AUX TESTS DHYPOTHESES


Télécharger ppt "1 Initiation aux statistiques inférentielles Chapitre 1 : les échantillons Chapitre 2 : la loi normale : première loi déchantillonnage Chapitre 3 : lestimation."

Présentations similaires


Annonces Google