La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Opération et systèmes de décision Faculté des Sciences de ladministration MQT-21919 Probabilités et statistique Léchantillonnage et les distributions d'échantillonnage.

Présentations similaires


Présentation au sujet: "Opération et systèmes de décision Faculté des Sciences de ladministration MQT-21919 Probabilités et statistique Léchantillonnage et les distributions d'échantillonnage."— Transcription de la présentation:

1 Opération et systèmes de décision Faculté des Sciences de ladministration MQT Probabilités et statistique Léchantillonnage et les distributions d'échantillonnage Chapitre 7

2 Lectures Volume du cours : Chapitre 7 Volume recommandé: "Statistique en gestion et en économie", Martel et Nadeau, 4.1, 4.2, 4.3 et pages

3 Exemple: U-Réussite Luniversité U-Réussite reçoit 7,000 applications par année provenant déventuels étudiants. Le formulaire de demande dadmission inclut le score dun test daptitude (SAT) ainsi que linformation sur le lieu de résidence de létudiant. Le directeur des admissions aimerait avoir une idée : –du score moyen SAT des postulants, et –de la proportion des postulants qui sont résidents de la province? Il y a deux façons dobtenir cette information.

4 Option #1: effectuer un recensement des 7,000 postulants –Scores SAT –Moyenne de la population –Écart-type de la population –Les postulants résidants de la province Proportion de la population Exemple: U-Réussite

5 Option #2: Prendre un échantillon de 50 postulants Données obtenues dun échantillon aléatoire simple de 50 postulants No.Postulant Score Résidant 1Connie Reight1025Oui 2Willie Haggard 950Oui 3Fannie Lennox1090Non 4Eric Pacman1120 Oui 5Winona Jiver1015 Oui Kevin Costmore 965 Non Total 49, Oui Exemple: U-Réussite

6 Linférence statistique Le but de lanalyse statistique est dapporter de linformation sur des phénomènes insuffisamment connus –tirer des conclusions ou prendre des décisions plus éclairées Analyse dune masse de données numériques concernant le phénomène étudié –résultat de lobservation dune partie de la population concernée Avec de bonnes méthodes déchantillonnage, les résultats provenant dun échantillon fourniront une bonne estimation des caractéristiques de la population

7 Linférence regroupe lensemble des méthodes qui, à partir dun échantillon prélevé de la population, permettent de tirer des conclusions soit sur les paramètres dune variable étudiée dans cette population, soit sur la distribution ou tout autre aspect de cette variable. Deux grandes parties composent linférence statistique : Lestimation de paramètres Les tests dhypothèses Linférence statistique

8 Lestimation ponctuelle Estimer un paramètre, une moyenne ( ), une variance ( 2 ), une proportion (p) etc., cest chercher une valeur approchée en se basant sur les résultats dun échantillon. Lorsqu'une caractéristique d'une population (un paramètre) est estimée par un seul nombre déduit des résultats de léchantillon, ce nombre est appelé une estimation ponctuelle du paramètre. –C'est une variable statistique

9 Estimations ponctuelles – comme estimateur ponctuel de –s comme estimateur ponctuel de – comme estimateur ponctuel de p Note: Dautres nombres aléatoires auraient identifié dautres postulants Exemple: U-Réussite

10 Rappel - paramètres d'une population Moyenne de la variable aléatoire X, valeur espérée de X, espérance de X, (X), X signifient la même chose. On peut aussi simplement écrire sil y a seulement une variable aléatoire X Variance de la variable aléatoire X, Var(X), X, (X) signifient la même chose. On peut aussi simplement écrire sil y a seulement une variable aléatoire X Lécart-type (X) ou X est la racine carrée de la variance. On peut aussi simplement écrire sil y a seulement une variable aléatoire X

11 Linférence statistique Terminologie : –Statistique : Toute mesure (caractéristique) calculée à partir des données provenant dun échantillon, e.g. : –Moyenne, écart-type, proportion de léchantillon –Paramètre : Toute mesure (caractéristique) calculée à partir de lensemble des données dune population, e.g. : p –Moyenne, écart-type, proportion de la population

12 Lestimation ponctuelle Dans lestimation ponctuelle on utilise les données de léchantillon afin de calculer une valeur dune statistique de léchantillon qui sert destimation du paramètre de la population On dit que est lestimateur ponctuel de la moyenne de la population. s est lestimateur ponctuel de lécart-type de la population. est lestimateur ponctuel de la proportion de population p.

13 Linférence statistique Raisons pour faire un échantillonnage au lieu dun recensement : – Lorsque la population est très grande – Par souci déconomie – Si le test est destructif – Obtenir de linformation rapidement

14 Linférence statistique Si on considère le processus de choisir un échantillon aléatoire comme une expérience aléatoire, les statistiques sont des descriptions numériques de résultats d'expérience. – sont donc des variables aléatoires –Excel: estimation.xls

15 La moyenne dun échantillon aléatoire La moyenne dun échantillon aléatoire étant une variable aléatoire, on peut alors parler de distribution de probabilité et de valeurs caractéristiques de cette v.a. La distribution déchantillonnage de est la distribution de probabilité de toutes les valeurs possibles des moyennes déchantillons

16 Distribution déchantillonnage Comme toute variable aléatoire, la statistique a une valeur espérée, un écart-type et une distribution de probabilité La distribution déchantillonnage est la distribution de probabilité dune statistique. La distribution déchantillonnage peut fournir des informations probabilistes sur lécart entre la statistique calculée à partir de léchantillon et la valeur réelle du paramètre de la population

17 L'espérance E( ) = = où est la moyenne de la population La variance : VAR ( ) = n (population infinie) VAR ( ) = ( population finie ) où 2 est la variance de la population –Une population finie est considérée comme infinie si n/N < 0,05. – est le facteur de correction à utiliser si n/N > 0,05 Paramètre de la distribution d'échantillonnage de

18 Théorème central limite En sélectionnant à partir dune population, des échantillons aléatoires simples de taille n, la distribution déchantillonnage de la moyenne déchantillon peut être approchée par une distribution de probabilité normale, lorsque la taille de léchantillon devient importante.

19 Lorsque la variance de la population est connue et que léchantillon prélevé est grand (n 30), alors grâce au théorème central limite: Ceci est aussi vrai lorsque l'échantillon est petit et que la variable aléatoire X suit une loi normale Distribution déchantillonnage de

20 Exemple : X = taille n = 25 observations Quelle est la probabilité que la taille moyenne de léchantillon soit supérieure à 172 cm ? Distribution déchantillonnage de

21 Lorsque la variance de la population est inconnue et que léchantillon prélevé est grand (n 30), alors grâce au théorème central limite: Distribution déchantillonnage de

22 Exemple : n = 400 observations d'une variable aléatoire X Quelle est la probabilité que la moyenne de léchantillon soit supérieure à 10,25, si la moyenne E(X) =10 et la variance échantillonnale est 4? Distribution déchantillonnage de

23 Paramètres de la population: –scores –Proportion de résidants dans la population Example: U-Réussite

24 La distribution échantillonnale de pour les scores SAT Exemple: U-Réussite

25 La distribution échantillonnale de pour les scores SAT –Quelle est la probabilité quun échantillon aléatoire simple de 50 postulants fournira une estimation du score SAT moyen dans un intervalle de plus ou moins 10 de la vraie valeur ? En dautres termes quelle est la probabilité que soit entre 980 et 1000? Distribution normale puisque la taille de léchantillon est plus grande que 30 et que lécart- type de la population est connu P( ) On définit Z la variable normale centrée réduite Exemple: U-Réussite

26 P(-0,88Z 0,88) À laide de la table de probabilité pour la loi normale centrée réduite on obtient: z = 10/11,3 = 0,88, on a une surface = (0,3106)(2) = 0,6212 La distribution échantillonnale de Aire = 0,3106 Exemple: U-Réussite -0,88 0,88

27 La distribution échantillonnale de est la distribution de toutes les valeurs possibles des proportions échantillonnales Espérance de où: p = est la proportion de la population La distribution déchantillonnage de

28 Distribution déchantillonnage de Écart-type de Population Finie Population infinie – est lécart-type de la proportion estimée si n/N 0,05 On utilise la formule de la population infnie (plus grande variance)

29 Cas spécial : la distribution d'échantillonnage de dun échantillon de taille n > 30 suit (approximativement) une distribution Normale Distribution déchantillonnage de Si X prend seulement la valeur 1 ou 0

30 Distribution déchantillonnage pour les résidants de la province Exemple: U-Réussite

31 Distribution déchantillonnage pour les résidants de la province Quelle est la probabilité quun échantillon aléatoire simple de 50 postulants fournira une estimation de la proportion des postulants qui est à plus ou moins 0,05 de la vraie proportion? Cest-à-dire quelle est la probabilité que soit entre 0,67 et 0,77? P(0,67 0,77) On définit Z la variable normale centrée réduite Exemple: U-Réussite

32 Distribution déchantillonnage des résidants de la province P(-0,79Z 0,79) Pour z = 0,05/0,0635 = 0,79, la surface = (0,2852)(2) = 0,5704. La probabilité est de 0,5704 que la proportion de léchantillon sera à lintérieur de +/-0,05 de la proportion de la population 0,77 0,670,72 Surface = 0,2852 Exemple: U-Réussite -0,79 0,79

33 Exemple p = 0,8 (proportion de Canadiens satisfaits du libre échange) n = 100 personnes interrogées Quelle est la probabilité que la proportion des personnes interrogées satisfaites du libre échange soit supérieure ou égale à 0,9 ? suit une loi Normale de moyenne 0,8 et écart-type 0,04 n/N plus petit que 0,05, population infinie

34 Exemple Pour estimer lâge moyen dune population de 4000 employés, un échantillon aléatoire de 40 employés est sélectionné. Quelle est la probabilité que lâge moyen des employés de léchantillon soit compris entre lâge moyen de la population 2 si lon sait que lécart type de la population est de 8,2 ans? Rép. 0,8764

35 Exemple Les revenus annuels des jeunes cadres dune grande entreprise sont distribués normalement avec un écart type de 800$. Sil y a 10,2% des chances pour que la moyenne dun échantillon aléatoire de 25 de ces revenus annuels soit inférieure à $, quel est le revenu annuel moyen de cette population de jeunes cadres ? Rép ,2

36 Distribution déchantillonnage de Si la variance de la population est inconnue, si la variable X suit une distribution Normale, et si la taille de léchantillon est petite (n<30), on utilise la statistique suivante : qui suit la distribution du t (de Student) à n-1 degrés de liberté et qui ressemble à la distribution Normale.

37 La distribution du t (de Student) Une distribution du t dépend dun paramètre appelé degrés de liberté et dénoté n : t(x) Plus le nombre de degrés de liberté est grand, plus la différence entre la distribution du t et la distribution nomale centrale réduite diminue Une distribution du t avec plus de degrés de liberté a moins de dispersion. La moyenne de la distribution du t est zéro et sa variance est (n/(n-2))

38 La distribution du t de Student

39 The Student distribution Valeur de t: Table 2 dans le livre –Valeur de t value à 9 degrés de liberté. Dans la table, nous trouvons que pour t = la probabilité est 0,025.

40 La distribution de t de Student Exemple. Pour estimer le montant hebdomadaire moyen dépensé par les familles de 4 personnes pour leur épicerie, on tire un échantillon aléatoire de 25 personnes. On suppose que les montants dépensés sont distribués normalement avec une moyenne = 120 $ et une variance inconnue. Si la variance de l'échantillon de taille 25 est s 2 = 36, calculer la probabilité que la moyenne de l'échantillon soit supérieure ou égale à 123 $. Statistique T

41 Résumé des distributions déchantillonnage de Si n est grand (plus grand que 30), alors suit une loi Normale et: –Si la valeur de est connue alors: –Si la valeur de est inconnue alors: Si n est petit (plus petit que 30), et X suit une loi normale, et: –Si la valeur de est connue alors: –Si la valeur de est inconnue alors:

42 Erreur déchantillonnage En généralisant à toute la population linformation partielle obtenue dun échantillon, on introduit une erreur plus ou moins grande appelée erreur échantillonnale La grandeur de cette erreur dépend de la taille déchantillon et aussi de la façon dont il est tiré Léchantillon devrait être représentatif –Plusieurs façons de sassurer de la représentativité

43 Erreur déchantillonnage La différence absolue entre un estimateur ponctuel non- biaisé et le paramètre de la population correspondant est appelée erreur déchantillonnage Cest le résultat de lutilisation dun sous-ensemble de la population (échantillon) au lieu de toute la population pour obtenir des estimations des valeurs de paramètres Les erreurs déchantillonnage sont: pour la moyenne échantillonnale |s - pour lécart type échantillonnal pour la proportion échantillonnale

44 Méthodes déchantillonnage Échantillonnage aléatoire simple Échantillonnage systématique Échantillonnage aléatoire stratifié Échantilonnage par grappes

45 Échantillon aléatoire simple Population finie –Un échantillon aléatoire simple dune population finie de taille N est un échantillon sélectionné tel que chaque échantillon possible de taille n a une probabilité égale dêtre sélectionné –Si on replace chaque élément de léchantillon afin de sélectionner les éléments subséquents, on parle déchantillonnage avec remise –Léchantillonnage sans remise est la procédure la plus couramment utilisée –Dans les projets déchantillonnage, on utilise des nombre aléatoires générés par ordinateur afin de guider le processus de sélection

46 Population infinie –Un échantillon aléatoire simple dune population infinie est un échantillon choisi tel que: Chaque élément sélectionné provient de la même population Chaque élément est sélectionné de manière indépendante –Une population est considérée infinie si elle concerne un processus continu où il est impossible dénumérer tous les éléments e.g. clients arrivant à un restaurant –La procédure de sélection par nombre aléatoire ne peut pas être utilisée pour les populations infinies Il faut alors concevoir des procédures déchantillonnage Échantillon aléatoire simple

47 Échantillon systématique Méthode utilisée seulement si les unités de la population sont déjà classées dans un certain ordre. Si coûteux de sélectionner un échantillon aléatoire On choisit les unités dans la population à des intervalles fixes selon le temps, lespace ou lordre doccurrence. On sélectionne par exemple au hasard le 1 er, et ensuite dune façon systématique le 101 e, 201 e, 301 e etc.

48 La méthode consiste à subdiviser la population en sous-groupes relativement homogènes appelés «strates». Par la suite, on tire de chaque strate un échantillon aléatoire simple; le regroupement de tous ces échantillons partiels constitue léchantillon de taille n désiré. Approprié lorsque les éléments dune strate sont semblables, e.g. un âge, un lieu, etc. Échantillon stratifié

49 Il faut dabord subdiviser la population en sous-groupes appelés «grappes», chacune représentative de la population; On tire ensuite un échantillon aléatoire de grappes et on observe tous les individus faisant partie des grappes sélectionnées. Une grappe fournit une représentation à petite échelle de la population Les éléments dune grappe sont ne sont pas semblables, e.g. quartier dune ville Taille déchantillon plus grande Grappe 4 Grappe 1 Grappe 3 Grappe 2 Échantillon par grappes

50 Autres méthodes déchantillonnage Échantillonnage non-aléatoire : l'analyse utilise son expérience et ses connaissances pour choisir des éléments de la population –Léchantillonnage de commodité Étudiants volontaires –Léchantillonnage subjectif Personne choisit selon son jugement Un journaliste choisit 3 ou 4 députés à interviewer

51 Exemple Soit X la variable représentant le montant hebdomadaire pour lépicerie dans une famille de 4 personnes. X N( 280, 2 ) n = 16 familles s 2 = 225 P( 285 $) = 0,1

52 Exemple On a obtenu d'un échantillon aléatoire de 35 familles de 4 personnes, l'information suivante concernant les dépenses hebdomadaires en alimentation (que l'on suppose normalement distribuées) : –Quelle est approximativement la probabilité que la moyenne de l'échantillon de 35 observations soit comprise dans l'intervalle (248,75, 256,00 ) si l'on suppose que la dépense hebdomadaire moyenne (dans la population) est = 250 $ ? Rép. 0,7622 –Quelle est approximativement la probabilité que la proportion échantillonnale d'un échantillon aléatoire de 50 familles de 4 personnes consacrant au moins 250 $ par semaine pour l'alimentation soit comprise entre 0,4 et 0,65, sachant que les trois quartiles de la distribution des dépenses hebdomadaires pour l'ensemble des familles de 4 personnes sont de 200 $, 250 $ et 300 $ respectivement ? Avant de répondre à cette question, donnez dabord la distribution déchantillonnage de cette statistique, ainsi que ses paramètres. –Rép. 0,90 où


Télécharger ppt "Opération et systèmes de décision Faculté des Sciences de ladministration MQT-21919 Probabilités et statistique Léchantillonnage et les distributions d'échantillonnage."

Présentations similaires


Annonces Google