Lectures Volume obligatoire: Chapitre 8

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Intervalles de confiance
Introduction aux statistiques Intervalles de confiance
L’échantillonnage & Ses Fluctuations
Statistique II Chapitre 3: Tests d’hypothèses
Comparaison d’une moyenne observée à une moyenne théorique
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Estimation ponctuelle Estimation par intervalle de confiance
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Variable aléatoire, estimation ponctuelle et par intervalle
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Moyenne, écart type et incertitude de mesure.
Les tests d’hypothèses
INFERENCE STATISTIQUE
Probabilités et statistique en TS
Intervalle de confiance pour p en %
La loi normale et l’estimation de paramètres
Opération et systèmes de décision Faculté des Sciences de lAdministration MQT Probabilités et statistique Tests dhypothèses Chapitre 9.
Tests de comparaison de moyennes
Méthodes de Biostatistique
« 90% de nos trains arrivent à lheure! ». énoncé exercice : « Le retard sur un trajet train de 6h15 Marseille-Paris est en moyenne: 10mn avec écart type.
1 - Construction d'un abaque Exemple
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Échantillonnage (STT-2000)
Comprendre la variation
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Comprendre la variation dans les données: Notions de base
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
Dépannage du 12 mars 2007.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Distribution d’échantillonnage
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
Lectures Volume du cours : Chapitre 7
Tests d’hypothèses.
Régression linéaire (STT-2400)
Les intervalles de confiance pour la moyenne d’une population
1 - Programme de Seconde (juin 2009) Statistique et probabilités
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Intervalles de confiance pour des proportions L’inférence statistique
Échantillonnage (STT-2000)
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
Échantillonnage (STT-2000)
1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :
Probabilités et statistique MQT-1102
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Formation Green Belt Lean Six Sigma
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Transcription de la présentation:

Lectures Volume obligatoire: Chapitre 8 Volume recommandé, Statistique en gestion et économie: sections 4.4.2 et 4.4.4 ainsi que pages 227-242

Résumé des distributions d’échantillonnage de Si n est grand (plus grand que 30), alors suit une loi Normale et: Si la valeur de s est connue alors: Si la valeur de s est inconnue alors: Si n est petit (plus petit que 30), et X suit une loi normale, et:

L’estimation par intervalle de confiance Les estimations ponctuelles, bien qu’utiles, ne fournissent aucune information concernant la précision des estimations c’est-à-dire qu’elles ne tiennent pas compte de l’erreur possible dans l’estimation, erreur attribuable aux fluctuations d’échantillonnage.

L’estimation par intervalle de confiance Échantillon aléatoire Population Je suis confiant à 95% que m est entre 40 & 60. Moyenne = 50 Moyenne, m, est inconnue Échantillon

L’estimation par intervalle de confiance Consiste à construire, autour de l’estimation ponctuelle, un intervalle qui aura une grande probabilité (1-a) de contenir la vraie valeur du paramètre.

L’estimation par intervalle de confiance Forte probabilité que le paramètre se trouve quelque part à l’intérieur de l’I. de C. Valeur de la statistique calculée à partir de l’échantillon Intervalle de confiance Limite inférieure Limite supérieure

Affirmations à propos de l’erreur d'échantillonnage La connaissance de la distribution d’échantillonnage de nous permet de tirer des conclusions sur l’erreur échantillonnale même si on ne connaît pas la vraie valeur de m. La probabilité que l’intervalle de confiance contienne la vraie valeur du paramètre m est de 1-a. 1-a is est le coefficient de confiance (1-a)*100% est le seuil de confiance

La marge d’erreur E Valeur de la statistique Intervalle de confiance Limite inférieure Limite supérieure La marge d’erreur E (précision) La moitié de la largeur de l’intervalle

Estimation par intervalle de la moyenne de la population: grand échantillon Lorsque la taille de l'échantillon est grande (n ≥ 30) et la variance de la population de X est connue, on obtient un intervalle de confiance pour m au seuil de confiance 1-a en utilisant l’équation suivante: Ceci est aussi vrai pour de petits échantillons lorsque la variable aléatoire X suit une loi normale et que la variance de X est connue. Ça vient du fait que:

Lorsque (n ≥ 30) et s est connu, l’intervalle de confiance pour m est Estimation par intervalle de la moyenne de la population: grand échantillon Lorsque (n ≥ 30) et s est connu, l’intervalle de confiance pour m est 1 - est le coefficient de confiance z/2 est la valeur de z qui correspond à une surface de /2 sous la queue supérieure de la distribution de la loi normale centrale réduite Cet intervalle a une probabilité de 1-a de contenir le vrai paramètre m Ceci est aussi vrai pour de petits échantillons lorsque la variable aléatoire X suit une loi normale et que la variance de X est connue.

La marge d'erreur E (précision) La précision de l’estimation : Il y a une probabilité de 1 -  que la valeur de la moyenne échantillonnale fournisse une marge d’erreur de ou moins. za/2 est la valeur telle que P(Z> za/2)=a/2 où Z suit une loi normale centrée réduite Distribution échantillonnale de 1 -  de toutes les valeurs de /2 /2 -za/2 za/2 

Exemple: U-Mart U-Mart a 260 magasins à travers le pays. Ils évaluent le potentiel d’un emplacement d’un nouveau magasin basé sur le revenu annuel moyen des gens qui composent le marché ciblé de ce nouveau magasin. On sait que  = $5 000. La taille de l’échantillon est n = 64.

Exemple: U-Mart Supposons que la moyenne échantillonnale soit $21 100. Pour a=5%, la marge d’erreur est 1,96 où =625, ce qui correspond à $1 225 L’estimation par intervalle de  est [$21,100 + $1225], ou [$19 875 à $22 325] On est confiant à 95% que cet intervalle contient la moyenne de la population La probabilité que la moyenne échantillonnale donne une erreur d’ au plus $1 225 est donc de 95%

Estimation par intervalle de la moyenne de la population: grand échantillon Exemple : X = salaire horaire  N(m, s2= 9) n = 36 = 25 $ I. de C. à 95 % pour m ?

Estimation par intervalle de la moyenne de la population: grand échantillon Lorsque la taille de l'échantillon est grande (n ≥ 30) et la variance de la population de X est inconnue, on obtient un intervalle de confiance pour m au seuil de confiance 1-a en utilisant l’équation suivante: Ça vient du fait que:

Estimation par intervalle de la moyenne de la population: grand échantillon Lorsque la taille de l'échantillon est grande (n ≥ 30) et la variance de la population de X est inconnue, l'intervalle de confiance pour m au seuil de confiance 1-a est : 1 - est le coefficient de confiance, s est l'écart-type de l'échantillon z/2 est la valeur de z qui correspond à une surface de /2 sous la queue supérieure de la distribution de la loi normale centrale réduite Cet intervalle a une probabilité de 1-a de contenir le vrai paramètre m

L’estimation par intervalle de confiance pour m Lorsque la taille de l'échantillon est petite (n <30) et X suit une loi normale de variance inconnue, on obtient un intervalle de confiance pour m au seuil de confiance 1-a en utilisant l’équation suivante:: Ça vient du fait que:

L’intervalle de confiance est où: 1 - = le coefficient de confiance Estimation par intervalle de la moyenne de la population: petit échantillon(n < 30) L’intervalle de confiance est où: 1 - = le coefficient de confiance (1 - )*100 % = le seuil de confiance t/2 = est la valeur t qui donne une surface de /2 dans la queue supérieure d’une distribution t avec n - 1 degrés de liberté s = est l’écart-type de l’échantillon

Exemple: location d’appartement Un reporter pour un journal étudiant est en train de rédiger un article sur le coût du logement près du campus. Un échantillon de 10 appartements (trois et demi) dans un rayon de 1 km de l’université a permis d’estimer le coût moyen du loyer mensuel à 350 par mois et un écart type de 30. Quel est l’intervalle de confiance de 95% pour la moyenne des loyers mensuels? Supposons que les loyers suivent une loi normale.

Exemple: location d’appartement Valeur t pour un coefficient de confiance de 0,95 , 1 - a = 0,95,  = 0,05, et /2 = 0,025. t0,025 est basé sur n - 1 = 10 - 1 = 9 degrés de liberté. Dans la table de la distribution t on trouve que t0,025 = 2,262. Degrés de liberté Surface sous la queue supérieure

Exemple: location d’appartement [ $ 350 + $ 21,46] ou [$328,54 à $371,46] Nous sommes confiants à 95% que la moyenne des loyers mensuels (le vrai paramètre de la population m), se trouve entre $328,54 et $371,46.

L’estimation par intervalle de confiance pour m petit échantillon(n < 30) Exemple : n = 25 sur N(m, s2) = 15 s2 = 9 I. de C. à 95 % pour m ?

Estimation par intervalle de la moyenne de la population: petit échantillon(n < 30) Population ne suit pas une loi normale La seule option est d’augmenter la taille de l’échantillon à n > 30 et utiliser les procédures d’estimation par intervalle pour un grand échantillon Population suit une loi normale et  est connu Utiliser les procédures pour un grand échantillon Population suit une loi normale et  est inconnu L’estimation par intervalle est basée sur une distribution appelée la distribution t ou de Student

Résumé des intervalles de confiance de Si n est grand (plus grand que 30), et : si la valeur de s est connue alors: si la valeur de s est inconnue alors: Si n est petit (plus petit que 30), la population suit une loi normale et:

Détermination de la taille de l’échantillon en fonction de la précision désirée Dans le cas où s2 est connue, la grandeur de n a une influence directe sur la largeur de l’intervalle de confiance pour m et donc sur la précision de l’estimation ainsi obtenue.

Taille de l’échantillon: n = ? Trop petite: Pas assez précis Trop grande: Exige trop de ressources

Détermination de la taille de l’échantillon en fonction de la précision désirée Quelle est la taille n de l’échantillon qui permettrait d’affirmer qu’en utilisant un estimateur ponctuel, l’erreur commise pour un coefficient de confiance 1-a serait moindre que la marge d’erreur E? E est la quantité ajoutée et soustraite de l’estimation ponctuelle afin d’obtenir une estimation par intervalle. C'est la précision. E= l’erreur maximale commise pour un coefficient de confiance 1-a (marge d’erreur)

Si on fixe E alors on peut déduire la taille n comme suit : Détermination de la taille de l’échantillon en fonction de la précision désirée Si on fixe E alors on peut déduire la taille n comme suit :

Exemple: U-Mart Supposons que l’équipe de gestion de U-Mart veuille obtenir une estimation de la moyenne de la population avec une probabilité de 0,95 que l’erreur d’échantillonnage soit $500 ou moins. Quelle est la taille de l’échantillon nécessaire pour obtenir cette précision?

Exemple: U-Mart Au seuil de confiance de 95% , z0,025 = 1,96. On se souvient que = 5 000 donc, en résolvant pour n on obtient On a besoin d’un échantillon de 384 pour arriver à une précision de + $500 à un seuil de confiance de 95%

L’estimation par intervalle de confiance pour p Lorsque n est grand: Ça vient du fait que:

Estimation par intervalle pour la proportion de population L’intervalle de confiance est: où: 1 - est le coefficient de confiance z/2 est la valeur z correspondant à une surface /2 sous la queue supérieure de la distribution normale centrée réduite est la proportion échantillonnale

Exemple Sciences Po. Inc. Sciences Po. Inc. (SPI) est une compagnie qui se spécialise dans les sondages politiques. À l’aide de sondages téléphoniques, les interviewers demandent aux citoyens pour qui ils voteraient si les élections avaient lieu aujourd’hui. Récemmment, SPI a trouvé que 220 votants sur 500 voterait pour un candidat particulier. SPI veut estimer l’intervalle de confiance à 95% pour la proportion des votants qui sont en faveur de ce candidat.

Exemple Sciences Po. Inc. où n = 500, = 220/500 = 0,44, z/2 = 1,96 [0,44 ± 0,0435] SPI est confiant à 95% que la proportion des votants qui favoriseront ce candidat est entre 0,3965 et 0,4835.

Taille d’échantillon pour la proportion d’échantillon Considérons la taille d’échantillon nécessaire pour estimer avec un niveau de précision donné, la proportion de la population. Si on connaît la valeur spécifique de p alors : Sinon, on peut approximer p par si cette donnée est disponible Pour p totalement inconnue, on sait que la valeur maximale du produit pq est de 0,25, on peut alors approximer:

Exemple Sciences Po. Inc. Supposons que SPI veuille une probabilité 0,99 que la proportion d’échantillon se retrouve en dedans de ±0,03 de la proportion de la population. Quelle taille d’échantillon n est nécessaire pour obtenir cette précision?

Exemple Sciences Po. Inc. À un seuil de confiance de 99%, z0,005 = 2,576. Note: Nous avons utilisé =0,44, la meilleure estimation de p. Si aucune information n’est disponible sur p, on utilise alors 0,5 comme valeur pour p, ce qui donne la taille d’échantillon maximale pour cette précision. Si on avait utilisé p = 0,5, le n suggéré aurait été 1843.

Donc la distribution d’échantillonnage de est: Distribution d’échantillonnage de la variance de l’échantillon ( s2 ) : loi du c2 (Khi-deux) Si X suit une loi normale alors la statistique: dl: degrés de libertés Donc la distribution d’échantillonnage de est: c 2

Loi du c2 et ses degrés de liberté (taille de l’échantillon) - (# de paramètres indépendants à estimer) Théorème: Si n augmente indéfiniment (n  ) , alors: loi du c2 (n)  loi N( n, 2n)

Table 3 p. 694, probabilité dans la queue supérieure Loi du c2 Ex: n = 10, P(c2 (10 dl) > 15,99) = 0,1 15,99 c20,1 Table 3 p. 694, probabilité dans la queue supérieure

L’estimation par intervalle de confiance pour s2 Nous utiliserons la statistique suivante : où:

L’estimation par intervalle de confiance pour s2 L'intervalle de confiance au seuil 1-a pour s2 est:

L’estimation par intervalle de confiance pour s2 Exemple : n = 51 s2 = 100 Donner l’intervalle de confiance à 95 % pour s2

Exemple Une firme spécialisée fait une étude de marché pour déterminer le montant annuel moyen dépensé par les familles québécoises pour l’achat de vitamines. On désire une erreur d’estimation maximale de 2 $ à un seuil de confiance de 90 %. On suppose que l’écart type de la variable considérée est de 7 $. Quelle doit être la taille de l’échantillon prélevé ? Rép. 33

Exemple Pour évaluer la cote de popularité des émissions télévisées, on procède habituellement par échantillonnage. On veut estimer la proportion p des ménages (d'une grande population) qui visionnent un talk-show le lundi soir au canal 1 entre 21h30 et 22h30, par l'intermédiaire d'un échantillon aléatoire de taille n. Si on veut que notre erreur d'estimation soit d'au plus 3 % avec une probabilité d'au moins 95%, quelle taille n d'échantillon devrait-on choisir ? Rép. 1068

Exemple Le service du personnel d’une entreprise choisit au hasard 25 employés et constate que le salaire moyen est de 1500 $ par mois. On suppose que les salaires suivent une distribution normale. On sait par ailleurs que l’écart type de cette distribution est de 100 $. Estimer le salaire moyen des employés de l’entreprise à l’aide d’un intervalle de confiance à 90 %. [1467,1;1532,9] Supposons qu’on ignore l’écart type de la population alors qu’on sait que l’écart type de l’échantillon de 25 personnes est de 100$. Estimer le salaire moyen des employés de l’entreprise à l’aide d’un intervalle de confiance à 90 %. [1465,78;1534,22] On se replace dans le cas où l’écart type de la population est connu (s= 100 $). Quelle devrait être la taille minimale de l’échantillon si on veut être certain, à un seuil de confiance de 90 %, que l’erreur reliée à l’utilisation de comme estimateur de m, ne dépassera pas 10 $ ? n=269