Comprendre la variation

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Comprendre la variation Inférence statistique

Inférence statistique Nous avons vu que bien souvent, nous fondons notre opinion ou prenons des décisions à partir d’échantillons. Si l’échantillon est représentatif et précis pour mesurer la caractéristique de la population,alors notre décision sera ‘bonne’. L’inférence statistique consiste à utiliser des méthodes sur les données de l’échantillon que nous avons observées pour ensuite généraliser nos conclusions à l’ensemble de la population. En d’autres termes, l’inférence nous permet d’estimer ou de déterminer quelles sont les valeurs possibles dans la populations pour s’assurer que notre jugement ou décision ne serait pas modifié si nous avions les résultats pour toute la population (resensement).

Facteurs qui influencent la précision de l’inférence Représentativité de l’échantillon – méthode d’échantillonnage Taille de l’échantillon

Inférence statistique Estimation et inférence pour la proportion p (pourcentage) d’une population Estimation et inférence pour la moyenne µ d’une population Estimation et inférence pour la différence entre 2 proportions .

Inférence pour une proportion p Exemple: Sur un échantillon de 125 étudiants d ’un collège interrogés pour savoir s ’ils ont l ’intention de voter aux prochaines élections de leur association, 45 ont répondu positivement. Estimer, de façon ponctuelle, la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections.

Inférence pour une proportion p Quelle est la précision de cet estimé? Quelle est l’influence de la taille de l’échantillon? Est-ce que nous sommes ‘certains’ que cette proportion est nettement inférieure à 50 %?

Inférence pour une proportion p Pour répondre à ces questions, nous avons besoin de la distribution (estimé des résultats de plusieurs échantillons)de la statistique qui nous intéresse. Suppose la normalité des données Utilise les méthodes de simulation de Monté-Carlo La distribution nous permet ensuite de construire l’intervalle de confiance

Estimation par intervalle de confiance Pour estimer la proportion p d ’individus possédant la caractéristique à l ’étude dans la population, ou la moyenne  , on utilise un intervalle de confiance au niveau (1- ). L ’estimation par intervalle de confiance consiste à établir un intervalle de valeurs qui nous permet d ’affirmer, avec un certain niveau de confiance ou de certitude prédéterminé (en général: 90%, 95% ou 99%), que la vraie valeur du paramètre dans la population se trouve dans cet intervalle.

Intervalle de confiance pour p la proportion p d ’individus possédant la caractéristique à l ’étude dans la population Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

Intervalle de confiance pour estimer une proportion p (suite) De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie proportion p du caractère à l ’étude dans la population, est donnée par:

Exemple (suite) : Par conséquent, un intervalle de confiance de 95% de certitude pour la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections nous est donné par:

Exemple (suite) : Comment rapporterait-on les résultats de ce sondage dans le journal étudiant de ce collège? 36% des étudiants du collège ont l ’intention d ’exercer leur droit de vote aux prochaines élections de l ’association étudiante. La marge d ’erreur est de 8,4% avec un niveau de confiance de 95% (ou avec un degré de certitude de 95% ou 19 fois sur 20).

Remarques: Cette formule est approximative et s ’applique uniquement pour les grands échantillons. Si je prends tous les échantillons aléatoires possibles de taille n et que je calcule pour chacun un intervalle de confiance au niveau de 95%, 95% d’entre eux incluront la vraie proportion p de la population, et donc 5% ne l ’incluront pas. La quantité est appelé marge d ’erreur ou précision, au niveau de confiance 95% (19 fois sur 20).

Marge d ’erreur au niveau 95%

Marge d ’erreur au niveau 90%

Calcul de la taille n pour assurer une marge d ’erreur maximale Si nous voulons estimer la proportion p au niveau de confiance (1-) avec une marge d ’erreur maximale notée e, alors nous avons la relation suivante pour le calcul de la taille n de l ’échantillon:

Intervalle de confiance pour  On estime le coût moyen du panier d’épicerie avec Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

Intervalle de confiance pour estimer la moyenne  De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie moyenne  de la population, est donnée par:

Remarques: Cette formule est approximative et s ’applique uniquement pour les grands échantillons (sauf si la caractéristique a une distribution normale et que l ’écart type est connu  la formule est exacte). Lorsque l ’écart type  est inconnu, on utilise une estimation de  et on remplace la valeur de Z0,025=1,96 pour une valeur légèrement supérieure lu dans une table de la loi de Student qui dépend de la taille de l ’échantillon.

Remarques: (suite) Interprétation d’un intervalle de confiance au niveau 95% pour la moyenne  d ’une caractéristique dans la population: Si je prends tous les échantillons aléatoires de taille n et que je calcule pour chacun un intervalle de confiance de 95%, 95% d’entre eux incluront la vraie moyenne  de la population, et donc 5% ne l ’incluront pas.

Intervalle de confiance pour  Exemple Afin de connaître le coût hebdomadaire moyen du panier d ’épicerie pour une famille de 4 personnes résidant à Sherbrooke, on prélève un échantillon de 50 de ces familles et on note le montant de leur épicerie de cette semaine. On obtient un montant moyen de 155$ avec une estimation de l ’écart type de 15$.

Exemple (suite) : Estimer le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke à l ’aide d ’un intervalle de confiance de 95% de certitude (on suppose l ’écart type connu à 15$): En affirmant que le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke est dans l ’intervalle [150,84$; 159,16$], je suis 95% certain d ’avoir raison.

Estimation et inférence entre 2 proportions Exemple: La compagnie qui effectue du marketing direct en ligne désire améliorer son taux de réponse pour une de ces campagnes de promotion. On vous a confié le mandat de planifier ces tests et de déterminer si la nouvelle campagne est plus efficace que l’ancienne. Comment allez-vous procéder?

Estimation et inférence entre 2 proportions Soit p1 le taux de réponse de la campagne actuelle et p2 le taux de réponse de la nouvelle campagne. En termes mathématiques, nous voulons déterminer si nous avons une évidence statistique nous permettant de conclure que la différence entre p1 et p2 est significativement différente , i.e p1  p2

Estimation et inférence entre 2 proportions Nous estimerons p1 et p2 à partir de statistiques calculées sur des échantillons. Nous savons que toutes les statistiques ont une distribution échantillonnale. Nous devons donc estimer quelle est la variation possible de

Estimation et inférence entre 2 proportions La distribution de Sera construite en supposant le ‘statue quo’,i.e p1 = p2 =p. Sous cette hypothèse, notre estimé de la proportion de la population est donc obtenu en combinant les résultats des deux échantillons:

L’intervalle de confiance pour la différence sera obtenu, en supposant la distribution normale ,par Ou par simulation de Monté-Carlo