Comprendre la variation

Comprendre la variation
Inférence statistique

Inférence statistique
Nous avons vu que bien souvent, nous fondons notre opinion ou prenons des décisions à partir d’échantillons. Si l’échantillon est représentatif et précis pour mesurer la caractéristique de la population,alors notre décision sera ‘bonne’. L’inférence statistique consiste à utiliser des méthodes sur les données de l’échantillon que nous avons observées pour ensuite généraliser nos conclusions à l’ensemble de la population. En d’autres termes, l’inférence nous permet d’estimer ou de déterminer quelles sont les valeurs possibles dans la populations pour s’assurer que notre jugement ou décision ne serait pas modifié si nous avions les résultats pour toute la population (resensement).

Facteurs qui influencent la précision de l’inférence
Représentativité de l’échantillon – méthode d’échantillonnage Taille de l’échantillon

Inférence statistique
Estimation et inférence pour la proportion p (pourcentage) d’une population Estimation et inférence pour la moyenne µ d’une population Estimation et inférence pour la différence entre 2 proportions .

Inférence pour une proportion p
Exemple: Sur un échantillon de 125 étudiants d ’un collège interrogés pour savoir s ’ils ont l ’intention de voter aux prochaines élections de leur association, 45 ont répondu positivement. Estimer, de façon ponctuelle, la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections.

Quelle est la précision de cet estimé? Quelle est l’influence de la taille de l’échantillon? Est-ce que nous sommes ‘certains’ que cette proportion est nettement inférieure à 50 %?

Pour répondre à ces questions, nous avons besoin de la distribution (estimé des résultats de plusieurs échantillons)de la statistique qui nous intéresse. Suppose la normalité des données Utilise les méthodes de simulation de Monté-Carlo La distribution nous permet ensuite de construire l’intervalle de confiance

Estimation par intervalle de confiance
Pour estimer la proportion p d ’individus possédant la caractéristique à l ’étude dans la population, ou la moyenne  , on utilise un intervalle de confiance au niveau (1- ). L ’estimation par intervalle de confiance consiste à établir un intervalle de valeurs qui nous permet d ’affirmer, avec un certain niveau de confiance ou de certitude prédéterminé (en général: 90%, 95% ou 99%), que la vraie valeur du paramètre dans la population se trouve dans cet intervalle.

Intervalle de confiance pour p
la proportion p d ’individus possédant la caractéristique à l ’étude dans la population Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

Intervalle de confiance pour estimer une proportion p (suite)
De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie proportion p du caractère à l ’étude dans la population, est donnée par:

Exemple (suite) : Par conséquent, un intervalle de confiance de 95% de certitude pour la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections nous est donné par:

Exemple (suite) : Comment rapporterait-on les résultats de ce sondage dans le journal étudiant de ce collège? 36% des étudiants du collège ont l ’intention d ’exercer leur droit de vote aux prochaines élections de l ’association étudiante. La marge d ’erreur est de 8,4% avec un niveau de confiance de 95% (ou avec un degré de certitude de 95% ou 19 fois sur 20).

Remarques: Cette formule est approximative et s ’applique uniquement pour les grands échantillons. Si je prends tous les échantillons aléatoires possibles de taille n et que je calcule pour chacun un intervalle de confiance au niveau de 95%, 95% d’entre eux incluront la vraie proportion p de la population, et donc 5% ne l ’incluront pas. La quantité est appelé marge d ’erreur ou précision, au niveau de confiance 95% (19 fois sur 20).

Marge d ’erreur au niveau 95%

Marge d ’erreur au niveau 90%

Calcul de la taille n pour assurer une marge d ’erreur maximale
Si nous voulons estimer la proportion p au niveau de confiance (1-) avec une marge d ’erreur maximale notée e, alors nous avons la relation suivante pour le calcul de la taille n de l ’échantillon:

Intervalle de confiance pour 
On estime le coût moyen du panier d’épicerie avec Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

Intervalle de confiance pour estimer la moyenne 
De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie moyenne  de la population, est donnée par:

Remarques: Cette formule est approximative et s ’applique uniquement pour les grands échantillons (sauf si la caractéristique a une distribution normale et que l ’écart type est connu  la formule est exacte). Lorsque l ’écart type  est inconnu, on utilise une estimation de  et on remplace la valeur de Z0,025=1,96 pour une valeur légèrement supérieure lu dans une table de la loi de Student qui dépend de la taille de l ’échantillon.

Remarques: (suite) Interprétation d’un intervalle de confiance au niveau 95% pour la moyenne  d ’une caractéristique dans la population: Si je prends tous les échantillons aléatoires de taille n et que je calcule pour chacun un intervalle de confiance de 95%, 95% d’entre eux incluront la vraie moyenne  de la population, et donc 5% ne l ’incluront pas.

Intervalle de confiance pour  Exemple
Afin de connaître le coût hebdomadaire moyen du panier d ’épicerie pour une famille de 4 personnes résidant à Sherbrooke, on prélève un échantillon de 50 de ces familles et on note le montant de leur épicerie de cette semaine. On obtient un montant moyen de 155$ avec une estimation de l ’écart type de 15$.

Exemple (suite) : Estimer le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke à l ’aide d ’un intervalle de confiance de 95% de certitude (on suppose l ’écart type connu à 15$): En affirmant que le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke est dans l ’intervalle [150,84$; 159,16$], je suis 95% certain d ’avoir raison.

Estimation et inférence entre 2 proportions
Exemple: La compagnie qui effectue du marketing direct en ligne désire améliorer son taux de réponse pour une de ces campagnes de promotion. On vous a confié le mandat de planifier ces tests et de déterminer si la nouvelle campagne est plus efficace que l’ancienne. Comment allez-vous procéder?

Soit p1 le taux de réponse de la campagne actuelle et p2 le taux de réponse de la nouvelle campagne. En termes mathématiques, nous voulons déterminer si nous avons une évidence statistique nous permettant de conclure que la différence entre p1 et p2 est significativement différente , i.e p1  p2

Nous estimerons p1 et p2 à partir de statistiques calculées sur des échantillons. Nous savons que toutes les statistiques ont une distribution échantillonnale. Nous devons donc estimer quelle est la variation possible de

La distribution de Sera construite en supposant le ‘statue quo’,i.e p1 = p2 =p. Sous cette hypothèse, notre estimé de la proportion de la population est donc obtenu en combinant les résultats des deux échantillons:

L’intervalle de confiance pour la différence sera obtenu, en supposant la distribution normale ,par
Ou par simulation de Monté-Carlo

Comprendre la variation

Présentations similaires

Présentation au sujet: "Comprendre la variation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Comprendre la variation

Présentations similaires

Présentation au sujet: "Comprendre la variation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back