Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des 268 mots est 4,29 lettres (Terminologie : on appelle cette valeur un paramètre de la population). Combien de ces moyennes d'échantillon étaient supérieures à la moyenne réelle de la population (le paramètre). Quelle proportion des échantillons est-ce que cela représente?
Proposez des raisons pour lesquelles cette méthode d'échantillonnage s'avère biaisée. Pensez-vous que cette méthode d'échantillonnage (choisissant tout simplement 10 mots représentatifs) est biaisée? Si oui, dans quelle direction est-elle biaisée? Expliquez comment cela est indiquée dans le diagramme à points des moyennes d'échantillon.
Imaginons une méthode d'échantillonnage différente: nous fermons les yeux et nous pointons un doigt 10 fois sur le texte de Lincoln afin de sélectionner notre échantillon de 10 mots. Explique pourquoi cette méthode serait également biaisée vers une surestimation. En utilisant cette méthode d'échantillonnage avec un échantillon plus grand (par exemple, 20 ou 30 mots), pensez-vous que cela éliminerait le biais d'échantillonnage? Expliquez. Proposez une méthode d'échantillonnage différente qui serait sans biais.
Un chemin pour éviter une méthode d'échantillonnage biaisée consiste à sélectionner des éléments dans la population de manière à ce que chaque élément aura une chance égale d'être choisi pour l'échantillon. De plus, la méthode de sélection devrait s'assurer que chaque échantillon possible (de la taille désiré) a une chance égale d'être l'échantillon finalement retenu. Un tel plan d'échantillonnage se nomme échantillonnage aléatoire simple (ÉAS).
L’échantillonnage aléatoire simple (ÉAS) est plus facile à dire qu'à faire! Une méthode pour tenter de réaliser ÉAS consiste en mélange physique: Écris chaque mot du discours de Lincoln sur un morceau de papier individuel Mets les morceaux dans un contenant Mélange bien les morceaux Choisis des morceaux un à la fois (sans les regarder) jusqu'à ce que l'échantillon est complète Cette méthode reste potentiellement plein de risque de biais caché: par exemple, les différents formats de papier, un mélange insuffisant, etc. Une meilleure option pour la sélection d'une ÉAS consiste en utiliser des chiffres aléatoires générés par ordinateur ou des simulations d'échantillonnage aléatoire.
Tableau de nombres aléatoires
Base d’échantillonnage pour le discours de Lincoln
On dit qu'une statistique est un estimateur non biaisé d'un paramètre de la population si les valeurs de la statistique calculées à partir des différents échantillons tendent à se regrouper de façon symétrique autour de la valeur réelle du paramètre (c'est à dire qu'elles ont tendance à être centrées autour de cette valeur avec à peu près la même fréquence). Est-ce que les moyennes générées à partir de l'échantillonnage aléatoire semblent être des estimations non biaisées de la longueur moyenne des mots dans la population?