Description et estimation Étude d’une variable numérique, Étude d’une moyenne
Cas Rola-Cola n = 40 personnes Boisson préférée 1 = Rola-Cola 2 = Koka-Cola Achat préalable de Rola-Cola 1 = oui 2 = non Goût Sucre 2= indifférent 3 = non
Définitions N = Taille de la population Population : Ensemble des individus (objets de l’étude) auxquels on s’intéresse. N = Taille de la population Échantillon : Une partie de la population n = Taille de l ’échantillon Échantillon représentatif : - Chaque individu de la population a exactement la même probabilité d’appartenir à l ’échantillon. - La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la précision souhaitée.
Étude d’une variable numérique X Une variable numérique X prend des valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur un échantillon. Elle est résumée par des statistiques de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type). La dispersion de X est visualisée par la boîte-à-moustache et l’histogramme.
Moyenne et écart-type
Commentaire 1) Plus la taille n de l’échantillon est grande, alors plus les chances que soit proche de sont élevées. 2) Plus l’écart-type s est petit,
Rola-Cola : Résultats statistiques
Propriétés des estimations de et 2 * (u1,…, un) * (x1,…, xn) Ensemble de tous les échantillons possibles S2
Médiane M La médiane M partage l’échantillon ordonné en deux parties égales
Échantillon Rola-Cola ordonné Consommation de boisson NUMÉRO au cola ________ ____________ 1 1 2 2 3 2 4 2 5 2 6 3 7 3 8 3 9 3 10 3 11 4 12 4 13 4 14 4 15 4 16 5 17 5 18 5 19 5 20 5 Consommation de boisson NUMÉRO au cola ________ ____________ 21 6 22 6 23 6 24 6 25 7 26 7 27 7 28 7 29 7 30 8 31 8 32 8 33 9 34 9 35 9 36 10 37 10 38 11 39 12 40 13
Quartiles Q1, Q2, Q3 Les quartiles Q1, Q2, Q3 partagent l’échantillon ordonné en quatre parties égales Q3 Q2 = M Q1 25% 25% 25% 25%
Rola-Cola : Boîte-à-Moustache Médiane Q1 Q3 Minimum Maximum
Détection des observations atypiques (Outliers) La longueur de chaque moustache doit être inférieure à Exemple : Max = 13 (Obs n°12) remplacé par Max = 15
Rola-Cola : Boîte-à-moustache multiple La consommation de boissons au cola ne semble pas dépendre pas du goût pour le sucre. La consommation de chips dépend de la boisson préférée.
Rola-Cola: Histogramme
Rola-Cola : Graphique des histogrammes La consommation de boissons au cola ne dépend pas du goût pour le sucre. La consommation de chips dépend de la boisson préférée.
Rola-Cola : Graphique des histogrammes La consommation de boissons au cola ne dépend pas du goût pour le sucre. La consommation de chips dépend de la boisson préférée.
Loi normale (ou de Laplace-Gauss)
LAPLACE à Beaumont-en-Auge
Loi normale (ou de Laplace-Gauss)
Loi normale N(,) Une variable aléatoire X suit une loi normale N(, ) si, pour toute valeur de x, x Résultats : - Moyenne de X = - Variance de X = 2 - 95% des valeurs de X sont comprises entre - 1.96 et + 1.96
Exercice 1 Soit X la durée du trajet Paris-HEC à 7 heures du matin. On suppose que X suit une loi normale N(,). En général, la durée du trajet est comprise entre 30 et 50 minutes. Déterminer la moyenne et l’écart-type .
Précision de l’estimation Quel est l’ordre de grandeur de l’écart entre et auquel on peut s’attendre ? Quelle est la précision de l’estimation de la moyenne de la population à l’aide de la moyenne empirique ?
Un résultat très utile S2 * * s2 Ensemble de tous les échantillons (u1,…, un) * (x1,…, xn) S2 s2 Ensemble de tous les échantillons possibles
Loi de Student Si X N(, ) alors : Gosset (1876-1937) invented the t -test to handle small samples for quality control in brewing while working at Guiness in Dublin. He wrote under the name "Student". Si X N(, ) alors : suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].
Exercice 2 Soit X la consommation de boisson au cola. La population étudiée est disponible dans le fichier « rola-cola population.sav » Visualiser l’histogramme et la loi normale associée à cette population. On suppose que X suit une loi normale N(,). Donner les valeurs de et . Tirer un échantillon de taille 40. Calculer la moyenne et l’écart-type de l’échantillon et la statistique t.
Fractile de la loi de Student Calculer (Table 4) : - t0.975(39) = - t0.975() = 1- Loi t(n-1) =
Fractiles de la loi de Student
Intervalle de confiance de la moyenne au niveau 1- Il y a (1-)100 chances sur 100 pour que l’intervalle contienne , où est le fractile d’ordre de la loi de Student à n-1 degrés de liberté. La formule est exacte si X suit une loi normale. Sinon, c’est une bonne approximation dés que n 30. Précision de l’estimation de au niveau 1-
Rola-Cola : Consommation de boissons au cola
Précision de l’estimation de par au degré de confiance 1 - La quantité est la précision de l’estimation de par au degré de confiance 1 - . La précision est la demi-largeur de l’intervalle de confiance.
n = taille de l’échantillon à définir s = futur écart-type observé Taille de l’échantillon permettant d’obtenir une précision souhaitée c au niveau de confiance 1 - n = taille de l’échantillon à définir s = futur écart-type observé Problème : Trouver n tel que
Solution approchée On remplace dans la formule s par la dernière estimation disponible et par .
Rola-Cola : Graphique des intervalles de confiance La consommation de boissons au cola ne dépend pas du goût pour le sucre. La consommation de chips dépend de la boisson préférée.