Notions de base de statistique Présentation par Olivier D’Hallewin
Comme un petit exemple vaut parfois mieux qu’un long discours 6 8 4 5 7 10 9 1 3 2 Imaginons un contrôle de connaissances sur 10 points effectué sur une population de 120 étudiants. Ce test a donné pour résultats le tableau ci-dessus. Le tableau ci-dessus est le tableau brut d’une distribution statistique. Cependant, sous cette forme, il ne présente que peu d’intérêt, donc à partir de ce tableau brut, construisons un tableau recensé.
Interprétons le tableau brut i = xi pi fi φi 1 3 .025 2 4 .033 .058 9 .075 .133 22 .183 .316 5 .500 6 23 .192 .692 7 21 .175 .867 8 13 .108 .975 .016 .992 10 .008 1. 120 La première colonne reprend dans l’ordre les modalités x, c’est-à-dire les différentes notes de l’échelle des notations. La deuxième colonne contient, à chaque ligne, le nombre (x1) d’élèves ayant obtenu cette note. Ces nombres sont les répétitions et leur somme est l’effectif. La troisième colonne contient, quant à elle, le pourcentage fi d’élèves ayant obtenu la note reprise dans la première colonne. Ces valeurs sont les fréquences des modalités. La quatrième colonne contient, elle, le pourcentage φi d’élèves ayant obtenu au plus la note reprise dans la première colonne. Ce sont les fréquences cumulées.
Diagramme des fréquences et des fréquences cumulées On peut représenter les fréquences et les fréquences cumulées à l’aide de diagrammes. Sur le diagramme de gauche, nous avons représenté la fréquence d’élèves ayant obtenu chaque note. Sur celui de droite, nous avons représenté la fréquence cumulée d’élèves ayant obtenu au plus chaque note.
/!\ Remarque importante /!\ Considérons une distribution statique Désignons par E l’ensemble de ses modalités. La somme des fréquences des éléments d’une partie P de E est un nombre positif inférieur ou égal à 1. Si S(P) désigne ce nombre, on a : 0 ≤ S(P) ≤ 1 De plus si A et B sont des parties disjointes de E, S(A U B) = S(A) + S(B). La somme des fréquences de tous les éléments de E est 1 Maintenant que nous avons définis modalités, fréquences, répétitions, effectif, fréquences cumulées, apprenons à exploiter de nouveaux outils de statistique tels que le mode, la médiane, la moyenne, la variance et l’écart type. Autant d’outils qui permettent de fignoler la compréhension du tableau brut du début de la présentation. On appelle ces outils les paramètres d’une distribution. Mais avant d’aborder cela, familiarisons-nous au signe sommatoire.
Le signe sommatoire ∑ Il signifie que l’on fait la somme de tous les i jusqu’à ce que i égale n. Ici, pour un n de 10, la solution serait : 1+2+3+4+5+6+7+8+9+10=55
Paramètres (1) : Le mode et la médiane Mode : Dans le tableau recensé à droite, c’est la note 6 qui a été le plus souvent obtenue ; nous dirons que 6 est le mode de cette distribution statistique. Médiane : Dans le tableau à droite, l’effectif est 120, nous constatons que le 60ème a obtenu la note 5; nous dirons que 5 est la médiane de cette distribution statistique. i = xi pi fi φi 1 3 .025 2 4 .033 .058 9 .075 .133 22 .183 .316 5 .500 6 23 .192 .692 7 21 .175 .867 8 13 .108 .975 .016 .992 10 .008 1. 120
Paramètres (2) La moyenne i = xi pi fi φi 1 3 .025 2 4 .033 .058 9 .075 .133 22 .183 .316 5 .500 6 23 .192 .692 7 21 .175 .867 8 13 .108 .975 .016 .992 10 .008 1. 120 Nous avons aussi la possibilité de calculer la moyenne arithmétique de la distribution des notes du tableau à notre gauche. Pour cela, il suffit de faire le quotient de la somme de ces notes par l’effectif. Désignons par m cette moyenne et nous obtenons : La moyenne m d’une distribution statistique est donnée par les formules suivantes L’unité de la moyenne est celle du phénomène étudié.
Paramètres (3) La variance i = xi pi fi φi 1 3 .025 2 4 .033 .058 9 .075 .133 22 .183 .316 5 .500 6 23 .192 .692 7 21 .175 .867 8 13 .108 .975 .016 .992 10 .008 1. 120 La variance d’un phénomène est un paramètre qui nous donne des informations sur la dispersions autour de sa moyenne : plus elle est grande, plus grande est la dispersion. La variance d’une distribution statistique est la moyenne des carrés de écarts à la moyenne. C’est donc la moyenne arithmétique des carrés des différences entre la moyenne des éléments du tableau brut et ces éléments. Elle est donnée par les formules suivantes
Calcul de la variance
Paramètres (4) L’écart-type i = xi pi fi φi 1 3 .025 2 4 .033 .058 9 .075 .133 22 .183 .316 5 .500 6 23 .192 .692 7 21 .175 .867 8 13 .108 .975 .016 .992 10 .008 1. 120 Nous avons vu que la variance d’une distribution statique ne s’exprime pas dans la même unité que celle du phénomène étudié. Pour éviter ce changement, on calcule l’écart-type de la distribution statistique qui n’est rien d’autre que la racine carrée de sa variance. L’écart-type d’une distribution statistique est donné par la formule.
Fin