L’OUTIL STATISTIQUE
1- les données statistiques
Pour bien analyser le passé, il faut d’abord disposer d’informations nombreuses et fiables.
Par exemple, si nous nous intéressons aux ventes de téléviseurs des 4 dernières années, les totaux annuels ne nous apporterons pas grand chose.
En revanche, si nous disposons des ventes mensuelles (48 observations), nous pourrons certainement en « tirer » beaucoup plus d’enseignements.
Avec des statistiques hebdomadaires (plus de 200 observations), la base d’information serait encore plus riche…
Année 1 Année 2 Année 3 Année 4 Année 5 Voici justement un exemple de ventes mensuelles de téléviseurs sur 4 ans ( nous nous situons en fin d’année 4 ). Imprimez-le car ce sera le support de plusieurs exercices dans ce chapitre. Année 1 Année 2 Année 3 Année 4 Année 5 J F M A S O N D 20 60 70 130 30 50 90 J F M A S O N D 30 60 70 50 90 J F M A S O N D 40 60 80 70 50 100 J F M A S O N D 40 60 70 80 90 50 100 J F M A S O N D
2- les mesures de tendance centrale
S N X i X = LA MOYENNE : c’est la méthode la plus utilisée. C’est la somme des données, divisée par le nombre de données. Symbole de la somme S Symbole de la moyenne X i X = N
Exemple: si les valeurs dont nous cherchons la moyenne sont 12 9 10 14 13 11 10 12 10 8 13 14 11 10 10 9 12 La somme de ces 18 valeurs est: 198 La moyenne est égale à : = 11 198 18
est la médiane de notre série La moyenne n’est pas toujours significative, notamment si certaines valeurs sont extrêmes: si notre vendeur de téléviseurs, «décrochant » le marché du siècle, réussissait à vendre 4900 téléviseurs au lieu de 100 en décembre de l’année 3, la moyenne passerait à 160, ce qui n’aurait rien à voir avec les ventes généralement observées… Les statisticiens utilisent deux autres notions assez proches: la médiane et le mode. 2- la médiane est la valeur qui se trouve au milieu de la liste de nombres (autant de valeurs inférieures que de valeurs supérieures). Dans notre exemple: 20 20 20 30 30 30 30 40 40 40 40 40 50 50 50 50 50 50 50 60 60 60 60 60 60 60 60 60 60 60 70 70 70 70 70 70 70 80 80 80 80 80 90 90 90 100 100 130 il y a 23 observations avant la valeur 60, et 23 observations après. est la médiane de notre série 60
3- le mode est la valeur la plus fréquente. Dans notre exemple: 20 3 20 3 30 4 40 5 50 7 60 11 70 7 80 5 90 3 100 2 130 1 60 est le mode de la série d’observations !
Dans cet exemple: moyenne, médiane et mode sont identiques (60) Dans cet exemple: moyenne, médiane et mode sont identiques (60). C’est souvent le cas lorsque la série est « normale ». On reconnaît graphiquement une série dite normale par son apparence « en cloche »: 11 10 9 8 7 6 5 4 3 2 1 10 20 30 40 50 60 70 80 90 100 110 120 130
10 20 30 40 50 60 70 80 90 100 110 120 130 Nombre d’observations 11 données sont dans la moyenne 4 3 2 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130
10 20 30 40 50 60 70 80 90 100 110 120 130 Nombre d’observations Les autres données représentent la dispersion autour de la moyenne 9 8 7 6 5 4 3 2 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130
La fonction statistique qui caractérise la dispersion s’appelle la variance. Elle est égale à l’écart au carré moyen de chaque valeur par rapport à la moyenne. Pour les valeurs 1, 2 et 3, par exemple, la moyenne est: (1+2+3) : 3 = 2 La variance sera: (1 – 2)2 + (2 – 2)2 + (3 – 2)2 : 3 = 0,667 (le fait d’élever au carré évite que les écarts positifs et négatifs se « neutralisent »)
Pour revenir à une valeur de dispersion comparable aux valeurs de départ, on retient généralement la racine carrée de la variance qu’on appelle l’écart-type. Dans l’exemple précédent, l’écart-type sera: 0,667 = 0,82 Si notre petite série de valeurs avait été: 0, 2, 4 Moyenne = 2 Variance = (0 – 2)2 + (2 – 2)2 + (4 – 2)2 : 3 = 2,67 Écart-type = 2,67 = 1,64 (la dispersion est 2 fois plus importante, ce qui n’est pas vraiment surprenant !)
EXERCICE
Année 1 Année 2 Année 3 Année 4 Année 5 En repartant de nos statistiques de ventes de téléviseurs… Année 1 Année 2 Année 3 Année 4 Année 5 J F M A S O N D 20 60 70 130 30 50 90 J F M A S O N D 30 60 70 50 90 J F M A S O N D 40 60 80 70 50 100 J F M A S O N D 40 60 70 80 90 50 100 J F M A S O N D … calculez pour la série de données allant de janvier année 1 à décembre année 4…
1- la variance 2- l’écart-type Questions subsidiaires: que représente l’écart-type calculé ? L’écart-type donne-t-il une information plus intéressante que le simple écart moyen en valeur absolue ?
solution
1- variance: Nous avions déjà calculé la moyenne: 60 La variance sera donnée par la formule (20 – 60)2 + (20 – 60)2 + (60 – 60)2 …… + (60 – 60)2 : 48 = 512,50 2- écart-type: 512,50 = 23 L’écart-type est un indicateur de la dispersion. Par rapport à l’écart moyen en valeur absolue, il donne également une idée de la présence de valeurs « aberrantes » dans la série observée…
… en effet, si l’écart, positif ou négatif, est toujours le même, l’écart-type sera égal à la moyenne des écarts en valeur absolue. Ex: 10 10 30 30 10 30 10 30 10 30 Moyenne = 200 : 10 = 20 Écarts: -10 -10 10 10 -10 10 -10 10 -10 10 Écarts valeur absolue: 10 10 10 10 10 10 10 10 10 10 Moyenne: 10 Variance: 100+100+100+100+100+100+100+100+100+100 = 1000 : 10 = 100 Écart-type: 100 = 10
Autre série: 0 50 0 10 0 100 0 10 0 30 Moyenne = 200 : 10 = 20 Écarts en valeur absolue: 20 30 20 10 20 80 20 10 20 10 Écart moyen: 250 : 10 = 25 Variance: 400 900 400 400 400 6400 400 100 400 100 = 9900 : 10 = 990 Écart-type: 990 = 31
La différence sensible entre l’écart moyen 25 et l’écart-type 31 témoigne de la présence de la valeur « aberrante » 100.
Les statisticiens désignent l’écart-type avec la lettre grecque s ( sigma minuscule) Reprenons notre exemple initial, et la courbe correspondante…
Nombre d’observations 11 10 9 8 7 6 5 4 3 s s s s - 2 - + + 2 2 - 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130 Nous observons que 5 + 7 + 11 + 7 + 5 = 35 valeurs, soit 73% du total de 48 sont situées entre – s et + s par rapport à la moyenne. 47 valeurs, soit 98% sont situées entre – 2 s et + 2 s par rapport à cette même moyenne.
Dans la réalité, plus le nombre d’observations est important, plus on se rapproche des valeurs suivantes: De – s à + s on trouve 68% des données De – 2 s à + 2 s on trouve 95% des données De – 3 s à + 3 s on trouve 99% des données En terme de probabilités, cela veut dire que l’on a par exemple 95% de chances qu’une donnée se situe à 2 s « autour » de la moyenne. Nous verrons plus loin que ceci nous aidera notamment: à apprécier la qualité d’une prévision. à viser un stock de protection.