Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures de tendance centrale (moyenne, médiane, mode) et des mesures de variabilité (écart, écart-type, variance). MPC | Manager Par les Chiffres Auteurs : Phillip E. Pfeifer Traduction et adaptation : Younes BENJELLOUN © 2014 Phillip E. Pfeifer, Younes Benjelloun et Manager par les chiffres.
Deux types de Statistiques Descriptives Les Mesures de Tendances Centrales La Moyenne La Médiane Le Mode Les Mesures de Variabilité Etendue (Maximum – Minimum) L‘Ecart-Type La Variance Ce module couvre ces six mesures statistiques. Les trois premières décrivent le «centre» d'un ensemble de données. Les trois dernières décrivent la diffusion d'un ensemble de données. A chaque définition, nous identifierons et expliquerons la fonction Excel que l’on peut utiliser pour calculer la mesure en question. MPC | Manager Par les Chiffres
La Moyenne Définition A noter La Moyenne = La moyenne arithmétique d’un ensemble de données (nombre1 + nombre2 +… nombren) / n Fonction Excel = Moyenne(nomb1, nomb2, …, nombn) - ou - Moyenne(Première cellule:Dernière cellule) A noter Si vous connaissez la moyenne de l'échantillon et le nombre de valeurs, vous pouvez multiplier les deux pour calculer le total. C'est l’une des raisons pour lesquelles la moyenne de l'échantillon est une mesure très populaire en statistiques. MPC | Manager Par les Chiffres
La Moyenne La Moyenne Question 1: Quelle est la moyenne des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse : On sait que la moyenne = (nombre1 + nombre2 +… nombren) / n Par conséquent, en remplaçant nos valeurs : La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8 Nous pouvons également calculer rapidement le montant total en multipliant 5,8 véhicules en moyenne x 5 jours = 29 véhicules pour la semaine. MPC | Manager Par les Chiffres
La Médiane Définition A noter La Médiane = La médiane est le point qui se trouve au milieu. Le même nombre de valeurs se trouvent au-dessus et au-dessous de la médiane. Note: S'il y’a un nombre pair de valeurs de données, la médiane est la moyenne des deux valeurs centrales. Fonction Excel = Médiane(nombre1, nombre2, …, nombren) - ou - Médiane(Première cellule:Dernière cellule) A noter Le tri des données permet de trouver plus facilement la médiane. MPC | Manager Par les Chiffres
La Médiane La Médiane Question 1: Quelle est la médiane des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse: On sait que la médiane est le point qui se trouve au milieu d’un ensemble de données triées. Par conséquent, en triant nos valeurs: La Médiane = 2, 2, 4, 8, 13 = 4 On note que deux valeurs sont inférieures (2, 2) et deux valeurs sont supérieures (8, 13) MPC | Manager Par les Chiffres
La Médiane La Médiane Question 2: Quelle serait la médiane si nos données ne contenaient que les ventes de véhicules du mardi au vendredi ? Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse: On sait que la médiane est le point qui se trouve au milieu d’un ensemble de données triées. Par conséquent, en triant nos valeurs : Les données triées= 2, 4, 8, 13 Mais, dans cet exemple, il y’a deux points dans le milieu, 4 et 8. On prend alors la moyenne des deux points. Médiane = (4 + 8) / 2 = 6 MPC | Manager Par les Chiffres
Le Mode Définition Définitions Le Mode = Le mode est la valeur apparaissant le plus souvent. Remarque : S’il n’y a pas de valeur qui se répète on dit que les données ne possèdent pas de mode. Fonction Excel = Mode(nombre1, nombre2, …, nombren) - ou - Mode(Première cellule:Dernière cellule) Définitions Unimodal = Lorsqu’une seule valeur est la plus fréquente Bimodal = Lorsque deux valeurs apparaissent le plus souvent MPC | Manager Par les Chiffres
Le Mode Le Mode Question 1: Quel est le mode des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse : On sait que le mode est la valeur apparaissant le plus souvent. Par conséquent, en triant nos valeurs : 2, 2, 4, 8, 13 Le mode est 2 comme il apparait deux fois, et les trois autres valeurs n’apparaissent qu'une seule fois. Nous pouvons aussi décrire cet ensemble comme des données unimodales parce qu'il n’y a qu’un seul mode. MPC | Manager Par les Chiffres
Le Mode Le Mode Question 2: Si les données incluaient les ventes de samedi de 13 véhicules, quel serait le mode pour les ventes de la semaine du lundi au samedi ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2, Sam.=13 Réponse : On sait que le mode est la valeur apparaissant le plus souvent. Par conséquent, en triant nos valeurs : 2, 2, 4, 8, 13, 13 Les valeurs 2 et 13 sont toutes les deux des modes pour cet ensemble de données bimodales. MPC | Manager Par les Chiffres
Mesures de la Tendance Centrale La Moyenne La moyenne arithmétique La Médiane La Valeur au Milieu Le Mode La valeur se produisant le plus souvent L'ensemble de la Moyenne, la Médiane et le Mode peuvent vous en dire beaucoup sur la façon dont les données sont distribuées .... comme nous allons le voir maintenant. MPC | Manager Par les Chiffres
La Symétrie et l‘Asymétrie Définitions Si les données sont unimodales et la moyenne, la médiane et le mode sont tous égaux, on dit que les données sont symétriques. Si les données sont unimodales et la moyenne, la médiane et le mode sont toutes différentes, les données sont dites asymétriques. Les données sont dites désaxées vers la droite lorsqu’elle contiennent quelques grandes valeurs et de nombreuses petites valeurs. Dans ce cas, la moyenne de l'échantillon est normalement supérieure à la médiane. Les données sont dites désaxées vers la gauche lorsqu’elle contiennent quelques petites valeurs et de nombreuses grandes valeurs. Dans ce cas, la moyenne de l'échantillon est normalement inférieure à la médiane. MPC | Manager Par les Chiffres
La Symétrie et l‘Asymétrie Question 1: Décrivez les données suivantes de ventes de voitures pour une semaine en termes de symétrie et d'asymétrie. Lun.=2, Mar.=12, Mer.=9, Jeu.=7, Ven.=5, Sam.=7 Réponse : Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 5, 7, 7, 9, 12 La Moyenne = (2 + 5 + 7 + 7 + 9 + 12) / 6 = 7 La Médiane = 7 (Valeur du milieu) Le Mode = 7 (apparit 2 fois) Par conséquent, la moyenne, la médiane et le mode sont tous égaux, ainsi l'ensemble des données serait décrit comme symétriques. MPC | Manager Par les Chiffres
La Symétrie et l‘Asymétrie Question 2: Décrivez les données de vente suivantes en termes de symétrie et d'asymétrie. Lun.=2, Mar.=21, Mer.=9, Jeu.=2, Ven.=3, Sam.=5 Réponse : Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 2, 3, 5, 9, 21 La Moyenne = (2 + 2 + 3 + 5 + 9 + 21) / 6 = 7 La Médiane = (3 + 5) / 2 = 4 (La moyenne des 2 valeurs du milieu) Le Mode = 2 (apparait 2 fois) La moyenne, la médiane et le mode ne sont pas égaux, ces données sont donc asymétriques. Parce que la moyenne, la médiane et le mode sont différents ET le mode étant inférieur à la médiane, qui, à son tour, est inférieure à la moyenne de l'échantillon --- nous disons que les données sont désaxées vers la droite. A noter Les données de l’entreprise sont souvent désaxées vers la droite (pensez aux salaires, les ventes part client, etc.) MPC | Manager Par les Chiffres
Mesure de la Variabilité Beaucoup de décisions commerciales sont fondées non seulement sur des moyennes, mais aussi sur la variabilité autour de la moyenne. La variabilité de la température, par exemple, conduit à des coûts plus élevés de chauffage / refroidissement. Nous passons maintenant à trois statistiques qui décrivent la propagation des données, come par exemple la mesures de la variabilité. Mesure de la Variabilité L’Etendue (Maximum – Minimum) L‘Ecart-Type La Variance MPC | Manager Par les Chiffres
L’Etendue L’Etendue Définition L’Etendue = La différence entre la plus grande et la plus petite des valeurs d’un échantillon de données. La Fonction Excel = Max(n1, n2, …, nn) - Min(n1, n2, …, nn) - ou - Max(première cell.:dernière cell.) - Min(première cell.:dernière cell.) Question 1: Quelle est l’étendue des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse: On sait que l’étendue = Maximum - Minimum Par conséquent, en substituant nos valeurs: Etendue = 13 – 2 = 11 Notes que “l’étendue’’ va de 2 à 13, l’étendue des données est 11. MPC | Manager Par les Chiffres
L’Ecart-Type Définition L’écart-type de l'échantillon est la racine carrée des carrés des distances «moyennes» des points par rapport à la moyenne de l'échantillon. (nb1 – x )^2 + (nb2 – x )^2 + … + (nbn – x )^2 ^ (1/2) Ecart-Type = n-1 Avec x = moyenne de l’échantillon et n = nombre de données dans l’échantillon. Fonction Excel = ECARTYPE (nb1, nb2, …, nbn) The sample standard deviation is usually labeled as “s”….but I can live with StdDev. So….can we replace x with 𝑥 That would be super important. X usually represents one data value. If you want to stay with excel “num1” etc (I like the 1 as a subscript btw, we could change all the earlier excel functions to be consistent…and then numn would have a trailing subscript n and no longer need the blank), then you could invent something for average….probably “avg” or “num” with a bar across the top for sample average of the n numbers. A noter Pensez à l'écart type de l'échantillon comme une mesure de la façon dont les données varient. Si toutes les données ont la même valeur, l'écart type sera égal à zéro. * A noter que le signe ^2 signifie au carré et le ^(1/2) ou ^0,5 signifient racine carré, comme sur Excel. MPC | Manager Par les Chiffres
L’Ecart-Type L’Ecart-Type Question 1: Quel est l’écart-type des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse : On sait que la moyenne = (nb1 + nb2 +… nbn) / n Pas conséquent, en substituant nos valeurs : La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8 Puis en continuant notre calcul de l’écart-type de l'échantillon… La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2 = 88,8 Ecart-type = (88,8 / (5 – 1))^0,5 = 4,71 Il est important de connaître la formule de calcul de l’écart-type, mais l’utilisation d’Excel facilite considérablement le traitement des données. * A noter que le signe ^2 signifie au carré et le ^0,5 signifient racine carré, comme sur Excel. MPC | Manager Par les Chiffres
Sample Standard deviation L’Ecart-Type Sample Standard deviation A noter L’écart-type est une meilleure mesure de la variabilité des données car il utilise tous les points de données (et pour d'autres raisons techniques que nous n’aborderons pas.) Pour calculer un écart-type, vous devrez presque toujours utiliser Excel .... même s'il y a peu de données à analyser. Si il y’a beaucoup de données unimodales, distribution symétrique (courbe en cloche), une règle empirique indique que 68% des valeurs se situent à un écart-type de la moyenne (entre la moyenne moins l’écart-type et la moyenne plus l’écart-type). En prenant l’exemple précédent, où la moyenne de l'échantillon = 5,8 et l'écart-type = 4,71 (et en supposant une distribution en forme de cloche des données – ce qui n’est pas le cas), notre règle d'or serait alors de dire que 68% des valeurs se situent entre 5,8 - 4,71 et 5,8 + 4,71 (ou entre environ 1,1 et 10,5). MPC | Manager Par les Chiffres
La Variance Définition A noter La Variance est la ‘’moyenne’’ des distances au carré des points de l'échantillon par rapport à la valeur moyenne (c’est aussi le carré de l'écart type). (nb1 – x )^2 + (nb2 – x )^2 +…+ (nbn – x )^2 La Variance = n - 1 Avec x = valeur moyenne et n = nombre de données dans l’échantillon Fonction Excel = var(nb1, nb2, …, nbn) A noter Si cela vous semble familier, c’est normal ! Le calcul de la variance de reprend toutes les étapes du calcul écart-type .. sauf la racine carré finale. Par conséquent, la variance est aussi égale à Ecart-Type ^ 2. MPC | Manager Par les Chiffres
La Variance La Variance Question 1: Quelle est la variance des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2 Réponse : La valeur moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8 Puis en continuant notre calcul de l’écart-type de l'échantillon… La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2 = 88,8 Variance = (88,8 / (5 – 1)) = 22,2 A noter Etant donné que la variance est le carré de l'écart-type, si vous disposez de l’une vous pouvez facilement calculer l'autre. En général, l'écart-type est beaucoup plus facile à interpréter, en partie, parce qu'il a les mêmes unités que les données. (par exemple, l’écart-type de 4,71 calculé précédemment correspond à 4,71 voitures. Le 22,2 correspond au nombre de voitures au carré) MPC | Manager Par les Chiffres
Statistiques Descriptives Mesures de Tendances Centrales La Moyenne La Médiane Le Mode Measures de Variabilité Etendue (Maximum – Minimum) L‘Ecart-Type La Variance Ceci complète notre introduction aux six statistiques descriptives énumérées ci-dessus. Ce qui suit sont quelques diapositives qui montrent comment ces statistiques se comportent si vous multipliez les données par une constante "b" et vous ajoutez une autre constante "a". C'est ce qu'on appelle une conversion linéaire. Les transformations utilisées pour convertir des kilogrammes en livres, les miles en kilomètres, et des millions en milliards sont tous des exemples de conversions linéaires. MPC | Manager Par les Chiffres
Statistiques Descriptives pour Données Transformées Prenons X comme les données d’origine. Disons que Y = a + b * X sont les données transformées. Moyenne (Y) = a + b * Moyenne (X) Mediane (Y) = a + b * Mediane(X) Mode(Y) = a + b * Mode(X) A noter La moyenne, la médiane et le mode se comportent tous de façon logique pour les données transformées linéairement. Ainsi, si la température moyenne était de 68 degrés Fahrenheit, la température médiane (si elle est calculée en utilisant les mêmes données exprimées en degrés Celsius) serait (5/9) * (68-32) = 20 degrés Celsius. Cela est vrai parce que la transformation de Fahrenheit en Celsius est linéaire ... et due à la façon dont les trois indicateurs statistiques se comportent. MPC | Manager Par les Chiffres
Statistiques Descriptives pour Données Transformées Prenons X comme les données d’origine. Disons que Y = a + b * X sont les données transformées. Etendue(Y) = abs(b) * Etendue(X) Ecart-Type(Y) = abs(b) * Ecart-Type(X) Variance(Y) = b^2 * Variance(X) A noter Etant donné que l’Etendue, l'écart-type et la variance sont toute mesure variabilité, il n’est donc pas surprenant que l'ajout d'une constante aux données n'affecte pas ces trois statistiques. La multiplication des données par une constante, cependant, multiplie l’étendue et l'écart-type par la valeur absolue de la constante et multiplie la variance par la constante au carré. Ainsi, si l'écart-type de la température était de 10 degrés Celsius, l'écart type de la même donnée devrait être (5/9) * 10 ou de 50/9 en degrés Celsius. MPC | Manager Par les Chiffres
Références Complémentaires Statistiques Descriptives à Deux Variables (Module MPC - Prochainement disponible). Ce module fournit davantage d’apprentissages en statistiques, y compris la corrélation et la régression. N’importe quel livre d’introduction aux statistiques comme Introductory Statistics (9th Edition), Neil. A. Weiss, Pearson Publishing, 2010. MPC | Manager Par les Chiffres