Mesures de Position Dispersion et Forme STAT D103 Esteban Callejas Perez ecalleja@ulb.ac.be H.4.145
Une Classe 𝐶 𝑗 particulière 𝑗: 𝐶 𝑗 = 𝑙 𝑗 − , 𝑙 𝑗 + Est une série des valeur observées relativement proches les unes de autres. 𝐽: nombre total des clases. 𝑙 𝑗 − : limite Inferieur de la Classe 𝑗. 𝑙 𝑗 + : limite Supérieur de la Classe 𝑗. ℎ 𝑗 : Longueur de la Classe 𝑗. ℎ 𝑗 = 𝑙 𝑗 + − 𝑙 𝑗 − L’effectif de la classe 𝑗, 𝑛 𝑗 : Est le nombre des observations qui appartient a la classe 𝑗. La Fréquence de la Classe 𝑗, 𝑓 𝑗 : Est la proportion d’observations de la série qui appartient a la clase 𝐶 𝑗 . 𝑓 𝑗 = 𝑛 𝑗 𝑛
L’Effectif Unitaire de la classe 𝑗: Est l’effectif de la clase par unité de longueur: 𝑛 𝑗 ℎ 𝑗 Le Centre de la Classe 𝑗, 𝑥 𝑐𝑗 : Est la valeur moyenne (representative) de la Classe. 𝑥 𝑐𝑗 = 𝑙 𝑗 + + 𝑙 𝑗 − 2
𝑠𝑢𝑟𝑓𝑎𝑐𝑒=𝑏𝑎𝑠𝑒×ℎ𝑎𝑢𝑡𝑒𝑢𝑟 L’Histogramme des Effectifs associe a chaque Classe 𝐶 𝑗 , un rectangle dont la surface est égale a son effectif 𝑛 𝑗 . 𝑠𝑢𝑟𝑓𝑎𝑐𝑒=𝑏𝑎𝑠𝑒×ℎ𝑎𝑢𝑡𝑒𝑢𝑟 La longueur de la classe, ℎ 𝑗 , est utilisé comme base: 𝑏𝑎𝑠𝑒= ℎ 𝑗 𝒏 𝒋 𝒉 𝒋 𝑪 𝒋 𝑛 4 ℎ 4 𝐶 4 ℎ 4 𝑙 4 − 𝑙 4 + 𝐶 5 𝐶 6 𝐶 3 𝐶 2 𝐶 1 Histogramme des Effectifs L’effectif unitaire, 𝑛 𝑗 / ℎ 𝑗 , est utilisé comme hauteur. ℎ𝑎𝑢𝑡𝑒𝑢𝑟= 𝑛 𝑗 ℎ 𝑗 Dans l’Histogramme des Fréquences la fréquence, 𝑓 𝑗 , est utilisée comme hauteur.
La Courbe Cumulative des Effectifs associe a chaque Valeur Observé 𝑥 𝑜𝑗 la valeur de l’effectif cumulé 𝑁 𝑗 correspondant. La Courbe Cumulative des Fréquences associe a chaque Valeur Observé 𝑥 𝑜𝑗 la valeur de la fréquence cumulé 𝐹 𝑗 correspondant. 𝑵 𝒋 𝒙 𝒐𝒋 𝑁 1 𝑛= 𝑁 5 𝑁 2 𝑁 3 𝑁 4 𝑥 𝑜1 𝑥 𝑜2 𝑥 𝑜3 𝑥 𝑜4 𝑥 𝑜5 Courbe Cumulative des Effectifs
La Mode 𝑥 𝑀 d’une série: Est la valeur observé qui apparait le plus souvent. La Classe Modale 𝐶 𝑀 : Quand toutes les classes ont la même longueur ( 𝑛 𝑗 = 𝑛 𝑖 ∀𝑗,𝑖): Est la Classe 𝐶 𝑗 (𝑗=1,2,⋯,𝐽) dont l’effectif 𝑛 𝑗 est le plus grand. Quand les classes n’ont pas toute la même longueur (∃𝑖: 𝑛 𝑖 ≠ 𝑛 𝑗 ∀𝑗): Est le valeur 𝑥 𝑜𝑖 𝑗=1,2,⋯,𝐽 a laquelle est associée l’effectif unitaire 𝑛 𝑗 ℎ 𝑗 le plus grand.
𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑗=1 𝐽 𝑛 𝑗 𝑛 𝑥 𝑜𝑗 La Moyenne 𝑥 (série statistique): Avec une série statistique 𝑥 1 , 𝑥 2 ,⋯, 𝑥 𝑛 , la moyenne est définie par: 𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 La Moyenne 𝑥 (distribution observée): Avec une distribution observée 𝑥 𝑜𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 , la moyenne est définie par: 𝑗=1 𝐽 𝑛 𝑗 𝑛 𝑥 𝑜𝑗 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑜𝑗 𝑗=1 𝐽 𝑓 𝑗 𝑥 𝑜𝑗 𝑥 = 𝑛 1 𝑥 𝑜1 + 𝑛 2 𝑥 𝑜2 +⋯+ 𝑛 𝐽 𝑥 𝑜𝐽 𝑛 =
𝑥 = 𝑛 1 𝑥 𝑐1 + 𝑛 2 𝑥 𝑐2 +⋯+ 𝑛 𝐽 𝑥 𝑐𝐽 𝑛 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑐𝑗 La Moyenne 𝑥 (distribution groupee): Avec une distribution groupee 𝐶 𝑗 , 𝑥 𝑐𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 , nous pouvons approcher la moyenne come suit: 𝑥 = 𝑛 1 𝑥 𝑐1 + 𝑛 2 𝑥 𝑐2 +⋯+ 𝑛 𝐽 𝑥 𝑐𝐽 𝑛 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑐𝑗 𝑥 𝑐𝑗 : Centre de Classe 𝑗
La Médiane 𝑥 1/2 (série statistique): Avec une série statistique ordonnée 𝑥 1 , 𝑥 2 ,⋯, 𝑥 𝑛 , la médiane 𝑥 1/2 est la valeur telle que le nombre d’observations qui la précèdent est égal au nombre d’observations qui la suivent. Pour la calculer, on a 2 possibilités: Quand 𝑛 1/2 est un entier naturel (𝑛 est pair): 𝑥 1/2 = 𝑥 𝑛 2 + 𝑥 𝑛 2 +1 2 Quand 𝑛 1/2 n’est pas un entier naturel (𝑛 est impair): 𝑥 1/2 = 𝑥 𝑛 2
𝑥 1/2 = 𝑥 𝑜𝑗 + 𝑥 𝑜 𝑗+1 2 La Médiane 𝑥 1/2 (distribution observe): Avec une distribution observée 𝑥 𝑜𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 , la médiane 𝑥 1/2 est déterminée a partir des Effectif Cumulées 𝑁 𝑗 ou des Fréquences Cumulées 𝐹 𝑗 : Si aucun des effectifs cumules 𝑁 𝑗 n’est égal à 𝑛/2 (aucune des fréq. cumulées 𝐹 𝑗 n’est égale à 1/2), alors 𝑥 1/2 est la plus petite valeur observée 𝑥 𝑜𝑗 dont l’effectif cumulé 𝑁 𝑗 est supérieur à 𝑛/2 (dont la fréquence cumulée 𝐹 𝑗 est supérieure à 1/2). S’il existe une valeur 𝑥 𝑜𝑗 telle que 𝑁 𝑗 =𝑛/2 ( 𝐹 𝑗 =1/2), alors: 𝑥 1/2 = 𝑥 𝑜𝑗 + 𝑥 𝑜 𝑗+1 2
La Medianne 𝑥 1/2 (distribution groupée): Avec une distribution groupée 𝐶 𝑗 , 𝑥 𝑐𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 , la médiane 𝑥 1/2 est approchée comme la solution de 𝑁 𝑋 1/2 = 𝑛 2 ou de 𝐹 𝑋 1/2 = 1 2 . On peut la déterminer exactement en 2 pas: Détermination de la Classe 𝐶 𝑗 ou se trouve 𝑥 1/2 : est la classe 𝐶 𝑗 =[ 𝑙 𝑗 − , 𝑙 𝑗 + ] avec 𝑁 𝑗−1 < 𝑛 2 ≤ 𝑁 𝑗 ou 𝐹 𝑗−1 < 1 2 ≤ 𝐹 𝑗 Détermination de la valeur de 𝑥 1/2 dans cette classe 𝑗: 𝑥 1/2 = 𝑙 𝑗 − + 𝑛 2 − 𝑁 𝑗−1 𝑁 𝑗 − 𝑁 𝑗−1 𝑙 𝑗 + − 𝑙 𝑗 − 𝑥 1/2 = 𝑙 𝑗 − + 1 2 − 𝐹 𝑗−1 𝐹 𝑗 − 𝐹 𝑗−1 𝑙 𝑗 + − 𝑙 𝑗 −
𝑥 𝑝 = 𝑥 𝑛𝑝 + 𝑥 𝑛𝑝+1 2 𝑥 𝑝 = 𝑥 𝑛𝑝 Le Quantile (Fractile) 𝑥 𝑝 : Avec: Une série statistique ordonnée 𝑥 1 , 𝑥 2 ,⋯, 𝑥 𝑛 Une proportion 𝑝 (0<𝑝<1) Est la valeur 𝑥 𝑝 qui: observations sont plus petites que 𝑥 𝑝 𝑥 𝑝 : 𝑛𝑝 𝑛 1−𝑝 observations sont plus grandes que 𝑥 𝑝 Pour le calculer, on a 2 possibilités: Quand 𝑛𝑝 est un entier naturel: Quand 𝑛𝑝 n’est pas un entier naturel: 𝑥 𝑝 = 𝑥 𝑛𝑝 + 𝑥 𝑛𝑝+1 2 𝑥 𝑝 = 𝑥 𝑛𝑝
𝑥 𝑝 = 𝑥 𝑜𝑗 + 𝑥 𝑜𝑗+1 2 Le Quantile (Fractile) 𝑥 𝑝 : Avec: Une distribution observée 𝑥 𝑜𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 Une proportion 𝑝 (0<𝑝<1) Est la valeur 𝑥 𝑝 qui: observations sont plus petites que 𝑥 𝑝 𝑥 𝑝 : 𝑛𝑝 𝑛 1−𝑝 observations sont plus grandes que 𝑥 𝑝 Pour le calculer, on a 2 possibilités: Quand 𝒏𝒑= 𝑵 𝒋 ou 𝒑= 𝑭 𝒋 pour un 𝑗∈𝐽: Quand 𝒏𝒑≠ 𝑵 𝒋 ou 𝒑≠ 𝑭 𝒋 pour un 𝑗∈𝐽: 𝑥 𝑝 = 𝑥 𝑜𝑗 + 𝑥 𝑜𝑗+1 2 𝑥 𝑝 = 𝑥 𝑜𝑗 : 𝑁 𝑗−1 <𝑛𝑝< 𝑁 𝑗 𝐹 𝑗−1 <𝑝< 𝐹 𝑗 (avec 𝑁 0 =0) (avec 𝐹 0 =0)
Le Quantile (Fractile) 𝑥 𝑝 : Avec: Une distribution groupée 𝐶 𝑗 , 𝑥 𝑐𝑗 , 𝑛 𝑗 ;𝑗=1,2,⋯,𝐽 Une proportion 𝑝 (0<𝑝<1) Est la valeur 𝑥 𝑝 qui: observations sont plus petites que 𝑥 𝑝 𝑥 𝑝 : 𝑛𝑝 𝑛 1−𝑝 observations sont plus grandes que 𝑥 𝑝 C’st a dire la valeur 𝑥 𝑝 telle que: 𝑥 𝑝 ∈ 𝐶 𝑗 : 𝑁 𝑗−1 <𝑛𝑝≤ 𝑁 𝑗 𝐹 𝑗−1 <𝑝≤ 𝐹 𝑗 Et on le calcule comme suite: 𝑥 𝑝 = 𝑙 𝑗 − + 𝑛𝑝− 𝑁 𝑗−1 𝑁 𝑗 − 𝑁 𝑗−1 𝑙 𝑗 + − 𝑙 𝑗 − 𝑥 𝑝 = 𝑙 𝑗 − + 𝑝− 𝐹 𝑗−1 𝐹 𝑗 − 𝐹 𝑗−1 𝑙 𝑗 + − 𝑙 𝑗 −
Fractiles distinguées: Médiane: 𝑝=1/2 Quartiles: 𝑝=1/4 (1er quartile), 𝑝=2/4 (2eme quartile), 𝑝=3/4 (3eme quartile). Déciles: 𝑝=1/10 (1er décile), 𝑝=9/10 (9eme décile) Percentiles: 𝑝=1/100
𝐸= 𝑥 𝑛 − 𝑥 (1) 𝐸= 𝑥 𝑜𝐽 − 𝑥 𝑜1 𝐸= 𝑙 𝐽 + − 𝑙 1 − L’étendue (ou empan) 𝐸 d’un ensemble de données est la différence entre la plus grande et la plus petite valeur observée: Pour une série statistique ordonnée: 𝐸= 𝑥 𝑛 − 𝑥 (1) Pour une Distribution Observée: 𝐸= 𝑥 𝑜𝐽 − 𝑥 𝑜1 Pour une Distribution Groupée (valeur approchée): 𝐸= 𝑙 𝐽 + − 𝑙 1 −
𝑝 𝑔 = 𝑥 1/4 − 1.5 𝑥 3/4 − 𝑥 1/4 𝑝 𝑑 = 𝑥 3/4 + 1.5 𝑥 3/4 − 𝑥 1/4 L’écart interquartile 𝐸 𝑄 mesure la dispersion des 50% d’observations centrales: 𝐸 𝑄 = 𝑥 3/4 − 𝑥 1/4 L’écart interdécile 𝐸 𝐷 mesure la dispersion des 80% d’observations centrales: 𝐸 𝐷 = 𝑥 9/10 − 𝑥 1/10 Valeurs pivots: 𝑝 𝑔 = 𝑥 1/4 − 1.5 𝑥 3/4 − 𝑥 1/4 𝑝 𝑑 = 𝑥 3/4 + 1.5 𝑥 3/4 − 𝑥 1/4 Valeurs adjacentes: plus petite valeur observée ≥ 𝑝 𝑔 𝑥 𝑔 = plus grande valeur observée ≤𝑝 𝑑 𝑥 𝑑 =
Boite a Moustaches (version de base):
Boite a Moustaches (version modifiée):
Mesures de dispersion (I): La variance, 𝑠 2 , est défini comme suite: Série statistique (ordonnée): 𝑠 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 ou 𝑠 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Distribution observée: 𝑠 2 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑜𝑗 − 𝑥 2 ou 𝑠 2 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑜𝑗 2 − 𝑥 2 Distribution Groupée: 𝑠 2 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑐𝑗 − 𝑥 2 ou 𝑠 2 = 1 𝑛 𝑗=1 𝐽 𝑛 𝑗 𝑥 𝑐𝑗 2 − 𝑥 2
Mesures de dispersion (II): L’écart type, 𝑠, est la racine carre de la variance: 𝑠= 𝑥 2 Le Coefficient de Variation, 𝐶𝑉, est défini par: 𝐶𝑉= 𝑠 𝑥 Le Coefficient (empirique) de Pearson, 𝑆 𝑘 , est défini comme suite: 𝑆 𝑘 = 𝑥 − 𝑥 𝑀 𝑠 Le Coefficient (empirique) de Yule et Kendall, 𝑌 𝑘 , est donnée par: 𝑌 𝑘 = 𝑥 1/4 + 𝑥 3/4 −2 𝑥 1/2 𝑥 3/4 − 𝑥 1/4