Organisation des Données et Représentations Graphiques STAT D103 Esteban Callejas Perez ecalleja@ulb.ac.be H.4.145
{ 𝑜𝑏𝑠 1 , 𝑜𝑏𝑠 2 , 𝑜𝑏𝑠 3 , 𝑜𝑏𝑠 4 ,⋯ 𝑜𝑏𝑠 𝑛−2 , 𝑜𝑏𝑠 𝑛−1 , 𝑜𝑏𝑠 𝑛 } La taille (effectif total) 𝑛 est le mombre total des observations qui nous avons dans notre série statistique univariée. { 𝑜𝑏𝑠 1 , 𝑜𝑏𝑠 2 , 𝑜𝑏𝑠 3 , 𝑜𝑏𝑠 4 ,⋯ 𝑜𝑏𝑠 𝑛−2 , 𝑜𝑏𝑠 𝑛−1 , 𝑜𝑏𝑠 𝑛 } La dimension (nombre de variables) 𝑝 est le nombre de variables (caractéristiques) qui nous avons dans notre série statistique multivariée. i.e. pour l’observation numéro 𝑖 nous avons plusieurs caractéristiques. 𝑥 𝑖 est la caractérisitique “nom1 d’une caractéristique” de l’observation 𝑖. 𝑦 𝑖 est la caractérisitique “nom2 d’une caractéristique” de l’observation 𝑖. 𝑧 𝑖 est la caractérisitique “nom3 d’une caractéristique” de l’observation 𝑖. Dans cette exemple on a nombre 3 caractéristiques (variables) d’une même observation; alors la dimension (𝑝) est: 3 Et la taille est? 𝑛
Nous disons: “j’ai une série statistique p-variée” Attention: Si 𝑝=1 (une seule variable) nous disons série statistique univariée. 𝑥 1 , 𝑥 2 ,⋯, 𝑥 𝑛 = 𝑥 𝑖 ;𝑖=1,2,⋯,𝑛 Si 𝑝=2 (une seule variable) nous disons série statistique bivariée. 𝑥 1 , 𝑦 1 , 𝑥 2 , 𝑦 2 ,⋯, 𝑥 𝑛 , 𝑦 𝑛 = 𝑥 𝑖 , 𝑦 𝑖 ;𝑖=1,2,⋯,𝑛
Dans une série statistique, les valeurs observées de les variable ne sont pas nécessairement ordonnées. Exemple: 𝑥 𝑖 représente la note de l’examen de statistique de l’étudiant 𝑖 dans un échantillon de 10 étudiants. 14,15,13,18,19,15,17,12,18,17 𝑥 1 , 𝑥 2 , 𝑥 3 , 𝑥 4 , 𝑥 5 , 𝑥 6 , 𝑥 7 , 𝑥 8 , 𝑥 9 , 𝑥 10 𝑥 𝑖 ;𝑖=1,2,⋯,10 𝑥 1 , 𝑥 2 ,⋯, 𝑥 10 L’observation 𝑖 est représentée ainsi: 𝑥 𝑖 Toute la série statistique peut être montre dans un tableau: 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑 𝒙 𝟒 𝒙 𝟓 𝒙 𝟔 𝒙 𝟕 𝒙 𝟖 𝒙 𝟗 𝒙 𝟏𝟎 14 15 13 18 19 17 12 𝒊 1 2 3 4 5 6 7 8 9 10 𝒙 𝒊 14 15 13 18 19 17 12 (dans le formulaire)
Dans une série statistique ordonnée, les variable sont ordinales. Exemple: 𝑥 𝑖 représente la note de l’examen de statistique du 𝑖 é𝑚𝑒 plus mauvais étudiant dans notre échantillon de 10 étudiants. 𝑥 1 , 𝑥 2 ,⋯, 𝑥 10 = 𝑥 𝑖 ;𝑖=1,2,⋯,10 12,13,14,15,15, 17, 17,18,18,19, = 𝑥 𝑖 L’observation 𝑖 est représenté ainsi, ou le subindice (𝑖) est le rang: 𝑥 𝑖 Toute la série statistique peut être représentée dans un tableau: 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑 𝒙 𝟒 𝒙 𝟓 𝒙 𝟔 𝒙 𝟕 𝒙 𝟖 𝒙 𝟗 𝒙 𝟏𝟎 12 13 14 15 17 18 19 𝒊 1 2 3 4 5 6 7 8 9 10 𝒙 𝒊 12 13 14 15 17 18 19 (dans le formulaire)
On appelle une modalité (valeur) observée aux valeurs particuliers que une variable a pris dans une série statistique. On dénote la modalité observe 𝑗 comme suit (𝑱 est le numéro de valeurs particuliers): 𝒙 𝒐𝒋 (𝑗=1,2,⋯,𝐽) Le nombre d’effectifs est le numéro d’observations qu’ont la même modalité observé (réalisation) 𝑥 𝑜𝑗 d’une variable. On note l’effectifs associé à 𝑥 𝑜𝑗 comme suit: 𝑛 𝑗 La fréquence associé à 𝑥 𝑜𝑗 est le rapport entre son effectifs et l’effectif total (taille de la série statistique). On note cette fréquence comme suit: 𝑓 𝑗 = 𝑛 𝑗 𝑛
La effectifs cumulés de la réalisation 𝑗 est la somme cumulé des effectifs. On dénote le effectif cumulé comme suit: 𝑁 𝑗 = 𝑘=1 𝑗 𝑛 𝑘 La fréquence cumulé de la réalisation 𝑗 est la somme cumulé des fréquences. On dénote la fréquence cumulé comme suit: 𝐹 𝑗 = 𝑘=1 𝑗 𝑓 𝑘
Exemple: On trouve une enquête de 1988 qui nous dit l’état civil de femmes aux USA de 18 ans ou plus: “… dans notre recherché nous avons interrogé 92901 femmes […] nous avons trouvé 17364 femmes célibataires, 56128 femmes mariées, 11239 femmes disant être veuves, et 8170 femmes divorcées…” État Civil 𝒏 𝒋 𝑵 𝒋 𝒇 𝒋 𝑭 𝒋 célibataire 17364 𝑛 1 = 17364 𝑛 1 𝑛 = 0.19 𝑓 1 = 0.19 mariée 56128 𝑁 1 + 𝑛 2 = 73492 𝑛 2 𝑛 = 0.60 𝐹 1 + 𝑓 2 = 0.79 veuve 11239 𝑁 2 + 𝑛 3 = 84731 𝑛 3 𝑛 = 0.12 𝐹 2 + 𝑓 3 = 0.91 divorcée 8170 𝑁 3 + 𝑛 4 = 92901 𝑛 4 𝑛 = 0.9 𝐹 3 + 𝑓 4 = 1 Total 92901 𝑗=1 4 𝑛 𝑗 𝑛 = 1
Pour construire un diagramme en barres (tuyaux), on associe a chaque modalité distincte observe 𝒙 𝒐𝒋 (𝑗=1,2,⋯,𝐽) un rectangle de base fixe a priori et de hauteur égal a l’effectif correspondant 𝒏 𝒋 ou a la fréquence correspondante 𝒇 𝒋 . Etat Civil, 𝒙 𝒐𝒋 𝒏 𝒋 𝒇 𝒋 célibataire 17364 0.19 mariée 56128 0.60 veuve 11239 0.12 divorcée 8170 0.09 Total 92901 1
Pour construire un diagramme en secteurs (camembert), on découpe un cercle en 𝑱 parts: a chaque modalité distincte observé 𝑥 𝑜𝑗 (𝑗=1,2,⋯,𝐽) de la variable qualitative etudiée est associe une part du cercle égal a sa fréquence. Etat Civil, 𝒙 𝒐𝒋 𝒏 𝒋 𝒇 𝒋 célibataire 17364 0.19 mariée 56128 0.60 veuve 11239 0.12 divorcée 8170 0.09 Total 92901 1
Pour construire un diagramme en bâtons, on associe a chaque valeur distincte observe 𝒙 𝒐𝒋 (𝑗=1,2,⋯,𝐽) un bâton (segment de droite) de hauteur égal a l’effectif correspondant 𝒏 𝒋 ou a la fréquence correspondante 𝒇 𝒋 . Etat Civil, 𝒙 𝒐𝒋 𝒏 𝒋 𝒇 𝒋 célibataire 17364 0.19 mariée 56128 0.60 veuve 11239 0.12 divorcée 8170 0.09 Total 92901 1