Mesures de description des valeurs des variables d’un échantillon Définition
Tout ensemble de données mesurées sur des variables quantitatives est caractérisé par 2 types de paramètres : Paramètres de position : moyenne, médiane, mode, quantiles Paramètres de dispersion : variance, écart-type, extrêmes, étendue..
Caractéristiques de tendance centrale: 4
Moyenne arithmétique: règles
Moyenne arithmétique: règles 6
Paramètres de position Moyenne arithmétique : Soit un échantillon de n valeurs (x1, x2,......, xn) d’une variable quantitative (continue ou discontinue) X xi m = n
å 1- La variable discontinue : données réparties en k classes ex : moyenne du nombre d ’enfants par famille ? échantillon de 120 familles (N) Modalités x1....x2 .........xk Effectifs n1 .... n2 ........nk Fréquence f1 .... f2 .........fk n x å f m= i i = x N i i 20x0 . + 60x1 . 1 + 30x2 . 2 + 10x3+4 . 3 0x4 . 4 m = 20 + 60 + 30 + 10 m = 0,16 x 0 + 0,5 x 1 + 0,25 x 2 + 0,085 x 3
åx i ni = 2-La variable continue discrétisée (I): approximation de la moyenne +++ - Les valeurs de X sont placées dans des classes définies préalablement - On utilise alors le centre de chaque classe 167,5 åx i ni = 167,5 m = 45
Médiane : valeur qui partage la série de données en deux groupes de même effectif indicateur de position insensible aux variations extrêmes de la variable COURS N°1
b) Grand échantillon: variable discontinue Valeur x1.....x2.................xk Effectifs n1.....n2.................nk Fréquence cumulée f1….f2………….fk valeur de rang = 1 + N 2
Variable continue discrétisée : Cas où l’on ne dispose que d’un tableau de fréquence • La classe médiane est la classe où est située la médiane = la classe pour laquelle les fréquences cumulées: avant celle-ci sont <50% après celle-ci > 50%
ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Calcul de M par interpolation linéaire : M = ei-1 + a (0.5 – Fi-1) / fi ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Fi-1 = fréquence cumulée de la classe inférieure fi = fréquence relative de la classe médiane
Mode Valeur la plus fréquente (ou classe la plus fréquente) Si toutes les valeurs sont différentes = mode n’existe pas C ’est le seul paramètre utilisable pour les données qualitatives nominales distribution symétrique des valeurs : mode = moyenne = médiane
Quantiles et quartiles: les quartiles partagent la distribution des valeurs en 4 portions égales médiane : 2 portions égales = 2ème quartile qème quantile : valeur en dessous de laquelle se trouvent q% des observations
Quartiles
Quantiles et quartiles : poids 300 hommes 1er quartile Q1: 25ème quantile Médiane : 2ème quartile Q2 , 50ème quantile 3ème quartile Q3 : 75ème quantile Fréquence cumulée Histogramme cumulatif 1 0,75 0,5 0,25 poids 1er quartile = 67 médiane = 69,5 3èmequartile = 72 58,5 61,5 64,5 67,5 70,5 73,5 76,5 79,5
Percentiles : Sont les valeurs qui partagent la distribution en 100 groupes de taille égale Le 10ème percentile = 1er décile Le 25ème percentile = 1er quartile Le 50ème percentile = médiane
Indice de masse corporelle = Poids en kg/ (taille en m)2
Paramètres de dispersion
21
quantifient la variabilité des valeurs dans un échantillon Variance - Ecart type : quantifient la variabilité des valeurs dans un échantillon plus la variabilité d’une valeur est grande par rapport à la moyenne de la valeur dans l ’échantillon, plus la variance et l’écart-type de cette valeur seront grands +++ 22
Variance = paramètre de dispersion des valeurs autour de la moyenne (= écart par rapport à la moyenne) Variance = moyenne du carré des « écarts à la moyenne » n ( ) 2 å X - X i S 2 = i = 1 n COURS N°1
Exemple variance avec classes
racine carré de la variance Ecart-type racine carré de la variance la majorité des valeurs biologiques sont situées dans un intervalle formé par la moyenne ± 2 écarts types +++ COURS N°1
Aspect graphique
Autres paramètres de dispersion : Extrêmes = valeurs minimale et maximale Etendue = valeur maximale – valeur minimale Coefficient de variation : CV = S / m ( exprimé en%) Etendue inter-quartile: IQR = Q3 -Q1 (englobe 50% des observations)
Box – plot Box plots (ou boîte de distribution) représentation graphique +++ permet une comparaison rapide des résultats évaluation distribution symétrique ou non
Exemple: analyse descriptive de la durée d ’incubation de 3 maladies virales A,B,C ( en jours)
Histogramme des durées d ’incubation en jours 0,16 0,10 0,06 0,00 10 15 20 0,08 0,04 0,02 25 30 35 40 45 50 55 0,14 0,12 30 35 40 45 50
Boxplots des durées d ’incubation en jours Q3+1,5 (Q3-Q1) 50 40 30 20 10 Q3 médiane Nombre de jours d ’incubation Q1 Q1-1,5 (Q3-Q1) 50% des valeurs A B C COURS N°1
Intérêt des boxplots Représentation synthétique extrêmement efficace des principales caractéristiques d’une variable 5 synthèses numériques ( médiane, quartiles, limites) sont représentées de façon à visualiser les informations essentielles ( position, dispersion, asymétrie) de l’échantillon