Télécharger la présentation
Publié parEugénie Bellefleur Modifié depuis plus de 8 années
1
Mesures de description des valeurs des variables
d’un échantillon Définition
2
Tout ensemble de données mesurées sur des variables quantitatives est caractérisé par 2 types de paramètres : Paramètres de position : moyenne, médiane, mode, quantiles Paramètres de dispersion : variance, écart-type, extrêmes, étendue..
4
Caractéristiques de tendance centrale:
4
5
Moyenne arithmétique: règles
6
Moyenne arithmétique: règles
6
7
Paramètres de position
Moyenne arithmétique : Soit un échantillon de n valeurs (x1, x2,......, xn) d’une variable quantitative (continue ou discontinue) X xi m = n
8
å 1- La variable discontinue : données réparties en k classes
ex : moyenne du nombre d ’enfants par famille ? échantillon de 120 familles (N) Modalités x1....x xk Effectifs n n nk Fréquence f f fk n x å f m= i i = x N i i 20x0 . + 60x1 . 1 + 30x2 . 2 + 10x3+4 . 3 0x4 . 4 m = 20 + 60 + 30 + 10 m = 0,16 x 0 + 0,5 x 1 + 0,25 x 2 + 0,085 x 3
9
åx i ni = 2-La variable continue discrétisée (I):
approximation de la moyenne +++ - Les valeurs de X sont placées dans des classes définies préalablement - On utilise alors le centre de chaque classe 167,5 åx i ni = 167,5 m = 45
10
Médiane : valeur qui partage la série de données en deux groupes de même effectif indicateur de position insensible aux variations extrêmes de la variable COURS N°1
11
b) Grand échantillon: variable discontinue
Valeur x1.....x xk Effectifs n1.....n nk Fréquence cumulée f1….f2………….fk valeur de rang = 1 + N 2
12
Variable continue discrétisée : Cas où l’on ne dispose que d’un tableau de fréquence
• La classe médiane est la classe où est située la médiane = la classe pour laquelle les fréquences cumulées: avant celle-ci sont <50% après celle-ci > 50%
13
ei-1 = borne inf de la classe médiane a = largeur de la classe médiane
Calcul de M par interpolation linéaire : M = ei-1 + a (0.5 – Fi-1) / fi ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Fi-1 = fréquence cumulée de la classe inférieure fi = fréquence relative de la classe médiane
14
Mode Valeur la plus fréquente (ou classe la plus fréquente) Si toutes les valeurs sont différentes = mode n’existe pas C ’est le seul paramètre utilisable pour les données qualitatives nominales distribution symétrique des valeurs : mode = moyenne = médiane
15
Quantiles et quartiles:
les quartiles partagent la distribution des valeurs en 4 portions égales médiane : 2 portions égales = 2ème quartile qème quantile : valeur en dessous de laquelle se trouvent q% des observations
16
Quartiles
17
Quantiles et quartiles : poids 300 hommes
1er quartile Q1: 25ème quantile Médiane : 2ème quartile Q2 , 50ème quantile 3ème quartile Q3 : 75ème quantile Fréquence cumulée Histogramme cumulatif 1 0,75 0,5 0,25 poids 1er quartile = 67 médiane = 69,5 3èmequartile = 72 58,5 61,5 64,5 67, , , , ,5
18
Percentiles : Sont les valeurs qui partagent la distribution en 100 groupes de taille égale Le 10ème percentile = 1er décile Le 25ème percentile = 1er quartile Le 50ème percentile = médiane
19
Indice de masse corporelle
= Poids en kg/ (taille en m)2
20
Paramètres de dispersion
21
21
22
quantifient la variabilité des valeurs dans un échantillon
Variance - Ecart type : quantifient la variabilité des valeurs dans un échantillon plus la variabilité d’une valeur est grande par rapport à la moyenne de la valeur dans l ’échantillon, plus la variance et l’écart-type de cette valeur seront grands +++ 22
23
Variance = paramètre de dispersion des valeurs autour de la moyenne (= écart par rapport à la moyenne) Variance = moyenne du carré des « écarts à la moyenne » n ( ) 2 å X - X i S 2 = i = 1 n COURS N°1
24
Exemple variance avec classes
25
racine carré de la variance
Ecart-type racine carré de la variance la majorité des valeurs biologiques sont situées dans un intervalle formé par la moyenne ± 2 écarts types +++ COURS N°1
26
Aspect graphique
27
Autres paramètres de dispersion :
Extrêmes = valeurs minimale et maximale Etendue = valeur maximale – valeur minimale Coefficient de variation : CV = S / m ( exprimé en%) Etendue inter-quartile: IQR = Q3 -Q1 (englobe 50% des observations)
28
Box – plot Box plots (ou boîte de distribution) représentation graphique +++ permet une comparaison rapide des résultats évaluation distribution symétrique ou non
29
Exemple: analyse descriptive de la durée d ’incubation de 3 maladies virales A,B,C ( en jours)
30
Histogramme des durées d ’incubation en jours
0,16 0,10 0,06 0,00 0,08 0,04 0,02 0,14 0,12
31
Boxplots des durées d ’incubation en jours
Q3+1,5 (Q3-Q1) 50 40 30 20 10 Q3 médiane Nombre de jours d ’incubation Q1 Q1-1,5 (Q3-Q1) 50% des valeurs A B C COURS N°1
32
Intérêt des boxplots Représentation synthétique extrêmement efficace des principales caractéristiques d’une variable 5 synthèses numériques ( médiane, quartiles, limites) sont représentées de façon à visualiser les informations essentielles ( position, dispersion, asymétrie) de l’échantillon
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.