Mesures de position, de dispersion et de forme, distributions, représentations graphiques
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants par femme des 27 régions de France (outre-mer inclus) et on souhaite calculer le nombre moyen d’enfants par femme au niveau national. Ne pas oublier de pondérer par le nombre de femmes de chaque région. Quantiles La quantile d’ordre α % est la valeur x du caractère telle que α % des valeurs observées soient inférieures strictement à x Médiane : quantile d’ordre 50%, elle partage la série des valeurs observées en deux séries de même taille Les trois quartiles partagent la série en 4 séries de même taille: 25% des observations sont inférieures au 1 er quartile, 50% …, 75% … . Déciles, centiles, etc Modes : La ou les valeurs observée d’effectif maximum Sous SAS : proc freq et proc mean
Statistiques descriptives Qualités Mode Médiane Moyenne Dépendre du nombre de termes de la série non oui Robustesse (faible sensibilité aux valeurs extrêmes) Se prêter aux calculs algébriques
Fonctions de répartition Distribution ou loi de probabilité. Elles peuvent être discrètes, continues ou hybrides. Densité d’une loi normale standard
Distributions Fonction de répartition empirique Soit {Yi} un échantillon. La fonction de répartition empirique de cet échantillon est la fonction : Donne la proportion de l’échantillon sur laquelle la valeur de la variable Y est inférieure à une valeur y.
Construction d’une fonction de répartition empirique Exemple:
Fonctions de répartition et quantiles
Mesures de dispersion Moments et moments centrés Les moments centrés d’ordre pair renseignent sur la dispersion des observations autour de la moyenne et les moments centrés d’ordre impair sur la dissymétrie de la distribution. Variance Ecart-type
SAS Quelques procédures SAS importantes à connaître Proc sort Proc format Proc surveyselect : extraire un échantillon aléatoire d’une table d’observations
Mesures de forme Ce sont des nombres sans dimension Ils renseignent sur la forme des distributions statistiques : symétrie et aplatissement Coefficient d’asymétrie de Fisher - Coefficient d’aplatissement de Pearson Skewness Kurtosis Où μ i désigne le moment d’ordre i et σ l’écart-type Exemple Asymétrie Aplatissement
Mesures de forme - Propriétés Coefficient de skewness/asymétrie γ = 0 <=> distribution est symétrique <=> moy = med = mode γ < 0 <=> distribution étalée vers la gauche <=> moy < med < mode γ = 0 <=> distribution étalée vers la droite <=> moy > med > mode => distribution étalée vers la gauche Coefficient de kurtosis Si F = 0 la distribution est « normale » Si F < 0, la distribution est plus aplatie que la normale Si F > 0, la distribution est moins aplatie que la normale
Différents paramètres pour la loi normale
Représentations graphiques Synthèse Boîte à moustache (box plots) Représentation graphique d’un caractère numérique résumé par la valeur minimal le premier quartile la médiane le dernier quartile la valeur maximale
Représentations graphiques Caractères qualitatifs: diagramme à bandes ou à secteurs Caractères quantitatifs: histogrammes avec regroupement en classes d’amplitudes égales ou inégales Préférer toujours Excel à SAS