Rappels de statistiques descriptives
Plan
Types de variables aléatoires (VA) Caractère et Modalité : Ensemble de n éléments : n individus. Chaque individu possède un caractère. Ex : le caractère sexe Le caractère « sexe » peut prendre 2 modalités : masculin ou féminin Caractère qualitatif-quantitatif : On dit qu’un caractère qui ne peut être ni mesuré ni compté qu’il est qualitatif; Par exemple le caractère « situation patrimoniale »peut prendre les modalités « veuf, célibataire, marié…. » On dit qu’un caractère est quantitatif si on peut le mesurer ou le compter; par exemple, la variable poids est une variable quantitative. De même la variable « nb de pages d’un livre »
Caractère qualitatif-quantitatif Caractères qualitatifs Caractères quantitatifs
Caractère discret-continu Une variable statistique discrète ne prend que certaines valeurs dans un intervalle donné Un caractère qualitatif est toujours discret Une variable continue se représente en classes (toutes les valeurs au sein de la classe sont alors considérées comme possibles Variable aléatoire discrète : X prend des valeurs parmi un ensemble restreint de valeurs possibles; ex: le nb de notes>10; Ce nb ne peut prendre que des valeurs entières 1,2….50 mais pas 10.5 VA continue : X peut prendre n’importe quelle valeur réelle. A toute variable continue est associée la notion d’incertitude de la mesure; Ex : le poids est une variable aléatoire continue. On ne mesure pas le poids de façon sûre. Par contre le salaire est une variable discrète car le salaire est calculé de façon sûre (aucune incertitude sur le montant) quelque soit le nb de chiffres après la virgule
Variable continu Les classes d’un caractère continu en constituent les modalités Les classes sont définies par les valeurs de leurs extrémités : borne de gauche - borne de droite On note [6000 ; 7000[ la classe allant de 6000 inclus à 7000 exclu Pour le calcul du centre de classes, les classes consécutives se notent : [6000 ; 7000[ [7000 ; 9000[ [9000 ; 12000[ etc. Le centre de classe est la moyenne entre les deux bornes : (6000 + 7000)/2 ; (7000 + 9000)/2 Les amplitudes de classes peuvent être constantes ou variables
Tableau des données
Exemples Données ponctuelles d’une variable aléatoire discrète Tableau de distribution Xi = âge de l’étudiant Ni = effectif correspondant N° 1 2 3 4 5 6 7 8 9 10 âge 18 19 20 21 22 xi 18 19 20 21 22 ni 3 2 1 N° = N° d’étudiant : étudiant 1, étudiant 2….
Effectif et fréquences Effectif d’une modalité xi d’un caractère X : nb d’individus présentant cette modalité Notation ni : nb de fois que la modalité est présente dans la population étudiée N = effectif total ; Fréquence d’une modalité xi d’un caractère X : Proportion d’individus de la population totale qui présentent cette modalité On la note fi :
Effectif et fréquences (2) Effectif cumulé Nb d’individus de la population présentant au plus cette modalité Notation : Fréquence cumulée Somme des fréquences des modalités qui lui sont inférieures ou égales Notation : ou
Exemple Poids : xi Effectif : ni fréquences Fréquences cumulées <50 2 [50,60] 4 [60,70[ [70,80[ 6 >= 80 S 20 Poids : xi Effectif : ni fréquences Fréquences cumulées <50 2 0.10 [50,60] 4 0.20 0.30 [60,70[ 0.50 [70,80[ 6 0.80 >= 80 1 S 20
Paramètres d’une distribution d’une VA quantitative 2 types de paramètre Paramètre de tendance moyenne, médiane, mode Paramètre de dispersion Résumé de la + ou – grande concentration des valeurs autour d’un paramètre de tendance centrale
Paramètre de tendance : la moyenne On note la moyenne arithmétique de la VA X D’après le tableau de distribution de la VA X Xi et ni sont connus
Paramètre de tendance : la moyenne VA discrète La moyenne se calcule d’après les xi et ni qui sont donnés dans le tableau de distribution VA continue Les modalités de la variable sont des classes On retient comme valeurs de la VA les centres de classe Inconvénient : un calcul approché
Exemple moyenne (VA continue) On étudie la distribution de 24 étudiants selon leur taille Taille : xi Effectif : ni Centre de classe ci <1,60 6 1,55 [1,60;1,70[ 7 1,65 [1,70;1,80[ 8 1,75 [1,80;1,90[ 2 1,85 >= 1,90 1 1,95 S 24 Dernière colonne = ni x ci => S = 40.5 (9.3; 11.55;14,3.7;1.95)
Propriétés de la moyenne Soit z = a X +b avec a et b des constantes La somme des écarts à la moyenne, pondérés par les effectifs, est nulle La moyenne est sensible aux valeurs extrêmes
Paramètre de tendance : la médiane Définition Valeur de la VA X telle que l’on ait autant d’observations qui ont une valeur supérieure ou égale à Me que d’observations qui ont une valeur inférieure ou égales à Me La médiane est la valeur prise par X qui partage la population étudiée en 2 sous-ensembles égaux Mode de calcul Le calcul de la médiane dépend de la nature de la variable : discrète ou continue Avantage de la médiane Elle résume bien la distribution observée Elle minimise :
Médiane d’une variable discrète Les valeurs prises par X doivent être classées par ordre croissant Se Calcule à partir des effectifs cumulés ou des fréquences cumulés Lorsque le nombre d’observations est impair La médiane est la valeur de X qui correspond à l’effectif cumulé (n+1)/2 si les éléments sont classés par ordre croissant Lorsque le nombre d’observations est pair Aucune observation ne permet de partager en 2 groupes égaux la population si la suite possède un nombre pair de termes soit 2n, la médiane est constituée par la moyenne du (n)e et du (n+1)e terme
Médiane d’une variable discrète Xi ni Snj 5 1 8 13 2 6 19 3 22 4 24 25 S Xi ni Snj 5 1 8 13 2 6 19 3 4 23 24 26 S Xi ni Snj 5 1 8 13 2 6 19 3 22 4 23 24 S Quand la suite possède un nombre impair de terme, nous prenons ici la moyenne entre le n et le (n+1) terme. Cependant, je dois noter que d’autres statisticiens et certains logiciels statistiques procèdent différemment. Il n ’y a en fait pas plus d’arguments pour justifier une méthode qu’une autre. L’important est juste de signaler la méthode que l’on utilise. Me =1 Me =1 Me = 1,5
Médiane d’une variable continue Un calcul exact dans le cas continue 2 étapes 1. Détermination de la classe médiane On détermine la classe dans laquelle se situe la médiane de façon identique à une VA discrète 2. Détermination de la médiane par interpolation linéaire
Médiane d’une variable continue Effectif cumulé n2 N/2 nn n1 x1 X Me x2
Médiane d’une variable continue : exemple Taille : xi Effectif : ni Effectifs cumulés : Ni <1,60 6 [1,60;1,70[ 7 13 [1,70;1,80[ 8 21 [1,80;1,90[ 2 23 >= 1,90 1 24 S N/2 = 12 la médiane est comprise entre 1,60m et 1,70 m
Médiane d’une variable continue Effectif cumulé 13 nn 12 6 1,60 1,70 Me X Me = 1,60+(1,70-1,60)
Paramètres de tendance centrale : synthèse
Paramètre de dispersion La moyenne : un indicateur insuffisant pour caractériser une distribution car adaptée que dans les situations égalitaires 2 types des paramètres L’intervalle interquartile La variance ou l’écart-type Insuffisance du calcul de la moyenne : cas des salaires dans une entreprise très concentrés autour d’une valeur et un salaire très élevé. La moyenne va donc être tirée à la hausse par le très gros salaire. Elle n’a pas significative dans ce cas.
Paramètre de dispersion Interprétation :L'écart - type donne l'écart moyen des observations par rapport à la moyenne Les courbes ci-dessus représentent 2 distributions de même moyenne et de dispersion différente. Pour x < xo, les fréquences correspondant à la courbe A sont presque nulles, tandis que les fréquences correspondant à la courbe B sont, de loin, différentes de 0.
Paramètre de dispersion Définition de la variance L’écart-type ou
Paramètre de dispersion Xi ni niXi niXi*Xi 5 1 8 2 6 12 24 3 9 27 4 32 25 S 42 116 S/n 1.68 4.64