Pratiques des sciences sociales Le monde des nombres Séance 3 : Les variables numériques (1) Les nombres et leur mise en représentation Bruno Cautrès, Chercheur au CEVIPOF Louis Chauvel, Professeur des Universités à Sciences Po Site du cours : http://louis.chauvel.free.fr
Plan de cette séance : c’est du sérieux ! Les distributions de variables numériques : de l’histogramme à la densité Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… Les statistiques de dispersion : écart-type, fractiles, rapports interdéciles, coefficient de Gini…
Les distributions de variables numériques : de l’histogramme à la densité La diversité des variables numériques : discrètes / continues ; additives / multiplicatives, etc. Les variables numériques continues et la difficulté de leur représentation => Exemple du revenu en France
Exemple du revenu en France Enquête Budget des ménages 2000 : 10 305 ménages interrogés sur les revenus et les dépenses de l’année (les gens déclarent-ils la réalité ou leur réalité ????) Problème : si on considère le revenu (au centime près) par tête dans le ménage (après impôt), on ne peut guère trouver deux ménages avec le même revenu => solution : on peut représenter la « distribution » par un histogramme fondé sur un découpage en tranches ni trop fines ni trop épaisses …
Exemple du revenu en France 43 ménages situés entre 10000 et 10050 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 50 €
Exemple du revenu en France 88 ménages situés entre 10000 et 10100 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 100 €
Exemple du revenu en France 771 ménages situés entre 10000 et 11000 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 1000 €
En abscisse : revenu par tête (euros) Exemple du revenu en France => la « densité » Queue de distribution En ordonnée : échelle normée => surface sous la courbe = 1 En abscisse : revenu par tête (euros)
En abscisse : revenu par tête (euros) Exemple du revenu en France => la « densité » En ordonnée : échelle normée => surface sous la courbe = 1 En abscisse : revenu par tête (euros)
Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… La moyenne arithmétique : S x n La somme des valeurs divisé par le nombre n d’individus : Ex : somme de tous les revenus rapportée au nombre d’individus : moy (revenu par tête) = 14 155 euros/an/tête Moy (x) =
Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… La médiane : C’est la valeur qui divise en deux parties égales la population Ex : la médiane des revenus est le revenu qui divide en deux parties égales de 50 % la population : méd (revenu par tête) = 10 906 euros/an/tête
Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… Le mode : C’est la valeur qui regroupe le plus d’individus Ex : le mode des revenus est situé autour de 8500 euros/an/tête
Mode 8 500 Médiane 10 906 Moyenne 14 150 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 22000 24000 26000 28000 30000 32000 34000 La moyenne est-elle trompeuse ? 1- quand une distribution est très dissymétrique, la moyenne est très différente de la médiane 2- lorsque la distribution est très « écrasée », de nombreux individus sont loin de la moyenne
Les statistiques de dispersion : écart-type, fractiles, rapports interdéciles, coefficient de Gini… L’écart-type : S [x – moy(x)]2 n S’interprète comme la distance (quadratique) moyenne à la moyenne : Ex : l’écart-type des revenus est : Ect (revenu par tête) = 16 060 euros/an/tête Ect (x) =
Exemple de la « loi normale » (la taille des conscrits, les notes aux concours de Sciences-Po, …) Ect moy 68 % de la pop entre : (moy – Ect) et (moy + Ect) 95,5 % de la pop entre : (moy – 2 Ect) et (moy + 2 Ect)
Exemple de la « loi normale » (la taille des conscrits, les notes aux concours de Sciences-Po, …) Ect moy 2/3 de la pop entre : (moy – 0,97 Ect) et (moy + 0,97 Ect) 95 % de la pop entre : (moy – 1,96 Ect) et (moy + 1,96 Ect)
Exemple : La taille des Néerlandais et des Portugais Est-il possible de discriminer Néerlandais et Portugais simplement sur leur taille ? Hommes, Pays-Bas : moy (taille) = 1,80 m ect (taille) = 7,79 m Hommes, Portugal : moy (taille) = 1,70 m ect (taille) = 7,48 m => Réponse : oui et non… Seuls 16 % des néerlandais sont sous la barre des 1,72 m, donc un Portugais moyen a des chances d’être un peu reconnaissable, mais ce n’est pas systématique !…
Différents indicateurs de dispersion : Quartiles / quintiles / déciles ( / centiles) Quantiles et groupes de quantiles (Le rapport interquartile : q3/q1) Le rapport interdécile ; d9/d1 « Seuil de pauvreté relative » = 1/2 médiane QG1 QG2 QG3 QG4 Médiane Mode queue de distribution Moyenne Med =q2 q1 q3 d1 d9 10 % 25 % Med/2 = seuil de pauvreté relative
The strobiloid representation of income distribution Higher income class = rich 200 Median income class = « middle class » 100 median income 50 Lower income class = poor
Median national income Comparisons of national strobiloids : national median Brazil : Median disposable income per year per capita : 6.900 $PPP/an Gini coef.: 59.8 % Median class = 44 % US : Median disposable income per year per capita : 32.000 $PPP/an Gini coef.: 34.5 % Median class = 58 % Sweden : Median disposable income per year per capita : 23.000 $PPP/an Gini coef.: 25.2 % Median class = 84 % Median national income
Courbe de Lorenz et coefficient de Gini : 10 20 30 40 50 60 70 80 90 100 % de revenu cumulé Le Gini vaut 0 en cas d’égalité absolue, et 1 en cas de captation de l’ensemble du revenu par une seule personne La surface entre la courbe et la diagonale = coefficient de Gini Les 60 % les moins aisés gagnent 36 % du revenu total % de la population par revenu croissant 5
Représentations de l’inégalité : comparaison de coefficients de Gini Suède France Brésil 11
Que faut-il absolument retenir Que faut-il absolument retenir ? (mais aussi le reste : c’est de la culture…) L’histogramme et la densité Le sens des indicateurs : moyenne arithmétique, médiane, mode,… La formule de la moyenne … Le sens des indicateurs : écart-type, fractiles, rapports interdéciles, coefficient de Gini… La formule de écart-type