Statistiques Sociales LC3 Louis Chauvel Pr Dr Université du Luxembourg louis.chauvel@uni.lu http://www.louischauvel.org Statistiques Sociales LC3 1
Présentation Séance 1- Aujourd’hui : élaborer un questionnaire et le saisir sur Internet Séance 2- 7/11/17 Les statistiques univariées sur EXCEL Séance 3- 14/11/17 Eléments de statistique univariées Séance 4- Les croisements de données (statistiques bivariées) Séance 5- Introduction à SPSS / PSPP Séance 6- Introduction à l’analyse des données approfondie
Séance 3 1- Introduction : Analyse statistique : la mesure du social 2- Les variables (quantitatives, qualitatives, etc.) 3- Statistiques sur variables quantitatives : tendance centrale (Moyenne, médiane, mode) et dispersion (déciles, écart-type) 4- Fréquences / proportions / histogrammes / camemberts 5- Echantillons et incertitude statistique : les bases 6- Conclusion : récapitulatif
1- Introduction : Mesurer le social Problèmes conceptuels, Problèmes épistémologiques, Problèmes sociaux,… 4
2- Les variables (quantitatives, qualitatives, etc.) 5
2a – Variables « qualitatives » (dites nominales, catégoriques, etc. ) Décrivent les individus selon des caractéristiques a priori non-hiérarchiques [=partition] Exemples: sexe, canton de résidence, profession, etc. On en fait: des pourcentages * Etiquettes, dénominations, catégorisations * Exhaustivité et exclusivité mutuelle des catégories * Codages numériques des catégories sans significations * Pas de hiérarchisation (a priori) entre catégories Attention: citoyenneté (plusieurs pays possibles) = variable multiple 6
2b – Variables « quantitatives » (dites numérique, métrique, intervalle, etc. ) Décrivent la position d’individus sur une échelle de mesure Exemples: âge (en années), poids (kg), taille (m), revenu (€), etc. On en fait: des histogrammes, moyennes, déciles, écart-types, etc. * Relation de distance * Transformations par calculs possibles * S’exprime souvent selon une unité de mesure 7
2c – Variables de type mixte (ou ambigu) Variables ordinales (très, beaucoup, ni-ni, pas trop, pas du tout) Variables dichotomiques (0/1) * Pas une relation de distance mais une relation d’ordre (hiérarchie) * S’exprime souvent selon une unité de mesure 8
Variables de ratio (pourcentages) 2d – Autres variables Autres cas Variables de ratio (pourcentages) Variables de proportion (entre 0 et 1) Etc. 9
3- Statistiques univariées sur variables quantitatives : tendance centrale (Moyenne, médiane, mode) et dispersion (déciles, écart-type) 10
3a. Les distributions de variables numériques : de l’histogramme à la densité La diversité des variables numériques : discrètes / continues ; additives / multiplicatives, etc. Les variables numériques continues et la difficulté de leur représentation => Exemple du revenu au Luxembourg (2011)
Exemple du revenu en France Enquête SILC 2000 : 11 451 ménages interrogés sur les revenus et les dépenses de l’année Problème : si on considère le revenu (au cents près) par tête dans le ménage (après impôt), on ne peut guère trouver deux ménages avec le même revenu => solution : on peut représenter la « distribution » par un histogramme fondé sur un découpage en tranches ni trop fines ni trop épaisses …
Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 500 €
Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 2000 €
Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros), ici en tranches de 500 €
Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)
La « densité » = profil de l’histogramme Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)
3b Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… La moyenne arithmétique : S x n n = nombre d’individus : 11 407 dans l’enquête SILC 2011 La moyenne est la somme des valeurs divisée par n 37375 euros par unité de consommation UC Moy (x) =
Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… La médiane : C’est la valeur qui divise en deux parties égales la population Ex : la médiane des revenus est le revenu qui divise en deux parties égales de 50 % la population : méd (revenu par tête) = 32 859 euros/an/tête
Les statistiques de tendance centrale : moyenne arithmétique, médiane, mode,… Le mode : C’est la valeur qui regroupe le plus d’individus Ex : le mode des revenus est situé autour de 23 000 euros/an/tête
Mode 23 000 Médiane 32 859 Moyenne 37375 La moyenne est-elle trompeuse ? 1- quand une distribution est très dissymétrique, la moyenne est très différente de la médiane 2- lorsque la distribution est très « écrasée » à droite (riches), de nombreux individus sont loin de la moyenne
3c Différents indicateurs de dispersion : Quartiles / quintiles / déciles ( / centiles) Quantiles et groupes de quantiles (Le rapport interquartile : q3/q1) Le rapport interdécile ; d9/d1 « Seuil de pauvreté relative » = 1/2 médiane QG1 QG2 QG3 QG4 Médiane Mode queue de distribution Moyenne Med =q2 q1 q3 d1 d9 10 % 25 % Med/2 = seuil de pauvreté relative
Les statistiques de dispersion : écart-type L’écart-type : S [x – moy(x)]2 n S’interprète comme la « distance moyenne à la moyenne » : Ex : l’écart-type des revenus est : Ect (revenu par tête) = 22 125 Ect (x) =
Exemple de la « loi normale » (taille, QI, notes dans une classe) Ect moy 68 % de la pop entre : (moy – Ect) et (moy + Ect) 95,5 % de la pop entre : (moy – 2 Ect) et (moy + 2 Ect)
Exemple de la « loi normale » (la taille des conscrits, les notes, …) Ect moy 2/3 de la pop entre : (moy – 0,97 Ect) et (moy + 0,97 Ect) 95 % de la pop entre : (moy – 1,96 Ect) et (moy + 1,96 Ect)
Exemple : La taille des Néerlandais et des Portugais Est-il possible de discriminer Néerlandais et Portugais simplement sur leur taille ? Hommes, Pays-Bas : moy (taille) = 1,80 m ect (taille) = 7,79 cm Hommes, Portugal : moy (taille) = 1,70 m ect (taille) = 7,48 cm => Réponse : oui et non… Seuls 16 % des néerlandais sont sous la barre des 1,72 m, donc un Portugais moyen a des chances d’être un peu reconnaissable, mais ce n’est pas systématique !…
Différents indicateurs de dispersion : Quartiles / quintiles / déciles ( / centiles) Quantiles et groupes de quantiles (Le rapport interquartile : q3/q1) Le rapport interdécile ; d9/d1 « Seuil de pauvreté relative » = 1/2 médiane QG1 QG2 QG3 QG4 Médiane Mode queue de distribution Moyenne Med =q2 q1 q3 d1 d9 10 % 25 % Med/2 = seuil de pauvreté relative
4- Statistiques univariées sur variables qualitatives : fréquences 28
5- Echantillons et incertitude statistique : les bases 29
Echantillons et incertitude statistique : les bases Unknown percentage p votes for A Population (Universe) (size N) Random Sample (sampling rate n/N) size n Known percentage f votes for A Echantillon probabiliste (aléatoire) uniforme taux de sondage = n/N p f n = ± - 2 1 ( ) p f
Echantillon probabiliste uniforme n=1000 size f=54% 2 candidates A & B Univers : votes A p=?% Echantillon probabiliste uniforme n=1000 size f=54% Then 54-3.2 < p < 54+3.2 (95% confidence interval) find a more complete Gauss’ confidence interval at 95% there : www.louischauvel.org/tabledegauss.doc
4- Histogrammes 3c- Tris Croisés 4- Pour la semaine prochaine : saisir votre questionnaire sur Google Forms 32
6- Conclusion : Récapitulatif 33