Statistiques Sociales LC4 Louis Chauvel Pr Dr Université du Luxembourg louis.chauvel@uni.lu http://www.louischauvel.org Statistiques Sociales LC4 1
Présentation Séance 1- Aujourd’hui : élaborer un questionnaire et le saisir sur Internet Séance 2- 7/11/17 Les statistiques univariées sur EXCEL Séance 3- 14/11/17 Eléments de statistique univariées Séance 4- 21/11/17 Dispersion, Incertitude statistique, Croisements de données (statistiques bivariées) (début) Séance 5- Les croisements de données (suite) Séance 6- Introduction à l’analyse des données approfondie
Séance 4 1- Introduction : Rappels 2- Statistiques sur variables quantitatives : Dispersion (déciles, écart-type) 3- Echantillons et incertitude statistique : les bases 4- Croisements de données (statistiques bivariées) (début) 5- Conclusion : récapitulatif
1- Introduction : Rappels Types de variables (quali / quanti / autres [ordinales / dichotomiques] ) Statistiques univariées ( quali = % ; quanti = moyenne +) AUJOURD’HUI = dispersion et incertitude statistique 4
Rappels Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)
Rappels La « densité » = profil de l’histogramme « bas » de la distribution (pauvres) Queue de distribution (riches) En abscisse : revenu par tête (euros)
Rappels Mode 23 000 Médiane 32 859 « seuil de pauvreté relative » 60% de la médiane =19715.4 € Moyenne 37375 La moyenne est-elle trompeuse ? 1- quand une distribution est très dissymétrique, la moyenne est très différente de la médiane 2- lorsque la distribution est très « écrasée » à droite (riches), de nombreux individus sont loin de la moyenne
2- Statistiques univariées sur variables quantitatives : dispersion (déciles, écart-type) 8
D10 3c Différents indicateurs de dispersion : QG1 QG2 QG3 QG4 Médiane Quartiles / quintiles / déciles ( / centiles) Quantiles q et groupes de quantiles Q (Le rapport interquartile : q3/q1) Déciles d et groupes de déciles D (Le rapport interdécile : d9/d1) « Seuil de pauvreté relative » = 1/2 médiane QG1 QG2 QG3 QG4 Médiane Mode queue de distribution D10 Moyenne Med =q2 q1 q3 d1 d9 10 % 25 % Med/2 = seuil de pauvreté relative
Les statistiques de dispersion : écart-type L’écart-type : S [x – moy(x)]2 n S’interprète comme la « distance moyenne à la moyenne » : Ex : l’écart-type des revenus est : Ect (revenu par tête) = 22 125 Ect (x) =
Exemple de la « loi normale » (taille, corpulence, QI, notes dans une classe) Valeurs approchées Ect moy Deux tiers de la pop entre : (moy – Ect) et (moy + Ect) 95 % de la pop entre : (moy – 2 Ect) et (moy + 2 Ect)
Exemple de la « loi normale » (taille, corpulence, QI, notes dans une classe) Valeurs exactes (pas à savoir) Ect moy 2/3 de la pop entre : (moy – 0,97 Ect) et (moy + 0,97 Ect) 95 % de la pop entre : (moy – 1,96 Ect) et (moy + 1,96 Ect)
Exemple : La taille des Néerlandais et des Portugais Est-il possible de discriminer Néerlandais et Portugais simplement sur leur taille ? Hommes, Pays-Bas : moy (taille) = 1,80 m ect (taille) = 7,79 cm Hommes, Portugal : moy (taille) = 1,70 m ect (taille) = 7,48 cm => Réponse : oui et non… Seuls 16 % des néerlandais sont sous la barre des 1,72 m, donc un Portugais moyen a des chances d’être un peu reconnaissable, mais ce n’est pas systématique !…
3- Echantillons et incertitude statistique : les bases 14
Echantillons et incertitude statistique : les bases « Univers » = Population étudiée « population mère » taille N On cherche à connaitre le % p Echantillon probabiliste (aléatoire) uniforme taille n taux de sondage = n/N On observe le % f (estimateur du pourcentage p) p PB: « tirage probabiliste » comment faire ? f p f n = ± - 2 1 ( )
Univers : votes pour A p=?% 2 candidates A & B Univers : votes pour A p=?% Echantillon probabiliste uniforme n=1000 size f=54% Alors 54-3.2 < p < 54+3.2 (95% intervalle de confiance à 95%) find a more complete Gauss’ confidence interval at 95% there : www.louischauvel.org/tabledegauss.doc
Application « Univers » = X% de la population va voter pour la candidate A Dans l’échantillon probabiliste de taille n=1000 La candidate A obtient 52% des voix A peut-elle considérer que c’est bon?... Réponse = on a toujours intérêt à travailler du premier jusqu’au dernier moment !
4- Croisements de données (statistiques bivariées) (1e partie) (variables qualitatives: le tri croisé) 18
Lire les tris croisés et significativité du lien « On n’explique qu’en comparant » (Durkheim) La présentation standard des tris croisés Le lien est-il statistiquement significatif ?
« On n’explique qu’en comparant » (Durkheim) Représentation des fréquences : le camembert ! On an average weekday, how much time, in total, do you spend watching television? <1h 23% 1h à 2h 28% 2h à 3h 29% >3h 20% European Social Survey, 2012, French extract (N=1503) (C’est un échantillon probabiliste uniforme!)
« On n’explique qu’en comparant » (Durkheim) On an average weekday, how much time, in total, do you spend watching television? >3h 10% 2h à 3h <1h 18% 41% Diplômé du supérieur long 1h à 2h 31% <1h >3h 14% 31% Sans diplôme 1h à 2h 26% 2h à 3h 29%
La présentation standard des tris croisés On an average weekday, how much time, in total, do you spend watching television? Pourcentage ligne Recette : pourcentage en ligne avec : en ligne : variable de statut (“causale”); en colonne, variable de comportement ou d’opinion (“causée”) [“Toute chose étant aidée et aidante, causée et causante, je tiens pour impossible de connaître le tout sans connaître les parties et de connaître les parties sans connaître le tout » Blaise Pascal, Pensées] Heures TV (% ligne) Diplôme
Comparer la table précédente avec celle en % colonne On an average weekday, how much time, in total, do you spend watching television? Heures TV (% ligne) Diplôme … C’est plus difficile à lire !
Le lien est-il statistiquement significatif ? Question : Pouvons-nous inférer d’un lien observé dans l’échantillon l’existence d’un lien dans l’univers ? Le lien est dit significatif si nous pouvons dire que le lien observé dans l’échantillon ne peut être le fruit d’un tirage au hasard à partir d’un univers où les variables seraient à l’indépendance (au seuil de 95 % = avec au moins 95 % de chances d’avoir raison) Réponse : le test du Khi-2 (c2) de Pearson Univers échantillonné Lien existant ? EPU Lien observé sur le tri croisé
Effectifs empiriques et effectifs théoriques (sous hypothèse d’indépendance) Colonne j n i ,j Table dans l’enquête réalisée (effectifs empiriques) Marge ligne n Ligne i i ,. Total table n . ,. Quels effectifs dans la table s’il n’y avait aucun lien entre diplôme et écoute de la TV ? (effectifs théoriques sous hypothèse d’indépendance) = n ., j Marge colonne n n m i ,. . ,j i ,j n i ,j
Dans l’exemple ci-dessus, Khi2 = 123,5 La statistique du Khi 2 (c2) (Le khi2 de Karl Pearson, 1900) C’est en quelque sorte une mesure de distance entre le tableau empirique effectivement obtenu et le tableau tel qu’il devrait être à l’indépendance Dans l’exemple ci-dessus, Khi2 = 123,5 Attention : « effectif à l’independance » ne doit jamais descendre en dessous de 5 (il faut sinon regrouper des modalités)
En tant que telle, la statistique du Khi 2 (c2) ne veut rien dire, sauf que l’on sait qu’elle est proportionnelle : - au nombre d’individus dans l’enquête - au nombre de ligne et de colonne dans le tableau - à l’intensité du lien entre les variables croisées Pour interpréter la valeur du Khi2, il faut connaître le nombre de « degrés de liberté de la table : (nb de colonnes – 1) multiplié par (nb de lignes – 1) Ici : le nombre de degrés de liberté vaut 18 En possession de ces informations, nous pouvons dire si le lien est statistiquement significatif (au seuil de 95 %)
5- Conclusion : Récapitulatif 28