Statistiques Sociales LC4

Slides:



Advertisements
Présentations similaires
Interprétation des données d’enquête Rappel 1: l’essentiel vu jusqu’ici : Intervention inéluctable du hasard dans le choix de l’échantillon Par définition,
Advertisements

Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
S tratification sociale et inégalités M esures des inégalités Une société fluide ? Démocratie et inégalités.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
O ij BrunChâtainRouxBlond Total Marron Noisette Vert Bleu Total Dans cet exemple,
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Chapitre 5 Interprétation des données d’enquête
Notions de statistiques et d’analyse de données
Et maintenant, le mode : fastoche !
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Tableau à double entrée
Chapitre 1 Généralités sur les données
Statistiques descriptives univariées
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Interprétation des indicateurs?
Comparaison de deux pourcentages.
Chapitre 1 Généralités sur les données
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Contrôle de production
Pour aller directement à la reprise du cours
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
Chapitre 1 Généralités sur les données
Comment mesurer les inégalités ?
Statistiques Sociales LC1
Introduction aux Statistiques Variables aléatoires
Technologies de l’intelligence d’affaires Séance 12
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Statistiques Sociales LC3
4.3 Estimation d’une proportion
Statistiques Sociales LC2
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
Introduction aux statistiques Intervalles de confiance
Statistiques Sociales LC5
Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence.
Pourquoi étudier la statistique ?
ACP Analyse en Composantes Principales
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Statistiques.
POL1803: Analyse des techniques quantitatives
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Chapitre 4: Caractéristiques de dispersion
Test 2.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
Statistiques Sociales LC6
Mesures de Position Dispersion et Forme
On lance 100 fois de suite une pièce de monnaie.
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Travail collaboratif sur l’ENT et innovation dans les pratiques professionnelles des enseignants.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
μ = N 3) Moyenne d’une série discrète : ∑ ni xi que l’on peut noter
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Exercice 2 Soient les notes obtenues dans une classe par les élèves, et leur appartenance aux groupes 1 ou 2 : 8(groupe 1), 9(groupe 2), 11(groupe 2),
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

Statistiques Sociales LC4 Louis Chauvel Pr Dr Université du Luxembourg louis.chauvel@uni.lu http://www.louischauvel.org Statistiques Sociales LC4 1

Présentation Séance 1- Aujourd’hui : élaborer un questionnaire et le saisir sur Internet Séance 2- 7/11/17 Les statistiques univariées sur EXCEL Séance 3- 14/11/17 Eléments de statistique univariées Séance 4- 21/11/17 Dispersion, Incertitude statistique, Croisements de données (statistiques bivariées) (début) Séance 5- Les croisements de données (suite) Séance 6- Introduction à l’analyse des données approfondie

Séance 4 1- Introduction : Rappels 2- Statistiques sur variables quantitatives : Dispersion (déciles, écart-type) 3- Echantillons et incertitude statistique : les bases 4- Croisements de données (statistiques bivariées) (début) 5- Conclusion : récapitulatif

1- Introduction : Rappels Types de variables (quali / quanti / autres [ordinales / dichotomiques] ) Statistiques univariées ( quali = % ; quanti = moyenne +) AUJOURD’HUI = dispersion et incertitude statistique 4

Rappels Exemple du revenu par unité de conso Luxembourg 2011 43 ménages situés entre 10000 et 10500 euros par an Queue de distribution En ordonnée : les effectifs dans chaque tranche En abscisse : revenu par tête (euros)

Rappels La « densité » = profil de l’histogramme « bas » de la distribution (pauvres) Queue de distribution (riches) En abscisse : revenu par tête (euros)

Rappels Mode 23 000 Médiane 32 859 « seuil de pauvreté relative » 60% de la médiane =19715.4 € Moyenne 37375 La moyenne est-elle trompeuse ? 1- quand une distribution est très dissymétrique, la moyenne est très différente de la médiane 2- lorsque la distribution est très « écrasée » à droite (riches), de nombreux individus sont loin de la moyenne

2- Statistiques univariées sur variables quantitatives : dispersion (déciles, écart-type) 8

D10 3c Différents indicateurs de dispersion : QG1 QG2 QG3 QG4 Médiane Quartiles / quintiles / déciles ( / centiles) Quantiles q et groupes de quantiles Q (Le rapport interquartile : q3/q1) Déciles d et groupes de déciles D (Le rapport interdécile : d9/d1) « Seuil de pauvreté relative » = 1/2 médiane QG1 QG2 QG3 QG4 Médiane Mode queue de distribution D10 Moyenne Med =q2 q1 q3 d1 d9 10 % 25 % Med/2 = seuil de pauvreté relative

Les statistiques de dispersion : écart-type L’écart-type : S [x – moy(x)]2 n S’interprète comme la « distance moyenne à la moyenne » : Ex : l’écart-type des revenus est : Ect (revenu par tête) = 22 125 Ect (x) =

Exemple de la « loi normale » (taille, corpulence, QI, notes dans une classe) Valeurs approchées Ect moy Deux tiers de la pop entre : (moy – Ect) et (moy + Ect) 95 % de la pop entre : (moy – 2 Ect) et (moy + 2 Ect)

Exemple de la « loi normale » (taille, corpulence, QI, notes dans une classe) Valeurs exactes (pas à savoir) Ect moy 2/3 de la pop entre : (moy – 0,97 Ect) et (moy + 0,97 Ect) 95 % de la pop entre : (moy – 1,96 Ect) et (moy + 1,96 Ect)

Exemple : La taille des Néerlandais et des Portugais Est-il possible de discriminer Néerlandais et Portugais simplement sur leur taille ? Hommes, Pays-Bas : moy (taille) = 1,80 m ect (taille) = 7,79 cm Hommes, Portugal : moy (taille) = 1,70 m ect (taille) = 7,48 cm => Réponse : oui et non… Seuls 16  % des néerlandais sont sous la barre des 1,72 m, donc un Portugais moyen a des chances d’être un peu reconnaissable, mais ce n’est pas systématique !…

3- Echantillons et incertitude statistique : les bases 14

Echantillons et incertitude statistique : les bases « Univers » = Population étudiée « population mère » taille N On cherche à connaitre le % p Echantillon probabiliste (aléatoire) uniforme taille n taux de sondage = n/N On observe le % f (estimateur du pourcentage p) p PB: « tirage probabiliste » comment faire ? f p f n = ± - 2 1 ( )

Univers : votes pour A p=?% 2 candidates A & B Univers : votes pour A p=?% Echantillon probabiliste uniforme n=1000 size f=54% Alors 54-3.2 < p < 54+3.2 (95% intervalle de confiance à 95%) find a more complete Gauss’ confidence interval at 95% there : www.louischauvel.org/tabledegauss.doc

Application « Univers » = X% de la population va voter pour la candidate A Dans l’échantillon probabiliste de taille n=1000 La candidate A obtient 52% des voix A peut-elle considérer que c’est bon?... Réponse = on a toujours intérêt à travailler du premier jusqu’au dernier moment !

4- Croisements de données (statistiques bivariées) (1e partie) (variables qualitatives: le tri croisé) 18

Lire les tris croisés et significativité du lien « On n’explique qu’en comparant » (Durkheim) La présentation standard des tris croisés Le lien est-il statistiquement significatif ?

« On n’explique qu’en comparant » (Durkheim) Représentation des fréquences : le camembert ! On an average weekday, how much time, in total, do you spend watching television? <1h 23% 1h à 2h 28% 2h à 3h 29% >3h 20% European Social Survey, 2012, French extract (N=1503) (C’est un échantillon probabiliste uniforme!)

« On n’explique qu’en comparant » (Durkheim) On an average weekday, how much time, in total, do you spend watching television? >3h 10% 2h à 3h <1h 18% 41% Diplômé du supérieur long 1h à 2h 31% <1h >3h 14% 31% Sans diplôme 1h à 2h 26% 2h à 3h 29%

La présentation standard des tris croisés On an average weekday, how much time, in total, do you spend watching television? Pourcentage ligne Recette : pourcentage en ligne avec : en ligne : variable de statut (“causale”); en colonne, variable de comportement ou d’opinion (“causée”) [“Toute chose étant aidée et aidante, causée et causante, je tiens pour impossible de connaître le tout sans connaître les parties et de connaître les parties sans connaître le tout » Blaise Pascal, Pensées] Heures TV (% ligne) Diplôme

Comparer la table précédente avec celle en % colonne On an average weekday, how much time, in total, do you spend watching television? Heures TV (% ligne) Diplôme … C’est plus difficile à lire !

Le lien est-il statistiquement significatif ? Question : Pouvons-nous inférer d’un lien observé dans l’échantillon l’existence d’un lien dans l’univers ? Le lien est dit significatif si nous pouvons dire que le lien observé dans l’échantillon ne peut être le fruit d’un tirage au hasard à partir d’un univers où les variables seraient à l’indépendance (au seuil de 95 % = avec au moins 95 % de chances d’avoir raison) Réponse : le test du Khi-2 (c2) de Pearson Univers échantillonné Lien existant ? EPU Lien observé sur le tri croisé

Effectifs empiriques et effectifs théoriques (sous hypothèse d’indépendance) Colonne j n i ,j Table dans l’enquête réalisée (effectifs empiriques) Marge ligne n Ligne i i ,. Total table n . ,. Quels effectifs dans la table s’il n’y avait aucun lien entre diplôme et écoute de la TV ? (effectifs théoriques sous hypothèse d’indépendance) = n ., j Marge colonne n n m i ,. . ,j i ,j n i ,j

Dans l’exemple ci-dessus, Khi2 = 123,5 La statistique du Khi 2 (c2) (Le khi2 de Karl Pearson, 1900) C’est en quelque sorte une mesure de distance entre le tableau empirique effectivement obtenu et le tableau tel qu’il devrait être à l’indépendance Dans l’exemple ci-dessus, Khi2 = 123,5 Attention : « effectif à l’independance » ne doit jamais descendre en dessous de 5 (il faut sinon regrouper des modalités)

En tant que telle, la statistique du Khi 2 (c2) ne veut rien dire, sauf que l’on sait qu’elle est proportionnelle : - au nombre d’individus dans l’enquête - au nombre de ligne et de colonne dans le tableau - à l’intensité du lien entre les variables croisées Pour interpréter la valeur du Khi2, il faut connaître le nombre de « degrés de liberté de la table : (nb de colonnes – 1) multiplié par (nb de lignes – 1) Ici : le nombre de degrés de liberté vaut 18 En possession de ces informations, nous pouvons dire si le lien est statistiquement significatif (au seuil de 95 %)

5- Conclusion : Récapitulatif 28