Modèles statistiques en sciences humaines et sociales

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression ou corrélation
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
Régression -corrélation
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Chapitre 2 Les indices.

Structure de causalité bivariée
Régression linéaire simple
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
La méthodologie expérimentale Fondements et bases d’application
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
La méthodologie expérimentale Fondements et bases d’application
Le comportement des coûts Chapitre 3
Les analyses multivariées
La régression multiple
Régression linéaire (STT-2400)
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Régression linéaire (STT-2400)
Régression linéaire.
Présentation de la méthode des Eléments Finis
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
Corrélation et régression linéaire
Objectifs Lire un manuel de référence
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Probabilités et Statistiques
Méthodologie expérimentale : l’analyse des données
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
Initiation à la Méthodologie de Recherche
Introduction à l’analyse statistique
Master 1 – Sciences du Langage –
2. Modèles linéaires.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
STATISTIQUES DESCRIPTIVES
Chapitre 12 Régression linéaire simple et corrélation linéaire
Rappels Variables nominales :
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Chapitre 4 Variables aléatoires discrètes
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Transcription de la présentation:

Modèles statistiques en sciences humaines et sociales

Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires. Plan de l’exposé

1-INTRODUCTION

Les grands domaines des statistiques Statistique descriptive: Tableaux, graphiques, indicateurs mathématiques,… (AMETICE-TCPRUE11) Statistique confirmatoire: évalue la probabilité pour qu’un résultat empirique obtenu soit du au hasard (Student, Khi2, tests de corrélation, ANOVA,…) (AMETICE-TCPRUE21) Statistique exploratoire: Analyse Composante Principales, Analyse Factorielle des Correspondances,… Modélisation Statistique: objet de la présentation… Les grands domaines des statistiques

C’est quoi un modèle Statistique? On étudie un phénomène dont on suppose qu’il dépend de n variables. On cherche à exprimer une variable Y (variable expliquée) en fonction des n-1 autres variables Xi (variables explicatives). On part des données empiriques prélevées sur un échantillon pour établir cette relation. On établit les lois qui permettent d’étendre le résultat à toute la population. C’est quoi un modèle Statistique?

Modèles en sciences exactes   Modèles en sciences exactes

Modèles en sciences humaines et sociales   Modèles en sciences humaines et sociales

Modèles en sciences humaines et sociales   Modèles en sciences humaines et sociales

   

REMARQUE: Variables « fortes » variables « faibles » Quand on veut « modéliser » un phénomène en SHS il faut commencer par « retenir » les variables qui agissent sur le phénomène. On dira qu’il y a des variables « fortes » qui doivent obligatoirement être prises en compte dans le modèle et des variables « faibles » souvent non identifiées qui agiront à travers le terme aléatoire. REMARQUE: Variables « fortes » variables « faibles »

Le nuage de points empirique 2D Par exemple une expérimentation conduit à des prélèvements 2D (xi, yi) auprès de n individus. A chaque individu est associé en point (xi, yi) dans le plan. On obtient un nuage de points. Si ce nuage s’organise autour d’une courbe… Le nuage de points empirique 2D

Nuage de point-Courbe de régression … vouloir modéliser le phénomène consiste d’abord à déterminer l’équation de la courbe qui représente « au mieux » le nuage de points empiriques. Cette courbe est une « courbe  moyenne » qui reflète en moyenne le lien entre les deux variables pour les points de l’échantillon. Il arrive que le nuage de point soit très dispersé. Dans ce cas il n’y a pas de courbe moyenne représentative et donc pas de lien entre les variables étudiées. Nuage de point-Courbe de régression

  Un exemple

Régressions multiples   Régressions multiples

  Régression Linéaire

Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires. Plan de l’exposé

2- REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon: 2-1-1 Estimation des paramètres de la droite de régression. 2-1-2 Qualité de la représentation. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. Plan de la partie 2.

Prélèvement et nuage de point   Prélèvement et nuage de point

  Principe: Méthode MCO

Expression des estimateurs   Expression des estimateurs

On cherche la relation qui existe, dans une région donnée, entre le prix des terrains (PRIX=Y) et la superficie des terrains (SUPERF=X) Exemple: fil rouge…

Exemple: Fil rouge

Les points du nuages ne sont généralement pas sur la droite Les points du nuages ne sont généralement pas sur la droite. On définit le résidu empirique. Résidus empiriques ei

  Les résidus

Somme des carrés des résidus   Somme des carrés des résidus

2- REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon: 2-1-1 Estimation des paramètres de la droite de régression. 2-1-2 Qualité de la représentation. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. Plan de la partie 2.

Qualité de la représentation Quel que soit le nuage de point les MCO donnent toujours une solution. - Il faut un ou des indicateurs de qualité de la représentation… Qualité de la représentation

Qualité de la représentation Pour s’assurer de la qualité de la représentation il faut répondre à deux questions: Le lien entre les variables est il « avéré »? En d’autres termes: la relation existe-t-elle vraiment? Quel est le pourcentage d’explication de l’action de la variable explicative sur l’évolution de la variable expliquée? Qualité de la représentation

Le lien entre les variable est il avéré. Remarque préalable: Une droite horizontale exprime l’absence totale de lien entre les deux variables prises en compte. Y Y=0X+b X Quelque soit X, Y ne change pas Le lien entre les variable est il avéré.

Le lien entre les variable est il avéré?   Le lien entre les variable est il avéré?

Le lien entre les variable est il avéré?   Le lien entre les variable est il avéré?

 

Explicativité du modèle- Coefficient de détermination   Explicativité du modèle- Coefficient de détermination

Explicativité du modèle- Coefficient de détermination   Explicativité du modèle- Coefficient de détermination

Remarque à partir de l’analyse de la variance.   Remarque à partir de l’analyse de la variance.

La superficie explique 73,53% de la variance du prix des terrains dans la région étudiée…Plus du quart du prix s’explique autrement. (Calcul EXCEL) Exemple: Fil rouge

Que faut il maitriser pour en arriver la? Représentation plane d’un nuage de points et équation d’une droite dans un plan. Notion de moyenne, variance, covariance et corrélation pour les données expérimentales prélevées sur un échantillon. Utilisation d’EXCEL… C’est le contenu de l’UE11 du M1 recherche Que faut il maitriser pour en arriver la?

Plan de la partie 2. 2- REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance. Plan de la partie 2.

Position du problème (1) Nous avons travaillé sur un échantillon pris au hasard. Si l’on avait choisit un autre échantillon les paramètres obtenus (a, b, SCR) auraient été différents. On doit admettre que le «l’échantillonnage» a influencé le résultat. On doit introduire la notion de « statistique d’échantillonnage » due au hasard de l’échantillonnage. Position du problème (1)

Statistique d’échantillonnage.   Statistique d’échantillonnage.

Plan de la partie 2. 2- REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance. Plan de la partie 2.

ON A a, b ,SCR dans l’échantillon…on met quoi si l’on veut étendre à toute la population…. Quel est le prix à payer

Régression dans la population   Régression dans la population

   

Estimation sans biais…biaisée Valeurs de Y pour un x donné pour des échantillons différents Si l’estimation est sans biais la valeur tourne autour de la valeur cible Si l’estimation est biaisée la valeur tourne autour d’une autre valeur x x x x x x x x x x x x x Estimation sans biais…biaisée

Hypothèses sur la distribution des erreurs aléatoires   Hypothèses sur la distribution des erreurs aléatoires

H1: Les distributions sont centrées Conséquences des hypothèses H1, H2, H3 H1: Les distributions sont centrées H2: Les distribution ont même variance H3: Les distributions sont indépendantes  

   

Des compléments de calcul   Des compléments de calcul

Plan de la partie 2. 2- REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance. Plan de la partie 2.

  Position du problème:

  T de Student…

T de Student tend vers la LNCR

  T Student

 

Intervalle de confiance de la droite de régression   Intervalle de confiance de la droite de régression

Intervalle de confiance de la droite de régression de la population

Hyperboles de confiances

  Exemple: fil rouge

Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires. Plan de l’exposé

3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives Plan de la partie 3

Dans cette partie nous nous limitons à une présentation générale du cas 3-D. Suffisante toutefois pour apprécier les différences de fond avec le cas 2- D. Pour le reste les grandes lignes restent les mêmes que dans le cas 2-D avec toutefois des difficultés supplémentaires dues à une plus grande complexité du formalisme calculatoire. On cherche une relation du type: z= a x + b y +c z (variable expliquée), x et y (variables explicatives) Position du problème

  Z=a x + b y + c x di zi x Mi yi xi Un point du nuage en 3-D

Principe du calcul des paramètres   Principe du calcul des paramètres

  Calcul des paramètres

Analyse théorique de la variance   Analyse théorique de la variance

Qualité de la représentation Coefficient de détermination   Qualité de la représentation Coefficient de détermination

Exemple 3D Math=1,1999xPhys-0,1837xFrancais- 0,2408 R2= 0,99627 élèves z:Math x:Phys y:Francais z=ax+by+c 1 6 5 2 8 cov(x,y)= 4,0617284 3 7 11 cov(x,z)= 9,86296296 4 14,5 14,4 15,5 cov(y,z)= 2,65740741 14 12 10 5,5 a= 1,19991178 13 12,5 8,5 b= -0,18374716 9 9,5 c= -0,24082915 moyenne 9,66666667 9,82222222 10,2222222 variance 11,3888889 8,8417284 12,0617284 Math=1,1999xPhys-0,1837xFrancais- 0,2408 R2= 0,99627 R2 corrigé= 0,99502501 Exemple 3D

R2 cumulé= 1,0174 élèves z:Math x:Phys y:Francais 1 6 5 2 8 3 7 11 4 14,5 14,4 15,5 14 12 10 5,5 13 12,5 8,5 9 9,5 moyenne 9,66666667 9,82222222 10,2222222 variance 11,3888889 8,8417284 12,0617284 R2 cumulé= 1,0174

3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives Plan de la partie 3

  Régression Multi-D

  Régression multi-D

Détermination des paramètres de la régression   Détermination des paramètres de la régression

  Formalisme matriciel

La qualité de la représentation s’apprécie de la même façon avec le coefficient de détermination ou avec sa version corrigée. L’inférence s’effectue de la même façon… Mais la complexité et la lourdeur des calculs impose l’utilisation de logiciels spécialisés…pas toujours évidents à manipuler car les démos son peu claires….

3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives 3-3-1 Cas de variables dichotomiques 3-3-2 Cas de variables Polytomiques Plan de la partie 3

Cas 2-D variable explicative quantitative.   Cas 2-D variable explicative quantitative.

Cas 3-D une variable explicative est qualitative dichotomique   Cas 3-D une variable explicative est qualitative dichotomique

Jugement       SCORE

Cas 4-D deux variables qualitatives dichotomiques   Cas 4-D deux variables qualitatives dichotomiques

Cas 4-D deux variables qualitatives dichotomiques-Pouvoir explicatif Débat sur pouvoir explicatif…pp123 Cas 4-D deux variables qualitatives dichotomiques-Pouvoir explicatif

3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives 3-3-1 Cas de variables dichotomiques 3-3-2 Cas de variables Poly-tomiques Plan de la partie 3

Variables polytomiques Dans le cadre de la même étude sur le jugement (J) porté par les enseignants sur les élèves les premières variables prises en compte étaient: le score (S), le retard scolaire (R). On prend à présent en compte l’origine sociale au travers de la CSP du père qui comprend 6 modalités. ARTI, INTER, EMPL, OUVR, AUTR, CADRE/PROF LIB Variables polytomiques

(6-1) Variables muettes ARTI INTER EMPL OUVR AUTR 6 Modalités Art/commerçant 1 Intermédiaire Employé Ouvrier Autre Cadre sup/prof lib On définit (6-1)=5 variables muettes la 6ieme modalité sert de « référence »

Variables polytomiques On doit procéder de la sorte car sinon les 6 variables muettes sont dépendantes linéairement et cela n’est pas toléré par le modèle. La 6ième modalité intervient indirectement par le fait que les réponses aux 5 premières variables muettes dépendent des réponses à la sixième modalité: « imaginer le cas limite où tous les pères sont cadre ou profession libérale » Variables polytomiques

On obtient 6 plans parallèles un par CSP   On obtient 6 plans parallèles un par CSP

On obtient 6 plans // un par CSP   On obtient 6 plans // un par CSP

Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires. Plan de l’exposé

Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-3 Notion d’interaction-Variable modératrices Plan de la partie 4

Changement de variables   Changement de variables

Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-4 Notion d’interaction-Variable modératrices Plan de la partie 4

Dépendance polynomiale bivariée   Dépendance polynomiale bivariée

Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-4 Notion d’interaction-Variable modératrices Plan de la partie 4

Interaction /Variables modératrices Il y a « interaction » quand l’effet d’une variable sur une autre est sous l’influence d’une 3ième variable. X1 X2 Y Interaction /Variables modératrices

Interaction /Variables modératrices   Interaction /Variables modératrices