La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modèles statistiques en sciences humaines et sociales.

Présentations similaires


Présentation au sujet: "Modèles statistiques en sciences humaines et sociales."— Transcription de la présentation:

1 Modèles statistiques en sciences humaines et sociales

2 Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires.

3 1-INTRODUCTION

4 Les grands domaines des statistiques Statistique descriptive: Tableaux, graphiques, indicateurs mathématiques,… (AMETICE-TCPRUE11) Statistique confirmatoire: évalue la probabilité pour qu’un résultat empirique obtenu soit du au hasard (Student, Khi2, tests de corrélation, ANOVA,…) (AMETICE-TCPRUE21) Statistique exploratoire: Analyse Composante Principales, Analyse Factorielle des Correspondances,… Modélisation Statistique: objet de la présentation…

5 C’est quoi un modèle Statistique? On étudie un phénomène dont on suppose qu’il dépend de n variables. On cherche à exprimer une variable Y (variable expliquée) en fonction des n-1 autres variables Xi (variables explicatives). On part des données empiriques prélevées sur un échantillon pour établir cette relation. On établit les lois qui permettent d’étendre le résultat à toute la population.

6 Modèles en sciences exactes

7 Modèles en sciences humaines et sociales

8 Modèles en sciences humaines et sociales

9

10 REMARQUE: Variables « fortes » variables « faibles » Quand on veut « modéliser » un phénomène en SHS il faut commencer par « retenir » les variables qui agissent sur le phénomène. On dira qu’il y a des variables « fortes » qui doivent obligatoirement être prises en compte dans le modèle et des variables « faibles » souvent non identifiées qui agiront à travers le terme aléatoire.

11 Le nuage de points empirique 2D Par exemple une expérimentation conduit à des prélèvements 2D (xi, yi) auprès de n individus. A chaque individu est associé en point (xi, yi) dans le plan. On obtient un nuage de points. Si ce nuage s’organise autour d’une courbe…

12 Nuage de point-Courbe de régression … vouloir modéliser le phénomène consiste d’abord à déterminer l’équation de la courbe qui représente « au mieux » le nuage de points empiriques. Cette courbe est une « courbe moyenne » qui reflète en moyenne le lien entre les deux variables pour les points de l’échantillon. Il arrive que le nuage de point soit très dispersé. Dans ce cas il n’y a pas de courbe moyenne représentative et donc pas de lien entre les variables étudiées.

13 Un exemple

14 Régressions multiples

15 Régression Linéaire

16 Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires.

17 Plan de la partie REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon: Estimation des paramètres de la droite de régression Qualité de la représentation. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

18 Prélèvement et nuage de point

19 Principe: Méthode MCO

20 Expression des estimateurs

21 Exemple: fil rouge… On cherche la relation qui existe, dans une région donnée, entre le prix des terrains (PRIX=Y) et la superficie des terrains (SUPERF=X)

22 Exemple: Fil rouge

23 Résidus empiriques ei Les points du nuages ne sont généralement pas sur la droite. On définit le résidu empirique.

24 Les résidus

25 Somme des carrés des résidus

26 Plan de la partie REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon: Estimation des paramètres de la droite de régression Qualité de la représentation. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

27 Qualité de la représentation - Quel que soit le nuage de point les MCO donnent toujours une solution. - Il faut un ou des indicateurs de qualité de la représentation…

28 Qualité de la représentation Pour s’assurer de la qualité de la représentation il faut répondre à deux questions: Le lien entre les variables est il « avéré »? En d’autres termes: la relation existe-t-elle vraiment? Quel est le pourcentage d’explication de l’action de la variable explicative sur l’évolution de la variable expliquée?

29 Le lien entre les variable est il avéré. Remarque préalable: Une droite horizontale exprime l’absence totale de lien entre les deux variables prises en compte. Y Y=0X+b X Quelque soit X, Y ne change pas

30 Le lien entre les variable est il avéré?

31 Le lien entre les variable est il avéré?

32

33 Explicativité du modèle- Coefficient de détermination

34 Explicativité du modèle- Coefficient de détermination

35 Remarque à partir de l’analyse de la variance.

36 Exemple: Fil rouge La superficie explique 73,53% de la variance du prix des terrains dans la région étudiée…Plus du quart du prix s’explique autrement. (Calcul EXCEL)

37 Que faut il maitriser pour en arriver la? Représentation plane d’un nuage de points et équation d’une droite dans un plan. Notion de moyenne, variance, covariance et corrélation pour les données expérimentales prélevées sur un échantillon. Utilisation d’EXCEL… C’est le contenu de l’UE11 du M1 recherche

38 Plan de la partie REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire. 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance.

39 Position du problème (1) Nous avons travaillé sur un échantillon pris au hasard. Si l’on avait choisit un autre échantillon les paramètres obtenus (a, b, SCR) auraient été différents. On doit admettre que le «l’échantillonnage» a influencé le résultat. On doit introduire la notion de « statistique d’échantillonnage » due au hasard de l’échantillonnage.

40 Statistique d’échantillonnage.

41 Plan de la partie REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance.

42 ON A a, b,SCR dans l’échantillon…on met quoi si l’on veut étendre à toute la population…. Quel est le prix à payer

43 Régression dans la population

44

45 Estimation sans biais…biaisée x x x x x x x x x x x x x Valeurs de Y pour un x donné pour des échantillons différents -Si l’estimation est sans biais la valeur tourne autour de la valeur cible -Si l’estimation est biaisée la valeur tourne autour d’une autre valeur

46 Hypothèses sur la distribution des erreurs aléatoires

47 Conséquences des hypothèses H1, H2, H3 H1: Les distributions sont centrées H2: Les distribution ont même variance H3: Les distributions sont indépendantes

48

49 Des compléments de calcul

50 Plan de la partie REGRESSION LINEAIRE SIMPLE: 2-1 Problème posé dans un échantillon aléatoire 2-2 Inférence de la régression d’échantillon sur l’ensemble de la population. 2-1 Position du problème- échantillonnage aléatoire. 2-2 Estimation des paramètres de régression pour la population. 2-3 Intervalle de confiance.

51 Position du problème:

52 T de Student…

53 T de Student tend vers la LNCR

54 T Student

55

56 Intervalle de confiance de la droite de régression

57 Intervalle de confiance de la droite de régression de la population

58 Hyperboles de confiances

59 Exemple: fil rouge

60 Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires.

61 Plan de la partie 3 3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives

62 Position du problème Dans cette partie nous nous limitons à une présentation générale du cas 3-D. Suffisante toutefois pour apprécier les différences de fond avec le cas 2- D. Pour le reste les grandes lignes restent les mêmes que dans le cas 2-D avec toutefois des difficultés supplémentaires dues à une plus grande complexité du formalisme calculatoire. On cherche une relation du type: z= a x + b y +c z (variable expliquée), x et y (variables explicatives)

63 Un point du nuage en 3-D x Mi x xi yi zi di Z=a x + b y + c

64 Principe du calcul des paramètres

65 Calcul des paramètres

66 Analyse théorique de la variance

67 Qualité de la représentation Coefficient de détermination

68 Exemple 3D élèvesz:Mathx:Physy:Francaisz=ax+by+c cov(x,y)=4, cov(x,z)=9, ,514,415,5cov(y,z)=2, , a=1, ,58,5b=-0, ,512,5c=-0, moyenne9, , , variance11, , , R2=0,99627 R2 corrigé=0, Math=1,1999xPhys-0,1837xFrancais- 0,2408

69 élèvesz:Mathx:Physy:Francaisz:Math ,514,415,514, ,511 75,57145, ,58, ,512,59 moyenne9, , , variance11, , , R2 cumulé=1,0174

70 Plan de la partie 3 3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives

71 Régression Multi-D

72 Régression multi-D

73 Détermination des paramètres de la régression

74 Formalisme matriciel

75 La qualité de la représentation s’apprécie de la même façon avec le coefficient de détermination ou avec sa version corrigée. L’inférence s’effectue de la même façon… Mais la complexité et la lourdeur des calculs impose l’utilisation de logiciels spécialisés…pas toujours évidents à manipuler car les démos son peu claires….

76 Plan de la partie 3 3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives Cas de variables dichotomiques Cas de variables Polytomiques

77 Cas 2-D variable explicative quantitative.

78 Cas 3-D une variable explicative est qualitative dichotomique

79 Jugement SCORE

80 Cas 4-D deux variables qualitatives dichotomiques

81 Cas 4-D deux variables qualitatives dichotomiques-Pouvoir explicatif Débat sur pouvoir explicatif…pp123

82 Plan de la partie 3 3-Régressions linéaires multiples: 3-1 Régression linéaire 3-D 3-2 régression Linéaire Multi-D 3-3 Une ou plusieurs variables explicatives sont qualitatives Cas de variables dichotomiques Cas de variables Poly-tomiques

83 Variables polytomiques Dans le cadre de la même étude sur le jugement (J) porté par les enseignants sur les élèves les premières variables prises en compte étaient: le score (S), le retard scolaire (R). On prend à présent en compte l’origine sociale au travers de la CSP du père qui comprend 6 modalités. ARTI, INTER, EMPL, OUVR, AUTR, CADRE/PROF LIB

84 On définit (6-1)=5 variables muettes la 6ieme modalité sert de « référence » (6-1) Variables muettes ARTIINTEREMPLOUVRAUTR 6 Modalités Art/commerçant10000 Intermédiaire01000 Employé00100 Ouvrier00010 Autre00001 Cadre sup/prof lib00000

85 Variables polytomiques On doit procéder de la sorte car sinon les 6 variables muettes sont dépendantes linéairement et cela n’est pas toléré par le modèle. La 6 ième modalité intervient indirectement par le fait que les réponses aux 5 premières variables muettes dépendent des réponses à la sixième modalité: « imaginer le cas limite où tous les pères sont cadre ou profession libérale »

86 On obtient 6 plans parallèles un par CSP

87 On obtient 6 plans // un par CSP

88 Plan de l’exposé 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4-Régressions non linéaires.

89 Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-3 Notion d’interaction-Variable modératrices

90 Changement de variables

91 Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-4 Notion d’interaction-Variable modératrices

92 Dépendance polynomiale bivariée

93 Plan de la partie 4 4-Régressions non linéaires. 4-1 Par changement de variable 4-2 Moindres carrés pour dépendance polynomiale 4-3 Traitement par morceaux linéaires. 4-4 Notion d’interaction-Variable modératrices

94 Interaction /Variables modératrices Il y a « interaction » quand l’effet d’une variable sur une autre est sous l’influence d’une 3 ième variable. X1 Y X2

95 Interaction /Variables modératrices


Télécharger ppt "Modèles statistiques en sciences humaines et sociales."

Présentations similaires


Annonces Google