La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B.

Présentations similaires


Présentation au sujet: "ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B."— Transcription de la présentation:

1 ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B. (2005) Comprendre et utiliser les statistiques dans les sciences de la vie. Masson (3 ème Edition) 3. TOULEMON L. (1995) Régression logistique et régression sur les risques. Documents de travail n°46 - INED

2 Pourquoi un enseignement de régression logistique en Master 1 de démographie ? 1. Outil de plus en plus courant en sciences humaines et sociales et utilisé par les démographes 2. Un outil de standardisation Raisonnement «toutes choses égales par ailleurs » 3. Typique des modèles de régression multivariées

3 Principes des modèles de régression Une variable Y que lon cherche à expliquer … Elle est dite « à expliquer », « dépendante » « endogène » … par des variables X. Elle sont dites : « explicatives », « indépendantes » « exogènes»

4 Modèles qui varient selon la nature de la variable à expliquer Si la variable à expliquer est quantitative continue : La régression suit un modèle linéaire Si la variable à expliquer est dichotomique ou multinominale La régression suit un modèle dit « logistique » ou « log-linéaire »

5 Régression logistique : quel lien avec lanalyse démographique (1) En analyse démographique, on étudie classiquement : larrivée dun événement dans une population à différentes durées ou encore le risque couru par des individus dune population donnée de connaître un événement donné. La mesure de lintensité dun phénomène à événement renouvelable se mesure par un nombre moyen dévénements connus par un individu à une durée donnée…. …. Ce nombre moyen peut être la variable « à expliquer », quantitative continue à expliquer. Dans ce cas utilisation dun modèle linéaire MAIS ATTENTION UNE DIFFERENCE FONDAMENTALE : Un des buts de lanalyse démographique est de mesurer une intensité en labsence de phénomène perturbateur ce que ne permet en rien la régression logistique.

6 Régression logistique : quel lien avec lanalyse démographique (2) Si le phénomène étudié se manifeste par un événement non renouvelable : La mesure de lintensité dun phénomène à événement non renouvelable se mesure par une proportion…. …. proportion de personne qui est dans un état donné ou qui a connu un événement donné à une durée donnée Derrière la notion « Être ou non dans un état » peut se lire une variable Y Indicatrice (1 ou 0) que lon chercher à expliquer. Doù lutilité dune régression logistique MAIS ATTENTION UNE DIIFERENCE FONDAMENTALE : Un des buts de lanalyse démographique est de mesurer une intensité en labsence de phénomène perturbateur ce que ne permet en rien la régression logistique.

7 Lintérêt de lapproche multivariée (1) Pour juger de la corrélation entre deux variables vous savez : Si 2 variables qualitaties : utiliser le test du Khi-2 Si 2 variables quantitatives : utiliser la régression et corrélation linéaire (R²) Possible de multiplier les croisements de couples de variables connues MAIS : Risques dinterprétations erronées Jamais un raisonnement « toutes choses égales par ailleurs »

8 Lintérêt de lapproche multivariée (2) La régression multivariée permet : de démêler limpact des différentes caractéristiques dun individu sur son comportement de repérer quelles variables sont les plus influentes, « toutes choses égales par ailleurs », sur la probabilité, de survenue dun phénomène étudié dêtre/avoir telle ou telle caractéristique.

9 La notion déchelle de mesure Il existe au moins 4 échelles de mesure pour comparer des valeurs. Nous traiterons ici de(s) -léchelle additive (linéaire), -Les échelles multiplicatives -Léchelle logistique OBJECTIF : décrire et comprendre la logique et les propriétés de léchelle logistique

10 Lexemple Comment mesurer lévolution des inégalités sociales devant lécole ? Année de naissance des enfants Proportion de bacheliers selon la profession du père et lannée de naissance Cadre35 %50 % Manœuvre4 %8 % Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.

11 Année de naissance des enfants Proportion de bacheliers selon la profession du père et lannée de naissance Cadre35 %50 % Manœuvre4 %8 % Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, Trois dimensions dans ce tableau -Lorigine sociale -La génération -Laccès aux études Quelles conclusions ? 1 – Inégalité quelle que soit la génération 2 – Augmentation de la réussite quelle que soit lorigine sociale

12 Mais quen est-il de lévolution des inégalités ? Ont-elles augmenté ou diminué ? La proportion de bacheliers a-t-elle davantage augmenté chez les enfants de cadres que chez les enfants de manœuvres ? Il faut pour cela comparer les « distances » entre : 4% par rapport à 35% = inégalité pour la 1 ère génération 8% par rapport à 50% = inégalité pour la 2 ème génération

13 Le raisonnement est le suivant Quelle serait la proportion p* de fils de cadres bacheliers dans la génération 1915 qui correspondrait à une inégalité constante, les trois autres proportions restant inchangées ? Ensuite on compare cette proportion p* à p, celle observée dans la réalité (c'est-à-dire 50%=p) Cas 1 : p* >p. Linégalité a. diminué Cas 2 : p*

14 Posons le problème Soit « X » la propension à obtenir son Bac dans la population La relation entre p et X est positive Quand la propension X augmente, « p » augmente La relation sécrit p = f(X) Si linégalité entre les deux groupes est constante alors f(X 1 ) = f(X 2 ) à une date « t » donnée. Avec X1 la propension pour les enfants de cadres et X2 pour les enfants de manœuvres

15 Si on retient une échelle additive « a » est positif La relation sécrit p = f(X)

16 Echelle additive

17 Si a = 1 et b=0 Devient Et Si pas dinégalité croissante, alors p* = 35% + (8% - 4%) P* = 39,0%

18 Echelle multiplicative

19 Si on retient une échelle multiplicative Posons pour simplifier a = 1 et b=0

20 Si pas dinégalité croissante, alors Soit : p* = 70,0% OU BIEN

21 Echelle multiplicative en (1-p)

22 Si on retient une échelle multiplicative en (1-p) Posons pour simplifier a = 1 et b=0

23 Si pas dinégalité croissante, alors Soit : 1-p*= 62,3% p* = 37,7%

24 Finalement La comparaison sur une échelle additive est adaptée si les proportions sont moyennessi les proportions sont moyennes La comparaison sur une échelle multiplicative est adaptée si les proportions sont faibles (phénomènes rares)si les proportions sont faibles La comparaison sur une échelle multiplicative en (1-p) est adaptée si les proportions sont fortes (phénomènes fréquents)proportions sont fortes

25 Si les proportions varient sur un large spectre Cest léchelle logistique qui permettra de comparer des évolutions entre proportions. Cest le cas dans notre exemple.

26 Echelle logistique

27 Si on retient une échelle logistique

28 La différence entre X2 et X1 est appelée contraste logistique entre p 2 et p 1 en anglais : ln(odds- ratio), appelée « α » et… lexponentielle du contraste logistique est ce que lon appelle lODDS-Ratio.

29 Si pas dinégalité croissante, alors

30 P*= 52,9%

31 Finalement (proportions en %)Valeur théorique Comparaison Modèle (échelle)p*p

32 La notion dodds-ratio Dans le cas de létude des variables dichotomiques suivantes tirées dune enquête auprès de femmes âgées de 25 ans : le fait dêtre ou non déjà mère le fait de vivre ou non en couple Être mère OuiNon Vie en couple115 (A)142 (B) Ne vit pas en couple 19 (C)131(D)

33 La notion dodds-ratio Être mère OuiNon Vie en couple Ne vit pas en couple19131 Interprétation : A 25 ans, il y a 5,6 fois plus de mères par rapports à des non mères chez les jeunes femmes en couple que de mère par rapport aux non mères chez celles ne vivant pas en couple.

34 Notion proche : le risque relatif Être mère OuiNon Vie en couple Ne vit pas en couple19131 Interprétation : Le « risque » ou la probabilité dêtre mère est 3,5 fois plus fort si on est en couple que si on ne lai pas.

35 La notion de modèle (1) On postule quil existe une relation (corrélation) entre la valeur de la variable Y « à expliquer » et les valeurs des variables X explicatives. Cette relation prend la forme dun relation mathématique (modèle) dont on doit choisir la forme : linéaire, logistique,… Cette relation sécrit comme ceci : Y i = f (X 1, X 2, X 2, …., X k ) Avec : -Les Xi sont les valeurs observées pour les variables X i -La valeur de Yi est celle estimée par le modèle.

36 La notion de modèle (2) La construction dun modèle consiste à déterminer, selon une relation mathématique les coefficients ou paramètres a attribuer à chacune des variables explicatives « Xi » tel que La distance totale entre les valeurs observées et les valeurs théoriques soit minimum : on parle dajustement. Trois notions centrales REGRESSION, PREDICTION AJUSTEMENT TEST

37 La régression (linéaire) Considérons 3 variables (Y, X1 et X2) observées auprès dindividus dun échantillon de taille n leurs valeurs sont notées (y i, x 1i, x 2i ) pour « i » allant de 1 à n. Effectuer une régression linéaire de « Y » à partir de X1 et X2 cest : 1- rechercher a0, a1,et a2 tels que

38 La régression (linéaire) et Avec « e i » le résidu. La série des « a i » est obtenue à partir dun algorithme sous la contrainte de minimiser le terme suivant :

39 Le cas particulier de la régression logistique La régression logistique combine les avantages de léchelle logistique et de la régression. Il sagit de généraliser la notion dodds-ratio et de test de chi-2 qui permettent de juger de la dépendance entre variables qualitative ou binaires.

40 Le cas particulier de la régression logistique Soit « Y » la variable dépendante. Chaque individu a pour valeur soit 1, soit 0 selon quil est ou non la caractéristique étudiée ou quil soit ou non dans létat étudié. Nombreux exemples en démographie Parmi les variables que lon cherche à expliquer : La probabilité davoir ou non un troisième enfant, de vouloir ou non un troisième enfant. La probabilité de voir son père ou/et sa mère au moins une fois par semaine La probabilité dutiliser un moyen de contraception dit moderne La probabilité davoir eu un enfant avant 25 ans La probabilité de vivre en couple.

41 La mise en place de la régression logistique Soit « p i » la probabilité pour que Y=1 pour lindividu «i». Au lieu dutiliser un modèle linéaire qui donnerait des valeurs estimées à lextérieur des bornes acceptables pour une probabilité [0 ;1], nous utilisons un modèle logit.

42 La mise en place de la régression logistique Exemple : Y une variable telle que : Y=1 si la femme a un enfant Y=0 sinon On observe les réponses des 76 femmes de la génération A chaque âge compris entre 15 et 40 ans elles ont deux états possibles : 1 ou 0. On veut ajuster la variable proportion de femmes mères selon lâge de celles ci avec une équation.

43 Les premières naissances dans la génération 1960 – France – Enquête ERFI ( n=76)

44

45 xi fi 1%1% 4%4% 5%5% 7%7% 12 % 17 % 22 % 26 % 32 % 41 % 51 % 61 % 66 % 75 % 76 % 82 % 87 % 89 % 93 % 95 % 96 % 97 % 99 % 100 %

46 La mise en place de la régression logistique Il sagit de déterminer léquation de la droite qui ajuste le mieux les points (xi, fi). Avec xi = âge Et fi = proportion de mère à lâge i Au lieu dutiliser un modèle linéaire (ajustement par une droite) -qui donnerait des valeurs estimées à lextérieur des bornes acceptables pour une probabilité [0;1] – nous utiliserons un modèle logit.

47 Les équations de la régression logistique – une seule variable Soit : la probabilité que Y=1 si xi=X daprès le modèle Et :

48 Les résultats donnés par SAS Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 Age <.0001

49 Les résultats donnés par SAS AgeObservéCalculé 151,3%3,3% 163,9%4,5% 175,3%6,1% 186,6%8,3% 1911,8%11,2% 3494,7% 3696,1%97,2% 3797,4%98,0% 3998,7%98,9% 40100,0%99,2%

50

51 Généralisation du modèle logistique La valeur de «p i » varie selon les valeurs prises par les différentes variables indépendantes synthétisées par un vecteur X selon la relation (équation) de la forme logistique suivante :

52 Le vecteur X contient : La constante du modèle. Elle ne varie pas dun individu à un autre Un ensemble de valeur pour les variables explicatives du modèle. Ces valeurs peuvent être continues, discrètes ou qualitatives à deux ou plusieurs modalités. Ce sont des valeurs observées. β est un vecteur qui contient les paramètres estimés du modèle.

53 La prévision et lajustement Une fois la relation (équation de lajustement) établie, on peut : 1- Prédire la valeur de Yi pour un individu statistique dont on ne connaît que les valeurs de X1 et X2 = établir des prévisions 2-Juger de la relation entre Y et X1 si X2 est constant. Donc permet de juger de la force de la corrélation entre Y et X1, toutes choses, prises en compte par le modèle, égales par ailleurs. On parle dajustement de Y sur X2 ATTENTION : 1- Le modèle nest valable que pour les variables et le contexte (population) considéré DONC attention aux prévisions si on oubli un éléments de prévisions important. 2- Le modèle ne donnera une bonne prévision que pour une proportion dindividus. Plus cette proportion sapproche de 1, plus le modèle va être considéré comme bon.

54 Le test Lorsque lon veut tester la liaison entre une variable Y quantitative et une variable X 1 avec un ajustement sur les variables X 2, X 3, …., X p, Le test va porter sur le coefficient « a1 », appelé aussi paramètre, de la régression de la forme H 0 : a 1 =0 / : a 1 <>0 Le test est le suivant :

55 Les hypothèses la normalité des résidus « e i ». Lindépendance de var(« e i ») avec y i et les x j Lindépendance des « e i » avec chacune des variables.

56 La robustesse du modèle La robustesse du modèle est forte si le fait denlever une observation fait peu varier les valeurs estimées des paramètres « a i » Les individus qui font le plus varier les valeurs des paramètres doivent être alors discutés après avoir été repérés.

57 Les problèmes de colinéarité Certaines variables explicatives peuvent être corrélées. La qualité du modèle en sera affectée. Si une des variables est une combinaison linéaire dautres variables, le modèle devient indéterminé. Par exemple la superficie, la population et la densité densité pour expliquer par exemple le taux de criminalité dans un pays. Il sagit dune situation de colinéarité. Dans le moindre doute, il faut retirer une des variables associées du modèle. Il est prudent de tester préalablement au modèle lensemble des relations entre les variables 2 par 2.

58 Exercice application 1 Exposition E =1E=0 M = 190 M= )Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0) 2)Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle. 3)Déterminer la valeur de la constante du modèle sachant quelle vaut g(Y=1/X=0) 3) Donner léquation du modèle qui permet de décrire le risque de la maladie M en fonction de lexposition de E. 4) À partir du modèle logistique décrit en 3) recalculez les différentes probabilités décrites en 1).

59 Exercice application 1 Exposition E =1E=0 M = 190 M= )Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)

60 Exercice application 1 Exposition E =1E=0 M = 190 M= ) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle. 2) Déterminer la valeur de la constante du modèle sachant quelle vaut g(X=0) 3) Donner léquation du modèle qui permet de décrire le risque de la maladie M en fonction de lexposition de E.

61 Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 E <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits E Association of Predicted Probabilities and Observed Responses Percent Concordant 25.0 Somers' D Percent Discordant 25.0 Gamma Percent Tied 50.0 Tau-a 0.000


Télécharger ppt "ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B."

Présentations similaires


Annonces Google