Les équations de la régression logistique – Deux variables indépendantes dichotomiques Le tableau s’écrit alors X1 X2 1 1 X1=1 ; X2=1 0 1 X1=0 ; X2=1 1 0 X1=1 ; X2=0 0 0 X1=0 ; X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H
Deux variables indépendantes dichotomiques Avec X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H Ici la référence est X1=0 et X2=0 L’équation
Deux variables indépendantes dichotomiques X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H Ici la référence est X1=0 et X2=0 L’équation
Deux variables indépendantes dichotomiques X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 a1 b1 a0 b0 Y=0 c1 d1 c0 d0 Total n11 n01 n10 n00 Ici la référence est X1=0 et X2=0 L’équation
INTRODUCTION DE LA MESURE DE L’INTERACTION X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H Avec Ici la référence est X1=0 et X2=0 L’équation
INTRODUCTION DE LA MESURE DE L’INTERACTION X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H Ici la référence est X1=0 et X2=0 L’équation
INTRODUCTION DE LA MESURE DE L’INTERACTION X1 X2 1 1 X1=1 X2=1 0 1 X1=0 X2=1 1 0 X1=1 X2=0 0 0 X1=0 X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H Ici la référence est X1=0 et X2=0 L’équation
Application numérique (exemple 2. 2 du site) source : http://www Soit un échantillon de 7000 naissances. On cherche à expliquer une variable : Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomique X1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0) X2 : avoir (X2=1) ou non (X2=0) des antécédents de prématurité X1 X2 1 1 0 1 1 0 0 0 Y=1 100 50 Y=0 475 2320 3480 Total 575 525 2370 3530
Application numérique (exemple 2. 2 du site) http://www. uquebec X1 X2 1 1 0 1 1 0 0 0 Y=1 100 50 Y=0 475 2320 3480 Total 575 525 2370 3530 Calculer : les valeurs des différents coefficients Calculer les différents risques estimés
Deux variables indépendantes dichotomiques Avec « 00 » comme référence X1 X2 1 1 0 1 1 0 0 0 Y=1 100 50 Y=0 475 2320 3480 Total 575 525 2370 3530 L’équation s’écrit alors g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877*X1*X2
Deux variables indépendantes dichotomiques Avec « 00 » comme référence g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877X1*X2)
Programme SAS associé (ex2) proc logistic data =ex2 descending ; class Fumeuse (ref="0") Ant (ref="0") / param=ref ; model Premat = Fumeuse Ant Fumeuse*Ant; output out=b1 predicted=probest ; weight eff ; run ; Modèle déclaré avec les interactions Lire les proportions estimées dans la table b1 de la librairie WORK
Lecture des sorties SAS (ex1) Partie « Parameter estimates » Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -4.2427 0.1424 887.3377 <.0001 Fumeuse 1 0.4054 0.2018 4.0362 0.0445 Antécédant 1 1.9914 0.2059 93.5493 <.0001 Interaction 1 0.2879 0.2737 1.1060 0.2930 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits Fumeuse 1.500 1.010 2.227 Antécédant 7.326 4.893 10.967 Interaction 1.334 0.780 2.280
La table sortie b1 Premat Fumeuse Ant Probabilité estimée 1 17,4% 2,1% 9,5% 1,4% Les probabilités données par le modèle sont équivalentes aux proportions calculées à partir des données observées
Programme SAS associé (ex2) proc logistic data =ex2 descending ; class Fumeuse (ref="0") Ant (ref="0") / param=ref ; model Premat = Fumeuse Ant; output out=b1 predicted=probest ; weight eff ; run ; Modèle déclaré sans l’interaction car non significative Lire les proportions estimées dans la table b2 de la librairie WORK
Lecture des sorties SAS (ex2) Partie « Parameter estimates » Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -4.3243 0.1243 1209.8527 <.0001 Fumeuse 1 1 0.5631 0.1354 17.2963 <.0001 Ant 1 1 2.1556 0.1346 256.5120 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits Fumeuse 1 vs 0 1.756 1.347 2.290 Ant 1 vs 0 8.633 6.631 11.239
La table sortie b2 Premat Fumeuse Ant Probabilité estimée 1 16,7% 2,3% 10,3% 1,3% Les probabilités estimées sont DIFFERENTES des proportions calculées à partir des données observées MAIS PROCHES
Les équations de la régression logistique Deux variables indépendantes dont une polythomique (plus de deux modalités) X1 Z1 Z2 1 0 1 0 0 1 1 1 0 0 1 0 1 0 0 0 0 0 Total Y=1 37 158 58 57 208 42 560 Y=0 189 1616 223 662 2074 1676 6440 226 1774 281 719 2282 1718 7000 Soit l’échantillon de 7000 naissances. Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomique X1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0) X2 : avoir moins de 20 ans (Z1=1) 30 ans ou plus (Z2=1) ou entre 20 ans et 30 ans (Z1=Z2=0) SITUATION DE REFERENCE = « Non fumeuse ; âgée entre 21 et 29 ans »
Programme SAS associé (ex3) proc logistic data =ex3 descending ; class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ; model Premat = Fumeuse Age20m Age30p Fumeuse*Age20m Fumeuse*Age30p Age20m*Age30p ; output out=b3 predicted=probest ; weight eff ; run ;
Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -3.6865 0.1562 556.8384 <.0001 x 1 1.3868 0.1723 64.7629 <.0001 z1 1 1.2343 0.2085 35.0533 <.0001 z2 1 1.3614 0.1771 59.1102 <.0001 z1x 1 -0.2813 0.2655 1.1228 0.2893 z2x 1 -0.6925 0.2626 6.9541 0.0084 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits x 4.002 2.855 5.610 z1 3.436 2.283 5.170 z2 3.902 2.757 5.520 z1x 0.755 0.449 1.270 z2x 0.500 0.299 0.837
Lecture des sorties SAS (ex3) Parameter DF Estimate Intercept 1 -3.6865 Fumeuse 1 1 1.3868 Age20m 1 1 1.2343 Age30p 1 1 1.3614 Fumeuse*Age20m 1 1 1 -0.2813 Fumeuse*Age30p 1 1 1 -0.6925 Pr > ChiSq <.0001 0.2893 0.0084 L’équation s’écrit g(X1 ;Z1,Z2) = -3,68 + 1,38 X1 + 1,23 Z1 + 1,36 Z2 - 0,28 X1*Z1 -0,69 X1*Z2
L’effet est significatif !!! OR = e 1,3868 Le rapport entre les enfants de moins de 2500 et ceux de plus de 2500g est 4 fois plus important chez les fumeuses âgées de 20-30 ans que chez les non fumeuses du même groupe d’âges. mesure l’association entre " le fait de faible poids à la naissance (Y) fumer pendant la grossesse (X1) âge "20<=age<30 ans« (Z) Effect Point Estimate Confidence Limits Fumeuse 4.002 2.855 5.610 Age20m 3.436 2.283 5.170 Age30p 3.902 2.757 5.520 Fumeuse*Age20m 0.755 0.449 1.270 Fumeuse*Age30p 0.500 0.299 0.837 e -0,2823 = 0,755 = 3,02/4,002 l’effet modifiant de l'âge de la mère sur l’association entre " le fait de fumer " et " le faible poids à la naissance Cet effet d’interaction est marqué par le coefficient négatif de Z1 : -0,2813 Fumeuse * Age30p = effet négatif = avoir 30 ans diminue le risque d’avoir un enfant prématuré quand on est fumeuse. L’effet est significatif !!! OR n’est pas significatif. Ic compris de chacun des côté de 1 Pour mesurer l’association entre le " faible poids à la naissance (Y=1)« le fait de fumer pendant la grossesse (X1=1 ) l'âge de la mère est "<20 ans" : Vaut : e (1,3868*1-0,2813*1)=3,02 = OR
Programme SAS sans les associations entre les variables proc logistic data =ex3 descending ; class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ; model Premat = Fumeuse Age20m Age30p ; output out=b3 predicted=probest ; weight eff ; run ;
Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -3.4521 0.1039 1104.9237 <.0001 Fumeuse 1 1 1.0942 0.1032 112.4182 <.0001 Age20m 1 1 1.0052 0.1246 65.1283 <.0001 Age30p 1 1 1.0479 0.1160 81.6171 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits Fumeuse 1 vs 0 2.987 2.440 3.656 Age20m 1 vs 0 2.732 2.141 3.488 Age30p 1 vs 0 2.852 2.272 3.580 Commenter Donner l’équation du modèle Calculer la probabilité pour une femme fumeuse de moins de 20 ans d’avoir un enfant de moins de 2500 grammes d’après ce modèle 20,54% Comparer avec la proportion observée dans la population 20,64%