APPLICATION Une régression logistique sous SAS à partir de données individuelles Commenter les résultats du modèle que vous aurez choisi. Comment peut-on présenter de telles résultats ? Quelques exemples : http://www.ined.fr/fichier/t_publication/1211/publi_pdf1_pop_et_soc_francais_427.pdf http://www.aidlf.org PUIS Colloque Aveiro / accès aux communication/Séance 4 / Arnaud Regnier Loillier / p. 17 http://www.ined.fr/fichier/t_publication/1207/publi_pdf1_pop_et_soc_francais_426.pdf http://www.ined.fr/fichier/t_publication/151/publi_pdf1_pop.et.soc.francais.415.pdf
Comment choisir les variables indépendantes ? Des hypothèses de travail fortes (observation, …) Une revue de la littérature necessaire Ne pas choisir de variables redondantes (Par exemple : diplôme et âge à la fin des études) MAIS ATTENTION A NE PAS MULTIPLIER LE NOMBRE DE VARIABLES EXPLICATIVES
Comment recoder les variables indépendantes ? On peut garder une variable quantitative dans sa forme quantitative mais la relation entre la proportion (P(Y = 1)) et la variable concernée X doit être croissant e ou décroissante de manière linéaire avec l’évolution de la variable. Sinon recoder la variable X en classes : ne pas multiplier le nombre des classes. Eviter des classes avec des effectifs trop faibles Comment choisir les modalités de référence ? On retient le plus souvent la classe ou modalité qui a l’effectif le plus important La « norme » . Plus simple ensuite pour commenter
Les étapes d’une régression logistique et ses préalables Étape 1 : Etudier la distribution des différentes variables indépendantes Étape 2 : Choisir un découpage pour chacune des variables indépendantes Étape 3 : Etudier les corrélations entre les variables indépendantes (2 à 2) Chi-2 ou corrélation Étape 4 : Etudier la relation entre chacune des variables indépendantes et la variable dépendante Statistiques descriptives Étape 5 : Elaboration du modèle de regression final
APPLICATION Dans une population de femmes de moins de 25 ans au moment de l’enquête on veut comprendre quels paramètres expliquent le fait d’avoir ou non au moins un enfant ? Quelle est la variable dépendante d’un tel modèle ? Quelles sont les variables indépendantes que vous proposez ? (Hypothèse de travail)
APPLICATION Pour avoir des renseignements sur l’enquête ERFI et les questions posées : http://www-erfi.ined.fr/presentation/thematic.htm Le questionnaire de l’enquête : http://www-erfi.ined.fr/doc/LIENDOC_QUEST_F.pdf
Les étapes d’une régression logistique sous SAS Créer un Dossier « C:\MASTER1 » Enregistrer les deux fichiers Sas depuis la page Internet du cours vers le dossier « C:\MASTER1 » : TABLE / Programme « Lancer » le logiciel SAS Ouvrir le programme
Quelques questions préalables Quel est l’effectif de l’échantillon étudié ? ouvrir la table et regarder le nombre de ligne Donner l’exemple d’une variable pour lesquelles les regroupements sont obligatoires. regarder les « formats » sous SAS qui permettent entre autre des regroupements Quels variables semblent liées entre elles ? Expliquer ? Lancer le programme jusqu’à la fin de l’étape 3-1 et regarder les résultats dans la fenêtre OUTPUT Quelles variables semblent le plus influencer la probabilité d’être mère ? Lancer l’étape 3-2 du programme. Lire les output
A retenir Avant toute régression logistique, il est indispensable de réaliser : Des croisements entre les différentes variables pour juger des éventuelles situations de « colinéarités » Étape 3-1 du programme SAS. Ce qu’il est intéressant c’est de lire la probabilité associée au Chi-2 pour savoir si la dépendance est significative et d’autre part la valeur du « Phi-coefficient » pour juger de l’intensité de la liaison. Des croisements entre la variable à expliquer (ici mère = 1 si la personne a eu un enfant et 0 sinon) et chacune des variables explicatives supposées entrer dans le modèle Étape 3-2 du programme SAS. C’est en effectuant cet étape que l’on s’est par exemple rendu compte que quasiment 100% des jeunes femmes encore scolarisées n’avait pas d’enfant comme celle dont les ressources sont inférieures à 499 euros. Nous avons donc d’exclure ces personnes de l’étude des déterminants de la fécondité avant 25 ans. Ces variables sont « trop discriminantes ». Ces deux étapes sont des préalables à la construction du modèle logistique. Chaque groupe doit retenir entre 5 et 7 variables explicatives pour le modèle logistique à réaliser.
DECLARATION DES MODALITES DE REFERENCES Programmation d’une régression logistique sous SAS (données individuelles) proc logistic data =erfi.exo4 descending ; class ma_ager (ref='20 et 21 ans') MB_PROPRI(ref='hors HLM') NBFRSR(ref='moins de 3') MC_DIPLOME (ref='Baccalauréat ou plus') coupl_2 (ref='hors couple et sans relation stable')/ param=ref ; model mere = ma_ager MC_DIPLOME NBFRSR coupl_2 MB_PROPRI ; output out=b predicted=probest ; where MC_ETACTU = '2' and BC_FOUREVMEN ne '1'; weight poidsind /normalize ; format ma_ager age. MB_propri $MB_PROP. NBFRSR fratrie. MC_DIPLOME $MC_DIPL. coupl_2 $coupl. ; run ; DECLARATION DES MODALITES DE REFERENCES LE MODELE RETENU CREATION D UNE TABLE SORTIE AVEC LA PROBILITE ESTIMEE D ETRE MERE PAR LE MODELE : Rappel : cette probabilité variait suivant les groupes Exclut les étudiantes et celles gagnat moins de 500 euros/mois
Travail suivant On extrait ensuite de SAS les valeurs des paramètres ou les odds ratio associé pour construire soit : Un tableau des résultats (Cf. PDF sur le désir d’un troisième enfant) Un graphique des probabilités de chacune des modalités (Cf. pdf sur la fréquence des visites chez son père et sa mère)