La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur.

Présentations similaires


Présentation au sujet: "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur."— Transcription de la présentation:

1

2 Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur

3 Plan Les modèles de risque dans la recherche démographique Un exemple: le départ du foyer parental Temps continu, temps discret, temps regroupé Un modèle de risque en temps discret : le modèle logistique Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox

4 Les modèles de risque dans la recherche démographique Lanalyse statistique des biographies ou analyse démographique des biographies ou analyse des transitions ou event history analysis est la principale manière dutiliser la notion de parcours de vie avec des modèles statistiques pour étudier les phénomènes démographiques natalité, mortalité, migration et leurs corrélats proches ou lointains nuptialité, divortialité, morbidité contraception, avortement, usage des soins de santé étapes de la vie passage à la vie adulte, vieillissement lorsquon utilise des données individuelles (ou microdonnées) plutôt que des données agrégées.

5 Les modèles de risque dans la recherche démographique Les modèles de risque sont les modèles linéaires qui conviennent le mieux au cas où le phénomène étudié est un changement détat et lon sintéresse aux effets dune ou plusieurs variables indépendantes sur le rythme auquel ce changement détat se produit ou le moment auquel se produit ce changement.

6 Un exemple: le départ du foyer parental Pascale Beaupré, Pierre Turcotte et Anne Milan (2006) « Quand fiston quittera-t-il la maison? Transition du domicile parental à lindépendance » Tendances sociales canadiennes, 82: 8-15.

7 Un exemple: le départ du foyer parental Le phénomène étudié est un changement détat ou le passage dun état à un autre dhabiter chez ses parents à ne pas habiter chez ses parents un événement cesser dhabiter chez ses parents.

8 Un exemple: le départ du foyer parental On cherche à vérifier certaines hypothèses en estimant leffet de certaines variables indépendantes dont la cohorte de naissance la structure familiale pendant lenfance la fratrie lactivité de la mère et du père le lieu de naissance de la mère etc.

9 Un exemple: le départ du foyer parental On utilise un modèle à risques proportionnels (le modèle de Cox même si la chose nest pas précisée) pour estimer les effets des variables indépendantes sur le risque (et non pas la probabilité) qui régit le processus de changement détat.

10 Un exemple: le départ du foyer parental L effet de la variable indépendante sexprime en rapport de risque (hazard ratio) également nommé risque relatif (relative risk): une variable qui augmente le risque (et donc accélère le processus) a un effet supérieur à 1 et une variable qui diminue le risque (et donc ralentit le processus) a un effet compris entre 0 et 1 (c.-à-d. [0,1[).

11

12 Temps continu, temps discret, temps regroupé En statistique, on connaît deux types de caractère : le caractère qualitatif (p. ex. le sexe ou la langue) et le caractère quantitatif (p. ex. lâge, le revenu ou le nombre des enfants mis au monde par une femme). On distingue de plus deux types de caractères quantitatifs : le caractère quantitatif continu (p. ex. lâge ou le revenu) et le caractère quantitatif discret (p. ex. le nombre des enfants mis au monde par une femme). À strictement parler, on réserve le mot « variable » au caractère quantitatif. Lexpression « variable discrète » désigne donc un caractère quantitatif discret alors que lexpression « variable continue » désigne un caractère quantitatif continu.

13 Temps continu, temps discret, temps regroupé La variable discrète ne prend que des valeurs entières et positives (ses valeurs sont éléments de ) : on na pas 2,5 enfants ou -3 enfants. Une statistique dune variable discrète peut être un nombre négatif ou décimal : la moyenne du nombre denfants par femme est un réel positif (élément de + ); le coefficient de symétrie de sa distribution statistique est un réel (élément de ).

14 Temps continu, temps discret, temps regroupé Il faut absolument éviter de confondre la variable discrète et la distribution qui résulte du regroupement des valeurs dune variable discrète ou continue en classes. Fort malheureusement, la démographie classique utilise lexpression « temps discret » pour désigner le regroupement en classes des valeurs de la variable continue « temps » (quil sagisse de lâge, du temps écoulé depuis la dernière naissance ou depuis la formation dune union) et les opérations mathématiques ou statistiques propres au traitement dune variable continue dont les valeurs sont regroupées en classes.

15 Temps continu, temps discret, temps regroupé Pour éviter la confusion, on conservera aux mots « discret » et « continu » le sens quils ont en statistique et on nommera « regroupé » ce qui se rapporte au traitement des variables dont les valeurs sont regroupées en classes.

16 Temps continu, temps discret, temps regroupé La table « classique » traite le cas « regroupé » au moyen dun artifice : on estime le taux au centre de lintervalle de classe et on présume que le flux des événements est constant tout au long de lintervalle, ce qui implique que le taux augmente du début à la fin de lintervalle. La table construite à partir de taux dont les dénominateurs sont le temps à risque exact et le modèle de Poisson par parties traitent le cas « regroupé » au moyen dune simplification moins irréaliste : le taux est présumé constant du début à la fin de lintervalle, ce qui implique que le flux diminue, chose réaliste dans le cas dun événement non renouvelable puisque la proportion des « survivants » diminue nécessairement au fil du temps.

17 Temps continu, temps discret, temps regroupé En sciences sociales, le « cas discret » au sens de la statistique est rare. Il exige que lévénement ne puisse se produire quà des moments qui puissent être représentés par des entiers naturels. Le « meilleur » exemple la promotion des professeurs duniversité, qui ne se fait quune fois par année (Paul D. Allison) Autre exemple, moins bon en pratique : la réussite dun programme détudes régulier, qui ne peut survenir quune fois par trimestre. À strictement parler, les modèles statistiques développés pour létude des phénomènes qui se déroulent « en temps discret » ne valent que pour ces cas rares.

18 Temps continu, temps discret, temps regroupé Lorsquon traite un phénomène « en continu » lintervalle devient infinitésimal, la distinction entre le moment (la valeur de t sur léchelle du temps) et la quantité de temps à risque disparaît, la probabilité (donc le quotient de la démographie et le risque de lépidémiologie) et le taux se confondent. « En continu », quotient instantané, risque instantané et taux instantané sont synonymes.

19 Temps continu, temps discret, temps regroupé Le risque instantané comme limite Le risque instantané (ou quotient instantané ou taux instantané) est la probabilité de changer détat au cours dun intervalle de largeur infinitésimale (quantité de temps dexposition infiniment petite) si on na pas déjà changé détat avant cet intervalle (position de cet intervalle sur laxe du temps).

20 Un modèle de risque en temps discret : le modèle logistique Rappel de la régression logistique Lusage de la régression logistique dans létude du changement détat plutôt que dans létude de lappartenance statique à une modalité dun caractère qualitatif.

21 Un modèle de risque en temps discret : le modèle logistique La régression logistique est un modèle linéaire qui permet destimer les effets dune ou plusieurs variables indépendantes sur une variable dépendante Comme tout modèle linéaire, il est composé de trois éléments: un élément déterministe un élément aléatoire et une fonction de liaison. Son élément le plus intéressant est sa fonction de liaison.

22 Un modèle de risque en temps discret : le modèle logistique La variable dépendante dun modèle linéaire doit pouvoir varier entre moins linfini et plus linfini. On ne peut pas construire directement un modèle linéaire dont la variable dépendante serait 0 ou 1. On ne peut pas non plus construire directement un modèle linéaire dont la variable dépendante varierait entre 0 et 1.

23 Un modèle de risque en temps discret : le modèle logistique Construire un modèle linéaire dont on sait que la variable dépendante varie entre 0 et 1 (comme cest le cas dune probabilité) en utilisant simplement la probabilité comme variable dépendante dune régression conventionnelle conduit à une absurdité: les valeurs prédites peuvent être inférieures à 0 ou supérieures à 1.

24 Un modèle de risque en temps discret : le modèle logistique La chose a cependant été courante pendant quelques décennies du XX e siècle. Ce mauvais modèle permet cependant de voir comment on passe (naïvement) dune variable dépendante observée binaire à une variable dépendante estimée qui est continue (même si elle nest pas bornée correctement). On pose que la valeur observée (0 ou 1) qui est la réalisation dun tirage aléatoire correspond à la probabilité (comprise en principe entre 0 et 1) qui a régi ce tirage et que lon estime au moyen du modèle.

25 Un modèle de risque en temps discret : le modèle logistique Lélément le plus intéressant de la régression logistique est sa fonction de liaison qui propose une autre manière de passer dune variable observée binaire à une probabilité. Plutôt que destimer la probabilité dappartenir à la modalité représentée par la valeur 1, on estime le rapport entre la probabilité dappartenir à cette modalité et la probabilité dappartenir à lautre modalité:

26 Un modèle de risque en temps discret : le modèle logistique Dans la régression logistique (également nommée « modèle logit »), on utilise la courbe logistique comme fonction de liaison.

27 Un modèle de risque en temps discret : le modèle logistique Le modèle peut être représenté sous sa forme multiplicative ou additive. Nous lutiliserons surtout sous sa forme multiplicative.

28 Un modèle de risque en temps discret : le modèle logistique Le modèle comprend bien sûr un élément aléatoire. Il sagit de la loi binomiale dont nous montrons ici la fonction de densité sous trois formes différentes mais reliées.

29 Un modèle de risque en temps discret : le modèle logistique Lespérance mathématique du modèle est la probabilité que la probabilité vaille π. La variance est égale au produit de π et 1- π.

30 Un modèle de risque en temps discret : le modèle logistique Un exemple simple de régression logistique, sous forme additive: Le même exemple simple, sous forme multiplicative :

31 Un modèle de risque en temps discret : le modèle logistique Il est plus simple dinterpréter les coefficients de la régression logistique sous sa forme multiplicative que sous sa forme additive:

32 Un modèle de risque en temps discret : le modèle logistique Dans la forme multiplicative de la régression logistique: la variable dépendante est le quotient de deux probabilités; pour cette raison, leffet dune variable indépendante est daugmenter ou de réduire le rapport entre ces deux probabilités; les effets des variables indépendantes ne sadditionnent pas à lordonnée à lorigine et ne sadditionnent pas les uns aux autres, ils multiplient lordonnée à lorigine et se multiplient les uns les autres.

33 Un modèle de risque en temps discret : le modèle logistique Interprétation des coefficients On a réalisé une enquête qui permet de relier le fait davoir obtenu ou non le diplôme de premier cycle dans les délais prévus au nombre dheures consacré aux études par semaine. On a interrogé les étudiants au moment où ils devaient compléter leur programme et on estimé leffet du nombre dheures détudes par semaine sur la probabilité davoir obtenu le diplôme au moyen dun régression logistique. On a les coefficients suivants: α = -1,3863 et β = 0,0953.

34 Un modèle de risque en temps discret : le modèle logistique La modalité de référence: ne pas avoir étudié du tout Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

35 Un modèle de risque en temps discret : le modèle logistique Un autre cas: avoir étudié 20 heures par semaine Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

36 Un modèle de risque en temps discret : le modèle logistique La régression logistique comme modèle de risque et non plus de probabilité. On reprend lenquête sur lobtention du diplôme, mais on la réalise à tous les ans, on vérifie si le diplôme est obtenu à la fin de chaque année et on mesure le nombre dheures consacrées à létude à chaque année et on suit les étudiants pendant huit ans.

37 Un modèle de risque en temps discret : le modèle logistique On construit un fichier biographique où on a, pour chaque étudiant, une ligne par année de présence dans le groupe à risque. On sort du groupe à risque en obtenant le diplôme (en changeant détat), en abandonnant les études (sans changer détat) ou après huit ans détudes sans avoir obtenu le diplôme (également sans changer détat).

38 Un modèle de risque en temps discret : le modèle logistique La variable dépendante vaut 1 lorsque lannée se termine par lobtention du diplôme et vaut 0 lorsque lannée se termine sans lobtention du diplôme. La variable dépendante nest donc plus la probabilité davoir obtenu le diplôme, mais bien la probabilité de lobtenir si lon est toujours à risque de lobtenir, ou encore le nombre de changements détat divisé par le nombre des individus à risque au cours de lannée. La variable dépendante nest donc plus une probabilité, mais bien un risque.

39 Un modèle de risque en temps discret : le modèle logistique On estime une régression logistique où chaque ligne du fichier biographique ajoute une contribution à la fonction de vraisemblance. On permet généralement à lordonnée à lorigine de prendre une valeur différente pour chaque unité de temps, puisque lon sait quil est plus « probable » dobtenir le diplôme au cours de certaines années et moins au cours dautres années. Léquation a donc la forme suivante:

40 Un modèle de risque en temps discret : le modèle logistique Les effets des variables indépendantes se manipulent et sinterprètent de manière analogue à ceux de la régression logistique « ordinaire », sauf quils ne font plus augmenter ou décroître un rapport de probabilités, mais bien un taux.

41 Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox On représente généralement comme suit le modèle semi- paramétrique à risques proportionnels (ou relatifs) de Cox où h(t|x 1, x 2, …, x n ) est le risque au temps t pour une combinaison donnée de valeurs des variables indépendantes x 1, x 2, …, x n, h 0 (t) est le risque de base, x est le vecteur des variables indépendantes et β est le vecteur des coefficients du modèle.

42 Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox Le modèle de Cox a une forme semblable à celle de la régression logistique utilisée comme modèle de risque. La principale différence est que dans le modèle de Cox, on estime le risque de base avec la logique de lestimateur de Kaplan-Meier (c.-à- d. un nouvel intervalle à chaque changement détat dans léchantillon) plutôt quen « échantillonnant » le temps à intervalles égaux prédéfinis (comme on échantillonne la musique pour en faire un enregistrement numérique).

43 Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox La fonction de vraisemblance partielle du modèle de Cox et son rapport avec le fichier biographique.

44 Sur le modèle logistique et le modèle de Cox Ces modèles utilisent leffectif du groupe à risque plutôt que le temps passé à risque au dénominateur des taux. Les unités qui sortent du groupe à risque sans changer détat sortent du groupe à risque après chaque instant discret dans le modèle logistique et après linstant qui marque la fin de chaque intervalle dans le modèle de Cox. Ceci ne crée pas de biais si le modèle logistique sil est utilisé pour étudier un phénomène véritablement discret, mais sous-estime systématiquement le risque si le modèle logistique est utilisé pour étudier un phénomène intrinsèquement continu. Ceci sous-estime systématiquement le risque dans le modèle de Cox. Les unités qui sortent du groupe à risque en changeant détat ne sont pas comptées au dénominateur et le taux est donc systématiquement surestimé.

45

46 Annexe La régression logistique en économétrie Les économètres ont développé une interprétation particulière de la régression logistique. Pour les statisticiens, la régression logistique a une composante aléatoire la loi binomiale et une fonction de liaison la courbe logistique centrée réduite (sic) qui sert à faire correspondre létendue des valeurs prédites ([-,+]) à létendue dune probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi logistique centrée réduite.

47 Annexe La régression logistique en économétrie Les économètres interprètent de manière analogue le modèle probit. Pour les statisticiens, le modèle probit a une composante aléatoire la loi binomiale et une fonction de liaison lintégrale de la courbe normale centrée réduite (sic) qui, comme la courbe logistique dans la régression logistique, sert à faire correspondre létendue des valeurs prédites ([-,+]) à létendue dune probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi normale centrée réduite.


Télécharger ppt "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur."

Présentations similaires


Annonces Google