La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Présentations similaires


Présentation au sujet: "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur."— Transcription de la présentation:

1

2 Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur

3 Plan La variable indépendante fonction du temps (ou variable dynamique) La stratification La « vraie » variable indépendante fonction du temps Le modèle de Poisson La loi de Poisson Le modèle de Poisson La version originale La version modifiée pour tenir compte du temps à risque (temps dexposition au risque) La version modifiée pour tenir compte du découpage de la biographie

4 La variable indépendante fonction du temps Nous reprenons lexemple du dernier cours. Nous étudions la naissance du premier enfant chez les femmes canadiennes. Nous disposons des données dune enquête biographique, celles de lEnquête sur les transitions familiales de 2006. Nous étudions le phénomène dans le sous-échantillon des femmes âgées de 15 à 80 ans au moment de lenquête. On élimine les femmes âgées de 80 ans ou plus parce quon ne connaît pas leur âge exact à lenquête (ce ne serait pas un problème dans ce cas-ci, mais cest la pratique). On étudie le phénomène jusquà lâge de 50 ans, âge habituel de la ménopause.

5 La variable indépendante fonction du temps Dans cet exemple, les femmes sont considérées à risque de donner naissance à leur premier enfant dès lâge de 15 ans. À cet âge, la plupart dentre elles ne sont pas mariées et ne vivent pas en union de fait, mais la plupart auront été mariées ou auront vécu en union de fait avant davoir leur premier enfant. Ceci revient à dire que pour la plupart des femmes, le temps passé à risque de donner naissance au premier enfant sera réparti entre deux ou trois des modalités de la situation conjugale : vivre sans conjoint, être mariée et vivre avec son époux ou bien vivre en union de fait. Le risque de donner naissance à son premier enfant varie bien sûr selon celui de ces états dans lequel on se trouve.

6 La variable indépendante fonction du temps Formellement, ce problème est analogue à celui que pose la migration interne dans létude de la mortalité et il se résout de la même manière : on construit une table dextinction pour chacune des modalités du caractère comme on construit une table de mortalité pour chaque région, et on déplace lindividu dune table à lautre à lâge où il passe dune modalité du caractère à une autre, exactement comme on déplace un individu dune table à lautre à lâge où il migre dune région à une autre. Le temps passé à risque par chaque individu est ainsi réparti entre les dénominateurs des taux des classes dâge des différentes modalités du caractère quil a occupées pendant quil était à risque de vivre lévénement.

7 La variable indépendante fonction du temps La manière la plus générale de réaliser une analyse qui contient une VIFT consiste à préparer un fichier de données dans lequel la portion de la biographie de lindividu pendant laquelle il était à risque de changer détat est découpée en plusieurs lignes dont chacune correspond à la fraction du temps passé à risque située entre deux changements de modalité de la VIFT. Dans notre exemple, il faut donc préparer un fichier dans lequel chaque ligne représente la fraction de la biographie dune femme où elle à risque de donner naissance à son premier enfant alors quelle vit au Canada qui est située entre deux changements de sa situation conjugale.

8 La variable indépendante fonction du temps

9 Chaque passage dune modalité à une autre de la situation conjugale est un changement détat qui définit une nouvelle ligne. Autrement dit, lorsquon utilise une VIFT, on raisonne à la fois sur le changement détat qui définit la variable dépendante et sur les changements détat qui correspondent aux déplacements entre les modalités de la VIFT qui sont également des déplacements entre les états dun espace détats. Pour obtenir les tableaux, il faut en plus raisonner sur les classes dâge comme on raisonne sur les modalités dune VIFT: passer dune classe dâge à une autre, cest passer dune modalité à une autre dune VIFT. Cette idée est au cœur de la logique la plus couramment utilisée en microsimulation.

10

11

12

13 La variable indépendante fonction du temps À strictement parler, ce que nous venons de présenter nest pas une VIFT, mais plutôt ce qui, dans les modèles de risque, se nomme la stratification. Nous avons estimé trois séries de valeurs du quotient qui ne sont pas reliées entre elles, une pour chacune des modalités de la situation conjugale. La VIFT est très semblable à la stratification, mais à une différence près : plutôt que destimer trois séries de valeurs qui ne sont pas reliées entre elles, on estime dune part une seule série de valeurs « moyennes » et dautre part le rapport « moyen » à cette série pour chacune des modalités de la VIFT.

14 La variable indépendante fonction du temps On écrit ici les mots « moyennes » et « moyen » entre guillemets parce que ce que ce qui précède est parfaitement exact lorsquon représente les modalités de la VIFT au moyen du codage utilisé de manière habituelle en analyse de la variance où la modalité de référence est représentée par une suite de -1, mais nest pas tout à fait exact lorsquon représente ces modalités comme on le fait généralement en régression, où la modalité de référence est représentée par une suite de 0. Lorsquon utilise le codage habituel de la régression, la série de valeurs associée à la modalité de référence est plutôt égale au produit de la série moyenne et du rapport moyen à la série moyenne de la modalité de référence, alors que le coefficient associé à chacune des autres modalités est le produit du rapport moyen de cette modalité et de linverse du rapport moyen de la modalité de référence. Ceci est vrai pour tous les modèles à risques relatifs, parfois encore nommés « modèles à risques proportionnels ».

15 La variable indépendante fonction du temps On ne peut pas estimer, avec une table dextinction, leffet dune « vraie » VIFT. On ne peut estimer leffet dune « vraie » VIFT quau moyen dun modèle statistique et on ne peut le faire que lorsque ce modèle est estimé par la méthode du maximum de vraisemblance ou une méthode qui lui est apparentée.

16

17

18 Le modèle de Poisson La loi de Poisson Le modèle de Poisson La version originale de James Coleman La version modifiée pour tenir compte du temps à risque (temps dexposition au risque) La version modifiée pour tenir compte du découpage de la biographie

19 Siméon Denis Poisson Daprès Wikipédia

20 La loi de Poisson La loi de Poisson donne la probabilité quun événement se produise un certain nombre de fois (k) au cours dun intervalle donné (T) si cet événement se produit à un rythme connu (λ) et que la probabilité de chaque occurrence est indépendante du temps écoulé depuis la dernière occurrence.

21 La loi de Poisson La fonction de densité de probabilité de la loi de Poisson c.-à-d. la probabilité que lon observe exactement k événements au cours dun intervalle T si les événements surviennent au rythme λ est donnée par où k est un nombre dévénements donné (donc un entier naturel) et λ est le rythme (ou taux), également donné.

22 La loi de Poisson Linterprétation de λ Si un événement arrive en moyenne aux quatre ans, et que lon sintéresse au nombre des occurrences au cours dun intervalle de 20 ans, on utilisera une loi de Poisson où le paramètre λ vaut 20/4 soit 5. Plus formellement, on peut interpréter λ comme le quotient du temps dexposition T et de lintervalle moyen entre deux événements.

23 La loi de Poisson

24 Certaines propriétés de la loi de Poisson La loi de Poisson a deux propriétés particulièrement intéressantes: son espérance (ou moyenne) est λ et sa variance est également λ.

25 Le modèle de Poisson Lusage de la loi de Poisson dans le contexte de la régression semble avoir été suggéré pour la première fois par F. A. Haight au chapitre 5 de son Handbook of the Poisson Distribution (1967). Lusage de la régression pour étudier des taux en sciences sociales a été proposé pour la première fois par James Coleman au chapitre 5 de son Longitudinal Data Analysis (1981). Lusage de la régression de Poisson pour étudier des taux en épidémiologie semble avoir été proposé pour la première fois par E.L. Frome dans un article intitulé «The analysis of rates using Poisson regression models » publié en 1983 dans Biometrics.

26 Le modèle de Poisson Dans sa forme la plus simple, le modèle de Poisson relie la probabilité dobserver exactement y fois un événement donné au cours dun intervalle de temps T à un certain nombre de variables indépendantes. On ne connaît pas le paramètre λ a priori. On ne connaît évidemment pas non plus les effets des différentes variables indépendantes (les coefficients ou éléments du vecteur β). On imagine le modèle justement pour pouvoir estimer ces quantités à partir de données observées.

27 Le modèle de Poisson La composante aléatoire La composante systématique La fonction de liaison

28 Le modèle de Poisson modifié pour tenir compte du temps dexposition Le modèle original suppose que le temps T est connu et fixé. Ceci ne permet pas dutiliser des observations de durées différentes. On peut modifier le modèle original pour permettre lutilisation dobservations de durées différentes. Ceci se fait simplement en utilisant la durée (ou une fonction de la durée) de chaque observation comme si cétait une variable indépendante.

29 Le modèle de Poisson modifié pour tenir compte du temps dexposition La composante aléatoire La composante systématique La fonction de liaison

30 Le modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies Le modèle modifié pour tenir compte du temps dexposition suppose que, pour une unité dobservation donnée (c.-à-d. pour un individu donné), les variables indépendantes conservent la même valeur durant tout lépisode à létude. Or il est vraisemblable que la valeur dune ou plusieurs des variables indépendantes varie au cours de lépisode. On peut modifier le modèle pour quil tienne compte de ces variations. Il suffit de « découper » chaque épisode en autant de « sous-épisodes » quil existe de combinaisons différentes de valeurs de variables indépendantes au cours de lépisode de chaque unité (individu) de répartir en proportion le temps dexposition T entre les « sous- épisodes ».

31 Le modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies En termes plus simples, Le « modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies » sestime en utilisant un fichier biographique.

32 Le modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies La composante aléatoire La composante systématique La fonction de liaison

33 Le modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies La fonction de densité La fonction de vraisemblance

34 Le modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies On obtient les équations de la diapositive précédente simplement en remplaçant le paramètre λ de la fonction de densité de la loi de Poisson par ce le membre de droite qui lui correspond dan le modèle de Poisson. Autrement dit, on remplace simplement λ par exp[ln(E) + xβ].

35 Le modèle de Poisson « modifié » Entre autres choses, le modèle de Poisson permet, en plus de tenir compte de la quantité de temps dexposition, de tenir compte de leffet du temps écoulé depuis le début de lexposition. Pour ce faire, il suffit dutiliser le temps écoulé depuis le début de lexposition comme variable indépendante soit de manière continue, soit de manière discrète. En plus, il permet de tenir compte « naturellement » des VIFT parce quon lestime à partir dun fichier biographique.

36 Le modèle de Poisson « modifié » Pour rendre cette distinction explicite, on peut réécrire le modèle en distinguant les variables indépendantes « ordinaires », qui varient ou non en fonction du temps (p. ex. la situation conjugale et la langue maternelle) et lâge, qui varie en fonction du temps. Si lon note x le vecteur des variables indépendantes ordinaires et β le vecteur de leurs coefficients, et si lon note z le vecteur des variables binaires qui représentent les classes dâge et γ le vecteur de leurs coefficients ou le vecteur des variables continues qui représentent leffet non linéaire de lâge, on obtient :

37 Le modèle de Poisson modifié pour tenir compte du temps dexposition, de la segmentation des biographies et distinguer lâge des autres variables indépendantes La composante aléatoire La composante systématique La fonction de liaison

38 Modèle de Poisson modifié pour tenir compte du temps dexposition et de la segmentation des biographies La fonction de densité La fonction de vraisemblance

39 La relation entre la loi de Poisson et la loi exponentielle La Loi de Poisson est une loi de probabilité « discrète » : elle décrit la distribution dune variable aléatoire qui donne le nombre des événements qui surviennent au cours dun intervalle; les valeurs de la variable aléatoire qui suit une loi de Poisson sont des entiers positifs. La loi exponentielle est une loi de probabilité « continue » : elle décrit la distribution dune variable aléatoire qui donne le temps écoulé avant la survenue dun événement; les valeurs de la variable aléatoire qui suit une loi exponentielle sont des réels positifs. La loi exponentielle décrit le temps écoulé entre la survenue de deux événements successifs régis par un processus qui suit une loi de Poisson.

40 Les modèles de risque en général Le risque instantané comme limite Le risque instantané (ou quotient instantané ou taux instantané) est la probabilité de changer détat au cours dun intervalle de largeur infinitésimale (quantité de temps dexposition infiniment petite) si on na pas déjà changé détat avant cet intervalle (position de cet intervalle sur laxe du temps).

41 Annexe sur la typographie Lalphabet grec de lAntiquité, comme celui du latin de la même époque, ne comportait que ce que nous appelons aujourdhui les majuscules. Lupsilon (Y) notait le son [y] du français, celui du mot « union ». Les Romains ont ajouté cette lettre à leur alphabet pour noter ce son qui nexiste pas en latin. Les minuscules ne sont apparues quau Moyen-Âge; avant leur apparition, la confusion entre les lettres des deux alphabets était peu probable. De toutes manières, en dehors des mathématiques et de la statistique, il est rare quon mélange les deux alphabets dans un seul énoncé.

42 Annexe sur la typographie


Télécharger ppt "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur."

Présentations similaires


Annonces Google