Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur.

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur

Les fondements de l’analyse longitudinale Plan  Définitions  La logique de la construction d’une table d’extinction  construite à partir de micro-données  et conçue comme un modèle statistique.  Aperçu de la table comme modèle statistique  Autres estimateurs de la table  L’estimateur actuariel  L’estimateur de Kaplan-Meier

Définitions  Événement  Changement d’état, passage de l’état d’origine à un autre état.  Épisode  Fraction d’une biographie pendant laquelle une unité statistique est à risque de changer d’état.  Groupe à risque  Ensemble des unités (échantillon ou population) à risque de changer d’état dans une analyse.  Entrée dans le groupe à risque  Moment où une unité devient à risque et est observée dans cet état au sens de l’analyse.  Sortie du groupe à risque  Moment où une unité cesse d’être à fois à risque et d’être observée dans cet état au sens de l’analyse.  On peut sortir du groupe à risque en changeant d’état.  On peut sortir du groupe à risque sans changer d’état. On peut alors entrer de nouveau dans le groupe à risque. On parle alors d’un hiatus.

Définitions  Durée (plus exactement, « durée du séjour dans l’état d’origine »)  Le temps écoulé entre le temps zéro et le moment où l’unité statistique change d’état.  « Temps analytique »  L’axe du temps en fonction duquel on étudie la distribution d’un événement.  Plus spécialement, le temps en tant qu’il est mesuré à partir du temps zéro.  Temps zéro  Point zéro de l’axe du temps analytique.  On n’étudie habituellement la nuptialité ou la fécondité qu’à partir de l’âge de 15 ans.  On n’étudie la rupture des unions qu’à partir du moment de leur formation.  Temps à risque  Quantité de temps pendant laquelle une unité statistique est à risque de changer d’état. Le temps à risque d’une unité peut être inférieur au temps qu’elle passe dans l’état d’origine (p. ex. à cause d’un hiatus ou des entrées échelonnées).  Temps passé à risque, généralement au cours d’un intervalle, par l’ensemble des unités qui forment le groupe à risque; en ce sens, le temps à risque est le dénominateur d’un taux.

La logique de la construction d’une table comme modèle statistique  Imaginons qu’on s’intéresse à la naissance du premier enfant chez les femmes canadiennes et qu’on dispose des données d’une enquête biographique, par exemple celles de l’Enquête sur les transitions familiales de 2006.  Règle générale, on étudiera le phénomène dans le sous-échantillon des femmes âgées de 15 à 80 ans au moment de l’enquête.  On élimine les femmes âgées de 80 ans ou plus parce qu’on ne connaît pas leur âge exact à l’enquête (ce ne serait pas un problème dans ce cas-ci, mais c’est la pratique).  On étudie le phénomène jusqu’à l’âge de 40  On le fait habituellement jusqu’à 45 ou 50 ans, mais on se limite ici à 40 ans pour conserver la lisibilité du tableau.

La logique de la construction d’une table comme modèle statistique  Formellement, on cherche donc à connaître la distribution théorique de la variable aléatoire T à partir de sa distribution statistique dans l’échantillon de l’Enquête sur les transitions familiales.  On peut interpréter la distribution de la variable qui nous intéresse de deux manières:  l’âge de la mère à la naissance de son premier enfant (donc l’âge de la mère au moment de l’événement que nous étudions) ou bien  le nombre de premières naissances survenues au cours de chaque intervalle de classe de la variable « Âge de la mère ».

L’âge à la naissance du premier enfant Enquête sociale générale de 2006. Femmes âgées de 15 à 80 ans au moment de l’enquête ntnt le nombre des premières naissances au cours de l’intervalle t ftft la proportion des premières naissances qui surviennent au cours de l’intervalle t FtFt la proportion des premières naissances survenues depuis l’origine de la table à la fin de l’intervalle t ntnt le nombre des femmes qui donnent naissance à leur premier enfant à l’âge t ftft la proportion des femmes qui donnent naissance à leur premier enfant à l’âge t FtFt la proportion des femmes qui donnent naissance à leur premier enfant au plus tard à l’âge t

La logique de la construction d’une table comme modèle statistique  Aucune des deux interprétations ne permet d’arriver à la conclusion que la distribution statistique de la variable T représente de manière raisonnable la distribution théorique du phénomène qui nous intéresse.  Peu importe l’interprétation, la distribution ne contient d’information que sur la fécondité des femmes qui ont eu leur premier enfant entre 15 et 40 ans. Elle ne nous apprend rien de la fécondité des femmes qui n’ont pas eu d’enfant avant 40 ans, alors que cette information est essentielle pour connaître la fécondité.  On peut tenter de contourner le problème en ajoutant à la table les femmes qui n’ont pas eu d’enfant  à l’âge qu’elles avaient atteint au moment où on a cessé de les observer (c.-à-d. l’âge qu’elles avaient à l’enquête) ou  à l’âge au-delà duquel nous ne nous intéressons plus au phénomène (c.-à-d. 40 ans),  mais cela n’améliore pas la « lisibilité » du tableau.

La logique de la construction d’une table comme modèle statistique

 Pour comprendre le problème et sa solution il faut aborder deux questions:  les notions de troncation et de censure et  les notions de quotient et de taux.  Il faut également réfléchir aux mouvements de la population qui « perturbent » le phénomène que nous étudions.

Troncation et censure Morice, E. 1968. Dictionnaire de statistique. Paris : Dunod, p. 31. Morice, E. 1974, Diccionario de estadística. México: CECSA.

Troncation et censure  La notion de troncation apparaît dans un article de Fisher, le « père » de la statistique mathématique, où celui-ci traite du problème de l’estimation de la distribution théorique d’une variable à partir d’une distribution statistique obtenue au moyen d’un tirage qui ne se fait pas dans toute l’étendue de la distribution théorique de la variable :  Fisher, R. A. 1931. « The truncated normal distribution ». British Association for the Advancement of Science, Math. Tables, I, p. XXXIII- XXXIV.  La notion de censure apparaît pour la première fois dans un article de A. Hald qui se base sur l’article de Fisher :  Hald, A. 1949. « Maximum likelihood estimation of the parameters of a normal distribution which is truncated at a known point ». Skandinavisk Aktuarietidskrift, vol. 32, p. 119-132.  Hald introduit le mécanisme qu’on nommera plus tard censure, mais n’utilise que l’adjectif censuré.

Troncation et censure  Censure à droite  On sait qu’au moment t, l’événement ne s’était pas encore produit et on ne sait pas quand il se produira.  Censure à gauche  On sait qu’au moment t, l’événement s’était déjà produit, mais on ne sait pas exactement à quel moment.  Censure par intervalles  On sait que l’événement s’est produit entre le moment t 1 et le moment t 2, mais on ne sait pas exactement à quel moment.  Troncation à gauche  On ne sait rien des événements qui se produisent avant t.  Troncation à droite  On ne sait rien des événements qui se produisent après t ou, ce qui revient au même, on ne connaît que les événements qui se produisent avant t.

Troncation et censure  Au sens de ces définitions, il est tout d’abord évident que les deux distributions sont tronquées à gauche : on exclut de chacune les premières naissances survenues avant 15 ans.  La première distribution est construite en ne retenant que les femmes qui ont eu leur premier enfant après 15 ans et avant 40 ans, et chaque femme est classée à l’âge où elle a eu cet enfant. En plus d’être tronquée à gauche, cette distribution est tronquée à droite, puisqu’en plus d’exclure les naissances survenues avant 15 ans, elle exclut également les naissances survenues après 40 ans.  La seconde distribution est construite en retenant toutes les femmes qui n’avaient pas eu leur premier avant 15 ans et en classant chaque femme soit à l’âge où elle a eu son premier enfant, soit à l’âge le plus élevé où elle a été observée sans avoir eu son premier enfant. En plus d’être tronquée à gauche, cette distribution est censurée à droite : les femmes qui n’ont pas eu leur premier enfant avant 40 ans ne sont pas exclues, mais sont classées à la limite inférieure de la portion de la distribution où se trouvera l’âge auquel elles donneront naissance à leur premier enfant si elles le font. Puisque l’échantillon est composé de femmes âgées de 15 à 80 ans au moment de l’enquête et que les femmes nullipares sont comptées dans la classe d’âge à laquelle elles appartenaient au moment de l’enquête, la distribution a autant de points de censure qu’elle a de classes d’âge.

Troncation et censure

 Le problème se résout en construisant les fonctions de la distribution théorique de la variable T non pas à partir de sa distribution de fréquences comprise comme une approximation de sa fonction de densité, mais à partir de sa fonction de risque h(t), approchée par les taux tels qu’on peut les estimer pour chaque intervalle de classe t.

Quotient et taux  Au sens général, le mot « taux » désigne simplement le rapport de deux quantités. En démographie, on l'utilise pour désigner trois types de rapport différents :  le rapport entre deux quantités à un moment donné,  la variation relative dans le temps exprimée comme un rapport et  l'intensité d'un phénomène définie comme le rapport entre le nombre des événements et le temps à risque.  Le taux d’activité, défini comme le rapport entre la taille de population active et la taille de la population en âge de travailler, est un rapport entre deux quantités à un moment donné. Les taux de ce type peuvent généralement être interprétés comme des probabilités. Le taux de prévalence de l'épidémiologie est un taux de ce type.  Le taux d’accroissement, par exemple celui de la population, défini comme le rapport entre, d'une part, la différence entre la taille de la population à la fin d'une période et la taille de la population au début de cette période et, d'autre part, la taille de la population au début de la période, est une variation relative dans le temps exprimée comme un rapport.

Quotient et taux  Au sens général, le mot « quotient » désigne simplement le résultat de la division d'un nombre par un autre.  En démographie, on emploie le mot « quotient » dans un sens spécial, et presque toujours dans une table d’extinction, pour désigner la fraction, ou proportion, du groupe à risque ou de la population à risque au début d’un intervalle qui change d'état au cours de cet intervalle.  Le quotient de la table d’extinction est donc bien un quotient au sens général, mais il est défini de manière plus étroite. En particulier, le quotient de la table d’extinction est une fraction et non un simple rapport, ce qui implique notamment qu'il varie entre 0 et 1. Ceci implique également que le quotient peut être interprété comme une probabilité.

Quotient et taux  Le taux et le quotient sont liés par une relation algébrique dont l’élément le plus important est une quantité, la fraction moyenne de l’intervalle qui est passée à risque par les personnes qui changent d’état au cours de cet intervalle ; on nomme parfois cette quantité « coefficient de répartition », noté ici a t :  q t = m t / [1 + (1 - a t )m t ]  Cette quantité peut être estimée de manière assez précise lorsqu'on dispose d'information détaillée, comme c’est habituellement le cas lorsqu’on utilise les données d'une enquête.  On doit se contenter d’une approximation lorsqu’on utilise des données agrégées. On pose alors le plus souvent que les personnes qui changent d’état le font au centre de l’intervalle, ce qui revient à fixer la valeur du coefficient de répartition à 0,5. Cette hypothèse est parfois invraisemblable, par exemple lorsqu’on étudie la mortalité infantile; on doit alors utiliser une estimation plus réaliste du coefficient de répartition, qu’on emprunte habituellement à une étude réalisée sur une population analogue.

Quotient et taux  Normalement, le questionnaire biographique mesure la durée des séjours dans l’état d’origine avec une précision plus grande que la longueur des intervalles d’une table.  Cette précision permet de construire la table à partir des taux dont les dénominateurs — le temps passé à risque par l’ensemble des individus à risque dans chaque intervalle — sont mesurés avec précision.  On trouve le temps total passé à risque au cours de chaque intervalle dans la colonne r t du tableau 3.  Le taux est obtenu tout simplement en divisant le nombre des événements survenus au cours de l’intervalle par la quantité de temps passé à risque au cours de cet intervalle par l’ensemble des individus qui y ont été à risque. On se sert directement des taux pour calculer la fonction de risque cumulé H(t).

Mouvements de la population qui affectent la composition du groupe à risque

La logique de la construction d’une table comme modèle statistique

Aperçu formel de la table comme modèle statistique T le temps, entendu comme variable; t le temps correspondant à la fin d’un intervalle c.-à-d. la valeur de T à la fin de cet intervalle; n la taille d’un échantillon ou d’un sous-échantillon; n dt le nombre des unités à risque au début de l’intervalle t ; n rt le nombre des unités qui cessent d’être à risque (ou qui sortent du groupe à risque) sans changer d’état au cours de l’intervalle t (les retraits ); n at le nombre des unités qui deviennent à risque (ou qui entrent dans le groupe à risque) au cours de l’intervalle t (les ajouts ); ntnt le nombre des unités à risque durant l’intervalle t (le groupe à risque ); rtrt le temps total passé à risque par les unités à risque durant l’intervalle t, exprimé en utilisant la longueur de l’intervalle comme unité de temps ( temps à risque ou temps d’exposition au risque ); dtdt le nombre des unités qui changent d’état au cours de l’intervalle t ( événements, décès, bris ); htht le taux, qui régit le changement au cours de l’intervalle t et qui n’est pas une proportion; ftft la proportion de la population théorique qui change d’état au cours de l’intervalle t ; StSt la proportion de la population théorique qui n’a pas changé d’état depuis l’origine à la fin de l’intervalle t ; FtFt la proportion de la population théorique qui a changé d’état depuis l’origine à la fin de l’intervalle t.

Le calcul des quantités d’une table d’extinction à partir des données, c.-à-d. des événements et du temps à risque  Le risque  Le séjour  Les fréquences  Les fréquences cumulées  Le risque cumulé

Les fonctions d’une loi de probabilité h(t)h(t) la fonction de risque (ou quotient instantané, ou risque instantané ou, parfois, taux instantané ) qui associe une valeur h t à chaque valeur de la variable T, S(t)S(t) la fonction de séjour, qui associe une valeur S t à chaque valeur de la variable T, f(t)f(t) la fonction de densité de probabilité, qui associe une valeur f t à chaque valeur de la variable T, F(t)F(t) la fonction de répartition de probabilité, qui associe une valeur F t à chaque valeur de la variable T, H(t)H(t) la fonction de risque cumulé, qui associe une valeur H t à chaque valeur de la variable T.

Les fonctions d’une loi de probabilité FrançaisAnglaisEspagnol Fonction de densité [de probabilité] [Probability] density function (p.d.f.) Función de densidad [de probabilidad] Fonction de répartition [de probabilité] [Probability] distribution function (Cumulated density function, c.d.f.) Función de distribución [de probabilidad] Fonction de survie ou Fonction de séjour Survival functionFunción de supervivencia Fonction de risque (Fonction d’intensité) Hazard function (Intensity function) Función de riesgo (Función de intensidad)

Vocabulaire FrançaisAnglaisEspagnol Loi de probabilité Distribution théorique Statistical distributionLey de probabilidad Distribución teórica Distribution statistique Fonction de répartition [de probabilité] [Probability] distribution function Función de repartición

Les fonctions d’une loi de probabilité Fonction de risque Fonction de séjour Fonction de densité

Les fonctions d’une loi de probabilité Fonction de répartition

Les fonctions d’une loi de probabilité Les fonctions de séjour, de densité et de répartition exprimées à partir de la fonction de risque.

Les fonctions d’une loi de probabilité La fonction de risque exprimée à partir de la fonction de densité puis de la fonction de séjour ou le risque exprimé à partir de la densité puis de la survie.

Les fonctions d’une loi statistique Le risque cumulé ou quotient cumulé. Le risque est un taux; l’ISF est donc un risque cumulé. Note: on a utilisé ici k plutôt que t. C’est affaire de convention. On utilise généralement k pour indiquer qu’on utilise des classes, et t lorsqu’on n’en utilise pas ou qu’on ne souhaite pas marquer la différence.

Les fonctions d’une distribution  À strictement parler, ce que nous venons de voir est exact  lorsque T est une variable continue traitée en continu et  lorsque T est une variable discrète traitée comme telle.  Ce que nous venons de voir n’est pas tout à fait exact lorsque T est une variable continue traitée en « discontinu », p. ex. dans une table où les valeurs de T sont regroupées en classes d’âge.  Dans ce cas, il est plus « juste » d’écrire que  et cela serait conforme à la manière habituelle de calculer une table.  On ne le fait pas dans le contexte où nous sommes pour plusieurs raisons.

Les fonctions d’une distribution  La théorie qui traite des modèles statistiques utilisés en analyse des biographies ne raisonne que sur les intervalles infinitésimaux, même pour le cas « discret », et ignore ou contourne les particularités du regroupement en classes qui est à la base de la table d’extinction, notamment celle qui force à distinguer le quotient du taux. Il n’y a donc pas de définition stricte de la fonction de risque pour la table d’extinction.  Si on estime certaines des fonctions (p. ex. le séjour) à partir du quotient et d’autres à partir du taux (p. ex. le risque cumulé), les relations entre les fonctions disparaissent.  Les modèles statistiques ignorent tous la distinction entre le quotient et le taux, même ceux où le temps est regroupé en classes.  La microsimulation regroupe presque toujours le temps en classes et n’utilise que les taux.

Autres estimateurs de la table L’estimateur dit « actuariel »  On y calcule les taux en remplaçant le temps à risque calculé exactement par une approximation basée  sur le nombre des unités à risque et  l’hypothèse que les unités qui ne sont pas à risque durant tout l’intervalle le sont exactement durant la moitié de l’intervalle.  Le dénominateur du taux est alors la somme  du nombre des unités à risque au début de l’intervalle encore à risque à la fin de l’intervalle,  de la moitié du nombre des unités qui entrent dans le groupe à risque au cours de l’intervalle,  de la moitié du nombre des unités qui sortent du groupe à risque sans changer d’état au cours de l’intervalle et  du nombre des unités qui changent d’état au cours de l’intervalle.  Compter ainsi les unités qui changent d’état au cours de l’intervalle est incohérent et sous-estime le taux, mais impose qu’il ne dépasse jamais un, ce qui permet de le traiter comme une proportion alors qu’il n’en est pas une.

Autres estimateurs de la table

L’estimateur de Kaplan-Meier

Autres estimateurs de la table L’estimateur de Kaplan-Meier  Il tire son nom français du nom des deux auteurs qui ont écrit un article dans lequel ils en étudient les propriétés statistiques et montrent qu’il a les propriétés d’un estimateur au sens de la théorie du maximum de vraisemblance.  Il achève un intervalle à la survenue de chaque événement (dans l’échantillon).  Il tient compte de l’ordre des événements (et des intervalles), mais pas de leur durée.  En principe, il n’admet qu’un événement par intervalle, qui survient à fin de celui-ci.  Il estime la survie à la fin de chaque intervalle (qui est une probabilité), mais ne permet pas d’estimer le risque (qui exige qu’on tienne compte du temps passé à risque).

Autres estimateurs de la table L’estimateur de Kaplan-Meier  Le dénominateur de ce qui tient lieu de taux est le nombre des unités à risque au début de l’intervalle.  Ceci sous-estime le taux.  L’estimateur de Kaplan-Meier est un modèle statistique non paramétrique.  Paradoxalement, il repose sur un raisonnement où le temps est pensé en continu.

Petite annexe sur la troncation et la censure

Interprétation erronée de la troncation et de la censure Tuma, Nancy Brandon. 1982. « Nonparametric and Partially Parametric Approaches to Event-History Analysis ». Sociological Methodology, 13, p. 1-60.

Interprétation erronée de la troncation et de la censure

Tuma, N. B. et M. Hannan. 1984. Social Dynamics. Models and methods. Orlando FL: Academic Press.

Interprétation erronée de la troncation et de la censure Kendall, M. G. et W. R. Buckland. 1960. A Dictionary of statistical terms, 2 nd edition. New York NY: Hafner Publishing Co.

Interprétation erronée de la troncation et de la censure L’interprétation erronée repose sur plusieurs confusions  On comprend que l’échantillon dont il est question dans la définition de Kendall et Buckland est un échantillon d’unités statistiques tirée d’une population finie alors que les notions de troncation et de censure ont été introduites en statistique mathématique en raisonnant sur un échantillon de valeurs tiré d’une population théorique.  On ne comprend pas que les mécanismes de censure et de troncation sont propres à chacun des tirages faits dans la distribution théorique. On imagine qu’ils sont une propriété du plan de sondage ou du « plan d’observation », qui ne sont définis que pour un échantillon tiré d’une population finie..  On imagine que les unités statistiques dont on peut tirer un échantillon d’une population finie sont des biographies alors que ce sont des personnes.  On représente ces biographies au moyen d’une ligne comme dans un diagramme de Lexis, ce qui conduit notamment à nommer censure à gauche ce qui est en fait l’entrée échelonnée.

La confusion est encore plus grande en français

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur.

Présentations similaires

Présentation au sujet: "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur.

Présentations similaires

Présentation au sujet: "Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back