Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur.

Slides:



Advertisements
Présentations similaires
Probabilités et statistiques au lycée
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Introduction aux statistiques
Collecte de données F. Kohler.
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Tests de comparaison de pourcentages
Échantillonnage-Estimation
Les tests d’hypothèses
Estimation de la survie comparaison des courbes de survie FRT C3.
variable aléatoire Discrète
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
1 - Construction d'un abaque Exemple
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 2 Séance du 17 janvier 2014 Benoît Laplante, professeur.
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur.
Mathématiques Les statistiques et probabilités en STI2d/STL
Groupe 1: Classes de même intervalle
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur.
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
STATISTIQUES – PROBABILITÉS
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Séries chronologiques et prévision
Les intervalles de confiance pour la moyenne d’une population
Régression linéaire (STT-2400)
Calcul de probabilités
LE DISCOURS SCIENTIFIQUE
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Probabilités et variables aléatoires
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Processus de Poisson UQAM, Actuariat 3.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Méthodes de Biostatistique
Suites numériques Définitions.
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Démarches de résolution de problèmes © R. & M. Lyons Janvier 2010.
Les principes de la modélisation de systèmes
Master 1 – Sciences du Langage –
La firme Les techniques à deux facteurs La demande de facteurs
Séquence FONCTION DE VARIABLE(S) REELLE(S) :
l’économie de Robinson et de vendredi
Modèles d’évolution de population
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 8 Séance du 21 mars 2014 Benoît Laplante, professeur.
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 3 Séance du 24 janvier 2014 Benoît Laplante, professeur.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Les fonctions Les propriétés.
Le belge : une espèce en voie de disparition ? Un contexte démographique dans les leçons de mathématiques. CREM, Nivelles, 07/05/08 Johan Deprez cfr.
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 1 Séance du 10 janvier 2014 Benoît Laplante, professeur.
Présentation du marché obligataire
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Concepts fondamentaux: statistiques et distributions
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Composantes de base en démographie
Échantillonnage (STT-2000)
Les distributions de fréquences et de pourcentages
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
ECHANTILLONAGE ET ESTIMATION
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Bienvenue au cours MAT-350 Probabilités et statistiques.
STATISTIQUE DESCRIPTIVE
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 4 Séance du 31 janvier 2014 Benoît Laplante, professeur

Les fondements de l’analyse longitudinale Plan  Définitions  La logique de la construction d’une table d’extinction  construite à partir de micro-données  et conçue comme un modèle statistique.  Aperçu de la table comme modèle statistique  Autres estimateurs de la table  L’estimateur actuariel  L’estimateur de Kaplan-Meier

Définitions  Événement  Changement d’état, passage de l’état d’origine à un autre état.  Épisode  Fraction d’une biographie pendant laquelle une unité statistique est à risque de changer d’état.  Groupe à risque  Ensemble des unités (échantillon ou population) à risque de changer d’état dans une analyse.  Entrée dans le groupe à risque  Moment où une unité devient à risque et est observée dans cet état au sens de l’analyse.  Sortie du groupe à risque  Moment où une unité cesse d’être à fois à risque et d’être observée dans cet état au sens de l’analyse.  On peut sortir du groupe à risque en changeant d’état.  On peut sortir du groupe à risque sans changer d’état. On peut alors entrer de nouveau dans le groupe à risque. On parle alors d’un hiatus.

Définitions  Durée (plus exactement, « durée du séjour dans l’état d’origine »)  Le temps écoulé entre le temps zéro et le moment où l’unité statistique change d’état.  « Temps analytique »  L’axe du temps en fonction duquel on étudie la distribution d’un événement.  Plus spécialement, le temps en tant qu’il est mesuré à partir du temps zéro.  Temps zéro  Point zéro de l’axe du temps analytique.  On n’étudie habituellement la nuptialité ou la fécondité qu’à partir de l’âge de 15 ans.  On n’étudie la rupture des unions qu’à partir du moment de leur formation.  Temps à risque  Quantité de temps pendant laquelle une unité statistique est à risque de changer d’état. Le temps à risque d’une unité peut être inférieur au temps qu’elle passe dans l’état d’origine (p. ex. à cause d’un hiatus ou des entrées échelonnées).  Temps passé à risque, généralement au cours d’un intervalle, par l’ensemble des unités qui forment le groupe à risque; en ce sens, le temps à risque est le dénominateur d’un taux.

La logique de la construction d’une table comme modèle statistique  Imaginons qu’on s’intéresse à la naissance du premier enfant chez les femmes canadiennes et qu’on dispose des données d’une enquête biographique, par exemple celles de l’Enquête sur les transitions familiales de  Règle générale, on étudiera le phénomène dans le sous-échantillon des femmes âgées de 15 à 80 ans au moment de l’enquête.  On élimine les femmes âgées de 80 ans ou plus parce qu’on ne connaît pas leur âge exact à l’enquête (ce ne serait pas un problème dans ce cas-ci, mais c’est la pratique).  On étudie le phénomène jusqu’à l’âge de 40  On le fait habituellement jusqu’à 45 ou 50 ans, mais on se limite ici à 40 ans pour conserver la lisibilité du tableau.

La logique de la construction d’une table comme modèle statistique  Formellement, on cherche donc à connaître la distribution théorique de la variable aléatoire T à partir de sa distribution statistique dans l’échantillon de l’Enquête sur les transitions familiales.  On peut interpréter la distribution de la variable qui nous intéresse de deux manières:  l’âge de la mère à la naissance de son premier enfant (donc l’âge de la mère au moment de l’événement que nous étudions) ou bien  le nombre de premières naissances survenues au cours de chaque intervalle de classe de la variable « Âge de la mère ».

L’âge à la naissance du premier enfant Enquête sociale générale de Femmes âgées de 15 à 80 ans au moment de l’enquête ntnt le nombre des premières naissances au cours de l’intervalle t ftft la proportion des premières naissances qui surviennent au cours de l’intervalle t FtFt la proportion des premières naissances survenues depuis l’origine de la table à la fin de l’intervalle t ntnt le nombre des femmes qui donnent naissance à leur premier enfant à l’âge t ftft la proportion des femmes qui donnent naissance à leur premier enfant à l’âge t FtFt la proportion des femmes qui donnent naissance à leur premier enfant au plus tard à l’âge t

La logique de la construction d’une table comme modèle statistique  Aucune des deux interprétations ne permet d’arriver à la conclusion que la distribution statistique de la variable T représente de manière raisonnable la distribution théorique du phénomène qui nous intéresse.  Peu importe l’interprétation, la distribution ne contient d’information que sur la fécondité des femmes qui ont eu leur premier enfant entre 15 et 40 ans. Elle ne nous apprend rien de la fécondité des femmes qui n’ont pas eu d’enfant avant 40 ans, alors que cette information est essentielle pour connaître la fécondité.  On peut tenter de contourner le problème en ajoutant à la table les femmes qui n’ont pas eu d’enfant  à l’âge qu’elles avaient atteint au moment où on a cessé de les observer (c.-à-d. l’âge qu’elles avaient à l’enquête) ou  à l’âge au-delà duquel nous ne nous intéressons plus au phénomène (c.-à-d. 40 ans),  mais cela n’améliore pas la « lisibilité » du tableau.

La logique de la construction d’une table comme modèle statistique

 Pour comprendre le problème et sa solution il faut aborder deux questions:  les notions de troncation et de censure et  les notions de quotient et de taux.  Il faut également réfléchir aux mouvements de la population qui « perturbent » le phénomène que nous étudions.

Troncation et censure Morice, E Dictionnaire de statistique. Paris : Dunod, p. 31. Morice, E. 1974, Diccionario de estadística. México: CECSA.

Troncation et censure  La notion de troncation apparaît dans un article de Fisher, le « père » de la statistique mathématique, où celui-ci traite du problème de l’estimation de la distribution théorique d’une variable à partir d’une distribution statistique obtenue au moyen d’un tirage qui ne se fait pas dans toute l’étendue de la distribution théorique de la variable :  Fisher, R. A « The truncated normal distribution ». British Association for the Advancement of Science, Math. Tables, I, p. XXXIII- XXXIV.  La notion de censure apparaît pour la première fois dans un article de A. Hald qui se base sur l’article de Fisher :  Hald, A « Maximum likelihood estimation of the parameters of a normal distribution which is truncated at a known point ». Skandinavisk Aktuarietidskrift, vol. 32, p  Hald introduit le mécanisme qu’on nommera plus tard censure, mais n’utilise que l’adjectif censuré.

Troncation et censure  Censure à droite  On sait qu’au moment t, l’événement ne s’était pas encore produit et on ne sait pas quand il se produira.  Censure à gauche  On sait qu’au moment t, l’événement s’était déjà produit, mais on ne sait pas exactement à quel moment.  Censure par intervalles  On sait que l’événement s’est produit entre le moment t 1 et le moment t 2, mais on ne sait pas exactement à quel moment.  Troncation à gauche  On ne sait rien des événements qui se produisent avant t.  Troncation à droite  On ne sait rien des événements qui se produisent après t ou, ce qui revient au même, on ne connaît que les événements qui se produisent avant t.

Troncation et censure  Au sens de ces définitions, il est tout d’abord évident que les deux distributions sont tronquées à gauche : on exclut de chacune les premières naissances survenues avant 15 ans.  La première distribution est construite en ne retenant que les femmes qui ont eu leur premier enfant après 15 ans et avant 40 ans, et chaque femme est classée à l’âge où elle a eu cet enfant. En plus d’être tronquée à gauche, cette distribution est tronquée à droite, puisqu’en plus d’exclure les naissances survenues avant 15 ans, elle exclut également les naissances survenues après 40 ans.  La seconde distribution est construite en retenant toutes les femmes qui n’avaient pas eu leur premier avant 15 ans et en classant chaque femme soit à l’âge où elle a eu son premier enfant, soit à l’âge le plus élevé où elle a été observée sans avoir eu son premier enfant. En plus d’être tronquée à gauche, cette distribution est censurée à droite : les femmes qui n’ont pas eu leur premier enfant avant 40 ans ne sont pas exclues, mais sont classées à la limite inférieure de la portion de la distribution où se trouvera l’âge auquel elles donneront naissance à leur premier enfant si elles le font. Puisque l’échantillon est composé de femmes âgées de 15 à 80 ans au moment de l’enquête et que les femmes nullipares sont comptées dans la classe d’âge à laquelle elles appartenaient au moment de l’enquête, la distribution a autant de points de censure qu’elle a de classes d’âge.

Troncation et censure

 Le problème se résout en construisant les fonctions de la distribution théorique de la variable T non pas à partir de sa distribution de fréquences comprise comme une approximation de sa fonction de densité, mais à partir de sa fonction de risque h(t), approchée par les taux tels qu’on peut les estimer pour chaque intervalle de classe t.

Quotient et taux  Au sens général, le mot « taux » désigne simplement le rapport de deux quantités. En démographie, on l'utilise pour désigner trois types de rapport différents :  le rapport entre deux quantités à un moment donné,  la variation relative dans le temps exprimée comme un rapport et  l'intensité d'un phénomène définie comme le rapport entre le nombre des événements et le temps à risque.  Le taux d’activité, défini comme le rapport entre la taille de population active et la taille de la population en âge de travailler, est un rapport entre deux quantités à un moment donné. Les taux de ce type peuvent généralement être interprétés comme des probabilités. Le taux de prévalence de l'épidémiologie est un taux de ce type.  Le taux d’accroissement, par exemple celui de la population, défini comme le rapport entre, d'une part, la différence entre la taille de la population à la fin d'une période et la taille de la population au début de cette période et, d'autre part, la taille de la population au début de la période, est une variation relative dans le temps exprimée comme un rapport.

Quotient et taux  Au sens général, le mot « quotient » désigne simplement le résultat de la division d'un nombre par un autre.  En démographie, on emploie le mot « quotient » dans un sens spécial, et presque toujours dans une table d’extinction, pour désigner la fraction, ou proportion, du groupe à risque ou de la population à risque au début d’un intervalle qui change d'état au cours de cet intervalle.  Le quotient de la table d’extinction est donc bien un quotient au sens général, mais il est défini de manière plus étroite. En particulier, le quotient de la table d’extinction est une fraction et non un simple rapport, ce qui implique notamment qu'il varie entre 0 et 1. Ceci implique également que le quotient peut être interprété comme une probabilité.

Quotient et taux  Le taux et le quotient sont liés par une relation algébrique dont l’élément le plus important est une quantité, la fraction moyenne de l’intervalle qui est passée à risque par les personnes qui changent d’état au cours de cet intervalle ; on nomme parfois cette quantité « coefficient de répartition », noté ici a t :  q t = m t / [1 + (1 - a t )m t ]  Cette quantité peut être estimée de manière assez précise lorsqu'on dispose d'information détaillée, comme c’est habituellement le cas lorsqu’on utilise les données d'une enquête.  On doit se contenter d’une approximation lorsqu’on utilise des données agrégées. On pose alors le plus souvent que les personnes qui changent d’état le font au centre de l’intervalle, ce qui revient à fixer la valeur du coefficient de répartition à 0,5. Cette hypothèse est parfois invraisemblable, par exemple lorsqu’on étudie la mortalité infantile; on doit alors utiliser une estimation plus réaliste du coefficient de répartition, qu’on emprunte habituellement à une étude réalisée sur une population analogue.

Quotient et taux  Normalement, le questionnaire biographique mesure la durée des séjours dans l’état d’origine avec une précision plus grande que la longueur des intervalles d’une table.  Cette précision permet de construire la table à partir des taux dont les dénominateurs — le temps passé à risque par l’ensemble des individus à risque dans chaque intervalle — sont mesurés avec précision.  On trouve le temps total passé à risque au cours de chaque intervalle dans la colonne r t du tableau 3.  Le taux est obtenu tout simplement en divisant le nombre des événements survenus au cours de l’intervalle par la quantité de temps passé à risque au cours de cet intervalle par l’ensemble des individus qui y ont été à risque. On se sert directement des taux pour calculer la fonction de risque cumulé H(t).

Mouvements de la population qui affectent la composition du groupe à risque

La logique de la construction d’une table comme modèle statistique

Aperçu formel de la table comme modèle statistique T le temps, entendu comme variable; t le temps correspondant à la fin d’un intervalle c.-à-d. la valeur de T à la fin de cet intervalle; n la taille d’un échantillon ou d’un sous-échantillon; n dt le nombre des unités à risque au début de l’intervalle t ; n rt le nombre des unités qui cessent d’être à risque (ou qui sortent du groupe à risque) sans changer d’état au cours de l’intervalle t (les retraits ); n at le nombre des unités qui deviennent à risque (ou qui entrent dans le groupe à risque) au cours de l’intervalle t (les ajouts ); ntnt le nombre des unités à risque durant l’intervalle t (le groupe à risque ); rtrt le temps total passé à risque par les unités à risque durant l’intervalle t, exprimé en utilisant la longueur de l’intervalle comme unité de temps ( temps à risque ou temps d’exposition au risque ); dtdt le nombre des unités qui changent d’état au cours de l’intervalle t ( événements, décès, bris ); htht le taux, qui régit le changement au cours de l’intervalle t et qui n’est pas une proportion; ftft la proportion de la population théorique qui change d’état au cours de l’intervalle t ; StSt la proportion de la population théorique qui n’a pas changé d’état depuis l’origine à la fin de l’intervalle t ; FtFt la proportion de la population théorique qui a changé d’état depuis l’origine à la fin de l’intervalle t.

Le calcul des quantités d’une table d’extinction à partir des données, c.-à-d. des événements et du temps à risque  Le risque  Le séjour  Les fréquences  Les fréquences cumulées  Le risque cumulé

Les fonctions d’une loi de probabilité h(t)h(t) la fonction de risque (ou quotient instantané, ou risque instantané ou, parfois, taux instantané ) qui associe une valeur h t à chaque valeur de la variable T, S(t)S(t) la fonction de séjour, qui associe une valeur S t à chaque valeur de la variable T, f(t)f(t) la fonction de densité de probabilité, qui associe une valeur f t à chaque valeur de la variable T, F(t)F(t) la fonction de répartition de probabilité, qui associe une valeur F t à chaque valeur de la variable T, H(t)H(t) la fonction de risque cumulé, qui associe une valeur H t à chaque valeur de la variable T.

Les fonctions d’une loi de probabilité FrançaisAnglaisEspagnol Fonction de densité [de probabilité] [Probability] density function (p.d.f.) Función de densidad [de probabilidad] Fonction de répartition [de probabilité] [Probability] distribution function (Cumulated density function, c.d.f.) Función de distribución [de probabilidad] Fonction de survie ou Fonction de séjour Survival functionFunción de supervivencia Fonction de risque (Fonction d’intensité) Hazard function (Intensity function) Función de riesgo (Función de intensidad)

Vocabulaire FrançaisAnglaisEspagnol Loi de probabilité Distribution théorique Statistical distributionLey de probabilidad Distribución teórica Distribution statistique Fonction de répartition [de probabilité] [Probability] distribution function Función de repartición

Les fonctions d’une loi de probabilité Fonction de risque Fonction de séjour Fonction de densité

Les fonctions d’une loi de probabilité Fonction de répartition

Les fonctions d’une loi de probabilité Les fonctions de séjour, de densité et de répartition exprimées à partir de la fonction de risque.

Les fonctions d’une loi de probabilité La fonction de risque exprimée à partir de la fonction de densité puis de la fonction de séjour ou le risque exprimé à partir de la densité puis de la survie.

Les fonctions d’une loi statistique Le risque cumulé ou quotient cumulé. Le risque est un taux; l’ISF est donc un risque cumulé. Note: on a utilisé ici k plutôt que t. C’est affaire de convention. On utilise généralement k pour indiquer qu’on utilise des classes, et t lorsqu’on n’en utilise pas ou qu’on ne souhaite pas marquer la différence.

Les fonctions d’une distribution  À strictement parler, ce que nous venons de voir est exact  lorsque T est une variable continue traitée en continu et  lorsque T est une variable discrète traitée comme telle.  Ce que nous venons de voir n’est pas tout à fait exact lorsque T est une variable continue traitée en « discontinu », p. ex. dans une table où les valeurs de T sont regroupées en classes d’âge.  Dans ce cas, il est plus « juste » d’écrire que  et cela serait conforme à la manière habituelle de calculer une table.  On ne le fait pas dans le contexte où nous sommes pour plusieurs raisons.

Les fonctions d’une distribution  La théorie qui traite des modèles statistiques utilisés en analyse des biographies ne raisonne que sur les intervalles infinitésimaux, même pour le cas « discret », et ignore ou contourne les particularités du regroupement en classes qui est à la base de la table d’extinction, notamment celle qui force à distinguer le quotient du taux. Il n’y a donc pas de définition stricte de la fonction de risque pour la table d’extinction.  Si on estime certaines des fonctions (p. ex. le séjour) à partir du quotient et d’autres à partir du taux (p. ex. le risque cumulé), les relations entre les fonctions disparaissent.  Les modèles statistiques ignorent tous la distinction entre le quotient et le taux, même ceux où le temps est regroupé en classes.  La microsimulation regroupe presque toujours le temps en classes et n’utilise que les taux.

Autres estimateurs de la table L’estimateur dit « actuariel »  On y calcule les taux en remplaçant le temps à risque calculé exactement par une approximation basée  sur le nombre des unités à risque et  l’hypothèse que les unités qui ne sont pas à risque durant tout l’intervalle le sont exactement durant la moitié de l’intervalle.  Le dénominateur du taux est alors la somme  du nombre des unités à risque au début de l’intervalle encore à risque à la fin de l’intervalle,  de la moitié du nombre des unités qui entrent dans le groupe à risque au cours de l’intervalle,  de la moitié du nombre des unités qui sortent du groupe à risque sans changer d’état au cours de l’intervalle et  du nombre des unités qui changent d’état au cours de l’intervalle.  Compter ainsi les unités qui changent d’état au cours de l’intervalle est incohérent et sous-estime le taux, mais impose qu’il ne dépasse jamais un, ce qui permet de le traiter comme une proportion alors qu’il n’en est pas une.

Autres estimateurs de la table

L’estimateur de Kaplan-Meier

Autres estimateurs de la table L’estimateur de Kaplan-Meier  Il tire son nom français du nom des deux auteurs qui ont écrit un article dans lequel ils en étudient les propriétés statistiques et montrent qu’il a les propriétés d’un estimateur au sens de la théorie du maximum de vraisemblance.  Il achève un intervalle à la survenue de chaque événement (dans l’échantillon).  Il tient compte de l’ordre des événements (et des intervalles), mais pas de leur durée.  En principe, il n’admet qu’un événement par intervalle, qui survient à fin de celui-ci.  Il estime la survie à la fin de chaque intervalle (qui est une probabilité), mais ne permet pas d’estimer le risque (qui exige qu’on tienne compte du temps passé à risque).

Autres estimateurs de la table L’estimateur de Kaplan-Meier  Le dénominateur de ce qui tient lieu de taux est le nombre des unités à risque au début de l’intervalle.  Ceci sous-estime le taux.  L’estimateur de Kaplan-Meier est un modèle statistique non paramétrique.  Paradoxalement, il repose sur un raisonnement où le temps est pensé en continu.

Petite annexe sur la troncation et la censure

Interprétation erronée de la troncation et de la censure Tuma, Nancy Brandon « Nonparametric and Partially Parametric Approaches to Event-History Analysis ». Sociological Methodology, 13, p

Interprétation erronée de la troncation et de la censure

Tuma, N. B. et M. Hannan Social Dynamics. Models and methods. Orlando FL: Academic Press.

Interprétation erronée de la troncation et de la censure Kendall, M. G. et W. R. Buckland A Dictionary of statistical terms, 2 nd edition. New York NY: Hafner Publishing Co.

Interprétation erronée de la troncation et de la censure L’interprétation erronée repose sur plusieurs confusions  On comprend que l’échantillon dont il est question dans la définition de Kendall et Buckland est un échantillon d’unités statistiques tirée d’une population finie alors que les notions de troncation et de censure ont été introduites en statistique mathématique en raisonnant sur un échantillon de valeurs tiré d’une population théorique.  On ne comprend pas que les mécanismes de censure et de troncation sont propres à chacun des tirages faits dans la distribution théorique. On imagine qu’ils sont une propriété du plan de sondage ou du « plan d’observation », qui ne sont définis que pour un échantillon tiré d’une population finie..  On imagine que les unités statistiques dont on peut tirer un échantillon d’une population finie sont des biographies alors que ce sont des personnes.  On représente ces biographies au moyen d’une ligne comme dans un diagramme de Lexis, ce qui conduit notamment à nommer censure à gauche ce qui est en fait l’entrée échelonnée.

La confusion est encore plus grande en français