Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur.

Slides:



Advertisements
Présentations similaires
GESTION DE PORTEFEUILLE chapitre n° 4 C. Bruneau
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
La transmission des langues ancestrales
Atelier sur lanalyse approfondie des migrations à partir des données de recensement: Ouagadougou novembre 2011 Bonayi Hubert DABIRE, UO/ISSP
La régression logistique: fondements et conditions d’application
Inférence statistique
Courbes de survie C1 Statistiques.
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Scoring Séance II.
Échantillonnage-Estimation
Notions de variable aléatoire et de probabilité d’un événement
Les tests d’hypothèses
Régression -corrélation
variable aléatoire Discrète
LES ÉLASTICITÉS DE LA DEMANDE ET DE L’OFFRE
Chapitre 2: Les régularités et les relations
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 2 Séance du 17 janvier 2014 Benoît Laplante, professeur.
Fonction puissance Montage préparé par : André Ross
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Groupe 1: Classes de même intervalle
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur.
Tableaux de distributions
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Corrélation et régression linéaire simple
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009.
Modeles Lineaires.
La corrélation et la régression
La régression logistique
La corrélation et la régression
Les variables statistique s. Étude statistique Une étude statistique permet de mieux connaître les caractéristiques dune population Ex: La consommation.
Le comportement des coûts Chapitre 3
Dépannage du 12 mars 2007.
Structure discriminante (analyse discriminante)
Chapitre 3 La cinématique à une dimension
La régression multiple
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 8 Séance du 21 mars 2014 Benoît Laplante, professeur.
Le belge : une espèce en voie de disparition ? Un contexte démographique dans les leçons de mathématiques. CREM, Nivelles, 07/05/08 Johan Deprez cfr.
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 1 Séance du 10 janvier 2014 Benoît Laplante, professeur.
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
08– Arbres Binomiaux Chapitre 12 Hull, 8 éd..
Chapitre 3: Variables aléatoires réelles continues
Principales distributions théoriques
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Contraception au cours du parcours de vie
Échantillonnage aléatoire simple
Post-optimisation, analyse de sensibilité et paramétrage
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Composantes de base en démographie
Statistique Descriptive Les Paramètres de Tendance Centrale
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
LOIS COURANTES DE PROBABILITES
Corrélation et causalité
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Introduction aux statistiques Intervalles de confiance
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014 Benoît Laplante, professeur

Plan Les modèles de risque dans la recherche démographique Un exemple: le départ du foyer parental Temps continu, temps discret, temps regroupé Un modèle de risque en temps discret : le modèle logistique Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox

Les modèles de risque dans la recherche démographique L’analyse statistique des biographies ou analyse démographique des biographies ou analyse des transitions ou event history analysis est la principale manière d’utiliser la notion de parcours de vie avec des modèles statistiques pour étudier les phénomènes démographiques natalité, mortalité, migration et leurs corrélats proches ou lointains nuptialité, divortialité, morbidité contraception, avortement, usage des soins de santé étapes de la vie passage à la vie adulte, vieillissement lorsqu’on utilise des données individuelles (ou microdonnées) plutôt que des données agrégées.

Les modèles de risque dans la recherche démographique Les modèles de risque sont les modèles linéaires qui conviennent le mieux au cas où le phénomène étudié est un changement d’état et l’on s’intéresse aux effets d’une ou plusieurs variables indépendantes sur le rythme auquel ce changement d’état se produit ou le moment auquel se produit ce changement.

Un exemple: le départ du foyer parental Pascale Beaupré, Pierre Turcotte et Anne Milan (2006) « Quand fiston quittera-t-il la maison? Transition du domicile parental à l’indépendance » Tendances sociales canadiennes, 82: 8-15.

Un exemple: le départ du foyer parental Le phénomène étudié est un changement d’état ou le passage d’un état à un autre d’habiter chez ses parents à ne pas habiter chez ses parents un événement cesser d’habiter chez ses parents.

Un exemple: le départ du foyer parental On cherche à vérifier certaines hypothèses en estimant l’effet de certaines variables indépendantes dont la cohorte de naissance la structure familiale pendant l’enfance la fratrie l’activité de la mère et du père le lieu de naissance de la mère etc.

Un exemple: le départ du foyer parental On utilise un modèle à risques proportionnels (le modèle de Cox même si la chose n’est pas précisée) pour estimer les effets des variables indépendantes sur le risque (et non pas la probabilité) qui régit le processus de changement d’état.

Un exemple: le départ du foyer parental L’ effet de la variable indépendante s’exprime en rapport de risque (hazard ratio) également nommé risque relatif (relative risk): une variable qui augmente le risque (et donc accélère le processus) a un effet supérieur à 1 et une variable qui diminue le risque (et donc ralentit le processus) a un effet compris entre 0 et 1 (c.-à-d. [0,1[).

Temps continu, temps discret, temps regroupé En statistique, on connaît deux types de caractère : le caractère qualitatif (p. ex. le sexe ou la langue) et le caractère quantitatif (p. ex. l’âge, le revenu ou le nombre des enfants mis au monde par une femme). On distingue de plus deux types de caractères quantitatifs : le caractère quantitatif continu (p. ex. l’âge ou le revenu) et le caractère quantitatif discret (p. ex. le nombre des enfants mis au monde par une femme). À strictement parler, on réserve le mot « variable » au caractère quantitatif. L’expression « variable discrète » désigne donc un caractère quantitatif discret alors que l’expression « variable continue » désigne un caractère quantitatif continu.

Temps continu, temps discret, temps regroupé La variable discrète ne prend que des valeurs entières et positives (ses valeurs sont éléments de ℕ) : on n’a pas 2,5 enfants ou -3 enfants. Une statistique d’une variable discrète peut être un nombre négatif ou décimal : la moyenne du nombre d’enfants par femme est un réel positif (élément de ℝ+); le coefficient de symétrie de sa distribution statistique est un réel (élément de ℝ).

Temps continu, temps discret, temps regroupé Il faut absolument éviter de confondre la variable discrète et la distribution qui résulte du regroupement des valeurs d’une variable discrète ou continue en classes. Fort malheureusement, la démographie classique utilise l’expression « temps discret » pour désigner le regroupement en classes des valeurs de la variable continue « temps » (qu’il s’agisse de l’âge, du temps écoulé depuis la dernière naissance ou depuis la formation d’une union) et les opérations mathématiques ou statistiques propres au traitement d’une variable continue dont les valeurs sont regroupées en classes.

Temps continu, temps discret, temps regroupé Pour éviter la confusion, on conservera aux mots « discret » et « continu » le sens qu’ils ont en statistique et on nommera « regroupé » ce qui se rapporte au traitement des variables dont les valeurs sont regroupées en classes.

Temps continu, temps discret, temps regroupé La table « classique » traite le cas « regroupé » au moyen d’un artifice : on estime le taux au centre de l’intervalle de classe et on présume que le flux des événements est constant tout au long de l’intervalle, ce qui implique que le taux augmente du début à la fin de l’intervalle. La table construite à partir de taux dont les dénominateurs sont le temps à risque exact et le modèle de Poisson par parties traitent le cas « regroupé » au moyen d’une simplification moins irréaliste : le taux est présumé constant du début à la fin de l’intervalle, ce qui implique que le flux diminue, chose réaliste dans le cas d’un événement non renouvelable puisque la proportion des « survivants » diminue nécessairement au fil du temps.

Temps continu, temps discret, temps regroupé En sciences sociales, le « cas discret » au sens de la statistique est rare. Il exige que l’événement ne puisse se produire qu’à des moments qui puissent être représentés par des entiers naturels. Le « meilleur » exemple la promotion des professeurs d’université, qui ne se fait qu’une fois par année (Paul D. Allison) Autre exemple, moins bon en pratique : la réussite d’un programme d’études régulier, qui ne peut survenir qu’une fois par trimestre. À strictement parler, les modèles statistiques développés pour l’étude des phénomènes qui se déroulent « en temps discret » ne valent que pour ces cas rares.

Temps continu, temps discret, temps regroupé Lorsqu’on traite un phénomène « en continu » l’intervalle devient infinitésimal, la distinction entre le moment (la valeur de t sur l’échelle du temps) et la quantité de temps à risque disparaît, la probabilité (donc le quotient de la démographie et le risque de l’épidémiologie) et le taux se confondent. « En continu », quotient instantané, risque instantané et taux instantané sont synonymes.

Temps continu, temps discret, temps regroupé Le risque instantané comme limite Le risque instantané (ou quotient instantané ou taux instantané) est la probabilité de changer d’état au cours d’un intervalle de largeur infinitésimale (quantité de temps d’exposition infiniment petite) si on n’a pas déjà changé d’état avant cet intervalle (position de cet intervalle sur l’axe du temps).

Un modèle de risque en temps discret : le modèle logistique Rappel de la régression logistique L’usage de la régression logistique dans l’étude du changement d’état plutôt que dans l’étude de l’appartenance statique à une modalité d’un caractère qualitatif.

Un modèle de risque en temps discret : le modèle logistique La régression logistique est un modèle linéaire qui permet d’estimer les effets d’une ou plusieurs variables indépendantes sur une variable dépendante Comme tout modèle linéaire, il est composé de trois éléments: un élément déterministe un élément aléatoire et une fonction de liaison. Son élément le plus intéressant est sa fonction de liaison.

Un modèle de risque en temps discret : le modèle logistique La variable dépendante d’un modèle linéaire doit pouvoir varier entre moins l’infini et plus l’infini. On ne peut pas construire directement un modèle linéaire dont la variable dépendante serait 0 ou 1. On ne peut pas non plus construire directement un modèle linéaire dont la variable dépendante varierait entre 0 et 1.

Un modèle de risque en temps discret : le modèle logistique Construire un modèle linéaire dont on sait que la variable dépendante varie entre 0 et 1 (comme c’est le cas d’une probabilité) en utilisant simplement la probabilité comme variable dépendante d’une régression conventionnelle conduit à une absurdité: les valeurs prédites peuvent être inférieures à 0 ou supérieures à 1.

Un modèle de risque en temps discret : le modèle logistique La chose a cependant été courante pendant quelques décennies du XXe siècle. Ce mauvais modèle permet cependant de voir comment on passe (naïvement) d’une variable dépendante observée binaire à une variable dépendante estimée qui est continue (même si elle n’est pas bornée correctement). On pose que la valeur observée (0 ou 1) qui est la réalisation d’un tirage aléatoire correspond à la probabilité (comprise en principe entre 0 et 1) qui a régi ce tirage et que l’on estime au moyen du modèle.

Un modèle de risque en temps discret : le modèle logistique L’élément le plus intéressant de la régression logistique est sa fonction de liaison qui propose une autre manière de passer d’une variable observée binaire à une probabilité. Plutôt que d’estimer la probabilité d’appartenir à la modalité représentée par la valeur 1, on estime le rapport entre la probabilité d’appartenir à cette modalité et la probabilité d’appartenir à l’autre modalité:

Un modèle de risque en temps discret : le modèle logistique Dans la régression logistique (également nommée « modèle logit »), on utilise la courbe logistique comme fonction de liaison.

Un modèle de risque en temps discret : le modèle logistique Le modèle peut être représenté sous sa forme multiplicative ou additive. Nous l’utiliserons surtout sous sa forme multiplicative.

Un modèle de risque en temps discret : le modèle logistique Le modèle comprend bien sûr un élément aléatoire. Il s’agit de la loi binomiale dont nous montrons ici la fonction de densité sous trois formes différentes mais reliées.

Un modèle de risque en temps discret : le modèle logistique L’espérance mathématique du modèle est la probabilité que la probabilité vaille π. La variance est égale au produit de π et 1-π.

Un modèle de risque en temps discret : le modèle logistique Un exemple simple de régression logistique, sous forme additive: Le même exemple simple, sous forme multiplicative:

Un modèle de risque en temps discret : le modèle logistique Il est plus simple d’interpréter les coefficients de la régression logistique sous sa forme multiplicative que sous sa forme additive:

Un modèle de risque en temps discret : le modèle logistique Dans la forme multiplicative de la régression logistique: la variable dépendante est le quotient de deux probabilités; pour cette raison, l’effet d’une variable indépendante est d’augmenter ou de réduire le rapport entre ces deux probabilités; les effets des variables indépendantes ne s’additionnent pas à l’ordonnée à l’origine et ne s’additionnent pas les uns aux autres, ils multiplient l’ordonnée à l’origine et se multiplient les uns les autres.

Un modèle de risque en temps discret : le modèle logistique Interprétation des coefficients On a réalisé une enquête qui permet de relier le fait d’avoir obtenu ou non le diplôme de premier cycle dans les délais prévus au nombre d’heures consacré aux études par semaine. On a interrogé les étudiants au moment où ils devaient compléter leur programme et on estimé l’effet du nombre d’heures d’études par semaine sur la probabilité d’avoir obtenu le diplôme au moyen d’un régression logistique. On a les coefficients suivants: α = -1,3863 et β = 0,0953.

Un modèle de risque en temps discret : le modèle logistique La modalité de référence: ne pas avoir étudié du tout Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

Un modèle de risque en temps discret : le modèle logistique Un autre cas: avoir étudié 20 heures par semaine Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

Un modèle de risque en temps discret : le modèle logistique La régression logistique comme modèle de risque et non plus de probabilité. On reprend l’enquête sur l’obtention du diplôme, mais on la réalise à tous les ans, on vérifie si le diplôme est obtenu à la fin de chaque année et on mesure le nombre d’heures consacrées à l’étude à chaque année et on suit les étudiants pendant huit ans.

Un modèle de risque en temps discret : le modèle logistique On construit un fichier biographique où on a, pour chaque étudiant, une ligne par année de présence dans le groupe à risque. On sort du groupe à risque en obtenant le diplôme (en changeant d’état), en abandonnant les études (sans changer d’état) ou après huit ans d’études sans avoir obtenu le diplôme (également sans changer d’état).

Un modèle de risque en temps discret : le modèle logistique La variable dépendante vaut 1 lorsque l’année se termine par l’obtention du diplôme et vaut 0 lorsque l’année se termine sans l’obtention du diplôme. n’est donc plus la probabilité d’avoir obtenu le diplôme, mais bien la probabilité de l’obtenir si l’on est toujours à risque de l’obtenir, ou encore le nombre de changements d’état divisé par le nombre des individus à risque au cours de l’année. La variable dépendante n’est donc plus une probabilité, mais bien un risque.

Un modèle de risque en temps discret : le modèle logistique On estime une régression logistique où chaque ligne du fichier biographique ajoute une contribution à la fonction de vraisemblance. On permet généralement à l’ordonnée à l’origine de prendre une valeur différente pour chaque unité de temps, puisque l’on sait qu’il est plus « probable » d’obtenir le diplôme au cours de certaines années et moins au cours d’autres années. L’équation a donc la forme suivante:

Un modèle de risque en temps discret : le modèle logistique Les effets des variables indépendantes se manipulent et s’interprètent de manière analogue à ceux de la régression logistique « ordinaire », sauf qu’ils ne font plus augmenter ou décroître un rapport de probabilités, mais bien un taux.

Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox On représente généralement comme suit le modèle semi-paramétrique à risques proportionnels (ou relatifs) de Cox où h(t|x1, x2, …, xn) est le risque au temps t pour une combinaison donnée de valeurs des variables indépendantes x1, x2, …, xn, h0(t) est le risque de base, x est le vecteur des variables indépendantes et β est le vecteur des coefficients du modèle.

Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox Le modèle de Cox a une forme semblable à celle de la régression logistique utilisée comme modèle de risque. La principale différence est que dans le modèle de Cox, on estime le risque de base avec la logique de l’estimateur de Kaplan-Meier (c.-à-d. un nouvel intervalle à chaque changement d’état dans l’échantillon) plutôt qu’en « échantillonnant » le temps à intervalles égaux prédéfinis (comme on échantillonne la musique pour en faire un enregistrement numérique).

Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox La fonction de vraisemblance partielle du modèle de Cox et son rapport avec le fichier biographique.

Sur le modèle logistique et le modèle de Cox Ces modèles utilisent l’effectif du groupe à risque plutôt que le temps passé à risque au dénominateur des taux. Les unités qui sortent du groupe à risque sans changer d’état sortent du groupe à risque après chaque instant discret dans le modèle logistique et après l’instant qui marque la fin de chaque intervalle dans le modèle de Cox. Ceci ne crée pas de biais si le modèle logistique s’il est utilisé pour étudier un phénomène véritablement discret, mais sous-estime systématiquement le risque si le modèle logistique est utilisé pour étudier un phénomène intrinsèquement continu. Ceci sous-estime systématiquement le risque dans le modèle de Cox. Les unités qui sortent du groupe à risque en changeant d’état ne sont pas comptées au dénominateur et le taux est donc systématiquement surestimé.

La régression logistique en économétrie Annexe La régression logistique en économétrie Les économètres ont développé une interprétation particulière de la régression logistique. Pour les statisticiens, la régression logistique a une composante aléatoire — la loi binomiale — et une fonction de liaison — la courbe logistique centrée réduite (sic) — qui sert à faire correspondre l’étendue des valeurs prédites ([-∞,+∞]) à l’étendue d’une probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi logistique centrée réduite.

La régression logistique en économétrie Annexe La régression logistique en économétrie Les économètres interprètent de manière analogue le modèle probit. Pour les statisticiens, le modèle probit a une composante aléatoire — la loi binomiale — et une fonction de liaison — l’intégrale de la courbe normale centrée réduite (sic) — qui, comme la courbe logistique dans la régression logistique, sert à faire correspondre l’étendue des valeurs prédites ([-∞,+∞]) à l’étendue d’une probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi normale centrée réduite.