Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 1 Séance du 10 janvier 2014 Benoît Laplante, professeur
Plan Présentation du cours Rappel de notions de statistique Population, échantillon, distribution d’échantillonnage d’une statistique, théorème de la limite centrale Le modèle linéaire généralisé Un exemple de ce que les modèles de risque permettent de faire « Quand fiston quittera-t-il la maison ? »
Présentation du cours L’histoire de ce cours La place du cours dans le programme et dans l’enseignement de la démographie Le contenu du cours Les principaux ouvrages à utiliser
Ce cours dans le programme et dans l’enseignement de la démographie Approfondissement de l’approche longitudinale Approfondissement de l’approche « individualiste » Phénomènes démographiques et événements démographiques Apprentissage de la programmation à des fins de recherche scientifique Approfondissement de la compréhension de l’usage de la modélisation statistique probabiliste en sciences sociales Approfondissement de la connaissance du symbolisme mathématique
Contenu du cours Les enquêtes et les données biographiques L’analyse de données recueillies au moyen d’enquêtes à plan complexe Les fondements de l’analyse des données longitudinales Les variables indépendantes fonction du temps Le modèle de Poisson
Contenu du cours Les modèles de risque proprement dits I en temps discret : le modèle logit (et peut-être le probit) semi-paramétrique en temps continu : le modèle de Cox L’analyse de la causalité La méthode du maximum de vraisemblance Les modèles de risque proprement dits II Les modèles paramétriques en temps continu Les modèles de risque proportionnels : modèle exponentiel, de Weibull, de Gompertz D’autres modèles : log-normal, log-logistique, gamma L’approximation de la fonction de risque à variation non monotone au moyen de modèles de risque proportionnels : le modèle exponentiel par parties
Contenu du cours L’approximation de la fonction de risque à variation non monotone au moyen de modèles de risque proportionnels : les modèles à spline cubique La censure et la troncation Les risques concurrents L’hétérogénéité non observée Les événements renouvelables La vulnérabilité, les effets aléatoires et l’approche multiniveau
Principaux ouvrages à utiliser Les documents écrits par le professeur Hazard models for the social sciences Notes L’estimation du modèle linéaire par la méthode du maximum de vraisemblance Allison, Paul D. 1984. Event history analysis. Regression for longitudinal event data. Newbury Park: Sage Publications. 87 pages. Blossfeld, Hans-Peter, Katrin Golsch et Götz Rohwer. 2007 Event History Analysis with Stata. Mahwah NJ: Lawrence Erlbaum. Box-Steffensmeier, Janet M. et Bradford S. Jones. 2004. Event history modeling. A Guide for social scientists. Cambridge UK: Cambridge University Press. Cleves, Mario, William W. Gould, Roberto Gutierrez et Yulia V. Marchenko. 2010. An introduction to survival analysis using Stata, third edition. College Station TX: Stata Press. An Introduction to Survival Analysis Using Stata, Third Edition Stata Corp. 2011. Survival Analysis and Epidemiological Tables Reference Manual, Release 12. College Station TX: Stata Press.
Rappel de notions La population L’échantillon La distribution d’échantillonnage d’une statistique Le théorème de la limite centrale
Rappel de notions La population Au sens de l’inférence statistique, une population – ou univers statistique – est un ensemble d’objets, par exemple tous les résidents d’un pays, duquel on souhaite connaître quelque chose. Un échantillon est un sous-ensemble de la population auprès duquel on recueille de l’information en supposant que celle-ci sera suffisante pour connaître la population. Un échantillon probabiliste est un échantillon tiré d’une population de manière à ce que, en suivant les principes de la théorie de l’échantillonnage, on puisse en inférer à la population avec une marge d’erreur connue. On ne peut obtenir un échantillon probabiliste que par échantillonnage aléatoire. L’échantillon probabiliste le plus simple et l’échantillon aléatoire simple. Nous verrons plus tard qu’il existe d’autres types d’échantillons probabilistes.
Rappel de notions L’échantillon Le sondage est l’opération par laquelle le sondeur (ou enquêteur) recueille de l’information auprès des membres d’un échantillon au moyen d’un instrument, habituellement un questionnaire. L’échantillon d’un sondage doit être probabiliste. Selon les objectifs de la recherche, la population peut être l’ensemble des personnes qui vivent dans un pays ou dans une ville, ou encore l’ensemble de celles qui partagent une qualité, par exemple toutes celles qui exercent une profession donnée ou vivent dans un certain type d’habitat. Toujours selon les objectifs de la recherche, on peut également s’intéresser à une population d’organisations, par exemple l’ensemble des organisations d’un territoire quelconque, ou encore l’ensemble des entreprises de service d’un pays quelconque.
Rappel de notions La moyenne de la variable X dans la population La moyenne de la variable X dans un échantillon La moyenne de la variable X dans la population estimée à partir des données d’un échantillon aléatoire simple tiré de cette population
Rappel de notions La variance de la variable X dans la population La variance de la variable X dans un échantillon La variance de la variable X dans la population estimée à partir des données d’un échantillon aléatoire simple tiré de cette population
Le théorème de la limite centrale Rappel de notions Le théorème de la limite centrale Tout l’appareil scientifique des sondages, c.-à-d. ce qui permet d’inférer d’un échantillon à la population, repose sur un théorème de statistique, le théorème de la limite centrale. Selon ce théorème, la probabilité que les valeurs de certaines statistiques — par exemple la moyenne d’une variable comme le revenu — calculées dans des échantillons aléatoires tirés d’une population s’approche de la valeur de cette statistique dans la population — dans ce cas-ci, le revenu moyen dans la population — varie en fonction de la taille de ces échantillons. Plus ces échantillons sont grands, plus la probabilité que la statistique calculée dans les échantillons s’approche de la statistique calculée dans la population est grande.
Le théorème de la limite centrale Rappel de notions Le théorème de la limite centrale Le théorème est en fait plus précis. Il précise la loi statistique que suit la statistique calculée à partir des valeurs de la variable échantillonnée ainsi que la relation exacte entre la taille des échantillons et le degré de précision de l’approximation. Selon le théorème, peu importe la loi que suit la variable à partir de laquelle on calcule la statistique, les valeurs de certaines familles de statistiques calculées à partir d’échantillons aléatoires suivent la loi de Gauss — autrement dit, la loi normale — et sont centrées sur la valeur de cette statistique dans la population dont les échantillons sont tirés.
Le théorème de la limite centrale Rappel de notions Le théorème de la limite centrale Autrement dit, les valeurs de la moyenne du revenu calculées à partir d’une série d’échantillons aléatoires sont distribuées symétriquement de part et d’autre du revenu moyen de la population suivant la forme « en cloche » de la fonction de densité de la loi normale même si les valeurs du revenu dans la population et dans les échantillons ne sont pas distribuées de manière symétrique et ne suivent pas du tout la loi normale. Le théorème précise également que la dispersion de la loi normale que suivent les valeurs d’une statistique calculée à partir de plusieurs échantillons de même taille tirés de la même population diminue en raison de la taille de ces échantillons.
Rappel de notions La variance de la distribution d’échantillonnage d’une statistique L’estimation de la variance de la distribution d’échantillonnage d’une statistique obtenue à partir d’un échantillon aléatoire simple tiré d’une population L’estimation de l’erreur-type de la distribution d’échantillonnage d’une statistique obtenue à partir d’un échantillon aléatoire simple tiré d’une population
Vocabulaire En français, on utilise le mot « estimation » pour nommer l’action d’estimer et le résultat de cette action. En anglais, on utilise le mot « estimation » pour nommer l’action d’estimer et le mot « estimate » pour nommer le résultat de cette action.
Le modèle linéaire généralisé On nomme « modèle linéaire généralisé » la conception synthétique des modèles linéaires proposée par deux mathématiciens britanniques : McCullagh, P. et J. A. Nelder .1989. Generalized linear models, second edition. Chapman and Hall. Tout modèle est composé de trois éléments : la composante systématique ou déterministe, qui est linéaire, c.-à-d. proportionnelle et additive; la composante aléatoire, qui est une loi de probabilité; la fonction de lien (ou fonction de liaison, l’usage français n’est pas fixé) qui relie le membre de droite à la variable dépendante.
Le modèle linéaire généralisé Le cas de la régression linéaire Composante aléatoire Composante systématique Fonction de lien
Représentation graphique de la régression linéaire simple Rabe-Hesketh, Sophia et Anders Skrondal. 2008. Multilevel and longitudinal modeling using Stata. College Station TX : Stata Press.p. 12
Un exemple de ce que les modèles de risque permettent de faire Tendances sociales canadiennes, Hiver 2006, nº 82