Régression segmentée pour l’analyse de données longitudinales interrompues Vendredi 13 Juin 2008 Aurélien Vesin (INSERM U823)

Slides:



Advertisements
Présentations similaires
Rapport de Statistiques Appliquées
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
C1 Bio-statistiques F. KOHLER
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
Régression segmentée pour l’analyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections.
Time Series Séries Chronologiques Georges GARDARIN.
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
Traitement de données socio-économiques et techniques d’analyse :
Prévision de la Demande
Prévision du nombre de naissances à moyen terme

Capital économique analyse et reporting pour Fortis Assurances
La Régression Multiple
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Régression linéaire simple
Groupe 1: Classes de même intervalle
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
L’Analyse de Covariance
Corrélation et régression linéaire simple
Influences génétiques directe et maternelle sur la production en première lactation de quatre races de chèvres laitières.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
Le test t.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
La régression multiple
Les séries chronologiques
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
STT-3220 Méthodes de prévision
Présentation du marché obligataire
Echantillonage pour une Evaluation d’Impact
Études écologiques.
Probabilités et Statistiques Année 2010/2011
Mélanie Bidaut Garnier Master 2 ERCE 27 mars 2015 – DES Santé Publique
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Gestion du portefeuille 07A – Modèle à facteurs
Alcohol-based hand rub : influence of healthcare workers’ knowledge and perception on declared use Journal of Hospital infection (2006) 64, M.P.
Plan de la séance 5. Deux grands thèmes L’analyse du risque, l’emploi de la simulation et du L’optimisation, la programmation linéaire.
Concepts fondamentaux: statistiques et distributions
Principales distributions théoriques
MARTIN Claire EXBRAYAT Fannie Groupe 10
La prévision des ventes
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Kévin Jean 1,2*, Xavier Anglaret 3,4, Raoul Moh 3, Christine Danel 3, France Lert 1,2, Rosemary Dray-Spira 1,2 1 INSERM, UMRS 1018 – CESP, Epidémiologie.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
SERIES CHRONOLOGIQUES
Principes d'économétrie
ANALYSE DES SERIES CHRONOLOGIQUES METHODES ET APPLICATIONS EN HYDROLOGIE Danièle VALDES-LAO
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Statistiques à 2 variables
Dr Vincent BIGE Centre de référence Mucoviscidose de Lyon
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ETUDES PRONOSTIQUES Pr Ganry.
E CONOMÉTRIE A PPLIQUÉE AVEC R (P ART 03) R. Aloui 2015/2016 Disponible sur
Données manquantes et imputations multiples
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Régression segmentée pour l’analyse de données longitudinales interrompues Vendredi 13 Juin 2008 Aurélien Vesin (INSERM U823)

Introduction  Comment mesurer l’effet d’un ou plusieurs évènements sur une série de mesures répétées dans le temps :  …Si en plus il n’est pas possible d’avoir un groupe contrôle en parallèle (pour raisons éthiques, financières ou autres) Effet de la mise en vente du vaccin pour la prévention du cancer du col de l’utérus sur l’incidence des dépistages de ces cancers Effet de la mise en vente du vaccin pour la prévention du cancer du col de l’utérus sur l’incidence des dépistages de ces cancers Effet de l’attentat du World Trade Center sur l’indice du Dow Jones Effet de l’attentat du World Trade Center sur l’indice du Dow Jones  L’évènement peut être : Intervention volontaire (ex : campagne de prévention)Intervention volontaire (ex : campagne de prévention) Imprévu (ex : un attentat)Imprévu (ex : un attentat)  La variable d’intérêt peut être quantitative : Continue (ex : Taux d’infections) Continue (ex : Taux d’infections) Discrète (ex : Nombre de naissances) Discrète (ex : Nombre de naissances) La variable d’intérêt doit être mesurée à intervalles réguliers dans le temps La variable d’intérêt doit être mesurée à intervalles réguliers dans le temps

Concepts  Série chronologique : Séquence de valeurs d’une mesure particulière prise à intervalle réguliers dans le temps Temps Taux d’infections nosoc.

Concepts  Segment : Portion de série chronologique. Les segments sont reliés aux points de transitions («Change points») Taux d’infections nosoc. Temps

Concepts  Points de transitions : Point spécifiques où les valeurs montrent des changements de comportement liés à des évènements précis (intervention…) Taux d’infections nosoc. Campagne nationale de prévention des infections nosocomiales Temps

Concepts  Chaque segment est défini par : Le niveau (level, baseline) Le niveau (level, baseline) Une tendance (trend) Une tendance (trend)  Le principe de la régression segmentée est de mesurer les changements de niveau et de tendance qui suivent une intervention Intervention

Organisation des données  Collectées à intervalles réguliers (ex: toutes les années, mois, semaines…) Dans le cas de données orientées Patient (1 observation = 1 patient), il est nécessaire d’agréger en données orientées Temps (1 observation = 1 mois) Dans le cas de données orientées Patient (1 observation = 1 patient), il est nécessaire d’agréger en données orientées Temps (1 observation = 1 mois) Ex : Age du patient p  Age moyen des patients dans la semaine s Ex : Age du patient p  Age moyen des patients dans la semaine s  La variable d’intérêt (Outcome) peut être une moyenne, un taux, une proportion…  Un nombre suffisant d’observations « contrôles » cad avant l’intervention (et entre les interventions)

Régression segmentée standard  Modèle de régression linéaire /!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable d’intérêt dans chaque segment /!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable d’intérêt dans chaque segment  Considérons 1 seule intervention  Le modèle s’écrit sous la forme : YtYt Taux d’infection nosocomiale au temps t Temps t numéro de la semaine t Intervention t égal à 0 avant l’intervention, égal à 1 au début de l’intervention Temps après intervention t Numéro de la semaine depuis le début de l’intervention

Régression segmentée standard β 0 = Niveau initial β 1 = Variation de Y pour 1 unité de temps β 2 = Variation immédiate suivant l’intervention β 3 = Variation de la tendance β 1 après intervention YtYt t

Exemple Intervention à t = 15

Exemple proc reg data=reg; model yt = t intervention t2; run; C’est beau !

Améliorations possibles : Auto-corrélation  Le modèle de régression fait une hypothèse d’indépendance entre les observations ! Peu réaliste pour des données longitudinales Peu réaliste pour des données longitudinales Sous estime les écarts types  Sur estime la significativité des estimateurs Sous estime les écarts types  Sur estime la significativité des estimateurs  Comment le vérifier ? Représenter graphiquement les résidus Vs le temps, une tendance suggère une autocorrélation Représenter graphiquement les résidus Vs le temps, une tendance suggère une autocorrélation Calculer la statistique de Durbin-Watson pour tester la présence d’autocorrélation (sous SAS proc autoreg) Calculer la statistique de Durbin-Watson pour tester la présence d’autocorrélation (sous SAS proc autoreg)  Comment y remédier ? Estimer le paramètre d’autocorrélation et l’introduire dans le modèle si nécessaire Estimer le paramètre d’autocorrélation et l’introduire dans le modèle si nécessaire Il est possible de corriger pour des autocorrélations saisonnières Il est possible de corriger pour des autocorrélations saisonnières

Autres améliorations possibles  La variable d’intérêt peut être influencée par des facteurs autres que l’intervention et le temps Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections nosocomiales Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections nosocomiales On peut introduire des co-variables d’ajustement On peut introduire des co-variables d’ajustement  Possibilité de faire des analyses stratifiées en sous groupes  Possibilité d’introduire plusieurs interventions

Etapes de développement d’un modèle de régression segmentée (Suggestions)  Observer graphiquement les données  Construire un modèle complet  Supprimer les variables non significatives  Ajouter les variables d’ajustement  Tester autocorrélation et ajouter un terme si besoin  Vérifier autres points de contrôles spécifiques au modèle (résidus, normalité…)

Conclusion  Avantages Quand il est impossible d’avoir un groupe contrôle en parallèle Quand il est impossible d’avoir un groupe contrôle en parallèle Simple à mettre en place Simple à mettre en place Méthodologie et résultats intelligibles Méthodologie et résultats intelligibles Coefficients = variation immédiate et dans le tempsCoefficients = variation immédiate et dans le temps Obtention d’intervalles de confiance pour les variations associées aux interventionsObtention d’intervalles de confiance pour les variations associées aux interventions Présentation sous forme graphiquePrésentation sous forme graphique Facilement extensible : Facilement extensible : Plusieurs interventions possiblesPlusieurs interventions possibles Prise en compte saisonnalité, auto corrélation, ajustementsPrise en compte saisonnalité, auto corrélation, ajustements Transformation de variables en cas de non linéarité ou non normalitéTransformation de variables en cas de non linéarité ou non normalité

Inconvénients  Inconvénients : Contraintes liées aux hypothèses du modèle : Contraintes liées aux hypothèses du modèle : Relation linéaire entre le temps et la variable d’intérêtRelation linéaire entre le temps et la variable d’intérêt NormalitéNormalité Agrège les données patients en données temps Agrège les données patients en données temps Perte d’information (précision)Perte d’information (précision) Ne permet pas d’ajuster par des variables orientées patient mais des variables agrégéesNe permet pas d’ajuster par des variables orientées patient mais des variables agrégées Nombre d’observation conseillé  min.10 obs par variables rentrées dans le modèle Nombre d’observation conseillé  min.10 obs par variables rentrées dans le modèle  Alternative : Modèles ARIMA

Bibliographie  A.K Wagner and al. ; « Segmented regression analysis of interrupted time series studies in medication use research » ; Journal of clinical Pharmacy an Therapeutics (2002) 27,  Weinberg and al. ; « Reducing infections among women undergoing cesarean section in columbia by means of continuous quality improvment methods » ; Arch Intern Med (2001) 161,  Ansari and al. ; « Outcomes of an intervention to improve hospital antibiotic prescribing : Interrupted time series with segmented regression analysis » ; Journal of antimicrobial chemotherapy (2003) 52,  Morgan and al. ; « Interrupted time-series analysis of regulations to reduce paracetamol (acetainophen) poisoning » ; PLOS medicine (2007) 4,  Shardell and al. ; « Statistical analysis and application of Quasi Experiments to antimicrobial resistance intervention Studies » ; Antimicrobial resistance (2007) 45,