Régression segmentée pour l’analyse de données longitudinales interrompues Vendredi 13 Juin 2008 Aurélien Vesin (INSERM U823)
Introduction Comment mesurer l’effet d’un ou plusieurs évènements sur une série de mesures répétées dans le temps : …Si en plus il n’est pas possible d’avoir un groupe contrôle en parallèle (pour raisons éthiques, financières ou autres) Effet de la mise en vente du vaccin pour la prévention du cancer du col de l’utérus sur l’incidence des dépistages de ces cancers Effet de la mise en vente du vaccin pour la prévention du cancer du col de l’utérus sur l’incidence des dépistages de ces cancers Effet de l’attentat du World Trade Center sur l’indice du Dow Jones Effet de l’attentat du World Trade Center sur l’indice du Dow Jones L’évènement peut être : Intervention volontaire (ex : campagne de prévention)Intervention volontaire (ex : campagne de prévention) Imprévu (ex : un attentat)Imprévu (ex : un attentat) La variable d’intérêt peut être quantitative : Continue (ex : Taux d’infections) Continue (ex : Taux d’infections) Discrète (ex : Nombre de naissances) Discrète (ex : Nombre de naissances) La variable d’intérêt doit être mesurée à intervalles réguliers dans le temps La variable d’intérêt doit être mesurée à intervalles réguliers dans le temps
Concepts Série chronologique : Séquence de valeurs d’une mesure particulière prise à intervalle réguliers dans le temps Temps Taux d’infections nosoc.
Concepts Segment : Portion de série chronologique. Les segments sont reliés aux points de transitions («Change points») Taux d’infections nosoc. Temps
Concepts Points de transitions : Point spécifiques où les valeurs montrent des changements de comportement liés à des évènements précis (intervention…) Taux d’infections nosoc. Campagne nationale de prévention des infections nosocomiales Temps
Concepts Chaque segment est défini par : Le niveau (level, baseline) Le niveau (level, baseline) Une tendance (trend) Une tendance (trend) Le principe de la régression segmentée est de mesurer les changements de niveau et de tendance qui suivent une intervention Intervention
Organisation des données Collectées à intervalles réguliers (ex: toutes les années, mois, semaines…) Dans le cas de données orientées Patient (1 observation = 1 patient), il est nécessaire d’agréger en données orientées Temps (1 observation = 1 mois) Dans le cas de données orientées Patient (1 observation = 1 patient), il est nécessaire d’agréger en données orientées Temps (1 observation = 1 mois) Ex : Age du patient p Age moyen des patients dans la semaine s Ex : Age du patient p Age moyen des patients dans la semaine s La variable d’intérêt (Outcome) peut être une moyenne, un taux, une proportion… Un nombre suffisant d’observations « contrôles » cad avant l’intervention (et entre les interventions)
Régression segmentée standard Modèle de régression linéaire /!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable d’intérêt dans chaque segment /!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable d’intérêt dans chaque segment Considérons 1 seule intervention Le modèle s’écrit sous la forme : YtYt Taux d’infection nosocomiale au temps t Temps t numéro de la semaine t Intervention t égal à 0 avant l’intervention, égal à 1 au début de l’intervention Temps après intervention t Numéro de la semaine depuis le début de l’intervention
Régression segmentée standard β 0 = Niveau initial β 1 = Variation de Y pour 1 unité de temps β 2 = Variation immédiate suivant l’intervention β 3 = Variation de la tendance β 1 après intervention YtYt t
Exemple Intervention à t = 15
Exemple proc reg data=reg; model yt = t intervention t2; run; C’est beau !
Améliorations possibles : Auto-corrélation Le modèle de régression fait une hypothèse d’indépendance entre les observations ! Peu réaliste pour des données longitudinales Peu réaliste pour des données longitudinales Sous estime les écarts types Sur estime la significativité des estimateurs Sous estime les écarts types Sur estime la significativité des estimateurs Comment le vérifier ? Représenter graphiquement les résidus Vs le temps, une tendance suggère une autocorrélation Représenter graphiquement les résidus Vs le temps, une tendance suggère une autocorrélation Calculer la statistique de Durbin-Watson pour tester la présence d’autocorrélation (sous SAS proc autoreg) Calculer la statistique de Durbin-Watson pour tester la présence d’autocorrélation (sous SAS proc autoreg) Comment y remédier ? Estimer le paramètre d’autocorrélation et l’introduire dans le modèle si nécessaire Estimer le paramètre d’autocorrélation et l’introduire dans le modèle si nécessaire Il est possible de corriger pour des autocorrélations saisonnières Il est possible de corriger pour des autocorrélations saisonnières
Autres améliorations possibles La variable d’intérêt peut être influencée par des facteurs autres que l’intervention et le temps Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections nosocomiales Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections nosocomiales On peut introduire des co-variables d’ajustement On peut introduire des co-variables d’ajustement Possibilité de faire des analyses stratifiées en sous groupes Possibilité d’introduire plusieurs interventions
Etapes de développement d’un modèle de régression segmentée (Suggestions) Observer graphiquement les données Construire un modèle complet Supprimer les variables non significatives Ajouter les variables d’ajustement Tester autocorrélation et ajouter un terme si besoin Vérifier autres points de contrôles spécifiques au modèle (résidus, normalité…)
Conclusion Avantages Quand il est impossible d’avoir un groupe contrôle en parallèle Quand il est impossible d’avoir un groupe contrôle en parallèle Simple à mettre en place Simple à mettre en place Méthodologie et résultats intelligibles Méthodologie et résultats intelligibles Coefficients = variation immédiate et dans le tempsCoefficients = variation immédiate et dans le temps Obtention d’intervalles de confiance pour les variations associées aux interventionsObtention d’intervalles de confiance pour les variations associées aux interventions Présentation sous forme graphiquePrésentation sous forme graphique Facilement extensible : Facilement extensible : Plusieurs interventions possiblesPlusieurs interventions possibles Prise en compte saisonnalité, auto corrélation, ajustementsPrise en compte saisonnalité, auto corrélation, ajustements Transformation de variables en cas de non linéarité ou non normalitéTransformation de variables en cas de non linéarité ou non normalité
Inconvénients Inconvénients : Contraintes liées aux hypothèses du modèle : Contraintes liées aux hypothèses du modèle : Relation linéaire entre le temps et la variable d’intérêtRelation linéaire entre le temps et la variable d’intérêt NormalitéNormalité Agrège les données patients en données temps Agrège les données patients en données temps Perte d’information (précision)Perte d’information (précision) Ne permet pas d’ajuster par des variables orientées patient mais des variables agrégéesNe permet pas d’ajuster par des variables orientées patient mais des variables agrégées Nombre d’observation conseillé min.10 obs par variables rentrées dans le modèle Nombre d’observation conseillé min.10 obs par variables rentrées dans le modèle Alternative : Modèles ARIMA
Bibliographie A.K Wagner and al. ; « Segmented regression analysis of interrupted time series studies in medication use research » ; Journal of clinical Pharmacy an Therapeutics (2002) 27, Weinberg and al. ; « Reducing infections among women undergoing cesarean section in columbia by means of continuous quality improvment methods » ; Arch Intern Med (2001) 161, Ansari and al. ; « Outcomes of an intervention to improve hospital antibiotic prescribing : Interrupted time series with segmented regression analysis » ; Journal of antimicrobial chemotherapy (2003) 52, Morgan and al. ; « Interrupted time-series analysis of regulations to reduce paracetamol (acetainophen) poisoning » ; PLOS medicine (2007) 4, Shardell and al. ; « Statistical analysis and application of Quasi Experiments to antimicrobial resistance intervention Studies » ; Antimicrobial resistance (2007) 45,