Données manquantes et imputations multiples Aurélien VESIN INSERM – U823 Équipe « Épidémiologie des cancers et affections graves »
Plan Introduction Méthodes de modélisation des obs. incomplètes Problématique et enjeux Typologie des données manquantes (MAR, MNAR ….) Méthodes de modélisation des obs. incomplètes Méthodes sous hypothèse MCAR (obsolètes) Méthode d’imputation multiple
Introduction Problématique Enjeux Observation incomplète est la règle plus que l’exception Malgré les moyens/efforts, on observe toujours des données manquantes Enjeux Éviter les biais induit par la négligence des données manquantes (ce qui est couramment fait)
Introduction Prise de conscience récente de l’intérêt d’étudier les données manquantes Typologie de données manquantes Little & Rubin (1987) 3 catégories : Missing Completely At Random (MCAR) Missing At Random (MAR) Missing Not At Random (MNAR)
Introduction : Typologie MCAR (Missing Completely At Random) La proba. d’avoir des observations manquantes sur Y est une constante Ne dépend pas des variables observées X Ne dépend pas des valeurs de Y Cela signifie que l’échantillon d’observé est représentatif de l’ensemble de Y Exemple de MCAR : Mesure trop coûteuse, on ne procède à la mesure que sur un sous échantillon Conséquences de MCAR Perte de précision (Puissance) Aucun biais
Introduction : Typologie MAR (Missing At Random) La proba. D’avoir des observations manquantes sur Y dépend de variables observées X Ne dépend pas des valeurs de Y Exemple : Personnes âgées (X=Age) refusent de donner leur revenu (Y = Revenu) Conséquences de MAR : Perte de précision (Puissance) Aucun biais avec des méthodes statistiques appropriées
Introduction MNAR (Missing Not At Random) Proba. D’avoir des observations manquantes sur Y dépend de la variable Y elle même Exemple : Personnes avec un revenu important (Y) refusent de le dévoiler (Y) Conséquences : Perte de précision (Puissance) Biais Besoin de recourir à une analyse de sensibilité
Introduction Distinction du type de valeurs manquantes X1 X2 X3 Valeurs manquantes non monotones Valeurs manquantes monotones Lorsque la variable Yj est manquante pour un individu cela implique que toutes les variables suivantes Yk pour k > j sont manquantes pour cet individu.
Introduction Cas des données longitudinales Le patient s’est présenté à toutes les visites Le patient a manqué 2 visites Le patient est perdu de vue (ne vient plus a partir d’une certaine date) 1. Y complètement observé 2. Valeurs manquantes intermittentes 3. Valeurs manquantes monotones
Introduction Comment déterminer à quel type de données manquantes on a affaire ? MCAR (non réaliste) MAR MNAR (très contraignant pour imputation) Analyse exploratoire des données manquantes pour se faire une idée Définir la proportion de données manquantes Croiser une variable indicatrice d’observation avec les variables observées Régression logistique : variables associées à la probabilité d’observation
Méthodes imputation (MCAR) Analyse des Cas Complets Imputation Simple LOCF (Last Observed Carried Forward) Méthodes obsolètes
Analyse des cas complets V1 V2 V3 V4 V1 V2 V3 V4 Observations restantes en analyse des cas complets Données d’origine
Analyse des cas complets Stratégie usuelle : Réduire le nombre d’observations aux cas complets Méthode automatique adoptée par les logiciels statistiques tel que SAS Conséquences : Perte de précision Biais importants (hors MCAR) Solution : Compléter les observations manquantes (« Imputation ») Mais pas n’importe comment !
Imputation Simple Unconditional mean Imputation Hot Deck Imputation Remplace valeur manquante par la moyenne des valeurs observées sur la variable Hot Deck Imputation Même méthode que précédemment mais au sein de strates d’individus « proches » Autres méthodes… Méthodes non fiables
LOCF Dans le cas longitudinal : Last Observation Carried Forward Patient Time 0 Time 1 Time 2 Time 3 Time 4 Time 5 A 22 20 19 17 18 B 21 24 * C Last Observation Carried Forward Assume que la valeur d’une mesure reste la même après la sortie du patient Hypothèse forte et non réaliste L’évolution de la valeur dans le temps n’est pas prise en compte Ne fonctionne pas même sous l’hypothèse MCAR !
Imputation Multiple (Rubin 1987) M jeux de données complets M analyses des données complètes Résultats « poolés » de l’analyse Données incomplètes IMPUTATION « POOLING » ANALYSES Proc REG, LOGISTIC, GENMOD … PROC MI PROC MIANALYZE
Multiple Imputation Nombre d’imputations nécessaires : Efficacité relative de l’utilisation d’un nombre fini d’imputation m par rapport à un nombre infini d’imputation pleinement efficaces, en unité de variance (Rubin 1987, p. 114). m 10% 20% 30% 50% 70% 3 0.9677 0.9375 0.9091 0.8571 0.8108 5 0.9804 0.9615 0.9434 0.8772 10 0.9901 0.9709 0.9524 0.9346 20 0.9950 0.9852 0.9756 0.9662 Rubin préconise entre 3 et 5 imputations seulement
Multiple Imputation AVEC SAS Motif des valeurs manquantes Type des variables à imputer Méthode recommandée Monotone Continuous Régression linéaire Predicted Mean Matching Propensity Score Classification (Ordinal) Logistic Regression Classification (Nominal) Discriminant Function Method Arbitrary Continuous MCMC Full-Data Imputation MCMC Monotone-Data Imputation /!\ On est obligé d’avoir un motif des valeurs manquantes monotone pour imputer les variables en classe
Multiple Imputation Stratégies d’imputation Motif des données manquantes monotone Complétion séquentielle Motif des données manquantes non monotone Rendre monotone avec MCMC Utiliser une méthode pour données manquantes monotones OU Compléter entièrement par MCMC
On obtient 4 jeux de données complets différents par leurs imputations Multiple Imputation Exemple de l’imputation par régression Yj = β0 + β1X1 + β2X2 + … + βkXk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk σ On extrait de façon aléatoire des valeurs de β issu de la distribution des β estimés β*1 β*2 β*3 β*4 β estimés Covariance des β Y*1 Y*2 Y*3 Y*4 On obtient 4 jeux de données complets différents par leurs imputations
Multiple Imputation Hypothèses statistiques : Contraintes de normalité des variables sur certains modèles (ex : Régression) Robustesse à la violation de cette hypothèse Possibilité de transformer les variables pour procéder à la modélisation / Imputation Les données manquantes sont MAR L’IM Impute les données de Y3 à partir des variables Y1 et Y2 mais pas de Y3 Plus on introduit de covariables explicatives, plus l’hypothèse MAR est plausible
Multiple Imputation Stratégie sélection des variables pour le modèle d’imputation Le plus de variables possible : La perte de précision est un petit prix à payer pour la validité du modèle On ne veut pas un modèle multivarié intelligible mais un modèle performant ! Variables liés à : La variable à imputer (logique) L’observation de la variable à imputer /!\ Ne pas introduire une variable avec trop de données manquantes (ex : >50% vm) Problème : Plus on introduit de variables explicatives, plus il est dur d’avoir un motif de valeurs manquantes monotone
Multiple Imputation β1 β2 _ Q β3 β4 Mise en commun Analyse stat Des estimateurs Analyse stat BD1 β1 BD2 β2 _ Q BD3 β3 BD4 β4 Q = Moyenne des Q Variance Q = Combinaison variance inter imputation et variance intra imputation
Imputation Multiple Exemple FRATER : Office n % A B C D 247 342 299 N=2007 patients en réanimation répartis en 4 Offices But : Estimer l’effet de l’office d’affectation sur la survenue d’ablation de tuyaux Office n % A B C D 247 342 299 1076 12.6 17.4 15.2 54.8 Total 1964 Office A 4 lits Office B 4 lits Office C 4 lits Office D 6 lits Problème : 43 patients pour lesquels l’ Office est manquant
Multiple Imputation Variables utilisées pour Imputer : Problème : Age, SAPS II, Durée de séjour Problème : Age : 2 manquants SAPS II : 11 manquants Besoin de motif d’observation MONOTONE pour imputer une variable qualitative Solution : Complétion des variables AGE et SAPS II Puis complétion de la variable OFFICE
Multiple Imputation 5 Sets avec AGE, SAPS II, DUREE REA complétés par MCMC 5 Sets avec OFFICE complété par régression logistique 5 Analyses avec SAS 5 résultats différents 1 résultat « poolé »
Multiple Imputation 1. Complétion des variables explicatives PROC MI data=frater.patients out=impute nimpute=5; MCMC impute=full ; VAR igs_ii dureerea age ; run;
Multiple Imputation 2. Complétion des offices par régression logistique PROC MI data=impute nimpute=1 seed=1305417 out=final; CLASS office; MONOTONE logistic; VAR igs_ii dureerea age office; BY _imputation_; run; Fréquences des Office dans les 5 bases Office Imp 1 Imp 2 Imp 3 Imp 4 Imp 5 A 12.9% 12.6% 12.7% 12.8% B 17.4% 17.5% 17.3% 17.2% C 15.1% 15.2% 15.3% D 54.6% 54.8%
Multiple Imputation 1 2 3 1 1. Augmentation de la variance liée a la non observation 2. Part d’information manquante sur le paramètre Q due à la non observation (Q = effet de l’office du patient sur l’incident) 3. Efficacité de 5 imputations par rapport à un nombre infini d’imputation 2 3
Multiple Imputation 3. Modélisation du risque d’incident en fonction de l’office 5 Régressions logistiques 5 jeux de données imputés PROC LOGISTIC data=final outest=outlog covout desc; CLASS office; MODEL incident= office ; BY _imputation_; run; 4. Mise en commun des résultats des 5 modèles de RL PROC MIANALYZE data=outlog ; MODELEFFECTS intercept officeA officeB officeC; run;
Analyse des cas complets Multiple Imputation Analyse des cas complets Analyse avec Imputations Q Possibilité de tester la différence entre les estimateurs obtenus sur cas complets et sur données imputées (Aucune différence dans notre cas)
Multiple Imputation Avantages Inconvénients Méthode robuste et efficace avec peu d’imputations Reflète l’incertitude due aux données manquantes dans les résultats Assez simple à mettre en place Hypothèse MAR plausible avec un grand nombre de variables explicatives Inconvénients Ne permet pas de seulement compléter une base de données… mais oblige à réaliser une analyse statistique Contrainte du motif des données manquantes et des modèles d’imputations liés Plus on introduit de variables explicatives plus c’est difficile d’avoir un motif d’observation monotone Problèmes si il y a plusieurs type de variables (continue ou en classe)