Données manquantes et imputations multiples

Slides:

Advertisements

Présentations similaires

Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.

Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Inférence statistique

C1 Bio-statistiques F. KOHLER

Inférence statistique

Courbes de survie C1 Statistiques.

Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.

Les TESTS STATISTIQUES

Les TESTS STATISTIQUES

Scoring Séance II.

Dr DEVILLE Emmanuelle J D V 12/07/2006

Les tests d’hypothèses

Régression -corrélation

Laboratoire Inter-universitaire de Psychologie

Vérification des données

Traitement de données socio-économiques et techniques d’analyse :

COURS 5 Les tableaux croisés, le chi-carré et la corrélation

Chapitre 2 Les indices.

Etude longitudinale d’essais multilocaux: apports du modèle mixte

Régression linéaire simple

Groupe 1: Classes de même intervalle

Commenter les résultats du modèle que vous aurez choisi.

Howell, Chap. 1 Position générale

L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques

Commentaires sur les biais écologiques et les échelles non emboîtées

Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->

La corrélation et la régression

La régression logistique

La corrélation et la régression

Corrélation Principe fondamental d’une analyse de corrélation

Le forage de données ou data mining

Structure discriminante (analyse discriminante)

Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.

Les analyses multivariées

Régression linéaire (STT-2400)

Théorie de l’échantillonnage (STT-6005)

La régression multiple

Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Régression linéaire multiple : hypothèses & tests. Partie 3.

Méthodes de Biostatistique

Méthodes de Biostatistique

Théorème de la limite centrale l’inférence statistique

ANALYSE DE DONNEES TESTS D’ASSOCIATION

TESTS NON PARAMETRIQUES

TNS et Analyse Spectrale

Décision incertaine et logistique : Grille typologique

Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.

JEAN-MARC FONTAN SOC-1101 COURS 4

Échantillonnage (STT-2000)

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.

Analyse des semis de point

Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.

Probabilités et statistique MQT-1102

MENU 1 Modèles de choix.

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

ECHANTILLONAGE ET ESTIMATION

LECTURE CRITIQUE D’UN ARTICLE

ETUDES PRONOSTIQUES Pr Ganry.

Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.

Introduction aux statistiques Intervalles de confiance

Lecture critique des essais cliniques. But Juger de : - La validité scientifique - L’intérêt clinique Modifier ou ne pas modifier la pratique.

1 Utilisation des scores de propension dans les régressions logistiques : comparaison de 5 méthodes Adrien Français IAB - INSERM Équipe 11 3 novembre 2008.

L’algorithme EM pour des données manquantes Molière Nguile makao INSERM U823/équipe 11.

Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.

Régression segmentée pour l’analyse de données longitudinales interrompues Vendredi 13 Juin 2008 Aurélien Vesin (INSERM U823)

Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.

Chapitre 5 Interprétation des données d’enquête 1.

Transcription de la présentation:

Données manquantes et imputations multiples Aurélien VESIN INSERM – U823 Équipe « Épidémiologie des cancers et affections graves »

Plan Introduction Méthodes de modélisation des obs. incomplètes Problématique et enjeux Typologie des données manquantes (MAR, MNAR ….) Méthodes de modélisation des obs. incomplètes Méthodes sous hypothèse MCAR (obsolètes) Méthode d’imputation multiple

Introduction Problématique Enjeux Observation incomplète est la règle plus que l’exception Malgré les moyens/efforts, on observe toujours des données manquantes Enjeux Éviter les biais induit par la négligence des données manquantes (ce qui est couramment fait)

Introduction Prise de conscience récente de l’intérêt d’étudier les données manquantes Typologie de données manquantes Little & Rubin (1987) 3 catégories : Missing Completely At Random (MCAR) Missing At Random (MAR) Missing Not At Random (MNAR)

Introduction : Typologie MCAR (Missing Completely At Random) La proba. d’avoir des observations manquantes sur Y est une constante Ne dépend pas des variables observées X Ne dépend pas des valeurs de Y Cela signifie que l’échantillon d’observé est représentatif de l’ensemble de Y Exemple de MCAR : Mesure trop coûteuse, on ne procède à la mesure que sur un sous échantillon Conséquences de MCAR Perte de précision (Puissance) Aucun biais

Introduction : Typologie MAR (Missing At Random) La proba. D’avoir des observations manquantes sur Y dépend de variables observées X Ne dépend pas des valeurs de Y Exemple : Personnes âgées (X=Age) refusent de donner leur revenu (Y = Revenu) Conséquences de MAR : Perte de précision (Puissance) Aucun biais avec des méthodes statistiques appropriées

Introduction MNAR (Missing Not At Random) Proba. D’avoir des observations manquantes sur Y dépend de la variable Y elle même Exemple : Personnes avec un revenu important (Y) refusent de le dévoiler (Y) Conséquences : Perte de précision (Puissance) Biais Besoin de recourir à une analyse de sensibilité

Introduction Distinction du type de valeurs manquantes X1 X2 X3 Valeurs manquantes non monotones Valeurs manquantes monotones Lorsque la variable Yj est manquante pour un individu cela implique que toutes les variables suivantes Yk pour k > j sont manquantes pour cet individu.

Introduction Cas des données longitudinales Le patient s’est présenté à toutes les visites Le patient a manqué 2 visites Le patient est perdu de vue (ne vient plus a partir d’une certaine date) 1. Y complètement observé 2. Valeurs manquantes intermittentes 3. Valeurs manquantes monotones

Introduction Comment déterminer à quel type de données manquantes on a affaire ? MCAR (non réaliste) MAR MNAR (très contraignant pour imputation)  Analyse exploratoire des données manquantes pour se faire une idée Définir la proportion de données manquantes Croiser une variable indicatrice d’observation avec les variables observées Régression logistique : variables associées à la probabilité d’observation

Méthodes imputation (MCAR) Analyse des Cas Complets Imputation Simple LOCF (Last Observed Carried Forward)  Méthodes obsolètes

Analyse des cas complets V1 V2 V3 V4 V1 V2 V3 V4 Observations restantes en analyse des cas complets Données d’origine

Analyse des cas complets Stratégie usuelle : Réduire le nombre d’observations aux cas complets Méthode automatique adoptée par les logiciels statistiques tel que SAS Conséquences : Perte de précision Biais importants (hors MCAR) Solution : Compléter les observations manquantes (« Imputation ») Mais pas n’importe comment !

Imputation Simple Unconditional mean Imputation Hot Deck Imputation Remplace valeur manquante par la moyenne des valeurs observées sur la variable Hot Deck Imputation Même méthode que précédemment mais au sein de strates d’individus « proches » Autres méthodes…  Méthodes non fiables

LOCF Dans le cas longitudinal : Last Observation Carried Forward Patient Time 0 Time 1 Time 2 Time 3 Time 4 Time 5 A 22 20 19 17 18 B 21 24 * C Last Observation Carried Forward Assume que la valeur d’une mesure reste la même après la sortie du patient Hypothèse forte et non réaliste L’évolution de la valeur dans le temps n’est pas prise en compte Ne fonctionne pas même sous l’hypothèse MCAR !

Imputation Multiple (Rubin 1987) M jeux de données complets M analyses des données complètes Résultats « poolés » de l’analyse Données incomplètes IMPUTATION « POOLING » ANALYSES Proc REG, LOGISTIC, GENMOD … PROC MI PROC MIANALYZE

Multiple Imputation Nombre d’imputations nécessaires : Efficacité relative de l’utilisation d’un nombre fini d’imputation m par rapport à un nombre infini d’imputation pleinement efficaces, en unité de variance (Rubin 1987, p. 114). m 10% 20% 30% 50% 70% 3 0.9677 0.9375 0.9091 0.8571 0.8108 5 0.9804 0.9615 0.9434 0.8772 10 0.9901 0.9709 0.9524 0.9346 20 0.9950 0.9852 0.9756 0.9662 Rubin préconise entre 3 et 5 imputations seulement

Multiple Imputation AVEC SAS Motif des valeurs manquantes Type des variables à imputer Méthode recommandée Monotone Continuous Régression linéaire Predicted Mean Matching Propensity Score Classification (Ordinal) Logistic Regression Classification (Nominal) Discriminant Function Method Arbitrary Continuous MCMC Full-Data Imputation MCMC Monotone-Data Imputation /!\ On est obligé d’avoir un motif des valeurs manquantes monotone pour imputer les variables en classe

Multiple Imputation Stratégies d’imputation Motif des données manquantes monotone Complétion séquentielle Motif des données manquantes non monotone Rendre monotone avec MCMC Utiliser une méthode pour données manquantes monotones OU Compléter entièrement par MCMC

On obtient 4 jeux de données complets différents par leurs imputations Multiple Imputation Exemple de l’imputation par régression Yj = β0 + β1X1 + β2X2 + … + βkXk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk σ On extrait de façon aléatoire des valeurs de β issu de la distribution des β estimés β*1 β*2 β*3 β*4 β estimés Covariance des β Y*1 Y*2 Y*3 Y*4 On obtient 4 jeux de données complets différents par leurs imputations

Multiple Imputation Hypothèses statistiques : Contraintes de normalité des variables sur certains modèles (ex : Régression) Robustesse à la violation de cette hypothèse Possibilité de transformer les variables pour procéder à la modélisation / Imputation Les données manquantes sont MAR L’IM Impute les données de Y3 à partir des variables Y1 et Y2 mais pas de Y3 Plus on introduit de covariables explicatives, plus l’hypothèse MAR est plausible

Multiple Imputation Stratégie sélection des variables pour le modèle d’imputation Le plus de variables possible : La perte de précision est un petit prix à payer pour la validité du modèle On ne veut pas un modèle multivarié intelligible mais un modèle performant ! Variables liés à : La variable à imputer (logique) L’observation de la variable à imputer /!\ Ne pas introduire une variable avec trop de données manquantes (ex : >50% vm) Problème : Plus on introduit de variables explicatives, plus il est dur d’avoir un motif de valeurs manquantes monotone

Multiple Imputation β1 β2 _ Q β3 β4 Mise en commun Analyse stat Des estimateurs Analyse stat BD1 β1 BD2 β2 _ Q BD3 β3 BD4 β4 Q = Moyenne des Q Variance Q = Combinaison variance inter imputation et variance intra imputation

Imputation Multiple Exemple FRATER : Office n % A B C D 247 342 299 N=2007 patients en réanimation répartis en 4 Offices But : Estimer l’effet de l’office d’affectation sur la survenue d’ablation de tuyaux Office n % A B C D 247 342 299 1076 12.6 17.4 15.2 54.8 Total 1964 Office A 4 lits Office B 4 lits Office C 4 lits Office D 6 lits Problème : 43 patients pour lesquels l’ Office est manquant

Multiple Imputation Variables utilisées pour Imputer : Problème : Age, SAPS II, Durée de séjour Problème : Age : 2 manquants SAPS II : 11 manquants Besoin de motif d’observation MONOTONE pour imputer une variable qualitative Solution : Complétion des variables AGE et SAPS II Puis complétion de la variable OFFICE

Multiple Imputation 5 Sets avec AGE, SAPS II, DUREE REA complétés par MCMC 5 Sets avec OFFICE complété par régression logistique 5 Analyses avec SAS 5 résultats différents 1 résultat « poolé »

Multiple Imputation 1. Complétion des variables explicatives PROC MI data=frater.patients out=impute nimpute=5; MCMC impute=full ; VAR igs_ii dureerea age ; run;

Multiple Imputation 2. Complétion des offices par régression logistique PROC MI data=impute nimpute=1 seed=1305417 out=final; CLASS office; MONOTONE logistic; VAR igs_ii dureerea age office; BY _imputation_; run; Fréquences des Office dans les 5 bases Office Imp 1 Imp 2 Imp 3 Imp 4 Imp 5 A 12.9% 12.6% 12.7% 12.8% B 17.4% 17.5% 17.3% 17.2% C 15.1% 15.2% 15.3% D 54.6% 54.8%

Multiple Imputation 1 2 3 1 1. Augmentation de la variance liée a la non observation 2. Part d’information manquante sur le paramètre Q due à la non observation (Q = effet de l’office du patient sur l’incident) 3. Efficacité de 5 imputations par rapport à un nombre infini d’imputation 2 3

Multiple Imputation 3. Modélisation du risque d’incident en fonction de l’office 5 Régressions logistiques  5 jeux de données imputés PROC LOGISTIC data=final outest=outlog covout desc; CLASS office; MODEL incident= office ; BY _imputation_; run; 4. Mise en commun des résultats des 5 modèles de RL PROC MIANALYZE data=outlog ; MODELEFFECTS intercept officeA officeB officeC; run;

Analyse des cas complets Multiple Imputation Analyse des cas complets Analyse avec Imputations Q Possibilité de tester la différence entre les estimateurs obtenus sur cas complets et sur données imputées (Aucune différence dans notre cas)

Multiple Imputation Avantages Inconvénients Méthode robuste et efficace avec peu d’imputations Reflète l’incertitude due aux données manquantes dans les résultats Assez simple à mettre en place Hypothèse MAR plausible avec un grand nombre de variables explicatives Inconvénients Ne permet pas de seulement compléter une base de données… mais oblige à réaliser une analyse statistique Contrainte du motif des données manquantes et des modèles d’imputations liés Plus on introduit de variables explicatives plus c’est difficile d’avoir un motif d’observation monotone Problèmes si il y a plusieurs type de variables (continue ou en classe)