VALEURS MANQUANTES Quelle proportion? Aléatoires - Non aléatoires?

Slides:



Advertisements
Présentations similaires
New opportunities offered by APHLIS 3 Les nouvelles opportunities qui soffrent avec APHLIS 3 JRC.
Advertisements

Objectif Trouver les facteurs dun nombre. Objective Find the factors of a number.
Les pronoms compléments
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS Implementing the economic classification revision (NACE / ISIC) in the Business.
#TrustMetrics « Expédition confiance » BarCampBankSF3 Saturday, May 08, 2010 | Sunday, May 09, 2010 Jean-Christophe Capelli, CEO, FriendsClear Draft en.
Le Passé Composé With Être.
TROUVER LES FACTEURS PREMIERS
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
Talking about yourself
Questions II How do you Form Questions in French??
interaction in the .LRN platform
Time with minutes French II Le 30 Octobre.
Cliquez et modifiez le titre Cliquez pour modifier les styles du texte du masque Deuxième niveau Troisième niveau Quatrième niveau Cinquième niveau 23/01/2014©
Repair of the Aortic dissection with surgical glue. P Menu, T Sais, P Corbi, M Rahmati, C Jayle, JM Charrière.
CHALOUPE Global change, dynamics of exploited marine biodiversity and viability of fisheries Funded by the French national Agency of research – Call 2005.
Figure SPM.3. Figure TS.6 FAQ 1.3, Figure 1 FAQ 1.1, Figure 1.
TP2 ... MVC ? JList JLabel JSlider ImageLibrary Contrôleur Vue Modèle
Comparaison de deux proportions indépendantes
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
Reading an analog clock
Defence R&D Canada R et D pour la défense Canada Novel Concepts for the COP of the Future Denis Gouin Alexandre Bergeron-Guyard DRDC Valcartier.
(Bell ringer is on the board!)
Rules Each group answers every question. A student will be selected at random to answer the question. If that team misses, a 2 nd name is drawn, and they.
Une Amie Un Ami Français I.
1 Encombrement maximum du logotype depuis le bord inférieur droit de la page (logo placé à 1/3X du bord; X = logotype) CapVol Method Mémoire soutenu en.
The Benefits of Technology in the Classroom By: Jennifer Langer.
DELF Le 12 au 15 avril POURQUOI DELF? Official French language diplomas (DELF-DALF) - Why take the DELF and the DALF ? The Diplôme dEtudes en Langue.
Assessment and the new secondary curriculum S. Barfoot.
How to solve biological problems with math Mars 2012.
Faculté de médecine Bureau dévaluation Quelques biais possibles liés aux évaluateurs dans lutilisation des échelles dappréciation.
Chapitre 4 Files dattente pour la planification des capacités.
Discussion, Youth Engagement, and Appreciation of Diversity Kelly Campbell 1, Linda Rose-Krasnor 1, Michael Busseri 1, Mark Pancer 2 and the Centre of.
AFNOR NF Z – "Online Consumer Reviews
Talking about yourself
Indefinite articles, plural of nouns
EXT: can you translate them too?
Mardi 20 Novembre 2012 Recap I can
Proposition for a new policy for MAPMT Gain Control Sylvie Dagoret-Campagne LAL EUSO-BALLOON 8th Progress meeting1.
Rethinking language education, a challenge to tradition Repenser l'éducation aux langues, un défi à la tradition H. G. Widdowson University of Vienna -
CONSORTIUM SUR LA CLIMATOLOGIE RÉGIONALE ET LADAPTATION AUX CHANGEMENTS CLIMATIQUES ET LADAPTATION AUX CHANGEMENTS CLIMATIQUES 2m Temperature interannual.
TortoiseSVN N°. Subversion : pour quoi faire ? Avoir un espace de stockage commun – Tous les étudiants du SIGLIS ont un espace svn commun Partager vos.
PURCHASING PHASE REVIEW Cornerstones of Purchase baseline
Les choses que j aime Learning Objective: To know how to use j aime to talk about things I like to do.
Techniques de leau et calcul des réseaux séance 2a Michel Verbanck 2012.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
L’ensemble microcanonique
1 Equipe BioStatistique-Santé (BSS) Pascal ROY PU-PH.
La pratique factuelle Années 90 un concept médical visant à optimiser les décisions cliniques face aux soins des patients Aujourdhui un concept évolutif,
1.
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
Présentation dun modèle dinterface adaptative dun système de diagnostique et dintervention industriel: ADAPTS (Adaptive Diagnostics And Personalized Technical.
1 ISBN John Wiley and sons. 2 IntroductionIntroduction Chapter 1.
Les lycées. Sixth form is compulsory in France so it is really important to choose the right one. Look carefully at the information about colleges and.
Marketing électronique Cours 5 La personnalisation.
Physique statistique Frédéric CAUPIN.
Employment Policies. an Azorean story...
INDICATOR DEFINITION An indicator describes the manifestation of a process of change resulting from the pursuit of an action. Un indicateur décrit la manifestation.
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
Study & revise the numbers carefully.
Z SILICON DRIFT DETECTOR IN ALICE When a particle crosses the thickness of SDD electrons are released. They drift under the effect of an applied electric.
Quelle heure est-il? What time is it ?.
Leçon 25.
Belgian Breast Meeting Senator F. Roelants du Vivier 13th october.
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
FREE HEALTH CARE AND RISK OF MORTALITY ON UNDER 5 YEARS OLD CHILDREEN IN BURKINA FASO : EVIDENCE FROM SAPONE HDSS By Malik LANKOANDE Msc Demography Projet.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Clique Percolation Method (CPM)
Données manquantes et imputations multiples
F RIENDS AND FRIENDSHIP Project by: POPA BIANCA IONELA.
Transcription de la présentation:

VALEURS MANQUANTES Quelle proportion? Aléatoires - Non aléatoires? Importante - Non importante? Aléatoires - Non aléatoires? Quel « pattern » suivent les valeurs manquantes?

Valeurs manquantes Une solution simple : Généralisation? écarter les « sujets » avec des réponses incomplètes : « analyse des cas disponibles ou des cas complets » utilisation non efficiente de l ’information cas complets peuvent être très différents Généralisation? Représentativité?

Valeurs manquantes Classification Exemple : 2 variables Y = revenu, X = Age Complètement aléaloires (Missing Completely At Random = MCAR) : données manquantes = échantillon représentatif de l’ensemble complet de données Probabilité que revenu soit récolté la même pour tous les individus MCAR

Valeurs manquantes Classification Exemple : 2 variables Y = revenu, X = Age Aléatoires (Missing At Random = MAR) : probabilité qu’une donnée soit manquante dépend des valeurs des variables mesurées Probabilité que revenu soit récolté dépend de l’âge des répondants mais ne varie pas en fonction du revenu des répondants au sein des groupes d’âge MAR

Valeurs manquantes Classification Exemple : 2 variables Y = revenu, X = Age Valeurs manquantes non aléatoires (Missing Not At Random = MNAR) : l’occurrence des valeurs manquantes d’une variable dépend de la valeur réelle mais non observée de la variable. Si probabilité que revenu varie aussi en en fonction du revenu dans les groupes d’âge MNAR

Valeurs manquantes Classification MCAR et MAR = « missing ignorable » MNAR = « missing non ignorable »

VALEURS MANQUANTES Méthodes d’analyse Deux grands types d’approches Imputation Basées sur la vraisemblance (Likelihood – «Expectation-Maximization » algorithm). Estimation de paramètres par maximum de vraisemblance à partir des données incomplètes.

Différence principale entre les deux approches Méthodes d’analyse Différence principale entre les deux approches imputation complète les «missing » approche basée sur le Likelihood : pas d’estimation explicite des « missing » mais spécification d’un modèle et logiciels moins facilement disponibles pour certaines analyses Si grands échantillons, résultats semblables avec les deux méthodes; si petits échantillons, MI supérieur?

Valeurs manquantes IMPUTATION: Imputation simple Imputation multiple

VALEURS MANQUANTES Imputation simple Valeur basée sur la connaissance à priori moyenne des observations disponibles pour les autres sujets avec des caractéristiques identiques valeurs prédites par régression ou régression stochastique (valeurs manquantes remplacées par valeurs prédites + résidus pour refléter l’incertitude sur la valeur prédite)

Valeurs manquantes Imputation simple Hot Deck : valeur imputée sélectionnée à partir de la distribution estimée pour chaque valeur manquante Cold deck : remplacer une valeur manquante par une valeur constante provenant d’une source extérieure (ex : étude antérieure)

Imputation simple Étude longitudinale : dernière valeur observée (LOCF) Substitution : remplacer des unités sélectionnées par d’autres non sélectionnées dans l’échantillon (stade expérimental) …………

VALEURS MANQUANTES Imputation simple : problèmes Connaissance à priori : OK si nb. Missing petit et chercheur expérimenté L’analyse de la base de données complétée comme si les mesures ajoutées étaient des mesures réelles ne tient pas compte de l’incertitude liée au processus d’imputation Les erreurs standards sont en général sous-estimées

VALEURS MANQUANTES Imputation multiple (MI) N’ajoute pas des valeurs Analyse de plusieurs ensembles de données « complets » Simulations nb. M d’imputations répétées = 3, suffisant si 20% de missing

Valeurs manquantes Imputation multiple Sauf si % « missing » très grand : peu de bénéfice avec + de 10 imputations – 5 imputations = recommandé Ajuste les statistiques pour tenir compte de l’incertitude liée à l’imputation

Valeurs manquantes Remarque Méthodes choisies pour traiter les missings dans les essais cliniques ont un impact sur les calculs de taille d’échantillons

VALEURS MANQUANTES Quelques situations Analyses avec des modèles classiques Essais cliniques Etudes longitudinales ………..

Valeurs manquantes Exemple 1 Developing a prognostic model in the presence of missing data: an ovarian cancer case study Taane G. Clark*, Douglas G. Altman Journal of Clinical Epidemiology 56 (2003) 28–37 Valeurs manquantes pour 8 des 10 facteurs prognostiques potentiels : 2-43% Temps de survie connus

Valeurs manquantes Exemple 1 - étapes de la procédure 1. Investigating the missing data a. Quantifying the multivariate patterns of the missing data. b. Plotting the proportion of missing data for each potential prognostic factor against diagnosis year to show time trends in measurement practice.

Valeurs manquantes Exemple 1 - étapes de la procédure 1. Investigating the missing data c. Exploring the relationship between missing data of potential prognostic factors with other prognostic variables, survival information [i.e., (log) survival time and the censoring indicator], and auxiliary variables.

Valeurs manquantes Exemple 1 - étapes de la procédure 2. Specifying an imputation model. 3. Using the model to generate (via a random sampling procedure) M sets of imputed values for the missing data points, thus creating M completed datasets.

Valeurs manquantes Exemple 1 - étapes de la procédure 4. For each completed dataset, carrying out a Cox regression, obtaining estimate of interest and its estimated variance 5. Combining the results from the different datasets to obtain a prognostic model.

Valeurs manquantes Exemple 1 - étapes de la procédure 6. Constructing a final “completed data” model (Model 2) by removing the covariate with the highest P-value and repeating steps 4 and 5 until all remaining covariates were significant at a 5% level (backward elimination).

Valeurs manquantes Exemple 1 Etape 1 : missing data = MAR Etapes 2 et 3 = simulation bayésienne Etape 3 : nombre d ’imputations répétées=10

Valeurs manquantes Exemple 1 - Etape 1 – Pattern «missing» Prognostic variable N (%) Grade Unknown 139 (11.7) Ascites Presence 707 (59.5) Absence 417 (35.1) Unknown 65 (5.5) Alkaline phosphatase 793 (66.7)

Valeurs manquantes Exemple 1-Etape 1-Pattern «missing» The number of patients contributing to a complete case analysis using all the prognostic factors would be 358 (245 deaths). Plots of the proportion of missing data by diagnosis year show that the proportions for ascites, alkaline phosphatase, albumin, grade, and residual disease were constant.

Valeurs manquantes Exemple 1 - Etape 1-Pattern «missing» The proportion of missing CA125 data decreased linearly in time from 85 to 21% between 1984 and 1999. The proportion of missing performance status had an increasing trend in time with a minimum of 18% in 1986 and a maximum of 71% in 1995.

Valeurs manquantes Exemple 1 - Etape 1 - Evidence of MAR data An analysis of the survival distributions of non-missing and missing strata within each of the factors (log) CA125, grade, FIGO stage, and performance status showed no visual or statistical evidence of significant differences.

Valeurs manquantes Exemple 1 - Etape 1 - Evidence of MAR data Difference between the survival distributions of patients with and without missing data for ascites (P .002), albumin (P .003), alkaline phosphatase (P .020) and residual disease (P .020)

Valeurs manquantes Exemple 1 - Etape 1 - Evidence of MAR data Those patients missing albumin and alkaline phosphatase results had a better prognosis, suggesting that eliminating the patients with missing values would lead to an underestimate of the true survival of the cohort. The opposite effect was seen for ascites and residual disease.

Valeurs manquantes Exemple 1 - Etape 1 - Evidence of MAR data The univariate logistic models indicated that histology and clinical trial participation were associated with the missingness of all but one prognostic variable.

Valeurs manquantes Exemple 1 - Etape 2 à 5 - Imputation We completed 10 data sets by imputing 2,045 values in each. As a consequence, 6,265 additional real data values were incorporated into each dataset.

Valeurs manquantes Exemple 1 - étape 2 – Imputation model For binary variables (e.g., the presence or absence of ascites) we used a logistic model For categorical variables with three or more ordered levels (e.g., performance status) we applied a polytomous (2 levels) logistic model

Valeurs manquantes Exemple 1 - Etape 2 - Imputation model For continuous variables (e.g., log CA125) we used normal linear regression truncated where appropriate to the credible range of values.

Valeurs manquantes Exemple 1 - Etapes 2 à 5 - Imputation The prevalences (%) of categorical prognostic factors in the original data (ignoring missing data) were consistent with those from the 10 imputations.

Valeurs manquantes Exemple 1 - Etapes 2 à 5 - imputation Original Completed (a) Prognostic Factor # % Median Range Overall % Grade I 131 12.5 149 144–153 12.5 II 278 26.5 315 310–321 26.5 III 641 61.0 724 716–732 60.9 Unknown 139 0 — — — Ascites Presence 707 62.9 750 747–752 63.0 Absence 417 37.1 440 437–442 37.0 Unknown 65 0 — — — (a) 10 datasets with original data augmented by imputed missing values.

Valeurs manquantes Exemple 1 - Etapes 2 à 5 - Imputation The median and range of albumin, log CA125, and alkaline phosphatase in the original data were consistent with the median of the median of the 10 imputation distributions and the extreme values of these distributions, respectively.

Valeurs manquantes Exemple 1 - Etape 2 à 5 - imputation Original Completed Prognostic Median Range Median Range Factor Log CA125 (5.34) (1.79–10.04) 5.16 1.79–10.04 Albumin (39.0) (20.0–50.0) 39.0 20.0–50.0 Log Alk. Phos. (4.54) (3.26–7.50) 4.54 3.26–7.50

Valeurs manquantes Exemple 1 - Etapes 2 à 5 - Imputation The narrow ranges of imputation values for each potential prognostic variable coincides with the visual impression that the distributions for each of the potential prognostic factors in the 10 imputed datasets were similar.

Valeurs manquantes Exemple 1 - Etape 6 - Fitting the Cox models. Model 1 : as four factors, each with missing values, were found not to be prognostic, the analysable dataset was 518 (380 deaths). Model 2 : pooled analysis using 10 complete datasets with imputed missing values. Grade and ascites were statistically significant in Model 2, but not in Model 1.

Valeurs manquantes Exemple 1 - Etape 6 - Fitting the Cox models. A complete case analysis based on Model 2 would include only 449 patients (319 deaths). The confidence limits are narrower in the augmented data, especially for those with less missing observations in the original dataset.

Exemple 1 - Etape 6 - Fitting the Cox models. The models applied to completed data (i.e., the 10 datasets with imputed missing values) had better calibration (i.e., greater ability to produce unbiased estimates of outcome) superior discrimination (i.e., improved ability to provide accurate predictions for individual patients) There was little difference between the discrimination measures of Model 1 and Model 2 when applied to the completed data.

Exemple 1 - Conclusion Most data are multivariate in nature, so a small proportion of missing data for several variables can lead to a severely depleted complete case analysis. MI seems appropriate in this setting if the original dataset is not too small.

Valeurs manquantes Exemple 1 - conclusion Using imputed data we are incorporating patients that are removed merely because one or more of their prognostic factors are missing and, as a result, increasing power and adding precision to an analysis. our approach may be viewed as a sensitivity analysis, and ultimately we need to use judgement about the plausibility of assumptions in a particular situation to assess which is the primary analysis.

Valeurs manquantes Exemple 2 : une étude longitudinale Attrition in longitudinal studies: How to deal with missing data Jos Twisk*, Wieke de Vente Journal of Clinical Epidemiology 55 (2002) 329–337

Valeurs manquantes Exemple 2 - Conclusion When MANOVA for repeated measurements is used to analyze a longitudinal dataset with missing data, imputation methods to replace these missing data are highly recommendable (because MANOVA as implemented in the software used (SPSS), uses listwise deletion of cases with a missing value).

Valeurs manquantes Exemple 2 - Conclusion When GEE is used to analyze a longitudinal dataset with missing data, not imputing at all may be better than any of the imputation methods applied. If one chooses to impute missing values, longitudinal methods are generally preferred above cross-sectional methods.

Valeurs manquantes Exemple 2 - Conclusion Using the more refined multiple imputation method to impute missing values did not lead to different point estimates than the single imputation techniques. The estimated standard errors were higher than the ones obtained from the complete dataset, which seems to be theoretically justified, because they reflect uncertainty in estimation caused by missing values.

Valeurs manquantes Exemple 2 - Limitations Specific observational longitudinal dataset Four missing data scenarios Limited number of imputation techniques Missingness dependent on the outcome variable Two statistical methods Less advanced multiple imputation estimation pro-cedures)

Valeurs manquantes Exemple 3 – Un essai clinique Extrait de « Multiple Imputation : a primer». JL Schafer Statistical Methods in Medical Research, 1999; 8 (1) 3-15

VALEURS MANQUANTES Softwares Routines pour STATA http://www.stat.harvard.edu/~barnard/ S-PLUS SAS NORM (free sur INTERNET (Schafer, 1999) SOLAS™ for Missing Data Analysis and Multiple Imputation http://www.statsol.ie/solas/solas.htm

Valeurs manquantes Et SPSS? Module MVA Pattern des missings Méthodes de substitution : Régression EM

Valeurs manquantes EM Deux étapes : E = valeurs attendues des données manquantes; M = estimation des paramètres (corrélations) comme si les valeurs manquantes avaient été complétées Avec SPSS MVA, on peut simuler une imputation multiple