Régression logistique et modèle de Cox Jean-François TIMSIT Réanimation médicale INSERM/UJF U823 CHU Albert Michallon Grenoble Paris, SRLF Janvier 2009
747 patients ventilés plus de 48 heures 153 au moins une PNVM Question: –Parmi les variables age, sexe, utilisation de cephalosporines dans les 48 premières heures de VM lesquels sont des facteurs de risque de PNVM?? Outcomes of VAP CID 2004:38 (15 May) 1401
Les variables DSREA: durée de séjour en réanimation SEXMASC: sexe masculin Age (année) PN (0/1) EOP/LOP ( =7jours) CEPHALO48: utilisation de céphalosporines dans les 48 premières heures de séjour
Variable : AGE Sample size = 747 Lowest value = 16,5257 Highest value = 100,0000 Arithmetic mean = 65, % CI for the mean = 64,3005 to 66,4878 Median = 68, % CI for the median = 67,1589 to 69,7324 Variance = 231,5221 Standard deviation = 15,2158 Relative standard deviation = 0,2327 (23,27%) Standard error of the mean = 0,5571 Coefficient of Skewness = -0,7248 (P<0,0001) Coefficient of Kurtosis = 0,0229 (P=0,8308) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 30, ,5104 to 32, = 34, ,1306 to 38, = 42, ,3694 to 44, = 56, ,6353 to 58, = 76, ,5473 to 77, = 82, ,5334 to 84, = 86, ,7553 to 87, ,5 = 88, ,1381 to 90,4577
Variable DS rea Variable : DSREA Sample size = 747 Lowest value = 2,0000 Highest value = 111,0000 Arithmetic mean = 16, % CI for the mean = 15,2883 to 17,6541 Median = 11, % CI for the median = 10,0000 to 12,0000 Variance = 271,2147 Standard deviation = 16,4686 Relative standard deviation = 0,9998 (99,98%) Standard error of the mean = 0,6026 Coefficient of Skewness = 2,2130 (P<0,0001) Coefficient of Kurtosis = 6,0827 (P<0,0001) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 2,0000 2,0000 to 2, = 3,0000 2,0000 to 3, = 3,0000 3,0000 to 4, = 6,0000 5,0000 to 6, = 21, ,0000 to 23, = 37, ,0000 to 44, = 51, ,0000 to 58, ,5 = 62, ,0000 to 71,0353
Vous souhaitez présenter une première table avec les données des groupes (avec et sans pneumonies): quels caractéristiques allez vous garder pour l’age et la durée de séjour? Moyenne (SD) pour les deux Moyenne (SD) pour age et médiane (IQR) pour la DS Moyenne (SD) pour DS et médiane (IQR) pour l’age Médiane (IQR) pour les deux Les deux
Comparaison age/PNobs Sample 1 Variable : AGE Select : pnobs=0 Sample size = 594 Lowest value = 17,0000 Highest value = 93,0000 Median = 69, % CI for the median = 67,0000 to 70, Sample 2 Variable : age Select : pnobs=1 Sample size = 153 Lowest value = 25,0000 Highest value = 100,0000 Median = 70, % CI for the median = 68,0000 to 73, Mann-Whitney test (independent samples) Average rank of first group = 364,4537 Average rank of second group = 411,0621 Large sample test statistic Z = 2, Two-tailed probability P = 0,0172 Sample 1 Variable : age Select : pnobs=0 Sample size = 594 Arithmetic mean = 65, % CI for the mean = 63,9445 to 66,4023 Standard deviation = 15,2496 Standard error of the mean = 0, Sample 2 Variable : AGE Select : pnobs=1 Sample size = 153 Arithmetic mean = 69, % CI for the mean = 67,0019 to 71,1027 Standard deviation = 12,8369 Standard error of the mean = 1, Independent samples t-test F-test for equal variances P = 0,010 T-test (assuming equal variances) Difference = 3, % CI of difference = 1,2466 to 6,5111 Test statistic t = 2,893 Degrees of Freedom (DF) = 745 Two-tailed probability P = 0,0039 Test t de student Test de Mann Whitney
Vous voulez comparer l’age en fonction de PNVM Votre logiciel vous propose 2 tests et 2 sorties laquelle choisissez vous et pourquoi? 1.Test t de Student car c’est le plus puissant 2.Test de Kruskal Wallis car c’est le plus puissant 3.Test t de Student car les effectifs sont supérieurs à 30 4.Test de Kruskal Wallis, car la normalité n’est pas vérifiée 5.Je sais pas
PNVM=0PNVM=1p Age69 (56-77)70 (63-77)0.017 SAPS II50 (38-63)48 (39-57)0,14 Sexe masc.352 (59%)114 (75%) Cefalo48136 (23%)27 (18%)0.16 L’analyse univariée est jointe vous souhaitez réaliser une analyse multivariée: HommeFemme PNVM A=114B=39 NON C=352D=242 OR=2.01
? ? Très proche du risque relatif 1234 La probabilité de PNVM si homme sur la probabilité de PNVM globale La probabilité d’absence de PNVM si homme rapportée à la probabilité d’absence de PNVM si femmes La probabilité de PNVM si homme sur la probabilité de PNVM si femme 5 Aucune des affirmations n’est vraie L’Odds ratio est :
Le risque relatif (RR) de PNVM est égal à la probabilité de PNVM si homme rapportée à la probabilité de PNVM si femme L’odds ratio (0R) de décès est égal au rapport des cotes X et Y X=(proba de PNVM/homme)/(proba de pas de PNVM /homme) Y=(proba de PNVM/femme)/(proba de PNVM /femme) RR=(A/A+C)/(B/B+D)=(114/466)/(39/281)= 1.71 OR=X/Y= (A/C)/(B/D)=AD/BC= 2.01 L’OR n’est proche du RR que si le risque mesuré est très petit HommeFemme PNVM A=114B=39 NON C=352D=242
Adjustement using a magic « multivariate model » x y z Truth universe in your sample
Adjustement using a magic « multivariate model » x y z
x y z
x y z
x y z
x y z Model using interactions and polynomes…
Validation using external samples x y z Other representative sample of the truth universe
Messages As many possible models as individuals (even more!!) Parcimony decreases model discrimination but improves external validity the statistical analyses should be precisely designed a priori Primary and secondary analyses should be precisely planned
Rules for multivariate models Select the model according to the end point Check for its hypotheses The explanatory variables should be –Precisely defined –Not related one to another –Sufficiently frequent in both groups (problem with perfect or quasi perfect discrimination)
Que pensez vous de l’inclusion dans le modèle de l’age et du SAPSII? C’est logique C’est illogique puisque le SAPS est NS (comme cephalo) C’est illogique puisque le SAPS comprend l’age J’sais pas?
Utilisation de variables dans un modele Dans un but exploratoire: (facteur de risque de quelque chose), il vaut mieux utiliser des modèles « parcimonieux » –Sélectionner des covariables associées avec la variable à expliquer au seuil 0.05 voir 0.01 si vous testez beaucoup de variables ou beaucoup de sujets Dans un but de prédiction, il vaut mieux introduire largement les variables explicatives –Covariables avec p<0.1 voir 0.20 –Variables retrouvées dans la littérature comme pronostique –Procédure de sélection des variables: attention aux logiciels, attention aux variables colinéaires
Vous choisissez une régression logistique (une réponse fausse) Ce modèle permet d’expliquer une variable binaire (0/1) avec des variables qualitatives? Ce modèle permet d’expliquer une variable binaire (0/1) avec des variables quantitatives? Ce modèle ne fait pas d’hypothèse sur la normalité des variables explicatives Ce modèle ne tient pas compte de la durée d’exposition au risque Ce modèle ne fait aucune hypothèse
Analyse des estimations du maximum de vraisemblance Erreur Khi 2 Paramètre DF Estimation std de Wald Pr >Khi2 Intercept <.0001 AGE Estimations des rapports de cotes Point 95% Limites de confiance Effet Estimate de Wald AGE Association des probabilités prédites et des réponses observées Percent Concordant 55.6 Somers' D Percent Discordant 43.0 Gamma Percent Tied 1.4 Tau-a Pairs c Age OR= ( ); p=0.0041
Que veux dire l’odds ratio pour l’age? C’est l’ OR de PNVM entre les plus agés et les moins agés Ca veux rien dire??? J’ai appuyé sur les mauvaises touches c’est l’augmentation du risque par année: si l’age augmente de 10 ans, l’OR est de 10.2 (10 X 1.02) c’est l’augmentation du risque par année: si l’age augmente de 10 ans, l’OR est de 1.22 Age OR= ( ); p=0.0041
Modèle logistique Modèle de régression linéaire –Y= + X –X est une variable quantitative ou discrète –La variable à expliquer va de 0 à l’infini Comment expliquer une variable binaire avec un modèle de régression? Modèle logistique –On transforme la variable de façon à avoir une réponse [0-1] –Notion de Logit: Log (p/1-p) –On a toujours: Probabilité p [0-1] alors que logit [- , + ] –Log (p/1-p)) = + X –p= exp ( + X)/ (1+ exp( + X)) (ici p=proba (DC) varie de 0 à 1) X 0 Y p Log (p/1-p)
où E = {X 1 =1} par exemple sexe masculin = OUI et D = {événement} Dans le modèle logistique, le coefficient de la régression est le logarithme de l’odds ratio mesurant l ’association entre le test diagnostique et la maladie
où E = {X 1 =n} par exemple rales crépitants = OUI et D = {événement} Dans le modèle logistique, le coefficient de la régression est le logarithme de l’odds ratio mesurant l ’association entre le test diagnostique et la maladie Pour les variables quantitatives il mesure l’OR d’une élévation de 1. Variables continues n PNVM n)
Catégorisation des variables continues
Variables continues dans un modèle logistique Age et PAVM: OR= , p<10 -4 Avant d’introduire une variable continue dans un modèle toujours regarder la loglinéarité de cette variable+++
Choix des cut-points A déterminer a priori +++ –Sinon ils deviennent complétement dépendants de l’échantillon et –surestiment systématiquement les résultats validation externe +++ –Risquent de conclure à tort à la significativité de la variable En fonction d’un seuil de la littérature ou en fonction de la médiane –La notion de cut-point est tout à fait non réaliste si age=54,43 ans!!! En 3 ou 4 ou 5 ou En fonction des quartiles de la population En fonction des quartiles de survenue d’évènements Altman DG Br J Cancer 1991; 64:975
On fait « tourner » le modèle
Propriétés du modèle logistique Calibration: Chi 2 de Hosmer - Lemeshow: On coupe en 10 tranches d ’effectifs identiques On compare proba observés et proba calculés pour chaque tranche par un test du Chi 2 (à 8 ddl) Discrimination Capacité de p à séparer pour un seuil donné les DCD et les VV. Courbes ROC: Construire courbes Se / 1-Sp en faisant varier le seuil de positivité DC observés (%) DC prédits (%) Se 1-Sp AUC d 1
Test d'adéquation d'Hosmer et de Lemeshow Khi 2 DF Pr > Khi
AUC-ROC=C statistique= 0.633
Variable DS rea Variable : DSREA Sample size = 747 Lowest value = 2,0000 Highest value = 111,0000 Arithmetic mean = 16, % CI for the mean = 15,2883 to 17,6541 Median = 11, % CI for the median = 10,0000 to 12,0000 Variance = 271,2147 Standard deviation = 16,4686 Relative standard deviation = 0,9998 (99,98%) Standard error of the mean = 0,6026 Coefficient of Skewness = 2,2130 (P<0,0001) Coefficient of Kurtosis = 6,0827 (P<0,0001) Kolmogorov-Smirnov test for Normal distribution : reject Normality (P<0,001) Percentiles 95% Confidence Interval 2,5 = 2,0000 2,0000 to 2, = 3,0000 2,0000 to 3, = 3,0000 3,0000 to 4, = 6,0000 5,0000 to 6, = 21, ,0000 to 23, = 37, ,0000 to 44, = 51, ,0000 to 58, ,5 = 62, ,0000 to 71,0353
PNVM=0PNVM=1p Age69 (56-77)70 (63-77)0.017 SAPS II50 (38-63)48 (39-57)0,14 Sexe masc.352 (59%)114 (75%) Cefalo48136 (23%)27 (18%)0.16 DS réa9 (5-17)22 (13-38)< La durée de séjour est très différente entre PNVM et les autres
La date de début de suivi Est fixé à la date de ventilation mécanique Est situé après 24 heures car le SAPS doit être mesurable avant le début du suivi Est situé à la 48eme heure car toutes les variables doivent être mesurables avant Est situé à l’acquisition de la PNVM (chez les PNVM +) Je ne sais pas
T=adm VI-PN=0 VNI-PN=0 VNI-PN=1 Temps VI-PN=1 VNI echec -PN=1 VNI échec-PN=0 Intub. VNI
Biais du temps passé (lead-time biais) Toutes les covariables fixes doivent être mesurable à l’ensemble des temps de suivi
PN Données censurées PN t DC VV DC VV J30 J3
Principe des modèles pour données censurées Et Zi ( 0 + 1 Age 56 + 2 Sexe + 3 cefalo48)
Hazard ratio et risque relatif h h Le HR est le rapport des risques instantané en présence de l’exposition et en son absence. Comme la prévalence de l’événement à un instant t est petit c’est très proche du RR
Les patients sont censurés à la sortie de réanimation ou à J30… C’est bien, car la censure n’est pas informative Peu importe le modèle ne fait aucune hypothèse sur la censure Cela peu poser un problème de censure informative Cela est délétère puisque l’on ne tient pas compte des durées de séjours longues et des PNVM très tardives J’sais pas
Censure non informative Hypothèse de tous les modèles de survie++++ Hypothèse que si un individu i est censuré au temps t son risque d’événement au temps t+1 est identique à celui des individus encore exposés au temps t Censure, fixée à priori, non dépendant de l ’état du patient au temps t….. Intérêt des modèles à risques compétitifs
Cox Vous pensez que l’utilisation de céphalosporine dans les 48 premières heures protègent de la PNVM, au moins précoce, Cela va à l’encontre de la litérature..votre modèle…
Votre modèle (une réponse fausse) 1.Est faux 2.Est juste…l’échantillon n’est pas représentatif des populations explorées précédemment 3.Est juste, il faudra discuter ce résultat à partir d’autres papiers cliniques 4.Ca ne s’applique que si la PNVM est précoce…ici le risque mesuré est un risque global 5.Il y a peut être un problème de proportionnalité des risques
Hypothèses des risques proportionnels
Le risque de survenue d’une pneumonie nosocomiale à un temps t est plus grand si l’age est > 57 ans, chez les hommes. L’utilisation de céphalosporines dans les 48 premières heures protège de la PNVM précoce mais ne protège pas de la PNVM tardive (voire même l’augmente un peu)
Interactions Votre modèle suppose qu’il y a indépendance entre les variables explicatives On doit aussi tester l’interaction entre les covariables dans l’explication de l’effet on crée des variables –inter1=age56*sexe,inter2=age56*sexe;inter3=sexe*cefalo48;inter 4=age56*sexe*cefalo48;
Modèle logistique ou Cox: check list Choix du modèle –censuré si temps d’exposition très variable et censure à priori non informative Choix de variables –non colinéaires (ou pas trop) –Pas de données manquantes –Bonne reproductibilité –Si quantitatif: log-linéarité des variables, sinon, transformation en variables binaires (dummy) ou en classes, ne pas optimiser le seuil mais plutôt en proportions égales Tester la proportionnalité des risques (Cox) Expliquer le mode de sélection des variables, ne pas laisser faire la machine Recherche des interactions entre les variables dans le modèle final (surtout si elles sont cliniquement plausibles, définir a priori) Tester les propriétés du modèle (calibration et discrimination) Rapporter les méthodes utilisés et les étapes éventuelles…