Statistique et Causalité Selon J. Pearl
Lithiase rénale (paradoxe de Simpson) Petit volume Chirurgie Technique percutanée Succès 162 (93%) 468 (87%) 630 (88%) Echecs 12 72 84 174 540 (76%) 714 Population totale Chirurgie Technique percutanée Succès 546 (78%) 578 (83%) 1124 (80%) Echecs 154 122 276 700 1400 Gros volume Chirurgie Technique percutanée Succès 384 (73%) 110 (69%) 494 (72%) Echecs 142 50 192 526 160 (23%) 686
Lithiase rénale Où est le problème? Succès Petite lithiase Percutané K. Pearson (1899) : A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock C’est l’interprétation causale qui est à l’origine du paradoxe Mais: que propose-t-on au prochain patient? Si on regarde le dossier: chirurgie Si on ne regarde pas: procédure percutanée !!
Autrement dit… Quelle est la bonne analyse : ajuster ou ne pas ajuster… Quelles covariables doit-on introduire dans le modèle? (sélection des covariables ≠ sélection de modèle) Qu’est-ce qu’un facteur de confusion? Intuitivement: si je l’oublie, je vais conclure à une association statistique « fausse » (i.e. non causale!!!) Plus formellement: En relation causale avec la réponse, indépendamment de l’exposition Associé à l’exposition, sans en être une conséquence
Donc… Le problème de sélection des covariables Il faut : N’est pas de nature statistique Il est de nature causale Il faut : Un formalisme pour la causalité : graphes acycliques orientés, calcul des interventions Spécifier un modèle causal (expliciter les hypothèses causales)
Graphes Graphe = (S,A) S: sommets A: arêtes (relient les sommets 2 par 2) Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens) Arêtes orientées (flèches), pas de cycle Flèche: représente un mécanisme causal (hypothétique) a b a b a b c d c d c d
Graphes Pratiques pour représenter les lois conjointes (reflètent les hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux) Causalité: intuitive (qualitative, asymétrique)), contrairement à dépendance statistique (quantitative, symétrique)
Calcul des interventions Consiste à élaguer le modèle causal de base do(X=x): imposer X=x On élague les flèches arrivant sur X On fixe X à la valeur x : loi de Y dans le graphe élagué effet (causal) de X sur Y en général ≠ (facteurs de confusion)
Imposer le traitement = élaguer le modèle causal Niveau socio-culturel Chirurgie Traitement T Taille lithiase Voiture TA Age Résultat Résultat R
Sélection des covariables: la solution dépend du modèle causal Niveau socio-culturel Traitement Traitement T Taille lithiase Voiture TA Age Résultat Résultat V associée à T et R!! R Ajuster Ne pas ajuster
Essai randomisé La randomisation élague les flèches Observation Randomisation Traitement U* U* Traitement Réponse Réponse La randomisation élague les flèches arrivant à la variable traitement…
Retour sur le paradoxe de Simpson Il n’y a pas de paradoxe Théorème
Observer vs. Faire Dans les modèles de causalité, on suppose que chaque relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: Le modèle obtenu en modifiant un mécanisme sans changer les autres reste un modèle valide de la réalité (organisation modulaire) Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique) Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)
Conclusion Clarifie/simplifie (Simpson, facteurs de confusion) Conduit à expliciter les hypothèses causales sous-jacentes Formalisme pour expliciter/discuter/calculer
d-séparation dans GAO Soient X, Y, Z sous-ensembles de variables X et Y d-séparés : tout chemin (non orienté) de X à Y contient un confluent (collider): i k j X et Y d-séparés par Z : tout chemin (non orienté) de X à Y est bloqué par Z, i.e. contient une chaîne igzgj ou une fourche ifzgj, ou un confluent igz*fj tel que ni z* ni ses descendants ne sont dans Z
d-séparation et indépendance 12/09/06 d-séparation et indépendance d-séparation dans le graphe indépendance en probabilité : Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO
d-séparation chaîne igzgj ou fourche ifzgj: confluent igz*fj: le conditionnement sur z rend i et j indépendantes confluent igz*fj: le conditionnement sur z* (ou un descendant) rend i et j dépendantes Exemple: A,B binaires, indépendantes C = A + B (AgCfB) Si C=1: B = 1 – A A et B dépendantes conditionnellement à C biais de sélection (Berkson)
Le critère ‘back-door’ On observe X, Y et des covariables Z et on veut calculer P(Y|do(X=x)) S’il n’y a pas de facteur de confusion P(Y|do(X=x)) = P(Y|X=x) (par définition!) Chemin back-door: contient une flèche vers X (‘affecte’ X) Z satisfait le critère ‘back-door’ si Z ne contient aucun descendant de X (X n’affecte pas Z) Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e. c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle) Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)
Back-door et ajustement Si Z satisfait le critère back-door pour X et Y, alors : Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)
Exemple Niveau socio-culturel Traitement Traitement T Taille lithiase Voiture TA Age Résultat Résultat R Taille bloque (fourche) TA descend de T V ne bloque pas (confluent)