Statistique et Causalité

Slides:



Advertisements
Présentations similaires
La recherche de chemin optimal
Advertisements

Connexité.
Cross-Country Workshop for Impact Evaluations in Agriculture and Community Driven Development Addis Ababa, April 13-16, Inference Causale Léandre.
Algorithmes et structures de données avancés
Risques d’erreur statistique et test statistique
RECONNAISSANCE DE FORMES
Test statistique : principe
Association entre variables
Les TESTS STATISTIQUES
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin 1 Théorie de linformation Hugues BENOIT-CATTIN.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Les Biais Item 14°) Relever les biais discutés. Rechercher d’autres biais non pris en compte dans la discussion et Relever leurs conséquences Dr Marie-Christine.
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Résumé cours précédent
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
variable aléatoire Discrète
Révision (p. 130, texte) Nombres (1-100).
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
Rôle des Facteurs de confusion dans l’interprétation des résultats d’une association Dr J Ateudjieu J Ateudjieu. Cours Epiconc Master's Epi et SP Université.
Application des algorithmes génétiques
Paul-Marie Bernard Université Laval
Les lois des probabilités
Les structures de données arborescentes
Paul-Marie Bernard Université Laval
1.2 COMPOSANTES DES VECTEURS
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Détection et isolation de défauts dans les procédés industriels Contrôle Statistique des Procédés Statistical Process Control (SPC)
Théorie des graphes Un peu de vocabulaire.
Problème Autre formulation :
Howell, Chap. 1 Position générale
Paul-Marie Bernard Université Laval
Interaction entre les possibles facteurs de risque
Algorithme de Bellman-Ford
Commentaires sur les biais écologiques et les échelles non emboîtées
La méthodologie expérimentale Fondements et bases d’application
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Bézier.
Analyse de la covariance
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
La méthodologie expérimentale Fondements et bases d’application
MODELE DE COX BIVARIE ET COPULES Colloque jeunes probabilistes et statisticiens Le Mont-Dore, mai 2010 Mohamed ACHIBI LSTA (Paris 6) / Snecma (Villaroche)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Objectifs du chap. 5: Plans de recherche classiques
Objectifs Chapitre 7: variables indépendantes et dépendantes
Réseaux bayésiens Chap. 14 Sections 1 – 3.
Atelier de formation : MAT optimisation II (les graphes).
Filtre de Kalman – Préliminaires (1)
Méthodes de prévision (STT-3220)
1. Présentation générale du système
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
Programmation dynamique
Probabilités et Statistiques
Sureté de fonctionnement dans les WNCS
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Journées du GDR "Statistique et Santé" 13 et 14 novembre 2008
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Probabilités et Statistiques
1 Gestion des voitures médecins d'Urgences-Santé Michel Gendreau Émilie Frot¹ Gilbert Laporte Frédéric Semet¹ Centre de recherche sur les transports Université.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Statistiques: mesures de liaisons tests d’hypothèse
Techniques d’Optimisation Chapitre 2: Problème de flôt Dr TARI Abdelkamel Mars 2014.
Transcription de la présentation:

Statistique et Causalité Selon J. Pearl

Lithiase rénale (paradoxe de Simpson) Petit volume Chirurgie Technique percutanée Succès 162 (93%) 468 (87%) 630 (88%) Echecs 12 72 84 174 540 (76%) 714 Population totale Chirurgie Technique percutanée Succès 546 (78%) 578 (83%) 1124 (80%) Echecs 154 122 276 700 1400 Gros volume Chirurgie Technique percutanée Succès 384 (73%) 110 (69%) 494 (72%) Echecs 142 50 192 526 160 (23%) 686

Lithiase rénale Où est le problème? Succès Petite lithiase Percutané K. Pearson (1899) : A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock C’est l’interprétation causale qui est à l’origine du paradoxe Mais: que propose-t-on au prochain patient? Si on regarde le dossier: chirurgie Si on ne regarde pas: procédure percutanée !!

Autrement dit… Quelle est la bonne analyse : ajuster ou ne pas ajuster… Quelles covariables doit-on introduire dans le modèle? (sélection des covariables ≠ sélection de modèle) Qu’est-ce qu’un facteur de confusion? Intuitivement: si je l’oublie, je vais conclure à une association statistique « fausse » (i.e. non causale!!!) Plus formellement: En relation causale avec la réponse, indépendamment de l’exposition Associé à l’exposition, sans en être une conséquence

Donc… Le problème de sélection des covariables Il faut : N’est pas de nature statistique Il est de nature causale Il faut : Un formalisme pour la causalité : graphes acycliques orientés, calcul des interventions Spécifier un modèle causal (expliciter les hypothèses causales)

Graphes Graphe = (S,A) S: sommets A: arêtes (relient les sommets 2 par 2) Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens) Arêtes orientées (flèches), pas de cycle Flèche: représente un mécanisme causal (hypothétique) a b a b a b c d c d c d

Graphes Pratiques pour représenter les lois conjointes (reflètent les hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux) Causalité: intuitive (qualitative, asymétrique)), contrairement à dépendance statistique (quantitative, symétrique)

Calcul des interventions Consiste à élaguer le modèle causal de base do(X=x): imposer X=x On élague les flèches arrivant sur X On fixe X à la valeur x : loi de Y dans le graphe élagué effet (causal) de X sur Y en général ≠ (facteurs de confusion)

Imposer le traitement = élaguer le modèle causal Niveau socio-culturel Chirurgie Traitement T Taille lithiase Voiture TA Age Résultat Résultat R

Sélection des covariables: la solution dépend du modèle causal Niveau socio-culturel Traitement Traitement T Taille lithiase Voiture TA Age Résultat Résultat V associée à T et R!! R Ajuster Ne pas ajuster

Essai randomisé La randomisation élague les flèches Observation Randomisation Traitement U* U* Traitement Réponse Réponse La randomisation élague les flèches arrivant à la variable traitement…

Retour sur le paradoxe de Simpson Il n’y a pas de paradoxe Théorème

Observer vs. Faire Dans les modèles de causalité, on suppose que chaque relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: Le modèle obtenu en modifiant un mécanisme sans changer les autres reste un modèle valide de la réalité (organisation modulaire) Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique) Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)

Conclusion Clarifie/simplifie (Simpson, facteurs de confusion) Conduit à expliciter les hypothèses causales sous-jacentes Formalisme pour expliciter/discuter/calculer

d-séparation dans GAO Soient X, Y, Z sous-ensembles de variables X et Y d-séparés : tout chemin (non orienté) de X à Y contient un confluent (collider): i k j X et Y d-séparés par Z : tout chemin (non orienté) de X à Y est bloqué par Z, i.e. contient une chaîne igzgj ou une fourche ifzgj, ou un confluent igz*fj tel que ni z* ni ses descendants ne sont dans Z

d-séparation et indépendance 12/09/06 d-séparation et indépendance d-séparation dans le graphe indépendance en probabilité : Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO

d-séparation chaîne igzgj ou fourche ifzgj: confluent igz*fj: le conditionnement sur z rend i et j indépendantes confluent igz*fj: le conditionnement sur z* (ou un descendant) rend i et j dépendantes Exemple: A,B binaires, indépendantes C = A + B (AgCfB) Si C=1: B = 1 – A A et B dépendantes conditionnellement à C biais de sélection (Berkson)

Le critère ‘back-door’ On observe X, Y et des covariables Z et on veut calculer P(Y|do(X=x)) S’il n’y a pas de facteur de confusion P(Y|do(X=x)) = P(Y|X=x) (par définition!) Chemin back-door: contient une flèche vers X (‘affecte’ X) Z satisfait le critère ‘back-door’ si Z ne contient aucun descendant de X (X n’affecte pas Z) Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e. c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle) Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)

Back-door et ajustement Si Z satisfait le critère back-door pour X et Y, alors : Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)

Exemple Niveau socio-culturel Traitement Traitement T Taille lithiase Voiture TA Age Résultat Résultat R Taille bloque (fourche) TA descend de T V ne bloque pas (confluent)