Commentaires sur les biais écologiques et les échelles non emboîtées L. Fortunato(1), C. Guihenneuc-Jouyaux(1)(2) D. Hémon(1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5
Contexte : études écologiques (1) Etudes écologiques : données (IS et exposition) recueillies au niveau de groupe (unité géographique) et non au niveau individuel Avantages : Disponibilité des données (registres des maladies, recensements) Réduction des erreurs de mesures Forme naturelle des données : Radon, pollution de l’air, qualité de l’eau Développement statistique
Contexte : études écologiques (2) Biais communs aux études écologiques et individuelles Choix du modèle Facteurs de confusion non mesurés (FC inter-unité) … Biais spécifiques aux études écologiques Biais de pure spécification Facteurs de confusion intra-unité géographique Problème des échelles non emboitées
Objectifs Modèle écologique de Poisson Partie 1 Partie 2 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques Partie 2 Echelles géographiques non emboîtées
de la variabilité intra-unité dans les modèles écologiques Partie 1 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques
Introduction (1) Modèle classique : maladie rare modèle hiérarchique Dans chaque unité géographique i Oi ~ P(RiEi) Log(Ri) = Zi’ b + εi - Z est la matrice des covariables résumés quantitatifs des FR : moyenne, médiane,… - ε est le vecteur des résidus, avec ou sans structure spatiale
Introduction (2) Si le but de l’étude est l’estimation des liens individuels entre l’indicateur de santé et les FR à partir de données agrégées Perte d’information sur les expositions individuelles et sur leurs variabilités Estimations biaisées des effets individuels biais de pure spécification Problème largement discuté dans la littérature (Best, Richardson, Wakefield…) Prise en compte de la variabilité intra-unité géographique des FR dans la régression écologique Jamais de réelle quantification de la réduction du biais
Relations entre liens individuel et écologique Niveau individuel : modèle multiplicatif de risque g(x) = exp( + x) TI pr les individus exposés au même niveau x Niveau écologique : risque associé à l’unité i Ri = somme de tous les TI des individus de l’unité i Ri = E(g(X)) = g(x) Hi(x) dx Si Hi = N(µi , i²) distribution intra-unité du FR dans i
Estimation du lien individuel Vrai risque relatif Si on utilise le modèle classique : xi au lieu de µi Fluctuations d’échantillonnage ≠ 0 biais écologique Pas de biais écologique si : "petit" Variances intra-unité homogènes Variances intra-unité non corrélées aux moyennes du FR
Objectif général But : estimer un lien individuel entre l’ IS et le FR à partir de données écologiques Contexte : Modèle multiplicatif de risque au niveau individuel Plusieurs relevés du FR par unité Prendre en compte des fluctuations d’échantillonnage Introduction de la distribution intra-unité du FR. Réduire le biais écologique Introduction de la variance intra-unité du FR. Etudier les conséquences de la mauvaise spécification de la distribution intra-unité du FR dans le modèle d’estimation Loi Gamma vs loi Normale
= modélisation Gaussienne de la variabilité extra-Poissonnienne Modèles d’estimation Modèle classique Modèle complet (variabilité intra-unité) = modélisation Gaussienne de la variabilité extra-Poissonnienne
Simulations Domaine = lattice régulier 10×10 Différents nombres de mesures du FR par unité géographique : moyenne = 140, min = 26, max = 352 {µi} = moyennes du FR (min = 3.09, max = 5.57) {i²} = variances du FR (de 1 à 2.5), corrélées avec les moyennes Paramètre individuel : = 1 « forte » association individuelle entre le risque et l’exposition
Analyse statistique Approche Bayésienne Distributions a priori peu informatives Algorithme MCMC ( WinBUGS ) Inférences statistiques basées sur 15000 itérations (contrôle de la convergence avec plusieurs critères)
Résultats : Distribution Gaussienne (100 réplications) β = 1, ρµσ = 0
Sensibilité à l’hypothèse de Normalité de la distribution intra-unité Etudier les conséquences de l’utilisation de la loi Normale dans le modèle d’estimation alors que la distribution intra-unité sous-jacente ne l’est pas. Etude d’une distribution intra-unité Gamma
Résultats : Distribution Gamma (20 réplications) β = 1, ρµσ = 0.8
Application : Incidence des leucémies de l’enfant et exposition domestique au Radon Unité géographique : 94 départements (Corse exclue) Cas : incidence française des leucémies chez les enfants agés <15 ans de 1990 à 2001 (5306 cas) (Registre National des Hémopathies malignes de l'Enfant, J. Clavel, U754) Leucémies aiguës lymphoïdes (LAL) : 4327 cas Leucémies aiguës myéloïdes (LAM) : 907 cas Exposition : 12988 mesures du radon (IRSN) Transformation logarithmique des valeurs du radon car permet l’approximation Gaussienne
Moyennes a posteriori et IC95% de
Echelles géographiques Partie 2 Echelles géographiques non emboîtées
Problématique Variables écologiques mesurées sur différentes échelles non emboîtées Transformation des données pour les mettre toutes à la même échelle (échelle plus grossière et commune) Perte importante d’information Illustration : en France, 2 échelles administratives différentes Départements (94) Zones d’emploi (341) 62 ZE Dep Echelle commune : Région (21)
Un exemple … Bretagne (Région 53) : 18 zones d’emploi et 4 départements 5333 5354 5353 5344 4 zones d’emploi non emboîtées dans les départements
Notations Zone « Cible » Zone « Source » Echelle géographique où l’indicateur de santé (mortalité ou incidence) est mesuré Zone « Source » Echelle géographique où l’exposition est mesurée
Méthodes Méthode M : relation entre les mesures latentes de l’exposition sur les unités « cibles » et les mesures observées sur les unités « sources » X3 ≈ p3 XA + (1- p3) XB p3 = % de l’unité A dans l’unité 3 Méthode R : relation entre les risques relatifs sur les unités « cibles » et sur les unités « sources » R3 ≈ p3 RA + (1- p3) RB avec RA = exp( + XA + 0.5²A²) Hypothèses : modèle multiplicatif de risque distribution Gaussienne de l’exposition sur A et B 1 A B 2 4 3 p3
Exemple de la méthode classique (M) pour les données du Radon Données (moyennes et variances empiriques) disponibles sur les départements et les zones d’emploi. Pondération en fonction de la population (cartes similaires si pondération en fonction de la superficie) population du département j dans la ze i Poids = population dans la ze i
Modèles d’estimation Régression écologique de Poisson 1er niveau : Oi ~ P(Ei Ri) 2ème niveau pij = aire de l’intersection i et j / aire de i
Simulations Cas 1 Partition « cible » : lattice de 400 unités Partition « source » : lattice de 100 unités Cas 2 Partition « cible » : lattice de 100 unités Partition « source » : lattice de 400 unités Forte association entre l’indicateur de santé et l’exposition Proportion de recouvrement, nb d’unités non emboitées
Résultats : cas 1 (10 réplications)
Résultats : cas 2 (10 réplications)
Résultats Pas de différence entre les 2 méthodes M et R (robustesse de la méthode classique) Différence entre les modèles avec ou sans variance intra-unité (attendue) Situation en cours d’étude
Application : Radon et toutes LA (1) : mêmes échelles géographiques pour les observés et l’exposition (2) : échelles géographiques différentes et non emboitées pour les observés et l’exposition (1) (2)
Application : Radon et LAM (1) (2)
MERCI
Méthodes dans la littérature Méthode la plus simple et la plus utilisée : reconstruction des données d’exposition sur la partition « cible » à partir de la partition « source » , proportionnellement à la population ou l’aire Méthode de Flowerdew et Green (1989) Régression de Poisson itérative (algorithme EM) pour estimer les caractéristiques des zones « cible » Méthode de Best et al (1998) Modèles Poisson/Gamma : les zones sont relativement petites Processus ponctuel Méthode de Mugglin et al (2000) 3ème partition : Intersection des 2 partitions (« cible » et « source ») Lois sur les variables réponses latentes Pour les expositions : table de conversion