Commentaires sur les biais écologiques et les échelles non emboîtées

Slides:



Advertisements
Présentations similaires
Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
Advertisements

« Systèmes électroniques »
Les déterminants des investissements des salariés dans les FCPE d’Actionnariat Salarié Monsieur le Président, messieurs les membres du jury, je vous remercie.
L’analyse du risque par les sensibilités aux facteurs
La microbiologie prévisionnelle
Caractériser les précipitations intenses du MRCC
RECONNAISSANCE DE FORMES
Test statistique : principe
Reconnaissance Automatique de la Parole
Les modèles à choix discrets
Les TESTS STATISTIQUES
Marie-Florence de Mascarel 22 Juin 2009
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
au LISC, Cemagref de Clermont Ferrand
3. Analyse et estimation du mouvement dans la vidéo
Dr DEVILLE Emmanuelle J D V 12/07/2006
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Les tests d’hypothèses
Comparaison de plusieurs moyennes Analyse de variance
Les Biais Item 14°) Relever les biais discutés. Rechercher d’autres biais non pris en compte dans la discussion et Relever leurs conséquences Dr Marie-Christine.
Fusion de données SENSO
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
Safae LAQRICHI, Didier Gourc, François Marmier {safae
1 Analyse de la variance multivariée Michel Tenenhaus.
Modèle Linéaire Généralisé (Proc Genmod)
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Développement d’un modèle de dynamique des populations structuré en longueur – Application au merlu de l’Atlantique Nord-Est Hilaire Drouineau (EMH)‏ Directrice:
Capital économique analyse et reporting pour Fortis Assurances
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Analyse de la variance : ANOVA à un facteur
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Epidémiologie, analyse spatiale et géostatistique
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Influences génétiques directe et maternelle sur la production en première lactation de quatre races de chèvres laitières.
Une observation par cellule facteurs fixes versus facteurs aléatoires.
Le test t.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Régression linéaire (STT-2400)
Modélisation de la formation de bancs de poissons
à partir de données géo-référencées zero-inflated
ONO Kotaro – AFH Modélisation statistique bayesienne dun modèle de production de biomasse. Application à la pêcherie de poulpe (Octopus vulgaris)
La régression multiple
Modélisation d’un radar UHF pour l’exploration de Mars
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Joseph CHONG, Mauduit Pergent
Chimiometrie (Chemometrics)
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Epidémiologie Dr Lydia Guittet.
Echantillonage pour une Evaluation d’Impact
Séance 8 30 novembre 2005 N. Yamaguchi
Sériation et traitement de données archéologiques
Études écologiques.
Probabilités et Statistiques Année 2010/2011
Étude de l’écoulement moyen
Concepts fondamentaux: statistiques et distributions
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Traitement de la turbulence
LECTURE CRITIQUE D’UN ARTICLE
Lecture critique d’article Mars 2014 Pr Ganry. q2. Donner un titre à l’article? Etude du statut sérologique et de l’accouchement par césarienne sur les.
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Faculté de Médecine de Marseille, Université de la Méditerranée Laboratoire d’Enseignement et de Recherche sur le Traitement.
Transcription de la présentation:

Commentaires sur les biais écologiques et les échelles non emboîtées L. Fortunato(1), C. Guihenneuc-Jouyaux(1)(2) D. Hémon(1) (1) : INSERM U754, Université Paris Sud, IFR69, Villejuif (2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5

Contexte : études écologiques (1) Etudes écologiques : données (IS et exposition) recueillies au niveau de groupe (unité géographique) et non au niveau individuel Avantages : Disponibilité des données (registres des maladies, recensements) Réduction des erreurs de mesures Forme naturelle des données : Radon, pollution de l’air, qualité de l’eau Développement statistique

Contexte : études écologiques (2) Biais communs aux études écologiques et individuelles Choix du modèle Facteurs de confusion non mesurés (FC inter-unité) … Biais spécifiques aux études écologiques Biais de pure spécification Facteurs de confusion intra-unité géographique Problème des échelles non emboitées

Objectifs Modèle écologique de Poisson Partie 1 Partie 2 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques Partie 2 Echelles géographiques non emboîtées

de la variabilité intra-unité dans les modèles écologiques Partie 1 Prise en compte de la variabilité intra-unité des facteurs de risque dans les modèles écologiques

Introduction (1) Modèle classique : maladie rare  modèle hiérarchique Dans chaque unité géographique i Oi ~ P(RiEi) Log(Ri) = Zi’ b + εi - Z est la matrice des covariables résumés quantitatifs des FR : moyenne, médiane,… - ε est le vecteur des résidus, avec ou sans structure spatiale

Introduction (2) Si le but de l’étude est l’estimation des liens individuels entre l’indicateur de santé et les FR à partir de données agrégées Perte d’information sur les expositions individuelles et sur leurs variabilités Estimations biaisées des effets individuels biais de pure spécification Problème largement discuté dans la littérature (Best, Richardson, Wakefield…)  Prise en compte de la variabilité intra-unité géographique des FR dans la régression écologique Jamais de réelle quantification de la réduction du biais

Relations entre liens individuel et écologique Niveau individuel : modèle multiplicatif de risque g(x) = exp( + x) TI pr les individus exposés au même niveau x Niveau écologique : risque associé à l’unité i Ri = somme de tous les TI des individus de l’unité i Ri = E(g(X)) =  g(x) Hi(x) dx Si Hi = N(µi , i²) distribution intra-unité du FR dans i

Estimation du lien individuel Vrai risque relatif Si on utilise le modèle classique : xi au lieu de µi Fluctuations d’échantillonnage  ≠ 0 biais écologique Pas de biais écologique si :  "petit"  Variances intra-unité homogènes Variances intra-unité non corrélées aux moyennes du FR

Objectif général But : estimer un lien individuel entre l’ IS et le FR à partir de données écologiques Contexte : Modèle multiplicatif de risque au niveau individuel Plusieurs relevés du FR par unité Prendre en compte des fluctuations d’échantillonnage  Introduction de la distribution intra-unité du FR. Réduire le biais écologique  Introduction de la variance intra-unité du FR. Etudier les conséquences de la mauvaise spécification de la distribution intra-unité du FR dans le modèle d’estimation  Loi Gamma vs loi Normale

 = modélisation Gaussienne de la variabilité extra-Poissonnienne Modèles d’estimation Modèle classique Modèle complet (variabilité intra-unité)  = modélisation Gaussienne de la variabilité extra-Poissonnienne

Simulations Domaine = lattice régulier 10×10 Différents nombres de mesures du FR par unité géographique : moyenne = 140, min = 26, max = 352 {µi} = moyennes du FR (min = 3.09, max = 5.57) {i²} = variances du FR (de 1 à 2.5), corrélées avec les moyennes Paramètre individuel :  = 1 « forte » association individuelle entre le risque et l’exposition

Analyse statistique Approche Bayésienne Distributions a priori peu informatives Algorithme MCMC ( WinBUGS ) Inférences statistiques basées sur 15000 itérations (contrôle de la convergence avec plusieurs critères)

Résultats : Distribution Gaussienne (100 réplications) β = 1, ρµσ = 0

Sensibilité à l’hypothèse de Normalité de la distribution intra-unité Etudier les conséquences de l’utilisation de la loi Normale dans le modèle d’estimation alors que la distribution intra-unité sous-jacente ne l’est pas. Etude d’une distribution intra-unité Gamma

Résultats : Distribution Gamma (20 réplications) β = 1, ρµσ = 0.8

Application : Incidence des leucémies de l’enfant et exposition domestique au Radon Unité géographique : 94 départements (Corse exclue) Cas : incidence française des leucémies chez les enfants agés <15 ans de 1990 à 2001 (5306 cas) (Registre National des Hémopathies malignes de l'Enfant, J. Clavel, U754) Leucémies aiguës lymphoïdes (LAL) : 4327 cas Leucémies aiguës myéloïdes (LAM) : 907 cas Exposition : 12988 mesures du radon (IRSN) Transformation logarithmique des valeurs du radon car permet l’approximation Gaussienne

Moyennes a posteriori et IC95% de 

Echelles géographiques Partie 2 Echelles géographiques non emboîtées

Problématique Variables écologiques mesurées sur différentes échelles non emboîtées Transformation des données pour les mettre toutes à la même échelle (échelle plus grossière et commune)  Perte importante d’information Illustration : en France, 2 échelles administratives différentes Départements (94) Zones d’emploi (341) 62 ZE  Dep Echelle commune : Région (21)

Un exemple … Bretagne (Région 53) : 18 zones d’emploi et 4 départements  5333 5354 5353 5344 4 zones d’emploi non emboîtées dans les départements

Notations Zone « Cible » Zone « Source » Echelle géographique où l’indicateur de santé (mortalité ou incidence) est mesuré Zone « Source » Echelle géographique où l’exposition est mesurée

Méthodes Méthode M : relation entre les mesures latentes de l’exposition sur les unités « cibles » et les mesures observées sur les unités « sources » X3 ≈ p3 XA + (1- p3) XB p3 = % de l’unité A dans l’unité 3 Méthode R : relation entre les risques relatifs sur les unités « cibles » et sur les unités « sources » R3 ≈ p3 RA + (1- p3) RB avec RA = exp( + XA + 0.5²A²) Hypothèses : modèle multiplicatif de risque distribution Gaussienne de l’exposition sur A et B 1 A B 2 4 3 p3

Exemple de la méthode classique (M) pour les données du Radon Données (moyennes et variances empiriques) disponibles sur les départements et les zones d’emploi. Pondération en fonction de la population (cartes similaires si pondération en fonction de la superficie) population du département j dans la ze i Poids = population dans la ze i

Modèles d’estimation Régression écologique de Poisson 1er niveau : Oi ~ P(Ei Ri) 2ème niveau pij = aire de l’intersection i et j / aire de i

Simulations Cas 1 Partition « cible » : lattice de 400 unités Partition « source » : lattice de 100 unités Cas 2 Partition « cible » : lattice de 100 unités Partition « source » : lattice de 400 unités Forte association entre l’indicateur de santé et l’exposition Proportion de recouvrement, nb d’unités non emboitées

Résultats : cas 1 (10 réplications)

Résultats : cas 2 (10 réplications)

Résultats Pas de différence entre les 2 méthodes M et R (robustesse de la méthode classique) Différence entre les modèles avec ou sans variance intra-unité (attendue) Situation en cours d’étude

Application : Radon et toutes LA (1) : mêmes échelles géographiques pour les observés et l’exposition (2) : échelles géographiques différentes et non emboitées pour les observés et l’exposition (1) (2)

Application : Radon et LAM (1) (2)

MERCI

Méthodes dans la littérature Méthode la plus simple et la plus utilisée : reconstruction des données d’exposition sur la partition « cible » à partir de la partition « source » , proportionnellement à la population ou l’aire Méthode de Flowerdew et Green (1989) Régression de Poisson itérative (algorithme EM) pour estimer les caractéristiques des zones « cible » Méthode de Best et al (1998) Modèles Poisson/Gamma : les zones sont relativement petites Processus ponctuel Méthode de Mugglin et al (2000) 3ème partition : Intersection des 2 partitions (« cible » et « source ») Lois sur les variables réponses latentes Pour les expositions : table de conversion