Epidémiologie, analyse spatiale et géostatistique Formation SIG-Santé Epidémiologie, analyse spatiale et géostatistique Marc SOURIS Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy
Sommaire Epidémiologie classique Epidémiologie spatiale Epidémiologie spatiale et géostatistique Epidémiologie spatiale et SIG
L’épidémiologie Généralités L’épidémiologie : étude de la distribution des états de santé dans les populations humaines et de leurs déterminants L’épidémiologie joue maintenant un rôle central en recherche étiologique dans le domaine des pathologies d’origine multifactorielle Les principes et méthodes de l’épidémiologie s’articulent autour de la notion de risque (probabilité d’être malade) et de facteur de risque (variable ayant une influence sur le risque) Les facteurs de risque ne sont pratiquement jamais une cause nécessaire (des malades sans facteur de risque) ou suffisante (de nombreux non malades avec facteur de risque) au niveau individuel. La causalité se situe au niveau des probabilités Un objectif : établir un modèle permettant d’évaluer la probabilité d’être malade, en fonction de facteurs de risque à déterminer
L’épidémiologie Généralités L’expression des modèles est basée sur le calcul mathématique des probabilités Ex. : le modèle logistique, qui exprime la probabilité d’un individu d’appartenir à un groupe. Il est valide si le quotient des probabilités conditionnelles s’exprime comme l’exponentielle d’une fonction affine du vecteur des variables explicatives, ce qui est le cas de la plupart des distributions de la famille exponentielle. L’estimation des coefficients utilise les données de situations observées, et des méthodes de minimisation (en général, maximum de vraisemblance)
L’épidémiologie Une démarche générale Rechercher des facteurs de risque, par l’analyse des situations observées Rechercher la forme d’un modèle pour évaluer les probabilités Ajuster les coefficients du modèle De nombreuses méthodes ont été développées pour la recherche de facteur de risque, au niveau individuel comme au niveau des populations statistiques univariées (moments, distributions), statistiques bivariées (régressions, différence au sein de deux sous-groupes, évaluation de facteurs de confusion) et multivarées statistiques spatiales
La recherche de facteurs de risque Les évènements en santé: de multiples facteurs de risque potentiels Présence du pathogène Présence d’un vecteur ou d’un réservoir Conditions de vie, comportements, probabilités de contact, exposition à un environnement Facteurs génétiques Facteurs évènementiels aléatoires, etc. Certains facteurs ne sont pas distribués de façon aléatoire (dans le temps et/ou dans l’espace). Le résultat n’est peut-être donc pas distribué de façon aléatoire dans le temps ou dans l’espace Inversement, une situation non aléatoire (dans le temps et/ou dans l’espace) des évènements de santé peut nous aider à déterminer des facteurs de risque. Il faut déterminer la probabilité d’occurrence d’une situation réelle observée, dans le temps et dans l’espace, par rapport à un modèle
L’épidémiologie La statistique La statistique a pour objectif général d’évaluer des probabilités à partir de situations observées Elle peut être descriptive (pour décrire une situation observée de façon synthétique) ou inférentielle (pour décrire les processus à partir de situations observées, ou pour décrire les situations observées à partir d’échantillons) Les causes multifactorielles induisent une variabilité aléatoire pour chacun des facteurs indépendants (la distribution des résidus est aléatoire – Poisson, binomiale, normale) Lorsque les situations observées sont appréhendées à partir d’échantillons, pris dans la population globale, les statistiques utilisées pour évaluer la probabilité des situations observées sont sujettes à la variabilité due à l’échantillonnage
L’épidémiologie Statistiques classiques Les statistiques classiques élémentaires concernent les mesures centrales (moyenne, médiane, mode), les mesures de dispersion (étendue, forme : variance, écart-type, symétrie, aplatissement), et les mesures de fréquence. L’objectif général est de rendre compte de la distribution des valeurs prises par une variable, quelle soit qualitative ou quantitative. Les mesures d’association rendent compte du degré d’association entre deux variables : par exemple, le coefficient r (Pearson) mesure le degré d’association entre deux variables quantitatives.
Épidémiologie classique Variables étudiées Données de comptage ou quantités absolues Rapports: prévalence, incidence, densités, risques, risques relatifs, odd-ratios
Épidémiologie classique Les méthodes classiques permettent d’étudier les relations entre les effets de la maladie et les facteurs d’exposition, en séparant les individus en deux groupes Étude de la variabilité dans des groupes Étude de la relation entre la différence des effets et la différence des expositions Les groupes sont basés sur un critère descriptif Etudes cas-témoins (groupes basés sur l’effet de la maladie) Etudes de cohorte (groupes basés sur l’exposition à un facteur)
Épidémiologie spatiale L’épidémiologie spatiale étudie la localisation des individus ou des groupes d’individus, ou la différence de distribution spatiale entre deux groupes d’individus (en utilisant des distances, des voisinages, etc.) Une distribution significativement éloignée d’une distribution aléatoire indique soit la non-indépendance des individus entre eux, soit une relation avec un facteur lui-même spatialement non-aléatoire La localisation n’échappe pas à la variabilité, au contraire : les facteurs non localisés induisent une composante aléatoire dans la distribution spatiale des évènements, et les facteurs géographiques reliés au phénomène de santé transmettent également leur variabilité aléatoire (ex. les évènements naturels, risques et climat)
Épidémiologie spatiale L’étiologie est toujours multifactorielle. Dans les mêmes conditions environnementales, deux épidémies ne se répètent jamais à l’identique et ne donneront pas la même forme. La situation réelle observée n’est qu’une parmi beaucoup de probables : la variabilité est grande. Il est nécessaire de poser des hypothèses pour générer des situations probables, et d’évaluer la situation réelle observée parmi les situations probables. La localisation peut aider : les situations réelles présentent souvent une probabilité très faible Dans certaines situations, la probabilité d’occurrence aléatoire d’un agrégat ou d’un forme particulière est très faible. Ceci permet de conserver comme aléatoires certaines situations, et de considérer avec prudence les conclusions lorsque le risque est > 0.001 (et non 0.05). La cartographie est utile, mais insuffisante pour évaluer la probabilité d’une situation réelle observée
Épidémiologie spatiale Les phénomènes naturels ou anthropiques présentent souvent des distributions spatiales non aléatoires Beaucoup de phénomènes naturels sont continus dans l’espace : ils présentent de l’autocorrélation est des tendances spatiales. La distribution spatiale est le résultat de nombreux facteurs, spatiaux et non spatiaux Tendances spatiales et distributions de facteurs géographiques - Relations spatiales entre évènements (attraction-répulsion, diffusion à partir d’une source ou d’un réseau, voisinage et processus infectieux)à un facteur de risque - Autres facteurs non géographiques (composante aléatoire - Distribution aléatoire intrinsèque des évènements
Épidémiologie spatiale Processus spatio-temporels dans l’émergence et la diffusion Processus d’émergence: évènements inhabituels, souvent spatialement aléatoires, avec une distribution spatiale poissonniène. Des conditions environnementales peuvent être nécessaires (habitat écologique, présence d’un vecteur, etc.). Processus de diffusion : caractéristiques du pathogène (infectiosité, persistance), susceptibilité de la population et vulnérabilité, relations entre population et environnement, relations entre individus susceptibles et caractéristiques du vecteur, etc. Processus d’extinction Pour évaluer les facteur environnementaux de l’émergence, il est nécessaire de séparer les facteur environnementaux des relations entre évènements
Épidémiologie spatiale Cartographie de la maladie Visualisation de prévalence incidence, risques, risques relatifs. Souvent basés sur un processus d’agrégation par transfert d’échelle dans des objets géographiques prédéfinis. Pour réduire les différences de variabilité aléatoire entre objets, il est possible d’avoir recours à un ajustement bayésien (EBE) Modélisation à partir des données observées Régression linéaire, régression logistique, de Poisson, etc. Les modèles ne prennent pas en compte les relations spatiales entre individus, et doivent être maniés avec prudence dans le cas des maladies infectieuses, car il supposent l’indépendance entre les observations.
Épidémiologie spatiale Étude par objets, sur l’ensemble des objets Étude de la distribution spatiale d’un sous-ensemble de cas dans l’ensemble des objets Variabilité spatiale du nuage de points Caractère aléatoire du nuage de points Recherche d’agrégats spatiaux et classification Recherche de formes particulières du nuage de points Analyse spatio-temporelle
Épidémiologie spatiale et géo-statistique Étude par individu, position et distribution spatiale des évènements Position absolue des évènements Les événements sont-ils distribués de façon aléatoire, tenant compte de la position absolue des objets initiaux (individus, maisons, villages, etc.) ? Position relative des évènements Situations aléatoires, agrégats (cluster), formes, tendances Continuité spatiale d’une variable numérique Variogrammes, indices (Moran, Geary, G), LISA Analyse spatio-temporelle Processus d’émergence et de diffusion, index cases Modélisation de la diffusion Équations différentielles, IBM, deux approches différentes
Épidémiologie spatiale et SIG Analyse spatiale : position et distribution spatiale des évènements La distribution spatiale des évènements de santé doit toujours être évalués en prenant en compte la distribution spatiale originale des objets Les effets collatéraux ne peuvent être résolus qu’avec une simulation MC
Épidémiologie spatiale et SIG Analyse spatiale : mesures de centralité spatiale Centre moyen (minimise la somme des carrés des distances avec les points) Centre médian, distance de Manhattan (minimise la somme des distances avec les autres points) Centre médian, distance euclidienne (minimise la somme des distances avec les autres points) Analyse spatiale : mesures de dispersion spatiale Standard distance (écart-type de la distance de chaque point au centre moyen). Ne prend pas en compte la forme de la distribution spatiale. Ellipse de déviation, définie par trois paramètres (angle de rotation, dispersion le long du grand axe, dispersion le long du petit axe)
Épidémiologie spatiale et SIG Analyse spatiale : Point Pattern Analysis Analyse les propriétés spatiales d’un ensemble de points, ou d’un sous-ensemble dans un ensemble Deux approches distinctes : par point (distances) ou par surface (densités) Une approche par l’analyse de la densité locale (quadrat analysis) Une approche par l’analyse des relations métriques entre les points (plus proches voisins)
Épidémiologie spatiale et SIG Étude par individu, sur l’ensemble des individus Étude de la distribution spatiale d’une valeur numérique dans l’ensemble des individus Recherche d’une distribution non aléatoire (autocorrélation spatiale, indices d’autocorrélation de Moran, de Geary, statistique G) Recherche d’une tendance ou d’une forme dans la distribution spatiale de la valeur (1/rn, sin(f(x)),…)
Études spatio-temporelles Étude de la relation entre les individus ou les événements dans l’espace et le temps Trouver de « clusters » spatio-temporels - Test de Mantel et Knox - Reconstruction d’un patron spatio-temporel, indice de cas - Fonctions de Kernel et processus d’émergence et diffusion - Scan statistiques
Épidémiologie spatiale et SIG Agrégation des individus en sous-groupes spatiaux, et étude des relations spatiales entre les sous-groupes Soit la localisation des individus n’est pas connue Si on veut utiliser des rapports (incidences, risques, …) qui ne peuvent être calculés que sur des populations Soit les données sont déjà agrégées sur une base spatiale administrative L’effet « zone » peut être important et doit être inclus dans l’étude statistique, dans le modèle d’effet comme dans le modèle de mesure
Épidémiologie spatiale et SIG Agrégation des individus en sous-groupes spatiaux, et étude des relations spatiales entre les sous-groupes En agrégeant les individus par sous-groupes spatiaux, on multiplie d’abord les individus étudiés, car on désagrège l’ensemble total en sous-ensembles La variabilité augmente, et est différente suivant les groupes La cartographie permet de représenter les différences entre les groupes, mais il faut vérifier la significativité de ces différences Les processus d’agrégation en sous-ensembles fait remplacer des individus par des groupes, caractérisés souvent par des valeurs moyennes
Épidémiologie spatiale et SIG Agrégation des individus en sous-groupes spatiaux, et étude des relations spatiales entre les sous-groupes On cherche implicitement les relations spatiales de proximité, les tendances, les formes dans la distribution spatiale La variabilité est beaucoup plus grande, la désagrégation fait perdre de la puissance statistique L’échelle d’agrégation est importante
Épidémiologie spatiale et SIG Utilité du SIG pour gérer données, échelles, procédures d’agrégations et géostatistique Gestion de données spatiales (épidémiologie et environnement) Cartographie des maladies et EBE Géo-agrégation et transfert d’échelle Interpolation spatiale Analyses spatio-temporelles Calculs statistiques et géostatistiques avec les objets voisins et avec des relations de distance
L’épidémiologie L’épidémiologie ne remplace pas la géographie un modèle n’explique pas les processus qui le sous-tendent les interrelations entre facteurs de risque sont nombreuses une réflexion synthétique est nécessaire certaines informations sont difficiles à modéliser dans une description schématique L’épidémiologie peut expliquer le « comment », la géographie le « pourquoi »
Fin M. Souris, 2010