à partir de données géo-référencées zero-inflated Un nouveau modèle statistique pour l’évaluation de l’abondance en espèces marines à partir de données géo-référencées zero-inflated Application à des données de relevés au chalut de fond Sophie Ancelet 1, Marie-Pierre Etienne 1 , Hugues Benoît 2, Eric Parent1 1 AgroParisTech/ENGREF, équipe MORSE, Paris 2 Fisheries and Oceans Canada, Gulf Fisheries Centre, Moncton 8ème Forum Halieumétrique, La Rochelle , 21 Juin 2007 SFds, Angers, Juin 2007
Contexte pêche commerciale massive au chalut et à la senne surexploitation Constat: diminution inquiétantes des ressources halieutiques
Comment dissocier les effets des impacts que l’on peut et ne peut pas contrôler ? Misant sur le fait que plusieurs espèces d’invertébrés marins ont une mobilité restreinte au stage adulte, essayer de dissocier les impacts directs et indirects de la pêche commerciale de la prédation des changements climatiques sur les dynamiques spatio-temporelles.
Les données Tous les mois de septembre depuis 1971 65-200 traits de chalut standards par année Relevés aléatoires stratifiés Trait standard ciblé: 30min à 3.5 nœuds Biomasses en kg/trait pour 14 espèces d’invertébrés épibenthiques.
Un exemple typique de données zero-inflated Strongylocentrotus sp. Impossibilité d’utiliser les lois de probabilité standard Comment analyser et cartographier l’abondance en oursins à partir de telles données? Biomass in kg Histogramme des biomasses en oursins recueillies entre 1999 et 2001
Approche classique: le modèle Delta-Gamma Modèle de mélange à 2 composantes ( two-parts model) k=1,2,.,r Pas de propriété d’additivité Modèle spécifié pour des données préalablement standardisées Sur-estimation ou sous-estimation de la probabilité d’absence
Alternative: utiliser un processus de Poisson composé (la loi des fuites) Dans une strate ….. Nk = Nombre aléatoire de « gisements » collectés sur une surface chalutée Sk Nk | , Sk ~ Poisson(×(Sk/d)) Chaque « gisement » contient une quantité aléatoire inconnue de biomasse Xk,j j=1,…,Nk Sk Xk,j | ~iid Exp() Si Nk=0, aucun « gisement » ramassé : Si Nk>0, au moins un « gisement » ramassé :
Les avantages du modèle Modèle conceptuel, parcimonieux (2 paramètres et ) Le modèle permet de traiter directement des données brutes ! La probabilité d’absence décroît avec la distance chalutée P(Yk=0)= P(Nk=0)= exp(-×Sk/d) Propriété d’additivité vérifiée:
Variabilité intra-strate Découpage de l’hétérogénéité spatiale: 38 strates Dans chaque strate i : Les observations sont identiquement distribuées: un jeu de paramètres par strate (i,i) Les observations sont indépendantes : Yi,k ~ Fuite(i,i)
Version 1: Modèle (LOL)*38 Loi des fuites appliquée indépendamment dans chaque strate Faiblesse: mauvaise qualité de l’estimation dans les petites strates
distribution régionale commune Version 2: Modèle R,-LOL Hypothèse: comportement similaire entre toutes les strates Tirer profit de l’information disponible dans toutes les strates du Golfe modélisation de la variabilité entre les strates Relier les strates via une distribution régionale commune distribution régionale commune i ~iid Gamma(a,b) i~iid Gamma(c,d)
Et s’il existait une structure spatiale entre strates voisines? Répartition spatiale des oursins en 1999-2000-2001
Version 3: Modèle IAR-LOL i = pour tout i=1,2,…,38 Log(i)= m0 + Ψi + εi Bruit résiduel non spatialisé Tendance Variabilité spatialisée Modèle CAR Gaussien Intrinsèque ni= nombre de strates voisines de la strate i
Un modèle hiérarchique à 3 niveaux Priors Inférence Bayésienne: Algorithmes MCMC m0 IAR ε Processus Spatial i= μi Obtention de lois a posteriori pour tous les paramètres et variables latentes Si,k Observations Ni,k Yi,k
Ajustements comparés de 8 modèles Données d’ajustement: Oursins (1999-2000-2001) Critère: Facteurs de Bayes + DIC
Résultats d’inférence: IAR-LOL Difficultés du IAR ? Répartition spatiale des oursins 1999-2000-2001 Moyenne a posteriori des i
Prédictions comparées de 8 modèles Données prédites: oursins 2002 Critère: Posterior Predictive Loss Criterion (PPLC) moyens calculés à partir de 100 échantillons prédictifs de 2000 valeurs
La standardisation de données zero-inflated: une source de biais Distance standard= 0.5 Distance standard= 1.75 Fuite Fuite Delta-Gamma Delta-Gamma Distance standard= 3 Fuite Delta-Gamma
Conclusions & Perspectives Loi des fuites = solution aux problèmes liés à la non-additivité des modèles Delta La prise en compte de la structure spatiale de données d’abondance permet d’améliorer les prédictions Construction d’un modèle hiérarchique spatio-temporel couplant un modèle de dynamique des populations à un modèle géostatistique. en cours. Modelling spatial zero-inflated continuous data with an exponentially compound Poisson process. Environmental and Ecological Statistics S.Ancelet, M.P.Etienne, H.P.Benoît, E.Parent. (Article soumis)