Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.

Slides:



Advertisements
Présentations similaires
Chapitre I : Rappels Chapitre II: Eléments d’échantillonnage (Tassi, Chap. 2, Kauffmann, Chap. 5 et 6) Chapitre III: L’information au sens de Fisher (Kauffmann,
Advertisements

ANOVA à un facteur (Rehailia)
Probabilités et statistiques au lycée
GESTION DE PORTEFEUILLE chapitre n° 7
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Christèle Robert-Granié et Jean-Louis Foulley* INRA- Station dAmélioration Génétique des Animaux, Toulouse ; *INRA-Station de Génétique Quantitative et.
Analyse en composante indépendante
C1 Bio-statistiques F. KOHLER
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
3. Analyse et estimation du mouvement dans la vidéo
4 Les Lois discrètes.
Régression -corrélation
Modélisation des systèmes non linéaires par des SIFs
Vérification des données
Prévision de la Demande
Chapitre 2 Les indices.

Le modèle linéaire et l'approche multivariée en statistique
La Régression Multiple
Régression linéaire simple
Comprendre la variation dans les données: Notions de base
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Prise en compte des données avec excès de zéros
Commentaires sur les biais écologiques et les échelles non emboîtées
Le test t.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Objectifs Chapitre 8: Mesure en psychologie
Objectifs du chapitre sur les distributions déchantillonnage Comprendre la relation entre les distributions déchantillonnage et les tests dinférence statistique.
à partir de données géo-référencées zero-inflated
La régression multiple
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Service Traitement de l’Information et Méthodologies.
Méthodes de Biostatistique
Méthodes de Biostatistique
Méthodologie expérimentale : l’analyse des données
Dynamique des ligneux dans les écosystèmes tropicaux
2. Modèles linéaires.
Lien entre deux variables
La régression simple Michel Tenenhaus
Présentation du marché obligataire
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
Séance 8 30 novembre 2005 N. Yamaguchi
Probabilités et Statistiques Année 2010/2011
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Chapitre 3: Variables aléatoires réelles continues
Concepts fondamentaux: statistiques et distributions
Principales distributions théoriques
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Méthode des moindres carrés (1)
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Échantillonnage (STT-2000)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Modèles d’attraction spatiale
MENU 1 Modèles de choix.
Comparaison de plusieurs moyennes observées
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Transcription de la présentation:

Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques Frédéric Gosselin frederic.gosselin@nogent.cemagref.fr Cemagref Equipe Biodiversité et Gestion des Forêts de Plaine Nogent-sur-Vernisson

F. Gosselin Contexte -> Engagement des sociétés contemporaines à enrayer le taux d’extinction d’espèces (actuellement env. 100 à 1000 fois plus fort que le rythme d’extinction « normal »), d’habitats, de gènes…. … à travers différents accords internationaux (exemple : Convention internationale sur la biodiversité).

F. Gosselin Contexte -> De gros efforts pour identifier les espèces les plus menacées (par exemple: UICN); outils quantitatifs associés: modèles probabilistes d’extinction de populations

F. Gosselin Contexte -> Des efforts en cours pour évaluer les tendances et les réponses à la gestion d’espèces plus communes; outils quantitatifs associés: modèles démographiques ou modèles statistiques.

But général de notre équipe F. Gosselin But général de notre équipe -> A partir d’estimations sur le terrain d’abondance ou de présence d’espèces (herbacées, insectes…), relier : – l’abondance ou la présence d’espèces… à des variables associées à la gestion forestière (ex: volume de bois mort, composition en essences…)… … et pouvoir les comparer entre études (visée ultime de méta-analyses).

But général de notre équipe F. Gosselin But général de notre équipe -> Approche le plus souvent observationnelle et synchronique ; parfois expérimentale. -> Approche basée sur des hypothèses a priori sur : (i) le meilleur modèle écologique (comparaison de modèles) ; Et (ii) le sens voire la magnitude des effets (tests…).

F. Gosselin Nature des données -> Nos variables à expliquer sont des données d’abondance, de richesse ou de présence : – elles sont positives ; – elles contiennent le plus souvent beaucoup de zéros (jusqu’à 95%) et contiennent souvent quelques points très aberrants ; – elles peuvent être continues (ou pseudo-continues) ou discrètes ; – elles sont structurées dans l’espace.

F. Gosselin Nature des données -> Illustration : points aberrants / distribution non normale :

Modèles statistiques envisagés F. Gosselin Modèles statistiques envisagés -> Calage de modèles multi-espèces : ys,ijk=f(bs,xs,ijk)+es,i*ws,ijk+es,ij*ws,ijk+es,ijk*ws,ijk où s est l’indice correspondant aux espèces et où on suppose – provisoirement – l’indépendance entre espèces (i.e. entre es,… et es’,…). But: tester des théories / hypothèses au niveau du cortège d’espèces.

Modèles statistiques envisagés F. Gosselin Modèles statistiques envisagés -> Nécessité de la non-linéarité : 1 – pour forcer la valeur prédite à être positive : exemples : f(b,xijk) = exp(b1*x1,ijk) ou: f(b,xijk) = log(exp(b*xijk)+1)

Modèles statistiques envisagés F. Gosselin Modèles statistiques envisagés -> Utilisation de la non-linéarité : 2 – pour permettre des liens non-linéaires aux variables écologiques (ex: modèle gaussien de réponse de l’abondance d’un espèce à la position sur un gradient écologique) : f(b,xijk) = exp(-(x1,ijk- b1)2/ b22 + b3)

Modèles statistiques envisagés F. Gosselin Modèles statistiques envisagés -> Nécessité d’effets aléatoires – ou de structure marginale – pour rendre compte des corrélations entre observations : – mesures répétées au même endroit (ex: piégeage d’insectes à différentes saisons) ; et/ou – structure spatiale emboîtée du plan d’échantillonnage.  Effets aléatoires additifs ou multiplicatifs ?  Quelle distribution de probabilité ?  Dans le cas additif: Effets aléatoires hétéroscédastiques ?

Modèles statistiques envisagés F. Gosselin Modèles statistiques envisagés -> Envisager d’incorporer de l’hétéroscédasticité, notamment de lien assez fort entre variance résiduelle et valeur prédite.  Hétéroscédasticité optimisée dans le modèle ou à l’extérieur ?  Hétéroscédasticité vs pas hétéroscédasticité ? -> Distributions de probabilité : gaussienne vs distributions sur données discrètes vs distributions sur données strictement positives.

Voie de recherche n°1: rester en gaussien ! F. Gosselin Voie de recherche n°1: rester en gaussien ! -> Robustesse du gaussien et méfiance vis-à-vis des modèles de la famille exponentielle impliquant un lien rigide variance – moyenne (ex: Poisson, négative binomiale), sur la base d’un travail de simulation de: White, G. C. and Bennetts, R. E. 1996. Analysis of frequency count data using the negative binomial distribution. - Ecology 77: 2549-2557

Voie de recherche n°1: rester en gaussien ! F. Gosselin Voie de recherche n°1: rester en gaussien ! -> Résultats de White & Bennetts (1996):

Voie de recherche n°1: rester en gaussien ! F. Gosselin Voie de recherche n°1: rester en gaussien ! -> Résultats de White & Bennetts (1996):

Voie de recherche n°1: rester en gaussien ! F. Gosselin Voie de recherche n°1: rester en gaussien ! -> Poursuivre le travail de White & Bennetts (1996) dans notre cadre de travail – hiérarchique, non-linéaire, hétéroscédastique – et en généralisant à la régression avec co-variables.  La distribution gaussienne est-elle toujours robuste dans ces nouvelles conditions ?

Voie de recherche n°2: distributions plus naturelles ! F. Gosselin Voie de recherche n°2: distributions plus naturelles ! -> Notamment mélange binomiale – distribution de proba sur R+*. Choix des lois dans le modèle ou à l’extérieur du modèle (diagnostics) ? Comparaison par rapport aux modèles gaussiens.

Voie de recherche n°2: distributions plus naturelles ! F. Gosselin Voie de recherche n°2: distributions plus naturelles ! Comparer (via simulation) dans un contexte hiérarchique, distribution normale, distributions de la famille exponentielle et mélange binomiale / autre chose (gamma, log-normale, normale…), avec les objectifs : – bonnes erreurs de type I et II ; – outils de comparaisons de modèles ; – bonnes distributions des valeurs prédites.

Problèmes numériques à régler F. Gosselin Problèmes numériques à régler -> Trouver une solution numérique plus souple que S-plus/nlme et plus rapide/fiable que winbugs pour pouvoir caler des modèles de structures variées sur des gros jeux de données. Piste: MCMC en C++.

Voie de recherche n°1: rester en gaussien ! F. Gosselin Voie de recherche n°1: rester en gaussien ! -> Résultats de White & Bennetts (1996): – 64 tirages au sort selon une binomiale négative dans 4 populations, soit de paramètres égaux, soit de paramètres différents (m et/ou k); – calage d’une ANOVA (homoscédastique), de glm poissoniens et de modèles basés sur la négative binomiale, avec des effets « population »;