Sélection de variables : quelle(s) méthode(s) ?

Sélection de variables : quelle(s) méthode(s) ?
Anne Viallefont Controverse récente en écologie, et qui a des conséquences sur la politique de publication des éditeurs. Intérêt personnel ancien… PLAN : étude biblio quantitative + rappels notion de base + AIC + approche bayésienne + polémique actuelle + que faire ?

Pourquoi la sélection de variables pose-t-elle problème en écologie ?
Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat. La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006) Hobbs & Hilborn : avant on ne s’autorisait que des plans d’expérience et des questions simples (pouvant être résolues par un test de khi² ou une ANOVA), maintenant les outils de modélisation basés sur le max de vraisemblance ou sur les techniques bayésiennes permettent de modéliser de manière souple les phénomènes écologiques.

De très nombreux articles récents…
Méthode de l’étude bibliographique : Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003 toutes les références dans les articles disponibles (ESA + Biometrics +…) Thèmes non retenus : modèles de mélange Y compris sélection par cross-validation, bayésienne ou non, bootstrap, etc.

Fréquence des articles consacrés à la sélection de modèles

Notions de base Maximum de vraisemblance
C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé Distance de Kullback - Leibler C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle Problème : pour la connaître il faut connaître explicitement la « vérité » (p) Pour une distribution discrète :

Notions de base Principe de parcimonie
Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité) « rasoir d’Occam » L’explication la plus simple est la plus probable…

Différentes méthodes possibles…
Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT « cross-validation » AIC Autres critères avec terme de pénalité Approche « bayésienne »

La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés
Références : Voir par exemple Stephens et al – JAE 42:4-12. Avantages : Pertinence des questions / contrôle de ce qu’on fait Inconvénients : Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly » test de nombreux facteurs    Le modèle final choisi dépend du « chemin » pris Précautions d’emploi Contrôle de  Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)

Le Critère d’Information d’Akaike (AIC) - 1973
Estime la valeur attendue de la distance de Kullback – Leibler Avantages : Simplicité d’utilisation Interprétation : Sélectionne le modèle le plus proche possible de la « vérité » Inconvénients : A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données Précautions d’emploi : S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)

De quoi se perdre… AIC 1973 TIC 1976 BIC Schwarz 1978
AICC Hurvich et Tsai 1989 NIC Murata et al. 1994 QAIC, QAICC Burnham et Anderson 1998 RIC Basu et al. 1998 DIC Spiegelhalter et al. 2002 FIC et FRIC (!) Claeskens et Hjort 2003 + Cp, CVL, FPE, PredSS… JE ne vous parlerai que de ce qui fait débat en ECOLOGIE… tests sur modèles emboités + AIC + BIC + AICc.

AICC – QAIC - QAICC Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons. QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données Gd échantillon >>>> correction négligeable

L’approche bayésienne
On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

On utilise le critère BIC : Si l’a priori est « plat », alors On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles. La fonction f dans la première équation dépend du « prior »

Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) : Si on utilise comme « a priori » : alors AIC = BIC Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

Avantages : On peut intégrer de l’information provenant d’autres sources ou d’études antérieures Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données Inconvénients : Manque de « puissance statistique » Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés

Le débat en écologie… Où en sommes-nous ?
Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde… « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate » Guthery et al. JWM 2005

Le débat en écologie… 1. arguments pro-AIC
« all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)  AIC ce qui n’interdit pas le « model averaging » AIC weights : Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »

Le débat en écologie… 2. arguments pro-BIC
Le « model averaging » n’a pas de sens hors du contexte bayésien Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)  choisir les proba a priori adéquates et utiliser BIC Link et Barker proposent 4 calculs de proba a priori : Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

Le débat en écologie… 3. Autres arguments
Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester une analyse de sensibilité sur les variables du modèle le plus complexe La sélection parmi de mauvais modèles ne peut donner un bon modèle Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

Eléments de conclusion…
Avoir de bonnes données ! (« garbage in, garbage out ») Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…) Utiliser le bon outil L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 :

Eléments de conclusion…
« Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science. Statistics are messy tools we use because time and money constraints force insufficient sampling » Guthery et al. 2005 J’ajouterais : les conclusions biologiques comptent plus que les « gadgets » statistiques (par exemple model averaging).

Sélection de variables : quelle(s) méthode(s) ?

Présentations similaires

Présentation au sujet: "Sélection de variables : quelle(s) méthode(s) ?"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Sélection de variables : quelle(s) méthode(s) ?

Présentations similaires

Présentation au sujet: "Sélection de variables : quelle(s) méthode(s) ?"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back