La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont.

Présentations similaires


Présentation au sujet: "Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont."— Transcription de la présentation:

1 Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont

2 Pourquoi la sélection de variables pose-t-elle problème en écologie ? Sur certains jeux de données, lutilisation de méthodes différentes donne des résultats différents Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat. La « nouvelle statistique » permet de décrire les phénomènes complexes de lécologie (Hobbs & Hilborn, Ecol. Applic., 2006)

3 De très nombreux articles récents… Méthode de létude bibliographique : Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples dhypothèses nulles tous les articles de lESA + JASA & Biometrics sur le sujet depuis 2003 toutes les références dans les articles disponibles (ESA + Biometrics +…) Thèmes non retenus : modèles de mélange

4 Fréquence des articles consacrés à la sélection de modèles

5 Notions de base Maximum de vraisemblance Cest la valeur des paramètres qui maximise la probabilité dapparition du jeu de données effectivement observé Distance de Kullback - Leibler Cest une mesure de la quantité dinformation perdue lorsquon représente la « vérité » par le modèle Problème : pour la connaître il faut connaître explicitement la « vérité » (p) Pour une distribution discrète :

6 Notions de base Principe de parcimonie Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité) « rasoir dOccam » Lexplication la plus simple est la plus probable…

7 Différentes méthodes possibles… Tests dhypothèses par comparaison de modèles emboîtés : tests F partiels / LRT « cross-validation » AIC Autres critères avec terme de pénalité Approche « bayésienne »

8 La sélection de variables « à lancienne » - tests successifs entre modèles emboîtés Références : Voir par exemple Stephens et al – JAE 42:4-12. Avantages : Pertinence des questions / contrôle de ce quon fait Inconvénients : Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly » test de nombreux facteurs Le modèle final choisi dépend du « chemin » pris Précautions demploi Contrôle de Choix dune procédure « step-down » après VALIDATION du modèle initial (test dajustement)

9 Le Critère dInformation dAkaike (AIC) Estime la valeur attendue de la distance de Kullback – Leibler Avantages : Simplicité dutilisation Interprétation : Sélectionne le modèle le plus proche possible de la « vérité » Inconvénients : A tendance à favoriser un modèle dautant plus compliqué quil y a plus de données Précautions demploi : Sassurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur dinflation » et QAIC (Lebreton et al. 1992)

10 De quoi se perdre… AIC 1973 TIC1976 BICSchwarz 1978 AIC C Hurvich et Tsai 1989 NICMurata et al QAIC, QAIC C Burnham et Anderson 1998 RICBasu et al DICSpiegelhalter et al FIC et FRIC (!)Claeskens et Hjort Cp, CVL, FPE, PredSS…

11 AIC C – QAIC - QAIC C Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons. QAIC et QAIC C Modification de AIC à utiliser si le modèle le plus complexe nest pas ajusté aux données

12 Lapproche bayésienne On fixe une « probabilité a priori » à chacun des modèles que lon veut tester ( 1, 2, 3 …). Exemples : « Rasoir dOckham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

13 Lapproche bayésienne On utilise le critère BIC : Si la priori est « plat », alors On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.

14 Lapproche bayésienne Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) : Si on utilise comme « a priori » : alors AIC = BIC Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

15 Lapproche bayésienne Avantages : On peut intégrer de linformation provenant dautres sources ou détudes antérieures Si le « vrai modèle » se trouve parmi les modèles testés, cest celui-ci qui est choisi par BIC Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre naugmente pas lorsquon ajoute des données Inconvénients : Manque de « puissance statistique » Comportement imprévisible si le « vrai modèle » nest pas parmi ceux testés

16 Le débat en écologie… Où en sommes-nous ? Nous sommes loin dune procédure sur laquelle tout le monde saccorde… « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate » Guthery et al. JWM 2005

17 Le débat en écologie… 1. arguments pro-AIC « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002) AIC ce qui ninterdit pas le « model averaging » AIC weights : Burnham et Anderson préconise de moyenner sur les modèles avec i « some value that is roughly 4 to 7 »

18 Le débat en écologie… 2. arguments pro-BIC Le « model averaging » na pas de sens hors du contexte bayésien Attention ! Lutilisation dAIC favorise les modèles complexes… (Link & Barker) choisir les proba a priori adéquates et utiliser BIC Link et Barker proposent 4 calculs de proba a priori : Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

19 Le débat en écologie… 3. Autres arguments Guthery et al (2005) voient lutilisation des critères de sélection de modèle comme une forme dinduction scientifique, à condition davoir BIEN CHOISI en amont les modèles à tester une analyse de sensibilité sur les variables du modèle le plus complexe La sélection parmi de mauvais modèles ne peut donner un bon modèle Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

20 Eléments de conclusion… Avoir de bonnes données ! (« garbage in, garbage out ») Choisir à lavance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en labsence deau…) Utiliser le bon outil Lutilisation de multiples tests successifs sur modèles emboîtés est à éviter Lutilisation doutils t.q. AIC c est inutile pour comparer 2 ou 3 modèles Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 :

21 Eléments de conclusion… « Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science. Statistics are messy tools we use because time and money constraints force insufficient sampling » Guthery et al. 2005


Télécharger ppt "Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont."

Présentations similaires


Annonces Google