Sélection de variables : quelle(s) méthode(s) ?

Slides:



Advertisements
Présentations similaires
Le resampling Application d’une méthode Statistique pour gérer les
Advertisements

Comparaison d’une moyenne observée à une moyenne théorique
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Test statistique : principe
Collecte de données F. Kohler.
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
1 Séminaire de travail « Indicateur de croissance en France et/ou en zone euro : méthodologie et évaluation » 14 juin 2006 Indicator Models of Real GDP.
4 février 2005DESS Economie et Gestion des Cliniques et Etablissements pour personnes âgées 1 La prise en compte des critères économiques dans lanalyse.
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Dr DEVILLE Emmanuelle J D V 12/07/2006
Régression -corrélation
Analyse de la variance à un facteur
Traitement de données socio-économiques et techniques d’analyse :
Tests de comparaison de moyennes
QTLmap et les données ayant une distribution non gaussienne
Lecture critique MA.
Mission X Superfli Emily Roberts Cette présentation sera écrit en français avec sous-titres anglais violet de couleur. This presentation will be written.

Paul-Marie Bernard Université Laval
Échantillonnage (STT-2000)
Groupe 1: Classes de même intervalle
Objectifs du chapitre 12: Interprétation des résultats
Comprendre la variation dans les données: Notions de base
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d articles Puissance Calcul de l effectif.
L’Analyse de Covariance
Algorithme de lecture critique: validité interne
Prise en compte des données avec excès de zéros
La méthodologie expérimentale Fondements et bases d’application
Comparaison de deux échantillons
La méthodologie expérimentale Fondements et bases d’application
Le comportement des coûts Chapitre 3
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Objectifs du chap. 5: Plans de recherche classiques
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Statistiques Séance 10 N. Yamaguchi.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
SOUTENANCE DE DEUXIEME ANNEE
Echantillonage pour une Evaluation d’Impact
Micro-intro aux stats.
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Dr Vincent BIGE Centre de référence Mucoviscidose de Lyon
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Introduction aux statistiques Intervalles de confiance
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont Controverse récente en écologie, et qui a des conséquences sur la politique de publication des éditeurs. Intérêt personnel ancien… PLAN : étude biblio quantitative + rappels notion de base + AIC + approche bayésienne + polémique actuelle + que faire ?

Pourquoi la sélection de variables pose-t-elle problème en écologie ? Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat. La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006) Hobbs & Hilborn : avant on ne s’autorisait que des plans d’expérience et des questions simples (pouvant être résolues par un test de khi² ou une ANOVA), maintenant les outils de modélisation basés sur le max de vraisemblance ou sur les techniques bayésiennes permettent de modéliser de manière souple les phénomènes écologiques.

De très nombreux articles récents… Méthode de l’étude bibliographique : Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003 toutes les références dans les articles disponibles (ESA + Biometrics +…) Thèmes non retenus : modèles de mélange Y compris sélection par cross-validation, bayésienne ou non, bootstrap, etc.

Fréquence des articles consacrés à la sélection de modèles

Notions de base Maximum de vraisemblance C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé Distance de Kullback - Leibler C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle Problème : pour la connaître il faut connaître explicitement la « vérité » (p) Pour une distribution discrète :

Notions de base Principe de parcimonie Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité) « rasoir d’Occam » L’explication la plus simple est la plus probable…

Différentes méthodes possibles… Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT « cross-validation » AIC Autres critères avec terme de pénalité Approche « bayésienne »

La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés Références : Voir par exemple Stephens et al. 2005 – JAE 42:4-12. Avantages : Pertinence des questions / contrôle de ce qu’on fait Inconvénients : Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly » test de nombreux facteurs    Le modèle final choisi dépend du « chemin » pris Précautions d’emploi Contrôle de  Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)

Le Critère d’Information d’Akaike (AIC) - 1973 Estime la valeur attendue de la distance de Kullback – Leibler Avantages : Simplicité d’utilisation Interprétation : Sélectionne le modèle le plus proche possible de la « vérité » Inconvénients : A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données Précautions d’emploi : S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)

De quoi se perdre… AIC 1973 TIC 1976 BIC Schwarz 1978 AICC Hurvich et Tsai 1989 NIC Murata et al. 1994 QAIC, QAICC Burnham et Anderson 1998 RIC Basu et al. 1998 DIC Spiegelhalter et al. 2002 FIC et FRIC (!) Claeskens et Hjort 2003 + Cp, CVL, FPE, PredSS… JE ne vous parlerai que de ce qui fait débat en ECOLOGIE… tests sur modèles emboités + AIC + BIC + AICc.

AICC – QAIC - QAICC Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons. QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données Gd échantillon >>>> correction négligeable

L’approche bayésienne On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

L’approche bayésienne On utilise le critère BIC : Si l’a priori est « plat », alors On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles. La fonction f dans la première équation dépend du « prior »

L’approche bayésienne Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) : Si on utilise comme « a priori » : alors AIC = BIC Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

L’approche bayésienne Avantages : On peut intégrer de l’information provenant d’autres sources ou d’études antérieures Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données Inconvénients : Manque de « puissance statistique » Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés

Le débat en écologie… Où en sommes-nous ? Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde… « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate » Guthery et al. JWM 2005

Le débat en écologie… 1. arguments pro-AIC « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)  AIC ce qui n’interdit pas le « model averaging » AIC weights : Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »

Le débat en écologie… 2. arguments pro-BIC Le « model averaging » n’a pas de sens hors du contexte bayésien Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)  choisir les proba a priori adéquates et utiliser BIC Link et Barker proposent 4 calculs de proba a priori : Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

Le débat en écologie… 3. Autres arguments Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester une analyse de sensibilité sur les variables du modèle le plus complexe La sélection parmi de mauvais modèles ne peut donner un bon modèle Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

Eléments de conclusion… Avoir de bonnes données ! (« garbage in, garbage out ») Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…)  Utiliser le bon outil L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 : 268-351

Eléments de conclusion… « Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science. Statistics are messy tools we use because time and money constraints force insufficient sampling » Guthery et al. 2005 J’ajouterais : les conclusions biologiques comptent plus que les « gadgets » statistiques (par exemple model averaging).