Cours 9 Autres types de Statistiques. Article 4 BIO 3500 – Hiver 2017 13 mars BIO 3500 – Hiver 2017
Plan D’autres méthodes statistiques Discussion article IV
Autres types de statistiques
Dans ce cours Statistiques inférentielles Basées sur le test d’hypothèse formel Construction d’une distribution statistique à partir de l’hypothèse nulle Déterminer la probabilité d’observer l’échantillon sous cette distribution Décision statistique
Dans ce cours Statistiques inférentielles Que fait-on si on ne connait pas la distribution statistique? Lorsque les modèles sont très complexes?
Autres méthodes statistiques Statistiques inférentielles basées sur les permutations / modèles neutres, on crée la distribution statistique à partir des données Méthodes bayésiennes Comparaison de modèles Il y en a d’autres!
Statistiques inférentielles basées sur les modèles neutres Ex: Est-ce que les dauphins sont plus ou moins phylogénétiquement près qu’attendu dans le Mékong? Espèces présentes dans le Mékong Espèces présentes dans la région n.d.l.r. cet exemple est fictif
Statistiques inférentielles basées sur les modèles neutres Ex: Est-ce que les dauphins sont plus ou moins phylogénétiquement près qu’attendu dans le Mékong? n=3 1- Tire 3 espèces au hasard dans les 7 espèces présentes dans la région et calcule la distance phylogénétique 2- Répète (p.ex.) 100 000 fois Créer la distribution des distances possibles compte tenu des espèces présentes 3- Mesure la distance phylo- de nos 3 espèces et compare aux tirages aléatoires
Statistiques inférentielles basées sur les modèles neutres Ex: Est-ce que les dauphins sont plus ou moins phylogénétiquement près qu’attendu dans le Mékong? n=3 Région 1 vs Région 2 À votre avis, même réponse?
Statistiques inférentielles basées sur les modèles neutres Ex: Est-ce que les dauphins sont plus ou moins phylogénétiquement près qu’attendu dans le Mékong? n=3 Région 1 vs Région 2 À votre avis, même réponse? Non
Théorème de Bayes P(A|B) = probabilité de A sachant B P(B|A) = probabilité de B sachant A P(A) = probabilité de A P(B) = probabilité de B Rev. Thomas Bayes (1701–1761) 1 article scientifique dans sa vie
Théorème de Bayes P(A|B) = probabilité de A sachant B P(B|A) = probabilité de B sachant A P(A) = probabilité de A P(B) = probabilité de B P(B|A’) = probabilité de B sachant A’ – où A’ est une alternative à A P(A’) = probabilité de A ’ – où A’ est une alternative à A
Théorème de Bayes Exemple (lâchement copié de Wikipedia): Imaginons deux urnes remplies de boules. La première contient dix (10) boules noires et trente (30) blanches ; la seconde en a vingt (20) de chaque. On tire sans préférence particulière une des urnes au hasard et dans cette urne, on tire une boule au hasard. La boule est blanche. Quelle est la probabilité qu'on ait tiré cette boule dans la première urne sachant qu'elle est blanche ? H1: on a tiré la boule dans l’urne 1 H2: on a tiré la boule dans l’urne 2
Théorème de Bayes Avant de savoir que l’on a tiré une boule blanche: “On tire sans préférence particulière une des urnes… “ H1: on a tiré la boule dans l’urne 1 H2: on a tiré la boule dans l’urne 2 P(Urne 1) = ? P(Urne 2) = ?
Théorème de Bayes Avant de savoir que l’on a tiré une boule blanche: “On tire sans préférence particulière une des urnes… “ H1: on a tiré la boule dans l’urne 1 H2: on a tiré la boule dans l’urne 2 P(Urne 1) = P(Urne 2) = 50%
Théorème de Bayes La première contient dix (10) boules noires et trente (30) blanches ; la seconde en a vingt (20) de chaque. H1: on a tiré la boule dans l’urne 1 H2: on a tiré la boule dans l’urne 2 P(Urne 1) = P(Urne 2) = 50% P(Blanche | Urne 1) = ? P(Blanche | Urne 2) = ?
Théorème de Bayes La première contient dix (10) boules noires et trente (30) blanches ; la seconde en a vingt (20) de chaque. H1: on a tiré la boule dans l’urne 1 H2: on a tiré la boule dans l’urne 2 P(Urne 1) = P(Urne 2) = 50% P(Blanche | Urne 1) = 30 blanches /40 boules = 75% P(Blanche | Urne 2) = 20 blanches / 40 boules = 50%
Théorème de Bayes H1: on a tiré la boule dans l’urne 1 P(Urne 1) = P(Urne 2) = 50% P(Blanche | Urne 1) = 30 blanches /40 boules = 75% P(Blanche | Urne 2) = 20 blanches / 40 boules = 50% P(Urne 1 | Blanche) = P(Blanche | Urne 1) * P(Urne 1) P(Blanche | Urne 1) * P(Urne 1) + P(Blanche | Urne 2) * P(Urne 2) P(Urne 1 | Blanche) = 75% * 50% = 60% 75%*50% + 50%*50%
Théorème de Bayes Lorsqu’utilisé pour tester des hypothèses, la forme de la distribution et la probabilité sont estimées en même temps (stats fréquentistes, la distribution est construite avant) La probabilité part d’une « croyance » de ce qui devrait être, qui, par la suite, est modifiée par l’observation *On quantifie l’apprentissage
Théorème de Bayes Ex: Le soleil va-t-il se lever demain? 1 Certitude logique que l’évènement se produira p=0.9999? Probabilité bayésienne Certitude logique que l’évènement ne se produira pas
Théorème de Bayes Ex: Le soleil va-t-il se lever demain? Pas de surprise: Le soleil se lève, nous n’avons presque rien appris de nouveau Surprise! Le soleil ne se lève pas, nous avons appris beaucoup Probabilité que le soleil se lève : 0.9999 Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001 Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes Ex: Le soleil va-t-il se lever demain? Pas de surprise: Le soleil se lève, nous n’avons presque rien appris de nouveau : I = -ln(0.9999) = 0.00001 Surprise! Le soleil ne se lève pas, nous avons appris beaucoup: I = -ln(0.0001) = 11.51 Probabilité que le soleil se lève : 0.9999 Probabilité que le soleil ne se lève pas : 1-0.9999=0.0001 Fonction de surprise / information: I = ln (1/p) = -ln(p)
Théorème de Bayes On modifie ensuite la probabilité que l’on attribuait initialement en fonction de la nouvelle information Pas de surprise: Le soleil se lève, nous n’avons presque rien appris de nouveau : I = -ln(0.9999) = 0.00001 Nouvelle probabilité: p + f(I) > 0.9999 Surprise! Le soleil ne se lève pas, nous avons appris beaucoup: I = -ln(0.0001) = 11.51 Nouvelle probabilité: p + f(I) << 0.9999
Théorème de Bayes Votre choix initial Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a une auto, derrière les deux autres une chèvre. Vous gagnez l’auto si vous la découvrez. Vous choisissez une porte (la porte 1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob Barker) ouvre une autre porte (porte 3) où se trouve une chèvre. Vous avez ensuite l’occasion de changer de porte, le faites vous et pourquoi? Votre choix initial
Théorème de Bayes P(H3 | C1, X1) = ½ : probabilité que Bob Barker Le problème de Monty Hall: Il y a 3 portes, derrière l’une, il y a une auto, derrière les deux autres une chèvre. Vous gagnez l’auto si vous la découvrez. Vous choisissez une porte (la porte 1), ensuite, quelqu’un sachant ou se trouve l’auto (p.ex., Bob Barker) ouvre une autre porte (porte 3) où se trouve une chèvre. Vous avez ensuite l’occasion de changer de porte, le faites vous et pourquoi? P(H3 | C1, X1) = ½ : probabilité que Bob Barker choisisse la porte 3, si l’auto est derrière la 1 et que vous avez choisi la porte 1 P(H3 | C2, X1) = 1 P(H3 | C3, X1) = 0
Théorème de Bayes P(H3 | C1, X1) = ½ P(H3 | C2, X1) = 1 P(C2 | H3, X1)
Sélection de modèle Akaike information criterion (AIC) Bayesian information criterion (BIC) Des mesures de la qualité relative de modèles compte tenu des données. On pénalise les données pour leur complexité (parsimonie) On n’utilise pas de distributions statistiques! Plus la valeur de AIC est base, meilleur est le modèle relativement aux autres
Sélection de modèle Ex: Est-ce que la compétition interspécifique peut être prédite par l’espèce des voisins? Modèle 1: Croissance = taille – espèce * taille des compétiteurs Modèle 2: Croissance = taille – taille des compétiteurs Le modèle 1 contient plus de paramètres que le modèle 2 pour tenir compte de l’effet des espèces de compétiteurs. Il devra donc être plus performant que le modèle 2 pour être choisi. Si les deux expliquent de façon équivalente, le modèle 2 sera choisi.
Comment juger les méthodes statistiques Par la théorie: preuve mathématique Simulation de données
Comment juger les méthodes statistiques Simulation de données : ex, on décrit une méthode où l’on veut découvrir s’il existe un lien entre la biodiversité et les conditions environnementales 1-Simule des données environnementales 2a- Données générées où biodiversité <- environnement 2b- Données générées où biodiversité ≠ environnement 3-Applique la méthode pour détecter le lien entre biodiversité et l’environnement 4- Répète 100 000 ou 1 000 000 fois 5-Quantifie l’efficacité (puissance/erreur)
Comment juger les méthodes statistiques 1-Simule des données environnementales 2a- Données générées où biodiversité <- environnement 2b- Données générées où biodiversité ≠ environnement 3-Applique la méthode pour détecter le lien entre biodiversité et l’environnement: effet détecté ou non Réalité (connu! On a simulé les données) Décision Ho vrai Ho fausse Rejet de Ho Erreur de première espèce (type I) P=α Décision correcte Puissance statistique Non-rejet de Ho Décision correcte P=1- α Erreur de seconde espèce (type II)
Article 4
Valeur reproductive VR = Reproduction actuelle + valeur reproductive résiduelle Valeur reproductive residuelle Effort de reproduction âge
En équipe 20-30 min Identifiez: Problématique Justification Méthodes Principaux résultats et conclusions Particulièrement, quelles sont les hypothèses, les variables et les résultats du test de t Des commentaires pour chaque section