Tests d’ajustement à une distribution théorique

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Inférence statistique
Inférence statistique
Situation du problème :
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Tests non paramétriques
Notions de variable aléatoire et de probabilité d’un événement
Les tests d’hypothèses
Les liens entre les variables et les tests d’hypothèse
L’inférence statistique
Groupe 1: Classes de même intervalle
La puissance statistique
La puissance statistique
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
TEST d’ADEQUATION A UNE LOI EQUIREPARTIE
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation
Théorème de la limite centrale l’inférence statistique
BIO 4518: Biostatistiques appliquées Le 4 octobre 2005 Laboratoire 3 ANOVA à un critère de classification.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Statistiques Cours de seconde.
Concepts fondamentaux: statistiques et distributions
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :56 1 BIO 4518 Biostatistiques appliquées Antoine.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :44 1 Epistémologie, méthode scientifique et.
Révision des concepts fondamentaux
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
ou comment savoir si les différences observées sont significatives
Analyse des semis de point
Statistique Descriptive Les Paramètres de Tendance Centrale
Opération et systèmes de décision Faculté des Sciences de l ’administration MQT Probabilités et statistique Les statistiques descriptives.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Transcription de la présentation:

Tests d’ajustement à une distribution théorique Qualité d’ajustement à une distribution Tests d’ajustement à une distribution théorique Tests de normalité Note importante sur les tests de normalité! Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Qualité d’ajustement à une distribution théorique Mesure de la distance entre la distribution observée et attendue selon H0 20 30 40 50 60 10 Fréquence Observée Attendue Longueur à la fourche Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Principe des tests d’ajustement 20 30 Attendue Observée Accepter H0 Si les deux distributions (observée et attendue) sont plus différentes que ce que l’on s’attendait en prenant en considération la précision de la mesure, on doit rejeter l’hypothèse nulle. Fréquence 30 20 Rejeter H0 10 20 30 40 50 60 Longueur à la fourche Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Tests d’ajustement à une distribution théorique: Chi-carré (C2) Utilisé sur des données de fréquence par catégories Les fréquences observées sont comparées à des valeurs attendues théoriquement. Fréquence Catégorie/classe Observée Attendue Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Comment traduire C2 en p? Comparer à la distribution 2 avec n -1 degrés de liberté Si p est inférieur au niveau  désiré, il faut rejeter l’hypothèse nulle. 5 10 15 20 c2 (dl = 5) 0.2 0.3 Probabilité c2 = 8.5, p = 0.31 accepter p = a = 0.05 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Tests d’ajustement à une distribution théorique: test du rapport du log de vraisemblance ou test de G Fréquence Catégorie/classe Observée Attendue Similaire à C2, donne généralement des résultats similaires Dans certains cas, G est plus conservateur (c’est-à-dire que les p obtenues sont plus élevées). Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

c2 versus la distribution de C2 ou G Pour C2 et G, les valeurs de p sont calculés à partir de la distribution de 2 . mais quand n diminue, les deux distributions s’éloignent de celle de 2 . 0.3 Probabilité 0.2 5 10 15 20 c2/C2/G (dl = 5) C2/G, n très petit C2/G, n petit c2 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Conditions d’application (C2 et G) n plus grand que 30 fréquences attendues sont au moins 5 test est assez robuste sauf quand il n’y a que deux catégories (dl = 1) pour 2 catégories, X2 et G surestiment 2 , menant au rejet de l’hypothèse nulle avec une probabilité supérieure à , le test devient libéral Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Que faire si n est trop petit, qu’il n’y a que 2 catégories, etc.? augmenter n si n > 2, combiner des catégories si possible utiliser un facteur de correction utiliser un autre test Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Corrections quand il n’y a que 2 catégories pour 2 catégories, X2 et G surestiment 2 , menant au rejet de l’hypothèse nulle avec une probabilité supérieure à , le test devient libéral Ajustement pour continuité: s’obtient en ajoutant 0.5 aux fréquences observées Ajustement de Williams: consiste à diviser la statistique (G ou C2) par: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Distribution binômiale, Test binômial utilisé quand il n’y a que 2 catégories aucune condition d’application calcule la probabilité exacte d’obtenir N - k individus dans la catégorie 1 et k individus dans la catégorie 2 ( k = 0, 1, 2,... N). Probabilité 1 2 3 4 5 6 7 8 9 10 Nombre d’observations Distribution binômiale, p = 0.5, N = 10 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Exemple: rapport des sexes des castors H0: rapport des sexes est 1:1, donc p = 0.5 = q. p(0 mâles, femelles) = 0.00195 p(1 mâle/femelle, 9 mâle/femelle) = .0195 p(9 individus ou plus du même sexe) = .0215, ou 2.15%. donc, on rejette H0 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Test Multinômial pour plus de 2 catégories les probabilités, p et q, pour l’hypothèse nulle doivent être spécifiées (p + q + r = 1.0) aucune condition d’application si compliqué qu’en pratique C2 est souvent utilisé Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Test multinômial: rapport de ségrégation Hypothèse: comme les deux parents sont Aa, le rapport de segrégation est 1 AA: 2 Aa: 1 aa Si H0, p =.25, q = .50, r = .25 Pour N = 60, p < .001 Alors on rejette H0 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Tests de normalité Comme beaucoup de tests reposent sur la condition de normalité des données, il faut souvent éprouver la normalité C2 ou G, Kolmogorov-Smirnov, Wilks-Shapiro et Lilliefors Attendue selon l’hypothèse de normalité Observée Fréquence Catégorie/Classe Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Distributions cumulées 1.0 Les aires sous la courbes de la distribution normale et distribution normale cumulée. Distribution normale cumulée 0.8 Distribution normale 0.6 50.00% F 0.4 2.28% 0.2 68.27% -3s -2s -s m s 2s 3s Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Test de normalité C2 ou G regrouper les données en classes (histogramme) et calculer la fréquence attendue à partir d’une distribution normale calculer C2 l’effectif doit être grand (kmin = 10) peu puissant à cause de la perte d’information Attendue selon l’hypothèse de normalité Observée Fréquence Catégorie/Classe Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Évaluation visuelle de la normalité Faire un graphique de probabilité normale des valeurs Z en fonction de X Si les points forment approximativement une ligne, alors les données s ’approchent de la normalité Z Normale Non-normale X Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Test de Kolmogorov-Smirnov Compare la distribution cumulative observée à la distribution théorique p est calculée à partir de Dmax, soit la valeur absolue de la différence maximum entre les deux distributions cumulées. 0.2 0.4 0.6 0.8 1.0 Fréquences cumulées Dmax Y Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Exemple: longueur des ailes de mouches 10 mouches dont la longueur des ailes: 4, 4.5, 4.9, 5.0, 5.1, 5.3, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0. Fréquences relative cumulées: .1, .2, .3, .4, .5, .6, .7, .8, .9, 1.0 0.2 0.4 0.6 0.8 1.0 Dmax Fréquences relatives cumulées 4.0 4.5 5.0 5.5 6.0 Longueur de l’aile Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Test de Lilliefors Le test de normalité de KS est conservateur dans le cas des tests où la distribution attendue est calculée à partir de statistiques de l’échantillon le test de Lilliefors corrige ce conservatisme, le test devient plus fiable devrait être utilisé quand l’hypothèse nulle est intrinsèque vs extrinsèque Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04

Note importante sur les tests de normalité! Quand N est petit, la plupart des tests sont peu puissants Il faut que les différences soient grandes afin de rejeter l’hypothèse nulle Quand N est grand, la puissance est grande Même de petites différences peuvent amener un rejet de l’hypothèse nulle Utilisez votre gros bon sens! Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-15 07:04