Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log- linéaires Types de questions L’hypothèse nulle Tests d’indépendance Subdivision des tableaux de contingence Séries statistiques multiples et modèles log-linéaires
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 2 Types de questions Impliquent 2 (ou plus) variables discontinues ayant chacune 2 catégories ou plus Var. dépendante: nombre d’observations (fréquences observées) dans chaque catégorie éprouvent l’absence d’indépendance Résultats des tests sur l’efficacité de deux aérosols (1,2) contre la tavelure.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 3 Types de questions Est-ce que la composition en espèces de communautés d’oiseaux diffère entre habitats? 2 variables discontinues: espèce et type d’habitat H 0 : la proportion d’individus de chaque espèce est indépendante (c’est-à-dire environ la même) de l’habitat)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 4 Composantes du test statistique Hypothèse nulle Observations (fréquences observées) Statistique (Chi-carré ou G) Conditions d’application
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 5 L’hypothèse nulle H 0 : les observations sont indépendantes H 0 : les fréquences relatives des observations de la variable A sont indépendantes de celles de la variable B. Il n’y a pas d’interaction. L’hypothèse nulle est toujours intrinsèque!
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 6 Éprouver H 0 : la qualité d’ajustement (goodness-of-fit_ On ajuste un modèle aux données. H 0 specifie certaines valeurs pour les termes (coefficients) du modèle… …et est évaluée en examinant la qualité d’ajustement du modèle avec les paramètres spécifiés par H 0,, i.e. le goodness-of-fit.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 7 Rappel: qualité d’ajustement. Mesure comment une distribution empirique « suit » la distribution attendue selon l’hypothèse nulle Observé Attendu Longueur Fréquence
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 8 Éprouver la qualité d ’ajustement : le khi carré ( Données de fréquence, i.e. le nombre d’observation dans chacune des n catégories, comparées aux fréquences attendues selon l’hypothèse nulle. Fréquence Catégorie/classe Observé Attendu
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 9 H 0 acceptée H 0 : la proportion de pommiers infectés vs les non-infectés est la même pour les deux aérosols. accepter H 0. Proportion de pommiers infectés Aérosol 2 Aérosol 1
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 10 H 0 rejetée H 0 : la proportion des pommiers infectés vs les non-infectés est la même pour les deux aérosols. rejeter H 0. Proportion de pommiers infectés Aérosol 2 Aérosol 1
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 11 La procédure générale On ajuste 2 modèles: une avec terme d ’interaction et l ’autre On évalue la qualité d’ajustement des deux modèles On évalue la diminution de qualité d’ajustement si on n’inclue pas le terme d’intéraction (selon H0 il n ’y a pas d’interaction). Modèle 1 (avec interaction) Modèle 2 (sans interactio) GOF (e.g. 2 ) Accepter H 0 ( petit) Rejeter H 0 ( grand)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 12 Tableaux à deux critères H 0 et ajustement Modèle contient une constante, deux effets principaux, et une interaction Indépendance implique que la qualité d’ajustement n ’est pas accrue par la présence du terme d interaction Sans interaction Avec interaction Accepter H 0 Qualité d’ajustement Rejeter H 0 GOF
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 13 Tableau à 2 catégories: signification du modèle général Le modèle tente de prédire les fréquences observées dans chaque catégorie. Alors, si toutes les fréquences sont égales, un modèle plus approprié serait: N = 80, = 80/4 = 20
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 14 Tableau à 2 critères de classification: signification du modèle général Si N est différent d’un traitement à l’autre, il y aura un effet du traitement Alors, un modèle plus approprié incluerait l’effet du traitement: N = 90, = 90/4 = 22.5 p 1 = 60/90 = 0.67 p 2 = 30/90 = 0.33
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 15 Tableau à 2 critères de classification: signification du modèle général Si le nombre total de pommiers infectés est différent du nombre de pommiers sains, il y aura un effet du niveau d’infection Alors, un modèle plus approprié qui inclurait l’effet du traitement et du niveau d’infection serait: N = 90, = 90/4 = 22.5 p 1 = 60/90 = 0.67 p 2 = 30/90 = 0.33 p i = 30/90 = 0.33 p non i = 60/2 = 0.67
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 16 Tableau à 2 critères de classification: signification du modèle général La fréquence attendue dans la cellule (ij) est: la taille de l’interaction est donnée par: N = 90, = 90/4 = 22.5 p 1 = 60/90 = 0.67 p 2 = 30/90 = 0.33 p i = 30/90 = 0.33 p non i = 60/2 = 0.67
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 17 Tests d’indépendance : le Chi-carré ( Calculer la fréquence attendue pour chacune des cellules du tableau. Calculer la somme des différences au carré entre la fréquence observée et celle attendue Fréquence Catégorie/classe Observé Attendu
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 18 Tests de l’indépendance:statistique G, rapport du log de vraisemblance Semblable au 2, les résultats sont similaires dans certains cas, G est plus conservateur, c’est-à-dire qu’il donne des valeurs de p plus élevées Fréquence Catégorie/classe Observé Attendu
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 19 Exemple: le rapport des sexes de canards eider dans différents habitats de la Baie d’Hudson Les valeurs inscrites au tableau sont les valeurs observées (fréquences brutes) des mâles et des femelles pour les différents habitats
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 20 Calcul de fréquences attendues À partir de l’hypothèse nulle intrinsèque calculer les probabilités d’appartenir à chacune des cellules du tableau si les données étaient indépendantes Diviser le nombre total d’observations d’après ces probabilités p(A) = 64/160 =.40; p(mâle) = 97/160 = p(A, mâle) si H 0 = p(A)p(mâle) =.2425 p(A, mâle) si H 0 = p(A)p(mâle) =.2425 f(A, mâle) = p(A, mâle) X 160 = 38.8 f(A, mâle) = p(A, mâle) X 160 = 38.8
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 21 Conditions d’application ( 2 et G) n est plus grand que 30 fréquences attendues > 5 ce test est assez robuste sauf quand il n’y a que 2 catégories (dl = 1) quand il n’y a que 2 catégories, X 2 et G surestiment 2, menant au rejet de H 0 avec une probabilité > le test est libéral
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 22 Que faire si n est trop petit, qu’il n’y a que 2 catégories, etc.? augmenter n si n > 2, combiner des catégories utiliser un facteur de correction utiliser un autre test
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 23 Exemple: Combiner des catégories Avec trois catégories d’habitats, la fréquence attendue, pour 2 cellules, est trop petite alors, on combine l’habitat B et C
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 24 Corrections pour 2 catégories Quand il n’y a que 2 catégories, X 2 et G surestiment 2, le test est libéral. H 0 est rejetée avec une probabilité > Ajustement pour la continuité: ajouter 0.5 aux fréquences observées Ajustement de Williams: consiste à diviser la statistique (G ou 2 ) par: q = 1 + (k 2 - 1)/(6n(k-1))
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 25 Division de tableaux Lorsque H 0 est rejetée, vous voudrez savoir quelle catégorie est apparemment responsable la procédure générale est de produire le plus grand sous-tableau homogène commencer avec le plus petit tableau homogène, ajouter ensuite des lignes ou des colonnes jusqu’à ce que H 0 soit rejetée
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 26 Division des tableaux FemelleMâle A Total B C16124 Habitat Interaction significative
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 27 Division des tableaux FemelleMâle A Total B C16124 Habitat Interaction significative
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 28 Division des tableaux FemelleMâle A Total B C16124 Habitat Pas d’interaction significative
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 29 Division de tableaux FemelleMâle A Total B C16124 Habitat Conclusion: les habitats B et C sont homogènes et sont différents de A
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 30 Conclusion Les tableaux de contingence sont l’une des méthodes d’analyse les plus communes Ils permettent d’effectuer des tests robustes d’indépendance (chi-carré ou G)... … si l’effectif est suffisant et les fréquences attendues ne sont pas trop petites
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 31 Tableau à plusieurs critères de classification et modèles log-linéaires L’interaction entre plusieurs variables simultanément doit être considérée analogue à l ’ANOVA à plusieurs critères de classification
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 32 Tableaux à deux critères : H 0 et ajustement Sans interaction Avec interaction Accepter H 0 Qualité d’ajustement Rejeter H 0 GOF Modèle contient une constante, deux effets principaux, et une interaction Indépendance implique que la qualité d’ajustement n ’est pas accrue par la présence du terme d interaction
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 33 Tableaux à plusieurs critères et modèles loglinéaires Pour un tableau à trois critères, le modèle contient une constante, 3 termes principaux, 3 interactions du à 2 termes et une interaction à trois termes. Indépendance implique que la qualité d’ajustement n’est pas diminuée lorsque un terme d’interaction est enlevé. Sans interaction Avec interaction Qualité d’ajustement GOF
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 34 Tableau à plusieurs critères de classification et modèles loglinéaires Effets de la température (H,B) et de l’humidité (H,B) sur le rendement de plantes il n’y a pas d’interaction à 3 termes puisque l’interaction entre le rendement et la température ne dépends pas de l’humidité Fréquence Classe de rendement Humidité Température H B HB Bas rendement Haut rendement
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 35 Tableau à plusieurs critères de classification et modèles loglinéaires Effets de la température (H,B) et de l’humidité (H,B) sur le rendement de plantes présence d’interaction à 3 termes puisque l’effet de la température sur le rendement dépends de l’humidité Fréquence Classe de rendement Humidité Température H B HB Bas rendement Haut rendement
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 36 Marche à suivre Tester les interactions de plus grand ordre en comparant l’ajustement du modèle complet et celui dont les interactions ont été enlevées. Si ces interactions ne sont pas significatives, tester les interactions d’ordre inférieur individuellement (c’est-à- dire: en incluant les autres) Si l’interaction est significative, tester séparément dans chacune des catégories du (des) facteur(s) impliqués.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 37 Exemple: le rapport des sexes de l’esturgeon dans la rivière Saskatchewan Quel est le “meilleur” modèle qui peut s’ajuster à ces données? Est-ce que le rapport des sexes est fonction du site? De l’année? De l’interaction Site*Année?
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 38 Questions/hypothèses nulles Est-ce que la rapport des sexes varie avec les années? H 0 : ( ) ij = 0 Est-ce que la rapport des sexes varie avec le site? H 0 : ( ) ik = 0 Est-ce que la rapport des sexes varie avec les combinaisons (année,site)? H 0 : ( ) ijk = 0
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 39 Ajustement d’un modèle log-linéaire avec SYSTAT Tester l’interaction à 3 termes en spécifiant le modèle qui contient les 6 termes Conclusion: accepter H 0
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 40 Ajustement d’un modèle loglinéaire (suite)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 41 Les résidus dans les tableaux de contingence et les modèles loglinéaires La différence entre les fréquences observées et attendues une valeur résiduelle pour chacune des cellules du tableau si le modèle est bon, les valeurs des résidus devraient être petites et ne pas montrer de patrons évident
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 42 Puissance et effectif Une hypothèse extrinsèque qui prédit les fréquences ou les proportions attendues: La taille de l ’effet est calculée par: Fréquence Catégorie/classe Observé Attendu
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 43 Calculer la puissance à partir de w Pour un w et N donnés, on peut lire 1- sur des figures appropriées (e.g. Cohen (1988), Tables 7-3.) 1- Decreasing N = =.01 w
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 44 Puissance: un exemple Hypothèse biologique: couleur du plumage de l’oie blanche déterminée par un locus avec 2 allèles, aa = blanc, Aa, AA = bleu. Donc un croisement Aa X Aa devrait donner un rapport 1 (AA): 2(Aa): 1(aa). so 1 - = 1.00
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 45 Puissance: un exemple (suite) H 0 accepté, taille de l ’effet est Du tableau, Donc, > 84% chances d ’une erreur de type II, la probabilité de détecter un effet d ’une taille de.076 est très petite.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 46 Puissance et effectif Calculer les proportion attendues p 0,ij selon H 0 d’indépendance La taille de l ’effet est: Dl = (R-1)(C-1)=
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 47 Puissance: un exemple Structure d’âge de deux populations de souris. Donc, environ 15% d ’une erreur de type II. Proportions, N = 140