Introduction aux statistiques Week 1 Lecture 1 Introduction aux statistiques Le test du c2 L1 STE
Test du χ2 Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori ou à une population donnée. Test du χ2 d’homogénéité: Il s'agit alors de se demander si deux listes de nombres de même effectif peuvent dériver de la même loi de probabilité. Principe L’analyse se fait à l’aide d’un tableau de corrélation (variables quantitatives regroupées en classes) ou (plus souvent) de contingence (variables qualitatives). Il ne concerne que des données discrètes. On calcule les fréquences attendues de chacune des cases puis les écarts entre celles-ci et les fréquences observées.
Préparation des données. Test du χ2 Tableau de contingence: les MnMs transgéniques
Préparation des données. Test du χ2 Les tableaux de corrélation: le territoire et la masse des marsupiaux
La loi du Khi carré: c2 Si Z1, Z2, Zn sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du c2 à n degrés de libertés
La loi du Khi carré: c2
La loi du Khi carré: c2 En fait, les calculs sont fastidueux -> TABLES
La loi du Khi carré: c2
Conformité. Test du χ2 Pour calculer la statistique χ2, on a besoin des: - fréquences absolues observées - fréquences absolues attendues Remarque importante: les fréquences du tableau sont des fréquences absolues observées, jamais des fréquences relatives!
Conformité. Test du χ2 Les fréquences attendues (théoriques) sont nécessaires 1. Si on connaît déjà (grâce à une théorie) les fréquences attendues théoriques, on les utilise directement. Exemple: l'hérédité des pois de Mendel:
Conformité. Test du χ2 Test du χ2 H0 : Il n’y a pas de relation entre les variables… χ2 = 0 H1: Il y a une relation entre les variables… χ2 > 0
où, si N est la fréquence totale Conformité. Test du χ2 où, si N est la fréquence totale H0: c2=0 H1: c2>0 Si c2 = 0, fréq théoriques identiques aux fréq. obs., si c2 > 0, elles ne sont pas exactement identiques.
Conformité. Test du χ2 Unités 1 2 3 4 5 6 7 8 9 Fréq Obs 17 31 29 18 Un exemple Le tableau suivant montre la distribution des unités 0, 1,2, …, 9 d’une table de nombres aléatoires comportant 250 nombres. Est-ce que la distribution observée est significativement différente de la distribution théorique? Unités 1 2 3 4 5 6 7 8 9 Fréq Obs 17 31 29 18 14 20 35 30 36 Fréq Est. 25 Solution: critique à n = 10-1 = 9 degrés de liberté = 16,92 23.3>16,92. Cette table de nombre aléatoire est suspecte.
Pourquoi 9 degrés de liberté dans l’exemple précédent? Degré de liberté. Test du χ2 Pourquoi 9 degrés de liberté dans l’exemple précédent? = k -1 si les fréquences théoriques peuvent être calculées sans avoir à estimer les paramètres de la population à partir des statistiques d’échantillon. = k – 1 – m si les fréquences théoriques peuvent être calculées en n’estimant que m paramètres de la population à partir des statistiques d’échantillon. Idéalement, au moins 5 occurrences par case!
Degré de liberté. Test du χ2 26/03/2017 Statistiques
Homogénéité. Test du χ2 26/03/2017 Statistiques
Homogénéité. Test du χ2 26/03/2017 Statistiques
Impossibilité de rejeter H0 Homogénéité. Test du χ2 Guérit Ne guérit pas Total Groupe A (serum) 75 25 100 Groupe B (sans sérum) 65 35 140 60 200 Fréquences observées Guérit Ne guérit pas Total Groupe A (serum) 70 30 100 Groupe B (sans sérum) 140 60 200 Fréquences attendues sous H0 Impossibilité de rejeter H0
Homogénéité. Test du χ2 Exemple Tableau de contingence du nombre de joueurs de hockey de différentes nationalités utilisant différentes marques de bâtons de hockey. Étape 1 : Question “biologique” Le choix de la marque du bâton de hockey que les joueurs utilisent est-il influencé par l’origine du joueur?
Homogénéité. Test du χ2 Étape 2: Déclaration des hypothèses H0: il n’y a pas de préférence de marque de bâton de hockey chez les joueurs de différentes nationalités (donc: la variable "marque de bâton" et la variable "nationalité" sont indépendantes) : χ2 = 0 H1: les joueurs de différentes nationalités ont des préférences différentes au niveau de la marque de bâton de hockey qu’ils utilisent : χ2 > 0 Étape 3 : Test statistique utilisé Étape 4: Conditions d’application • données sous forme de fréquences • indépendance des observations • fréquences distribuées normalement
Homogénéité. Test du χ2 Calcul des fréquences théoriques: fth(i,j) = (ni × nj)/N exemple, la première cellule :
Homogénéité. Test du χ2 Étape 5 : Distribution de la variable auxiliaire Si H0 est vraie, la statistique χ2calc suit une distribution de χ2 à υ = (l – 1) × (c – 1) = (5 – 1) × (6 –1) = 20 d.d.l. On rejette H0 si χ2calc ≥ χ2(0,05, 20) = 31,41 Étape 6 : Règle de décision Étape 7: Calcul du test Étape 8: Décision statistique On ne rejette pas H0 au seuil α = 0,05 car si χ2calc < χ2(0,05, 20) Étape 9: Interprétation biologique Les joueurs de différentes nationalités n’utilisent pas des bâtons de hockey de marques différentes car les compagnies font la promotion de leurs bâtons avec la même intensité dans les pays étudiés.