Situation du problème : Comparaison de plusieurs distributions observées. Indépendance de deux caractères qualitatifs Situation du problème : On dispose de deux variables qualitatives (avec C et L modalités), que l’on a mesurées sur chaque sujet : exemple groupes sanguins et pays d’habitation. On a un tableau à C*L cases, un sujet est classé dans une case et une seule. Ceci revient à la comparaison de plusieurs distributions : on désire savoir si la distribution des groupes sanguins est la même dans les différents pays. Données : Données élémentaires : Sujet Groupe Sanguin Pays 1 A F 2 A D 3 B GB ..... Table de contingence A B AB O Tot F Obsij Ni. D GB Tot N.j N
Comparaison de plusieurs distributions observées Comparaison de plusieurs distributions observées. Indépendance de deux caractères qualitatifs Hypothèses : Hypothèse nulle Il y a indépendance entre les deux caractères. Sous cette hypothèse, la probabilité de présenter une modalité i,j est Pij = Pi. * P.j . L’effectif attendu est alors : Cij = N * Pi. * P.j . Ni. N = Effectif Total Ligne Estimation de Pi.= N.j N = Effectif Total Colonne Estimation de P.j= Effectif Total Ligne * Effectif Total Colonne Cij = Effectif Total Remarque : on doit calculer (C-1)*(L-1) Cij , les autres s’obtiennent par différence avec les totaux marginaux. On peut formuler l’hypothèse nulle sous la forme : les écarts constatés entre les effectifs observés Oij et théoriques Cij obtenus sous l’hypothèse d’indépendance sont dus aux fluctuations du hasard. Hypothèse alternative Il n’y a pas indépendance entre les caractères. La survenue de l’un influence l’autre
Statistique utilisée : Comparaison de plusieurs distributions observées. Indépendance de deux caractères qualitatifs Statistique utilisée : Khi 2 DDL = (L-1)*(C -1) Conditions d’application : Tous les effectifs théoriques doivent être supérieurs à 5 (Cij >5) Si l’un des effectifs théoriques est inférieur à 5, on doit regrouper les modalités quand cela est pertinent. 2 (Oij - Cij ) Khi 2 = ij Cij Décision : Khi 2 > Khi 2 alpha : on rejette H0. Il n’y a pas indépendance entre les deux caractères. Les distributions de l’un différent en fonction de l’autre. Il existe une liaison entre les deux caractères. La survenue de l’un influence la survenue de l’autre mais on ne sait rien sur la force de la liaison ni sur la causalité. Sinon on ne peut pas rejeter l’indépendance mais attention au risque Bêta
Exemple Exemple 1 On examine la répartition des groupes sanguins entre Nancy, Metz, Dijon, Strasbourg. On obtient la table de contingence suivante : Hypothèse nulle : La répartition des groupes sanguins est indépendante des villes. Hypothèse alternative : La répartition des groupes sanguins varie en fonction des villes. Statistique utilisée : Khi 2, risque alpha choisi 5% Effectif théorique Nancy et O = 1 368 * 1 000 2 794 On calcule les effectifs théoriques pour toutes les cases du tableaux. Les effectifs théoriques de la ligne Strasbourg et de la colonne AB peuvent être obtenus par différence avec les totaux marginaux
Exemple Exemple 1 (suite) 489,62 396,56 86,61 27,20 411,28 333,11 72,76 22,85 280,55 227,23 49,63 15,59 186,55 151,09 33,00 10,36 Les conditions d’application sont remplies (tous les effectifs théoriques sont supérieurs à 5). Khi 2 = (487 - 489,62) 489,62 2 + ...... + (3 - 10,36) 10,36 = 12,26 DDL = (4-1)*(4-1) = 9 Khi 2 5% pour DDL 9 = 16,92 On ne met pas en évidence de différence significative entre les distributions des groupes sanguins dans les 4 villes.