Comparaison de deux pourcentages observés Situation du problème : 2 Variables qualitatives dichotomiques La première permet de caractériser chaque groupe La seconde est le critère de jugement Comparaison de pourcentage dans deux groupes indépendants En fait, On dispose de deux échantillons (A et B) sur lesquels on a mesuré une variable qualitative binaire Ces deux échantillons peuvent-ils être considérés comme étant issus de la même population ? (Les deux pourcentages (Pa, Pb sont ils deux estimateurs du même pourcentage P ?) Problème très fréquent Exemple : On traite deux groupes de souris par deux goudrons par tirage au sort et on observe le pourcentage de survenue de cancers à 6 mois dans chaque groupe.
Comparaison de deux pourcentages observés Hypothèses Hypothèse nulle H0 : Les 2 échantillons peuvent être considérés comme issus d ’une population ayant comme pourcentage P Pa et Pb sont deux estimateurs de Ptha et Pthb avec Ptha = Pthb = P Hypothèses alternatives : Test bilatéral Ptha # Pthb Test unilatéral Ptha > Pthb ou (exclusif) Ptha< Pthb Eléments nécessaires au calcul : Na , Nb = Effectifs de chaque groupe Pa et Pb = Pourcentage observé dans chaque groupe Autres éléments : Na+ , Nb+ = Effectifs présentant le caractère dans chaque groupe Na+ + Nb+ P = = Pourcentage commun qui serait observé sous l’hypothèse nulle par réunion des deux groupes Na + Nb
Comparaison de deux pourcentages observés Statistiques utilisables Khi 2 Epsilon ou u (Loi normale) Remarque : ces deux tests sont équivalents et ont les mêmes conditions d ’application : Na * P > 5; Nb * P > 5 Na *(1-P) >5; Nb *(1-P) On approche une loi binomiale par une loi normale Si les conditions ne sont pas remplies on prend une autre méthode
Comparaison de deux pourcentages observés Utilisation du KHI2. Test Bilatéral (unilatéral possible mais moins habituel) Tableau des valeurs observées : Sous l’hypothèse nulle: on aurait dû observer pour le groupe 1 : Effectif attendu de cancer : P * Na Ath= A + C A + B + C + D * (A + B) = (A + C) * (A + B) N Remarque : Quand on a calculé un effectif théorique, on obtient les autres par différence avec les effectifs marginaux. Pour chaque case, la différence entre l’effectif théorique et l’effectif observé est la même.
Comparaison de deux pourcentages observés Utilisation du KHI2. Tableau des valeurs observées et théoriques : A Ath B Bth C Cth D Dth Statistique : Khi 2 = (A- Ath) 2 Ath + DDL = 1 (B- Bth) Bth (C- Cth) Cth (D- Dth) Dth [(A*D)-(B*C)] * N 2 Khi 2 = (A+C) * (B+D) *(A+C) *(C+D) Remarque : La première formulation permet de vérifier les conditions d’application : Ath ,Bth ,Cth ,Dth doivent être supérieurs à 5
Comparaison de deux pourcentages observés Utilisation du KHI2. Décision : Valeur critique : table du Khi 2 Pour alpha = 0,05 Khi2 à 1 DLL = 3,84 Khi 2 > Khi2 alpha Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p Khi 2< Khi2 alpha On accepte H0. Attention au risque Bêta Remarque : les conditions d’applications sont discutées par les différents auteurs. On sera d’autant plus prudent qu’au moins un effectif théorique est proche de 5 et que le résultat est proche de la signification.
Comparaison de deux pourcentages observés Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ? Hypothèses HO : La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P H1 : test bilatéral Path # Pbth Récapitulatifs des données Pa = 0,20 , Pb = 0,12 Na = 50; Na+ = 50 * 0,2 = 10 Nb = 50; Nb+ = 50* 0,12= 6 P = 0,16 = (10+6)/(50+50)
Comparaison de deux pourcentages observés Utilisation du KHI2. Tableau des valeurs observées et théoriques : Nombre de souris avec cancer souris sans Cigarettes 10 40 50 Cigares 6 44 16 84 100 8 42 Tous les effectifs théoriques sont supérieurs à 5 => Les conditions d’application sont remplies Khi 2 = (10- 8) 2 8 + DDL = 1 (6- 8) (40- 42) 42 (44- 42) Khi 2 = 1,19 Khi 2 alpha 5% DDL 1 = 3,84 => La différence n’est pas significative au seuil de risque 5%
Comparaison de deux pourcentages observés Utilisation d’une variable normale centrée réduite : u ou epsilon. Test bilatéral ou unilatéral. Sous H0 on aurait dû observer un pourcentage théorique dont le meilleur estimateur est obtenu en regroupant les observations Soit les données : Na = Effectif du groupe 1 Na+ = Effectif présentant le caractère dans le groupe 1 Nb = Effectif du groupe 2 Nb+ = Effectif présentant le caractère dans le groupe 1 Pa = Pa = P = Na+ Nb+ (Na+) + (Nb+) Na Nb Na + Nb
Comparaison de deux pourcentages observés u ou epsilon : u = |Pa - Pb | P * (1-P) + Na Nb u alpha est lu dans la table de l’epsilon. u 5% = 1,96 Décision Si u > ualpha on rejette H0. Il existe une différence statistiquement significative. On cherche le degré de signification p Si u < ualpha on ne peut pas rejeter H0. Attention au risque Beta. Remarque : le u est la racine carrée du khi 2 que l’on aurait pu calculer.
Comparaison de deux pourcentages observés Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ? Hypothèses HO : La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P H1 : test bilatéral Path # Pbth Récapitulatifs des données Pa = 0,20 , Pb = 0,12 Na = 50; Na+ = 50 * 0,2 = 10 Nb = 50; Nb+ = 50* 0,12= 6 P = 0,16 = (10+6)/(50+50)
Comparaison de deux pourcentages observés u ou epsilon : u = |0,20 -0,12| 0,16 * 0,84 + 50 u = 1,091 u 5% = 1,96 => La différence n’est pas significative au seuil de risque 5% Remarque : 1,091 est la racine carrée de 1,19 valeur du khi 2 précédent.