STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Un test consiste à Population caractère observé X, de moyenne de variance ² Émettre une hypothèse, notée H 0, appelée hypothèse nulle, sur un paramètre de X, sa loi... Construire une règle de décision Déterminer la zone de rejet de l’hypothèse H 0 en fonction d’un risque d’erreur que l’on veut bien accepter Prendre une décision Choisir une grandeur calculée à partir de l’échantillon, appelée statistique Proposer une hypothèse alternative, notée H 1
LES RISQUES D’ERREUR DANS UN TEST La réalité est La décision est Accepter H 0 H 0 vraie Rejeter H 0 H 0 fausse Bonne décision Mauvaise décision: Erreur = P(Rejeter H 0 sachant que H 0 est vraie) Mauvaise décision: Erreur = P(Accepter H 0 sachant que H 0 est fausse)
IMPORTANCE DU CHOIX DES HYPOTHESES H 0 est l’hypothèse à laquelle on tient le plus, la plus vraisemblable... Il est donc plus grave de la rejeter à tort que de l’accepter à tort = P(Rejeter H 0 sachant que H 0 est vraie) Pour construire le test on se fixe = P(Accepter H 0 sachant que H 0 est fausse) Souvent l’utilisateur ne calcule pas EXEMPLE: Les OGM sont-ils bons pour la santé? Point de vue de MONSANTO H 0 = les OGM sont bons Si n’est pas calculé, le choix de H 0 n’est pas innocent Point de vue du consommateur H 0 = les OGM ne sont pas bons
Test de comparaison d’une moyenne à une valeur donnée (variance connue) Hypothèses: H 0 = { = 0 } contre Statistique:qui est un bon estimateur de la moyenne Conditions d’application: connu. X suit une loi N( , ), n quelconque X quelconque, n > 5 (AFNOR) Si H 0 est vraie, = 0 Si H 1 est vraie, < 0 0 -h est une bonne estimation de donc est proche de Règle de décision: 00 Conclusion: Il existe 0 -h tel que 0 -h On rejette H 0 On accepte H 0 0 -h H 0 est vraie H 1 est vraie
suit une Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 1 donné et donc h = P(Rejeter H 0 sachant que H 0 est vraie) Zone de rejet: Règle de décision: 00 0 -h H 0 est vraie H 1 est vraie 0 -h On rejette H 0 On accepte H 0 0 -h
suit une Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 2 Décision: Règle de décision: 00 0 -h H 0 est vraie H 1 est vraie 0 -h On rejette H 0 On accepte H 0 0 -h Si < 0 -h, on rejette H 0 avec un risque connu de se tromper Si > 0 -h, on accepte H 0 avec un risque de se tromper = P(Accepter H 0 sachant que H 0 est fausse) est fonction de , et n’est pas toujours calculée par l’utilisateur. Si c’est le cas, plutôt que d’accepter H 0, il vaut mieux conclure que l’échantillon observé ne permet pas de rejeter H 0. Zone de rejet: permet de calculer h
La règle de décision dépend de H 1 0 -h On rejette H 0 Règle: 0 +h On rejette H 0 Règle: 0 -h On rejette H 0 ou 0 +h Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 3 ….. et fin H1H1 0 -h H1H1 0 +h H1H1 H1H1 0 -h H0H0 H0H0 H 1 = { 0 } H0H0
Test de comparaison d’une moyenne à une valeur donnée (variance inconnue) Hypothèses: H 0 = { = 0 } contre H 1 = { 0 } Règle de décision: 0 -h On rejette H 0 0 +h On rejette H 0 0 -h On rejette H 0 ou 0 +h Zone de rejet: Décision: en comparant à 0 -h ou (et) 0 +h = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Conditions d’application: inconnu. X suit une loi N( , ), n quelconque X quelconque, n 30 (AFNOR) Statistique:suit une T (n-1) (approximativement N(0,1) si n 30)
Test de comparaison d’une proportion à une valeur donnée Hypothèses: H 0 = { p = p 0 } contre ou f > p 0 +h Règle de décision: f p 0 -h On rejette H 0 f > p 0 +h On rejette H 0 f p 0 -h On rejette H 0 = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Zone de rejet: Décision: en comparant f à p 0 -h ou (et) p 0 +h Statistique:F bon estimateur de la proportion Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n 50 et np(1-p) 9 (AFNOR)
1 - 2 = 0 Test de comparaison de deux moyennes (variances connues) Conditions d’application: connus. X 1 suit une N( , ), X 2 suit une N( , ), n i quelconques X i quelconque, n i > 5 (AFNOR) Règle de décision: Zone de rejet: Statistique: Si H 0 vraie, suit une N( , d ) avec On rejette H 0 ou Décision: en comparant à h ou (et) -h = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Hypothèses: H 0 = { 1 = 2 } contre
1 - 2 = 0 Test de comparaison de deux moyennes (variances inconnues) Règle de décision: Zone de rejet: Hypothèses: H 0 = { 1 = 2 } contre On rejette H 0 Décision: en comparant à h ou (et) -h = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Statistique: Si H 0 vraie, suit une N( , s d ) avec On rejette H 0 ou Conditions d’application: n 1 et n 2 30 (AFNOR)
p 1 - p 2 = 0 Test de comparaison de deux proportions Règle de décision: Zone de rejet: Hypothèses: H 0 = { p 1 = p 2 } contre Décision: en comparant f 1 - f 2 à h ou (et) -h = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h On rejette H 0 f 1 - f 2 < -h On rejette H 0 f 1 - f 2 > h On rejette H 0 ou f 1 - f 2 < -h f 1 - f 2 > h Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n 1 p, n 1 (1-p), n 2 p, n 2 (1-p) 5 Statistique: Si H 0 vraie, F 1 - F 2 suit une N( 0, d ) avec et (estimation de p = p 1 = p 2 )
TEST D’AJUSTEMENT UN EXEMPLE On a observé pendant une longue période le montant hebdomadaire des dépôts en liquide dans la banque Ibardinescroak de Saint Jean de Luz. [ ][ ][ ][ ][ ][ ] montant effectif Montant des dépôts Fréquence Le montant hebdomadaire des dépôts peut-il être considéré comme une loi Normale ?
Première étape: estimation des paramètres Estimation ponctuelle: Deuxième étape: ajustement à une loi normale Le montant hebdomadaire des dépôts est-il issu d’une v.a. X de loi Normale ( = 6561 ; = 2016) ?
ObservationsX loi N(6561 ; 2016) Classe i n i = effectif observé dans la classe i n densité p i = P(X classe i) np i = effectif théorique dans la classe i Si les observations sont issues de la loi Normale (6561 ; 2016), les effectifs observés n i dans la classe i doivent être très proches des effectifs théoriques np i. Comment mesurer globalement la proximité des deux graphiques ? nini = aire de la surface de la classe i np i = aire de la surface de la classe i
Nombre de classes de la variable Nombre de paramètres estimés La proximité des 2 aires peut être mesurée par n i - np i Plus cette quantité est faible (positive ou négative) plus les aires sont proches La proximité des 2 graphiques peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 graphiques 2 1) Une mesure intuitive 2) Une mesure probabiliste n i est une observation d’une v.a. Effectif observé Effectif théorique = Efo i - Eft i qui suit une loi de ² à = (k - r - 1) d.d.l. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité
Remarques importantes L’utilisation de la loi du ² n’est justifiée que si les effectifs théoriques de chacune des classes est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des classes contiguës afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du ² dépend du nombre de classes après regroupement. Le nombre de classes et l’amplitude des classes n’a pas d’importance
Résumé sur le test d’ajustement Règle de décision: Zone de rejet: Hypothèses: Décision: en comparant d à h Statistique: H 0 = { les observations sont issues d’une certaine loi} contre H 1 = { les observations ne sont pas issues de cette loi } On rejette H 0 d > h l’échantillon observé ne permet pas de rejeter H 0 d < h = P(Rejeter H 0 sachant que H 0 est vraie) =, d’où h est une ² à = (k - r -1) d.d.l. Si H 0 vraie,
TEST D’INDEPENDANCE DE 2 VARIABLES Y a-t-il un lien entre le montant des dépôts et la catégorie socio-professionnelle ? UN EXEMPLE Catégories socio- professionelles Professions libérales employés Fonctionnaires Moins de 500 €Entre 500 et 2000 €Plus de 2000 € Montant des dépôts en liquide dans la banque Ibardinescroak en 2005 Total X Y
= = = Etudions la distribution de chacune des catégories professionnelles Si la variable X était indépendante de la variable Y, les distributions de chaque modalité de X seraient identiques, n ij / n i. = n. j / n pour tout i et j et identiques à celle du total
Tableau initialTableau lorsque X et Y sont indépendantes Si les 2 variables X et Y sont indépendantes, les 2 tableaux doivent contenir des valeurs très proches: n ij doit être très proche de, pour tout i et j Comment mesurer globalement la proximité des deux tableaux ?
Nombre de modalités de la variable en ligne Nombre de modalités de la variable en colonne La proximité de 2 cellules peut être mesurée par Plus cette quantité est faible (positive ou négative) plus les cellules sont proches La proximité des 2 tableaux peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 tableaux 2 1) Une mesure intuitive 2) Une mesure probabiliste n ij est une observation d’une v.a. Effectif observé Effectif théorique = Efo ij - Eft ij qui suit une loi de ² à = ( -1)(c-1) d.d.l. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité
Remarques importantes L’utilisation de la loi du ² n’est justifiée que si les effectifs théoriques de chacune des cellules est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des modalités d’une des 2 variables afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du ² dépend du nombre de modalités des 2 variables après regroupement.
Résumé sur le test d’indépendance de deux variables Règle de décision: Zone de rejet: Hypothèses: Décision: en comparant d à h Statistique: H 0 = { les 2 variables X et Y sont indépendantes } contre H 1 = { les 2 variables X et Y sont dépendantes } On rejette H 0 d > h l’échantillon observé ne permet pas de rejeter H 0 d < h = P(Rejeter H 0 sachant que H 0 est vraie) =, d’où h est une ² à = ( -1)(c-1) d.d.l. Si H 0 vraie,