La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

Présentations similaires


Présentation au sujet: "Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,"— Transcription de la présentation:

1 Les tests dhypothèses

2 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces, v.a. discrète. Problème : comment faire si on doit représenter le même genre dhistogramme pour une v.a. pouvant prendre nimporte quelle valeur dans [0;1] uniformément ?

3 3 Densité Pour les v.a. continues, on ne peut plus caractériser la probabilité point par point, on a donc recours à une fonction nommée densité. On définit pour X la probabilité dappartenir à un intervalle [a;b] Propriétés remarquables : La densité dune somme est la convolée des densités.

4 4 Loi normale Densité de la loi normale de moyenne et décart type N (, ) Ex: loi normale N (0,1)

5 5 Table de la loi normale

6 6 Théorème Central Limit Théorème : Soit X i une suite de v.a. de même loi despérance μ et décart type σ. Alors la v.a. converge en loi vers une v.a. normale centrée réduite N (0,1). Conséquences : la moyenne des X i converge vers une N (μ, σ/ n ). une proportion F n tend vers une N (p, σ/ (p(1-p) / n) ). Attention : On suppose tout de même lexistence dun écart type fini !!!

7 7 But des tests dhypothèses: Répondre à des questions de la forme : Cette pièce est-elle truquée ? Ces deux populations sont-elles significativement différentes ? Est-il possible que ces données suivent une loi Gaussienne ? En fait on cherche à trancher entre deux hypothèses dont une et une seule est vraie en ayant une idée sur les erreurs commises. Soient H 0 et H 1 ces deux hypothèses. α et β sont des probabilités α erreur de première espèce β erreur de seconde espèce 1-β est la puissance du test H 0 vraieH 1 vraie H 0 décidée1-αβ H 1 décidéeα1- β

8 8 Région dacceptation α étant fixé, il faut choisir une variable de décision X dont le comportement est connu sous lhypothèse H 0. Ω ensemble des possibles pour X A : Région dacceptation de H 0 P(X A /H 0 )=α P(X A /H 1 )=1-β R : Région de rejet de H 0 P(X R /H 0 )=1-α P(X R /H 1 )=β

9 9 Sur un exemple On souhaite construire un test au niveau 5% permettant de détecter si une pièce est truquée ou non. On se donne pour cela 1000 tirages. H 0 : « la pièce est normale » H 1 : « la pièce est truquée » Si H 0 est vraie la pièce doit faire « pile » avec une probabilité ½. Donc si X est le nombre de « pile » : X B (1000,1/2) ; cette loi est approximée par une N (500, 250) Il faut trouver une région R telle que X soit dans R avec probabilité 95%.

10 10 Exemple (2) On cherche a et b tels que P(X [a,b] / H 0 ) 0.95 P( N (500, 250) [a,b] ) 0.95 P( N (0,1) [(a-500)/ 250,(b-500)/ 250] ) 0.95 Il faut trouver les valeurs des bornes de lintervalle de confiance.

11 11 Table de la loi normale

12 12 Exemple (3) a b On accepte H 0 (la pièce nest pas truquée) si X est dans [470;530]. On rejette H 0 dans les autres cas. On est sûr que si H 0 est vraie, il ny a que 5% des cas où on ne va pas le détecter. Que se passe t-il dans le cas où H 1 est vraie ?

13 13 Exemple (4) Impossible de déterminer la puissance de notre test. Pour capable de la minorer, il faut se fixer une tolérance sur le biais de la pièce. Par exemple on tolère les pièces dont la probabilité de faire pile est comprise entre 0.49 et = P(X [469;530] / H 1 ) > P( N (510, 249.9) [469;530] ) = P( N (490, 249.9) [469;530]) = P( N (0,1) [ ; 2.530]) = Passage à un test unilatéral (on sait que les pièces truquées font moins de piles) Au niveau 5%, le rejet à lieu si X < 474 La puissance est minorée (pour une tolérance de 0.01) par

14 14 Lien entre seuil et risque

15 15 Loi du 2 Elle possède un paramètre : m « degré de liberté » Soit (x i ) une suite de v.a. indépendantes suivant une N (0,1) alors : Remarque :

16 16 Test du 2 Cest un test dadéquation dune loi de probabilités à des données. Soit {x 1,…,x n } un échantillon de n réalisations indépendantes de la v.a. X Soit f(x) la densité réelle de X Soit f* notre hypothèse sur la densité de X (les paramètres de f* sont soit connus soit estimés à partir des données) H 0 : f(x) = f*(x) H 1 : f(x) f*(x) A partir de léchantillon on construit un histogramme pour X de k classes C i. Soit O i le nombre dobservations dans la classe C i Les classes sont déterminées à partir des valeurs prises dans léchantillon au bon vouloir de lutilisateur.

17 17 On construit ensuite le tableau suivant : suit une 2 à degrés de libertés = k – nombre de relations entre effectifs théoriques sous H 0 et effectifs observés. En fait I mesure une « distance » entre la distribution attendue et la distribution observée Pour construire un test au niveau de H 0 contre H 1, il suffit de choisir un seuil s tel que P(I>s/H 0 )<, ce qui est facile car sous H 0 I suit un 2 dont les valeurs sont tabulées. C1C1 C2C2 …CkCk Effectif ObservéO1O1 O2O2 OkOk Effectif théorique sous H 0 P(X C 1 /f=f*).nP(X C 2 /f=f*).nP(X C k /f=f*).n Carré de la différencea1a1 a2a2 akak

18 18 Expérience de Mendel Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). On croise deux individus dont le génotype est CcRr. Dans ses expériences, Mendel a obtenu les résultats suivants. I=0.47 à comparer avec la valeur dun 2 à 3 ddl (au niveau 5% on rejette H 0 dessus de 7.815). En réalité sous H 0 on avait seulement 8% de chances davoir des résultats aussi proches de la théorie… Jaune Rond Jaune Ridé Vert Rond Vert Ridé Effectif observé Effectif théorique Proportion théorique9/163/16 1/16

19 19 2 de contingence Utilisé pour tester lindépendance de deux caractères A et B dans une même population. Chacun des deux caractères possède plusieurs classes. H 0 : « Algo 1 » et « Algo 2 » ont des performances équivalentes. H 1 : « Algo 1 » et « Algo 2 » ont des performances différentes. Effectifs observés Effectifs attendus sous H 0 A \ BAlgo 1Algo 2Total Bien classés Mal classés Total A \ BAlgo 1Algo 2Total Bien classés Mal classés Total

20 20 2 de contingence (2) Différence entre observation Carré des différences divisé par et effectifs attendusleffectif attendu En fait on observe la statistique Avec h nb de lignes, k nb de colonnes O(i,j) effectif observé en (i,j) E(i,j) effectif attendu en (i,j) Sous H 0 I suit un 2 à (h-1)(k-1)=1 degré de liberté Donc pour un test au niveau 1% on rejette H 0 (le seuil est de 6.635) A \ BAlgo 1Algo 2Total Bien classés Mal classés Total000 A \ BAlgo 1Algo 2Total Bien classés Mal classés Total

21 21 Remarques Pour un tableau 2x2 cest mal de faire un 2 car il est équivalent à un t-test sur les proportions qui possède deux avantages : Possibilité de calculer la puissance pour le t-test; On peut créer un test unilatéral alors que 2 est toujours bilatéral ce qui signifie que lon obtient que des informations du type « algo 1 et algo 2 sont différents » mais pas davantage. On peut citer de nombreux autres tests : Tests du maximum de vraisemblance Test de Fisher (variances) ; Student (moyennes) ; Kolmogorov-Smirnov, Cramer (tests sur fonction répartition) ; Spearman (indépendance des réalisations) … ANOVA (analyse of variance).

22 22 Documents utiles Jean-Michel JOLION : Stephan MORGENTHALER « Introduction à la statistique », Presses Polytechniques et Universitaires Romandes SMEL Projet de lINRIA sur les statistiques en médecine.

23 23 Densité


Télécharger ppt "Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,"

Présentations similaires


Annonces Google