La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

Présentations similaires


Présentation au sujet: "1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart."— Transcription de la présentation:

1 1 L2 STE

2 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart type Médiane Pourcentage Tests usuels Principe (rappels) Théorie de la statistique de décision (rappels) Comparaison de deux moyennes expérimentales (grands et petits échantillons) Comparaison de moyennes de deux échantillons appariés Comparaison de deux fréquences expérimentales Comparaison de deux variances expérimentales Tests non-paramétriques Conditions dutilisation Utilisation des rangs Test de signe Test U de Mann-Whitney Test de Wilcoxon Test de Kolmogorov-Smirnov Plan

3 3 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations déchantillonnage. A partir dun échantillon, on na donc pas de certitudes mais des estimations de paramètres. L'estimation d'un paramètre peut être faite - par un seul nombre: estimation ponctuelle - par 2 nombres entre lesquels le paramètre peut se trouver: estimation par intervalle

4 4 Echantillonnage – Estimation dun paramètre Estimation ponctuelle dune moyenne Estimateur sans biais x barre Ecart type de la moyenne

5 5 Echantillonnage – Estimation dun paramètre Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de léchantillon

6 6 Intervalle de confiance de la moyenne Cas des grands échantillons (variance connue): Soit une population obéissant à une loi normale de moyenne et décart type. Echantillonnage – Estimation dun paramètre

7 7 Exemple: 45 hommes de Neandertal males adultes à 95% de confiance

8 8 Echantillonnage – Estimation dun paramètre

9 9 Cas des petits échantillons: Quand n<30 ou quand la variance est inconnue, on prend la loi de Student. Echantillonnage – Estimation dun paramètre Intervalle de confiance de la moyenne Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand… Pour = n-1 degrés de liberté

10 10 La loi de Student: t( ) degrés de liberté Converge vers la loi Normale quand augment.

11 11 La probabilité dobtenir une valeur de t à lextérieur de lintervalle (-t /2 et t /2 ) -> TABLES. La loi de Student: t( )

12 12 Echantillonnage – Estimation dun paramètre

13 13 Echantillonnage – Estimation dun paramètre Exemple: 6 hommes de Neandertal males adultes à 95% de confiance Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

14 14 Echantillonnage – Estimation dun paramètre Intervalle de confiance de la variance Soit une population obéissant à une loi normale de moyenne (inconnue) et décart type (inconnu). Pour = n-1 degrés de liberté

15 15 Si Z 1, Z 2, Z n sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du 2 à degrés de libertés La loi du Khi carré: 2

16 16 La loi du Khi carré: 2

17 17 En fait, les calculs sont fastidueux -> TABLES La loi du Khi carré: 2

18 18 La loi du Khi carré: 2

19 19 Echantillonnage – Estimation dun paramètre Intervalle de confiance de lécart type (idem) Soit une population obéissant à une loi normale de moyenne et décart type. Pour = n-1 degrés de liberté

20 20 Echantillonnage – Estimation dun paramètre Intervalle de confiance de la médiane Si un échantillon est extrait dune population approximativement normale, et si son effectif est relativement grand (n>60), la distribution déchantillonnage de la médiane sapproche de la loi normale.

21 21 Echantillonnage – Estimation dun paramètre Estimation ponctuelle dun pourcentage La population est formée dindividus ayant ou non un caractère A. Soit p la probabilité pour quun individu pris au hasard dans la population présente le caractère A. Quand on dispose dun seul échantillon de taille n, la meilleure estimation ponctuelle de P est donc la fréquence p observée sur léchantillon.

22 22 Echantillonnage – Estimation dun paramètre Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1- p)>5) La variable fréquence obéit à une loi normale centrée réduite Intervalle de confiance dun pourcentage

23 23 Echantillonnage – Estimation dun paramètre Un problème très fréquent! Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d'opinions favorables, en février de 36%. Un journaliste commente alors ces valeurs par "Le chef du gouvernement perd 2 points !!" En fait: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35;41] et [33;39] pour les valeurs 38% et 36%. Les deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse ou augmentation de la cote du chef de gouvernement.

24 24 L2 STE

25 25 On sait quun homme de Neandertal mesure en moyenne 165 cm. Sur un site on trouve 16 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon). Comparaison de la moyenne avec la valeur théorique de 165 cm Quel est le problème…? Théorie de la statistique de décision Possibilités: Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm Moyenne faiblement plus élevée: on ne pourra pas conclure si cest significativement supérieur à la norme ou si cest leffet du hasard.

26 26 Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence? H 0 : =165 (il ny pas de différence) H 1 : 165 Calcul de Sur la table la probabilité pour que la moyenne déchantillonnage soit différente celle de la population de plus 2,131 de écart-type est de 5%. Théorie de la statistique de décision

27 27 Les deux risques derreur dans un test. Erreur de 1 ere espèce Erreur de 2 nde espèce (compliquée) 1- A priori on ne sait pas à quel type derreur on sera confronté: Le résultat de léchantillon a révélé 167 cm probablement par pur hasard. On conclue que la moyenne pourrait être 165 cm alors quen fait elle est mesurée à 167 cm. Théorie de la statistique de décision

28 28 H 0 : hypothèse nulle ou principale Ex: Les haches de type A présentent les mêmes teneurs en Sn que les haches de type B. H 1 : hypothèse alternative ou contraire … Soumission à une épreuve de vérité! Conclusion : différence attribuable aux fluctuations déchantillonnage??? Théorie de la statistique de décision

29 29 Niveau de signification : un peu arbitraire… significatif : 0.05 hautement significatif : 0.01 très hautement significatif : Test bilatéral / unilatéral : bilatéral : différence sans se préoccuper du sens. Unilatéral : > ou <. Zone de rejet dun seul coté de la distribution de probabilité de référence. Echantillons indépendants ou appariés: Indépendants : aucune influence du 1 er ech sur le 2 nd. Appariés : prélèvements par paires. Ex : fumeurs H + F. Théorie de la statistique de décision

30 30 Comparaison des moyennes de 2 grands échantillons indépendants (n 1 et n 2 >30): Comparaison de deux moyennes expérimentales–grands échantillons - Deux échantillons qui suivent des lois normales: 1, 2 1 ; 2, 2 2 Si H 0 est vraie, Z c suit une loi normale N(0,1)

31 31 H 1 bilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

32 32 H 1 unilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

33 33 H 1 unilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

34 34 Pour résumer: Maintenant un exemple... Comparaison de deux moyennes expérimentales–grands échantillons -

35 35 Taille des silex sur deux sites Les moyennes de ces deux échantillons prélevés indépendamment lun de lautre diffèrent-elles dune façon hautement significative? Comparaison de deux moyennes expérimentales–grands échantillons -

36 36 n 1 et n 2 grands -> test sur la loi normale H 0 : a = b H 1 : a b (bilatéral) = 0.01, Z /2 = 2.57 Comparaison de deux moyennes expérimentales–grands échantillons -

37 37 H 0 rejetée au seuil de signification de 1% Comparaison de deux moyennes expérimentales–grands échantillons -

38 38 Comparaison dune moyenne empirique à une moyenne théorique Même principe que précédemment (quand n est grand): que lon teste sur la loi normale N(0,1) H 0 : = 0

39 39 Cas des petits échantillons: Test t Deux populations normales 1 et 2 de même variance (au moins approximativement) 2. Si n 1 et n 2 sont petits, s 2 x1 et s 2 x2 sont des estimateurs peu précis de 2. Dans ce cas, la variable différence centrée réduite nobéit plus à une loi normale mais à une loi de Student à =n 1 +n 2 -2 degrés de liberté. Comparaison de deux moyennes expérimentales– petits échantillons -

40 40 La variance de la distribution des différences de moyennes est estimées par s 2 D avec Comparaison de deux moyennes expérimentales– petits échantillons -

41 41 Ce qui donne… H 0 : a = b Avec = n 1 + n Comparaison de deux moyennes expérimentales– petits échantillons -

42 42 Si les variances savèrent inégales alors test t modifié. avec Comparaison de deux moyennes expérimentales– petits échantillons -

43 43 Comparaison dune moyenne empirique à une moyenne théorique Même principe que précédemment. Suivant si n est petit ou grand, on calcule les variables auxiliaires suivantes: que lon teste sur la loi de Student ou loi normale N(0,1) H 0 : = 0

44 44 Fondée sur les différences de chaque paire déléments On imagine que la différence obéit à une loi normale, mais en général on utilise une loi de Student à n-1 degrés de liberté: Comparaison de moyennes de deux échantillons appariés

45 45 H 0 : 1 = 2 ou d = 0 H 1 : 1 2, bilatéral H 1 : 1 > 2, unilatéral H 1 : 1 < 2, unilatéral Comparaison de moyennes de deux échantillons appariés t calculé pour = n-1 degrés de liberté

46 46 Comparaison de deux fréquences expérimentales Comparaison des fréquences de 2 grands échantillons indépendants. H 0 : p 1 = p 2 = p Deux échantillons : f 1, n 1 ; f 2, n 2 On approxime la loi binomiale par la loi normale mais: n 1 >30, n 2 >30, n 1 f 1 >5, n 2 f 2 >5, n 1 (1-f 1 )>5, n 2 (1-f 2 )>5

47 47 Comparaison de deux fréquences expérimentales Sous H 0 on peut réunir les deux échantillons, et on est conduit à lestimation de p Z c devient H 1 : p 1 p 2 H 1 : p 1 >p 2 H 1 : p 1


48 48 Comparaison dune fréquence empirique et dune fréquence théorique La différence entre f (mesuré) et p (théorique) est-elle seulement explicable par les aléas dus à léchantillonnage? On approxime la loi binomiale par la loi normale mais: n>30, np>5 et nq>5 H 0 : f = p H 1 : fp H 1 : f>p H 1 : f


49 49 Comparaison de deux variances expérimentales Deux échantillons qui suivent des lois normales: 1, 2 1 ; 2, 2 2 H 0 : 2 1 = 2 2 calcul de : Plus grande variance Plus petite variance >1 Si H 0 est vraie, F c suit une loi de Fisher-Snedecor avec 1 =n 1 -1 et 2 =n 2 -1

50 50 Soit 2 1 et 2 2, un couple de variables aléatoires indépendantes suivant respectivement des lois du 2 à 1 et 2 degrés de libertés. Utile pour les tests de variance et de covariance La loi de Fisher - Snedecor : F( 1, 2 )

51 51 La loi de Fisher - Snedecor : F( 1, 2 )

52 52 H 1 : 2 1 > 2 2 Sous H 0 : Pr(F c

53 53 H 1 : Sous H 0 : Pr(F c

54 54 Comparaison de deux variances expérimentales Table de Fisher- Snedecor

55 04/11/2013Statistiques55

56 04/11/2013Statistiques56 1. Généralités Conditions dapplication Utilisation des rangs 2. Les tests: Le test de signes Le test U de Mann-Whitney Le test de Wilcoxon Le test de Kolmogorov Smirnov Plan

57 04/11/2013Statistiques57 Les tests non paramétriques ne font aucune hypothèse sur la distribution sous- jacente des données. On les qualifie souvent de tests distribution free. Létape préalable consistant à estimer les paramètres des distributions (p.e. moyenne et écart type) avant de procéder au test dhypothèse proprement dit nest plus nécessaire. Quand?: 1.Léchelle des données est ordinale plutôt que sous forme dintervalles ou de rapports. Dans ce cas les opérations arithmétiques nont pas de sens! 2.Les mesures sont sur des échelles dintervalles ou de rapports mais les distributions de fréquences observées sont très éloignées de la distribution normale. Pourquoi et quand utiliser des statistiques non-paramétriques? 1. Généralités – Conditions dapplication

58 04/11/2013Statistiques58 DonnéesParamétriqueNon-paramétrique Distribution normale n grand Précis et fiableSi H 0 est rejeté, le résultat devrait être le même quavec le test paramétrique Si H 0 est accepté, le résultat nest peut être pas fiable Distribution non normale n petit Résultat absolument pas fiable: souvent un rejet de H 0 abusif Meilleur résultat possible avec de telles données 1. Généralités – Conditions dapplication

59 04/11/2013Statistiques59 DonnéesRangs x 1 = 4,3R(x 1 ) = 5 x 2 = 9,3R(x 2 ) = 8 x 3 = 0,3R(x 3 ) = 1 x 4 = 2,9R(x 4 ) = 3 x 5 = 3,2R(x 5 ) = 4 x 6 = 7,7R(x 6 ) = 7 x 7 = 5,0R(x 7 ) = 6 x 8 = 0,4R(x 8 ) = 2 On pourrait ordonner du plus grand au plus petit. Les rangs seraient différents, mais les tests aboutiraient au mêmes résultats! Si x 2 avait été 1000, x 2 aurait eu le même rang (donc perte irrémédiable dinformation)! Maintenant, on ne travaille plus que sur les rangs 1. Généralités – Utilisation des rangs

60 04/11/2013Statistiques60 DonnéesRangs x 1 = 4,3R(x 1 ) = 5 x 2 = 9,3R(x 2 ) = 8 x 3 = 0,3R(x 3 ) = 1 x 4 = 0,4R(x 4 ) = 2,5 x 5 = 3,2R(x 5 ) = 4 x 6 = 7,7R(x 6 ) = 7 x 7 = 5,0R(x 7 ) = 6 x 8 = 0,4R(x 8 ) = 2,5 Si 2 valeurs ou plus sont identiques, le rang devient la moyenne des rangs de la paire ou du groupe En pratique, souvent peu crucial… 1. Généralités – Utilisation des rangs

61 04/11/2013Statistiques61 Si n est impair: médiane = valeur du point avec le rang (n+1)/2 Si n est pair: médiane entre les valeurs des points qui ont les rangs n/2 et (n+2)/2 Valeur pour laquelle la fréquence cumulée est égale à 0.50 ou point qui partage la distribution en 2 parties égales. Pour n impair Pour n pair 1. Généralités – Rappels sur la médiane

62 04/11/2013Statistiques62 Alternative non-paramétrique au test t Cas dun petit échantillon Voyons un exemple: ces mesures de mercure dans les sols sont-elles issues dune population dont la médiane serait 40 ppm? Hg ppm Signe Résultat : 3 (–) et 12 (+) Question: Est-ce significativement différent de 50% (-) et 50% (+)? Il semble quil y ait déséquilibre… à voir… 2. Les tests – Le test des signes (petits échantillons)

63 04/11/2013Statistiques63 Imaginons que (+) soit un succès: p = 0,5. On peut appliquer la distribution binomiale, avec x, le nombre dapparitions, p, la probabilité de succès, n, le nombre de tentatives: Probabilité de 7 succès (ou 8) sur 15 essais = 0,19638 Probabilité de 6 succès (ou 9) sur 15 essais = 0,15274 Probabilité de 5 succès (ou 10) sur 15 essais = 0,09164 Probabilité de 4 succès (ou 11) sur 15 essais = 0,04166 La somme de ces probabilités = 0,9648, donc plus de 95% de chances de se retrouver avec de 4 à 11 (+). 2. Les tests – Le test des signes (petits échantillons)

64 04/11/2013Statistiques64 On pose les hypothèses: H 0 : la médiane = 40 ppm Hg H 1 : la médiane 40 ppm Hg Avec 12(+), on rejette H 0 car on a déjà plus de 96% de chances de se trouver entre 4 (+) et 11 (+) par le simple fait du hasard. On en conclue donc que la médiane de la population est significativement différente de 40 ppm de Hg. 2. Les tests – Le test des signes (petits échantillons)

65 04/11/2013Statistiques65 Quand n est suffisamment grand (n>20), on peut utiliser lapproximation normale de la loi binomiale avec une correction de continuité 2. Les tests – Le test des signes (grands échantillons) Exemple: Durée de vie supposée dun foret pétrolier > 250h (+), 9(-) H 0 : médiane de la population = médiane hypothétique spécifiée H 1 : médiane de la population > médiane hypothétique spécifiée Attention test unilatéral

66 04/11/2013Statistiques66 Correction de continuité (puisque la loi binomiale est discrète alors que la loi normale est continue): Il faut retrancher 0.5 à X si X>Np et ajouter 0.5 à X si X

67 04/11/2013Statistiques67 Alternative non-paramétrique du test t à deux échantillons. Probablement le test non-paramétrique le plus utilisé dans la littérature. Il teste lhypothèse nulle dégalité des médianes de populations à partir desquelles deux échantillons sont tirés. H 0 : médiane de la population x = médiane de la population y H 1 : médiane de la population x médiane de la population y 2. Les tests – Le test U de Mann-Whitney

68 04/11/2013Statistiques68 Alliage A (n 1 =8)Alliage B (n 2 =10) Alliage BAlliage A R 1: Somme rangs = 106R 2 : somme rangs = 65 Etape 1: Transformation en rangs Etape 2 Plus petit effectif = n 1 Le plus simple: traiter un exemple 2. Les tests – Le test U de Mann-Whitney (petits échantillons)

69 04/11/2013Statistiques69 Pour tester la différence entre les rangs, on utilise la statistique suivante. Calcul de U pour léchantillon 1 & 2 Ici 2. Les tests – Le test U de Mann-Whitney (petits échantillons) U = min (U 1,U 2 ) Donc U=10

70 04/11/2013Statistiques70 Si n 1 & n 2 < 20: Valeurs limites m fournie par une table telle que sous H 0, P(U

71 04/11/2013Statistiques71 Si n 1 & n 2 > 20, la distribution U peut être approchée par une distribution normale de telle sorte que Ceci se teste tout naturellement sur la loi normale… 2. Les tests – Le test U de Mann-Whitney (grands échantillons) Accepter H 0 si –Z

72 04/11/2013Statistiques72 Comparaison de deux échantillons appariés (chaque valeur dun échantillon est associée à une valeur de lautre échantillon, les deux ont la même taille). Question: Existe-t-il une différence entre les 2 échantillons? H 0 : Pas de différence entre les deux groupes H 1 : Une différence entre les deux groupes M R Diff Calcul de la différence n = nombre de différences non nulles = 9 2. Les tests – Le test de Wilcoxon

73 04/11/2013Statistiques73 Test de Wilcoxon On classe ensuite les différences par ordre croissant de valeurs absolues Val Rg On affecte à chaque différence son rang dans le classement w+ : somme des rangs des différences positives w- : somme des rangs des différences négatives w+ = = 32 w- = = 13 w = min (w+, w-) = Les tests – Le test de Wilcoxon (petits échantillons)

74 04/11/2013Statistiques74 2 cas possibles: Si n<25 (empirique), alors on utilise une table n Niveau de signification, test unilatéral 0,0250,010,005 Niveau de signification, test bilatéral 0,050,020, Sous H 0, P(W w 0.05 donc on ne peut pas rejeter H 0. Il ny a pas de différence significative entre les deux échantillons. 2. Les tests – Le test de Wilcoxon (petits échantillons)

75 04/11/2013Statistiques75 Si n>25, lorsque H 0 est vraie, W suit approximativement une loi normale N(, ) avec On calcule la valeur de la variable normale centrée réduite: La valeur est comparée à la valeur Z de la loi normale. Si –Z

76 04/11/2013Statistiques76 Test non paramétrique de conformité de Kolmogorov Smirnov Il consiste à calculer les différences existants entre les distributions de fréquences relatives cumulées de deux échantillons et à vérifier si la plus grande différence peut être fortuite ou pas (D obs ). Pour au moins une valeur de x i Simple sur un exemple… 2. Les tests – Le test de Kolmogorov Smirnov

77 04/11/2013Statistiques77 Domaine vital de lours noir (F & M) SexeDomaine vital (km 2 ) FFMMFMFFMFMMFFFFFMMFMFFMFMMFFF Question: Létendue du domaine vital des ours noirs males est-elle différente de celle du domaine des femelles? Hypothèses: Pour au moins une valeur de x i 2. Les tests – Le test de Kolmogorov Smirnov

78 04/11/2013Statistiques78 xixi F cum (x iF )F cum (x iM )F cum (x iF )/n F (A) F cum (x iM )/n M (B) (A)-(B)D obs ,111 0,222 0,333 0,555 0,666 0,777 0, ,166 0,333 0,500 0,666 0, ,111 0,222 0,333 0,555 0,666 0,777 0,888 0,722 0,833 0,666 0,500 0,333 0, , Les tests – Le test de Kolmogorov Smirnov Freq cum abs.Freq cum rel.Diff.Diff. max.

79 04/11/2013Statistiques79 2. Les tests – Le test de Kolmogorov Smirnov

80 04/11/2013Statistiques80 Ici cas des petits échantillons n F & n M < 25 (en fait n F =9 et n M =6) On calcule une variable auxiliaire KS = n F n M D obs = 9.6.0,888 = 47,952 = 48 Dans la table, la valeur critique sélève à 39 pour = 0,05 Si KS>KS, alors on rejete H 0 (rejet des valeurs trop grandes) Ici 48>39, donc on rejette H 0 Conclusion: Létendue du domaine vital des mâles diffère significativement de létendue du domaine des femelles. 2. Les tests – Le test de Kolmogorov Smirnov

81 04/11/2013Statistiques81 Si au contraire n 1 & n 2 sont supérieurs à 25 on calcule : Si D obs > D, lhypothèse H 0 est refusée au profit de H 1 2. Les tests – Le test de Kolmogorov Smirnov


Télécharger ppt "1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart."

Présentations similaires


Annonces Google