La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs.

Présentations similaires


Présentation au sujet: "1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs."— Transcription de la présentation:

1 1 L3 PRO

2 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations déchantillonnage. A partir dun échantillon, on na donc pas de certitudes mais des estimations de paramètres. L'estimation d'un paramètre peut être faite - par un seul nombre: estimation ponctuelle - par 2 nombres entre lesquels le paramètre peut se trouver: estimation par intervalle

3 3 Echantillonnage – Estimation dun paramètre Estimation ponctuelle dune moyenne Estimateur sans biais x barre Ecart type de la moyenne

4 4 Echantillonnage – Estimation dun paramètre Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de léchantillon

5 5 Intervalle de confiance de la moyenne Cas des grands échantillons (variance connue): Soit une population obéissant à une loi normale de moyenne et décart type. Echantillonnage – Estimation dun paramètre

6 6 Exemple: 45 hommes à 95% de confiance

7 7 Echantillonnage – Estimation dun paramètre

8 8 Cas des petits échantillons: Quand n<30 ou quand la variance est inconnue, on prend la loi de Student. Echantillonnage – Estimation dun paramètre Intervalle de confiance de la moyenne Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand… Pour = n-1 degrés de liberté

9 9 La loi de Student: t( ) degrés de liberté Converge vers la loi Normale quand augment.

10 10 La probabilité dobtenir une valeur de t à lextérieur de lintervalle (-t /2 et t /2 ) -> TABLES. La loi de Student: t( )

11 11 Echantillonnage – Estimation dun paramètre

12 12 Echantillonnage – Estimation dun paramètre Exemple: 6 hommes à 95% de confiance Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

13 13 Echantillonnage – Estimation dun paramètre Intervalle de confiance de la variance Soit une population obéissant à une loi normale de moyenne (inconnue) et décart type (inconnu). Pour = n-1 degrés de liberté

14 14 Si Z 1, Z 2, Z n sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du 2 à degrés de libertés La loi du Khi carré: 2

15 15 La loi du Khi carré: 2

16 16 En fait, les calculs sont fastidueux -> TABLES La loi du Khi carré: 2

17 17 La loi du Khi carré: 2

18 18 Echantillonnage – Estimation dun paramètre Intervalle de confiance de lécart type (idem) Soit une population obéissant à une loi normale de moyenne et décart type. Pour = n-1 degrés de liberté

19 19 Echantillonnage – Estimation dun paramètre Estimation ponctuelle dun pourcentage La population est formée dindividus ayant ou non un caractère A. Soit p la probabilité pour quun individu pris au hasard dans la population présente le caractère A. Quand on dispose dun seul échantillon de taille n, la meilleure estimation ponctuelle de P est donc la fréquence p observée sur léchantillon.

20 20 Echantillonnage – Estimation dun paramètre Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1- p)>5) La variable fréquence obéit à une loi normale centrée réduite Intervalle de confiance dun pourcentage

21 21 Echantillonnage – Estimation dun paramètre Un problème très fréquent! Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d'opinions favorables, en février de 36%. Un journaliste commente alors ces valeurs par "Le chef du gouvernement perd 2 points !!" En fait: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35;41] et [33;39] pour les valeurs 36% et 38%. Les deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse ou augmentation de la cote du chef de gouvernement.

22 22 L3 PRO

23 23 On sait quun homme de néanerthal mesure en moyenne 165 cm. Sur un site on trouve 16 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon). Comparaison de la moyenne avec la valeur théorique de 165 cm Quel est le problème…? Théorie de la statistique de décision Possibilités: Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm Moyenne faiblement plus élevée: on ne pourra pas conclure si cest significativement supérieur à la norme ou si cest leffet du hasard.

24 24 Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence? H 0 : =165 (il ny pas de différence) H 1 : 165 Calcul de Sur la table la probabilité pour que la moyenne déchantillonnage soit différente celle de la population de plus 2,131 de écart-type est de 5%. Théorie de la statistique de décision

25 25 On sait quun homme de Neandertal mesure en moyenne 165 cm. Sur un site on trouve 40 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon). Comparaison de la moyenne avec la valeur théorique de 165 cm Quel est le problème…? Théorie de la statistique de décision Possibilités: Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm Moyenne faiblement plus élevée: on ne pourra pas conclure si cest significativement supérieur à la norme ou si cest leffet du hasard.

26 26 Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence? H 0 : =165 (il ny pas de différence) H 1 : 165 Calcul de On mesure en fait 167 +/ à 95% de confiance, ce qui nest pas différent de 165 cm! Théorie de la statistique de décision

27 27 Les deux risques derreur dans un test. Erreur de 1 ere espèce Erreur de 2 nde espèce (compliquée) 1- A priori on ne sait pas à quel type derreur on sera confronté: Le résultat de léchantillon a révélé 167 cm probablement par pur hasard. On conclue que la moyenne pourrait être 165 cm alors quen fait elle est mesurée à 167 cm. Théorie de la statistique de décision

28 28 H 0 : hypothèse nulle ou principale Ex: Les haches de type A présentent les mêmes teneurs en Sn que les haches de type B. H 1 : hypothèse alternative ou contraire … Soumission à une épreuve de vérité! Conclusion : différence attribuable aux fluctuations déchantillonnage??? Théorie de la statistique de décision

29 29 Niveau de signification : un peu arbitraire… significatif : 0.05 hautement significatif : 0.01 très hautement significatif : Test bilatéral / unilatéral : bilatéral : différence sans se préoccuper du sens. Unilatéral : > ou <. Zone de rejet dun seul coté de la distribution de probabilité de référence. Echantillons indépendants ou appariés: Indépendants : aucune influence du 1 er ech sur le 2 nd. Appariés : prélèvements par paires. Ex : fumeurs H + F. Théorie de la statistique de décision

30 30 Comparaison des moyennes de 2 grands échantillons indépendants (n 1 et n 2 >30): Comparaison de deux moyennes expérimentales–grands échantillons - Deux échantillons qui suivent des lois normales: 1, 2 1 ; 2, 2 2 Si H 0 est vraie, Z c suit une loi normale N(0,1)

31 31 H 1 bilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

32 32 H 1 unilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

33 33 H 1 unilatéral Comparaison de deux moyennes expérimentales–grands échantillons -

34 34 Pour résumer: Maintenant un exemple... Comparaison de deux moyennes expérimentales–grands échantillons -

35 35 Taille des silex sur deux sites Les moyennes de ces deux échantillons prélevés indépendamment lun de lautre diffèrent-elles dune façon hautement significative? Comparaison de deux moyennes expérimentales–grands échantillons -

36 36 n 1 et n 2 grands -> test sur la loi normale H 0 : a = b H 1 : a b (bilatéral) = 0.01, Z /2 = 2.57 Comparaison de deux moyennes expérimentales–grands échantillons -

37 37 H 0 rejetée au seuil de signification de 1% Comparaison de deux moyennes expérimentales–grands échantillons -

38 38 Comparaison dune moyenne empirique à une moyenne théorique Même principe que précédemment (quand n est grand): que lon teste sur la loi normale N(0,1) H 0 : = 0

39 39 Cas des petits échantillons: Test t Deux populations normales 1 et 2 de même variance (au moins approximativement) 2. Si n 1 et n 2 sont petits, s 2 x1 et s 2 x2 sont des estimateurs peu précis de 2. Dans ce cas, la variable différence centrée réduite nobéit plus à une loi normale mais à une loi de Student à =n 1 +n 2 -2 degrés de liberté. Comparaison de deux moyennes expérimentales– petits échantillons -

40 40 La variance de la distribution des différences de moyennes est estimées par s 2 D avec Comparaison de deux moyennes expérimentales– petits échantillons -

41 41 Ce qui donne… H 0 : a = b Avec = n 1 + n Comparaison de deux moyennes expérimentales– petits échantillons -

42 42 Si les variances savèrent inégales alors test t modifié. avec Comparaison de deux moyennes expérimentales– petits échantillons -

43 43 Comparaison dune moyenne empirique à une moyenne théorique Même principe que précédemment. Suivant si n est petit ou grand, on calcule les variables auxiliaires suivantes: que lon teste sur la loi de Student ou loi normale N(0,1) H 0 : = 0

44 44 Fondée sur les différences de chaque paire déléments On imagine que la différence obéit à une loi normale, mais en général on utilise une loi de Student à n-1 degrés de liberté: Comparaison de moyennes de deux échantillons appariés

45 45 H 0 : 1 = 2 ou d = 0 H 1 : 1 2, bilatéral H 1 : 1 > 2, unilatéral H 1 : 1 < 2, unilatéral Comparaison de moyennes de deux échantillons appariés t calculé pour = n-1 degrés de liberté

46 46 Comparaison de deux fréquences expérimentales Comparaison des fréquences de 2 grands échantillons indépendants. H 0 : p 1 = p 2 = p Deux échantillons : f 1, n 1 ; f 2, n 2 On approxime la loi binomiale par la loi normale mais: n 1 >30, n 2 >30, n 1 f 1 >5, n 2 f 2 >5, n 1 (1-f 1 )>5, n 2 (1-f 2 )>5

47 47 Comparaison de deux fréquences expérimentales Sous H 0 on peut réunir les deux échantillons, et on est conduit à lestimation de p Z c devient H 1 : p 1 p 2 H 1 : p 1 >p 2 H 1 : p 1


48 48 Comparaison dune fréquence empirique et dune fréquence théorique La différence entre f et p est-elle seulement explicable par les aléas dus à léchantillonnage? On approxime la loi binomiale par la loi normale mais: n>30, np>5 et nq>5 H 0 : f = p H 1 : p 1 p 2 H 1 : p 1 >p 2 H 1 : p 1


49 49 Comparaison de deux variances expérimentales Deux échantillons qui suivent des lois normales: 1, 2 1 ; 2, 2 2 H 0 : 2 1 = 2 2 calcul de : Plus grande variance Plus petite variance >1 Si H 0 est vraie, F c suit une loi de Fisher-Snedecor avec 1 =n 1 -1 et 2 =n 2 -1

50 50 Soit 2 1 et 2 2, un couple de variables aléatoires indépendantes suivant respectivement des lois du 2 à 1 et 2 degrés de libertés. Utile pour les tests de variance et de covariance La loi de Fisher - Snedecor : F( 1, 2 )

51 51 La loi de Fisher - Snedecor : F( 1, 2 )

52 52 H 1 : 2 1 > 2 2 Sous H 0 : Pr(F c

53 53 H 1 : Sous H 0 : Pr(F c

54 54 Comparaison de deux variances expérimentales Table de Fisher- Snedecor

55 04/11/2013Statistiques55 L3 PRO

56 04/11/2013Statistiques56 Les tests non paramétriques ne font aucune hypothèse sur la distribution sous- jacente des données. On les qualifie souvent de tests distribution free. Létape préalable consistant à estimer les paramètres des distributions (p.e. moyenne et écart type) avant de procéder au test dhypothèse proprement dit nest plus nécessaire. Quand?: 1.Léchelle des données est ordinale plutôt que sous forme dintervalles ou de rapports. Dans ce cas les opérations arithmétiques nont pas de sens! 2.Les mesures sont sur des échelles dintervalles ou de rapports mais les distributions de fréquences observées sont très éloignées de la distribution normale. Pourquoi et quand utiliser des statistiques non-paramétriques? 1. Généralités – Conditions dapplication

57 04/11/2013Statistiques57 DonnéesParamétriqueNon-paramétrique Distribution normale n grand Précis et fiableSi H 0 est rejeté, le résultat devrait être le même quavec le test paramétrique Si H 0 est accepté, le résultat nest peut être pas fiable Distribution non normale n petit Résultat absolument pas fiable: souvent un rejet de H 0 abusif Meilleur résultat possible avec de telles données 1. Généralités – Conditions dapplication

58 Test du χ2 dadéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori ou à une population donnée. Test du χ2 dhomogénéité: Il s'agit alors de se demander si deux listes de nombres de même effectif peuvent dériver de la même loi de probabilité. Principe Lanalyse se fait à laide dun tableau de corrélation (variables quantitatives regroupées en classes) ou (plus souvent) de contingence (variables qualitatives). Il ne concerne que des données discrètes. On calcule les fréquences attendues de chacune des cases puis les écarts entre celles-ci et les fréquences observées. Test du χ 2

59 Tableau de contingence: les MnMs transgéniques Préparation des données. Test du χ 2

60 Les tableaux de corrélation: le territoire et la masse des marsupiaux Préparation des données. Test du χ 2

61 61 La loi du Khi carré: 2

62 Pour calculer la statistique χ 2, on a besoin des: - fréquences absolues observées - fréquences absolues attendues Remarque importante: les fréquences du tableau sont des fréquences absolues observées, jamais des fréquences relatives! Conformité. Test du χ 2

63 Les fréquences attendues (théoriques) sont nécessaires 1. Si on connaît déjà (grâce à une théorie) les fréquences attendues théoriques, on les utilise directement. Exemple: l'hérédité des pois de Mendel: Conformité. Test du χ 2

64 Test du χ 2 H 0 : Il ny a pas de relation entre les variables… χ 2 = 0 H 1 : Il y a une relation entre les variables… χ 2 > 0 Conformité. Test du χ 2

65 où, si N est la fréquence totale Si 2 = 0, fréq théoriques identiques aux fréq. obs., si 2 > 0, elles ne sont pas exactement identiques. H 0 : 2 =0 H 1 : 2 >0 Conformité. Test du χ 2

66 Un exemple Le tableau suivant montre la distribution des unités 0, 1,2, …, 9 dune table de nombres aléatoires comportant 250 nombres. Est-ce que la distribution observée est significativement différente de la distribution théorique? Unités Fréq Obs Fréq Est.25 Solution: critique à = 10-1 = 9 degrés de liberté = 16, >16,92. Cette table de nombre aléatoire est suspecte. Conformité. Test du χ 2

67 Pourquoi 9 degrés de liberté dans lexemple précédent? = k -1 si les fréquences théoriques peuvent être calculées sans avoir à estimer les paramètres de la population à partir des statistiques déchantillon. = k – 1 – m si les fréquences théoriques peuvent être calculées en nestimant que m paramètres de la population à partir des statistiques déchantillon. Idéalement, au moins 5 occurrences par case! Degré de liberté. Test du χ 2

68 04/11/2013Statistiques68 Degré de liberté. Test du χ 2

69 04/11/2013Statistiques69 Homogénéité. Test du χ 2

70 04/11/2013Statistiques70 Homogénéité. Test du χ 2

71 GuéritNe guérit pasTotal Groupe A (serum) Groupe B (sans sérum) Total Fréquences observées GuéritNe guérit pasTotal Groupe A (serum) Groupe B (sans sérum) Total Fréquences attendues sous H 0 Impossibilité de rejeter H 0 Homogénéité. Test du χ 2

72 Exemple Tableau de contingence du nombre de joueurs de hockey de différentes nationalités utilisant différentes marques de bâtons de hockey. Le choix de la marque du bâton de hockey que les joueurs utilisent est-il influencé par lorigine du joueur? Étape 1 : Question biologique Homogénéité. Test du χ 2

73 H 0 : il ny a pas de préférence de marque de bâton de hockey chez les joueurs de différentes nationalités (donc: la variable "marque de bâton" et la variable "nationalité" sont indépendantes) : χ 2 = 0 H 1 : les joueurs de différentes nationalités ont des préférences différentes au niveau de la marque de bâton de hockey quils utilisent : χ 2 > 0 Étape 3 : Test statistique utilisé données sous forme de fréquences indépendance des observations fréquences distribuées normalement Étape 4: Conditions dapplication Étape 2: Déclaration des hypothèses Homogénéité. Test du χ 2

74 f th(i,j) = (n i × n j )/N exemple, la première cellule : Calcul des fréquences théoriques: Homogénéité. Test du χ 2

75 Étape 5 : Distribution de la variable auxiliaire Si H 0 est vraie, la statistique χ 2 calc suit une distribution de χ 2 à υ = (l – 1) × (c – 1) = (5 – 1) × (6 –1) = 20 d.d.l. On rejette H 0 si χ 2 calc χ 2 (0,05, 20) = 31,41 Étape 7: Calcul du test Étape 8: Décision statistique On ne rejette pas H 0 au seuil α = 0,05 car si χ 2 calc < χ 2 (0,05, 20) Les joueurs de différentes nationalités nutilisent pas des bâtons de hockey de marques différentes car les compagnies font la promotion de leurs bâtons avec la même intensité dans les pays étudiés. Étape 6 : Règle de décision Étape 9: Interprétation biologique Homogénéité. Test du χ 2

76 04/11/2013Statistiques76 1. Généralités – Les tests non paramétriques en pratique


Télécharger ppt "1 L3 PRO. 2 Echantillonnage – Estimation dun paramètre Extraction de n échantillons dune population P Si lon extrait plusieurs échantillons représentatifs."

Présentations similaires


Annonces Google