Intervalles de confiance

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

Introduction à l’analyse
Introduction aux statistiques Intervalles de confiance
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Comparaison d’une moyenne observée à une moyenne théorique
Corrélation Position du problème Définition covariance (X,Y) r =
Distance inter-locuteur
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Risques d’erreur statistique et test statistique
Test statistique : principe
Introduction aux statistiques
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Les numéros
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
CONFORMITE d’une distribution expérimentale à une distribution théorique Professeur Pascale FRIANT-MICHEL > Faculté de Pharmacie
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Analyse de la variance à un facteur
Tests de comparaison de moyennes
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 - Construction d'un abaque Exemple
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Titre : Implémentation des éléments finis sous Matlab
Régression linéaire simple
Problème Autre formulation :
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Le test t.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Titre : Implémentation des éléments finis en Matlab
Distribution d’échantillonnage
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
1 Introduction à la théorie des tests. 2 Plan I- choix entre 2 paramètres de tendance centrale Choix entre 2 proportions pour un caractère qualitatif.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Intervalles de confiance Week 1 Lecture 1 L3 PRO Intervalles de confiance

Echantillonnage – Estimation d’un paramètre Extraction de n échantillons d’une population P Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations d’échantillonnage. A partir d’un échantillon, on n’a donc pas de certitudes mais des estimations de paramètres. L'estimation d'un paramètre peut être faite - par un seul nombre: estimation ponctuelle - par 2 nombres entre lesquels le paramètre peut se trouver: estimation par intervalle

Echantillonnage – Estimation d’un paramètre Estimation ponctuelle d’une moyenne x barre Estimateur sans biais Ecart type de la moyenne

Echantillonnage – Estimation d’un paramètre Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de l’échantillon

Echantillonnage – Estimation d’un paramètre Intervalle de confiance de la moyenne Cas des grands échantillons (variance connue): Soit une population obéissant à une loi normale de moyenne m et d’écart type s.

Echantillonnage – Estimation d’un paramètre Exemple: 45 hommes à 95% de confiance

Echantillonnage – Estimation d’un paramètre

Echantillonnage – Estimation d’un paramètre Intervalle de confiance de la moyenne Cas des petits échantillons: Quand n<30 ou quand la variance est inconnue, on prend la loi de Student. Pour n = n-1 degrés de liberté Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

La loi de Student: t(n) n degrés de liberté Converge vers la loi Normale quand n augment.

La loi de Student: t(n) La probabilité d’obtenir une valeur de t à l’extérieur de l’intervalle (-ta/2 et ta/2) -> TABLES.

Echantillonnage – Estimation d’un paramètre

Echantillonnage – Estimation d’un paramètre Exemple: 6 hommes à 95% de confiance Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

Echantillonnage – Estimation d’un paramètre Intervalle de confiance de la variance Soit une population obéissant à une loi normale de moyenne m (inconnue) et d’écart type s (inconnu). Pour n = n-1 degrés de liberté

La loi du Khi carré: c2 Si Z1, Z2, Zn sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du c2 à n degrés de libertés

La loi du Khi carré: c2

La loi du Khi carré: c2 En fait, les calculs sont fastidueux -> TABLES

La loi du Khi carré: c2

Echantillonnage – Estimation d’un paramètre Intervalle de confiance de l’écart type (idem) Soit une population obéissant à une loi normale de moyenne m et d’écart type s. Pour n = n-1 degrés de liberté

Echantillonnage – Estimation d’un paramètre Estimation ponctuelle d’un pourcentage La population est formée d’individus ayant ou non un caractère A. Soit p la probabilité pour qu’un individu pris au hasard dans la population présente le caractère A. Quand on dispose d’un seul échantillon de taille n, la meilleure estimation ponctuelle de P est donc la fréquence p observée sur l’échantillon.

Echantillonnage – Estimation d’un paramètre Intervalle de confiance d’un pourcentage Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1-p)>5) La variable fréquence obéit à une loi normale centrée réduite

Echantillonnage – Estimation d’un paramètre Un problème très fréquent! Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d'opinions favorables, en février de 36%. Un journaliste commente alors ces valeurs par "Le chef du gouvernement perd 2 points !!" En fait: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35;41] et [33;39] pour les valeurs 36% et 38%. Les deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse ou augmentation de la cote du chef de gouvernement.

Week 1 Lecture 1 L3 PRO Tests statistiques

Théorie de la statistique de décision Quel est le problème…? On sait qu’un homme de néanerthal mesure en moyenne 165 cm. Sur un site on trouve 16 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon). Comparaison de la moyenne avec la valeur théorique de 165 cm Possibilités: Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est significativement supérieur à la norme ou si c’est l’effet du hasard.

Théorie de la statistique de décision Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence? H0: m=165 (il n’y pas de différence) H1: m≠165 Calcul de Sur la table la probabilité pour que la moyenne d’échantillonnage soit différente celle de la population de plus 2,131 de écart-type est de 5%.

Théorie de la statistique de décision Quel est le problème…? On sait qu’un homme de Neandertal mesure en moyenne 165 cm. Sur un site on trouve 40 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon). Comparaison de la moyenne avec la valeur théorique de 165 cm Possibilités: Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est significativement supérieur à la norme ou si c’est l’effet du hasard.

Théorie de la statistique de décision Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence? H0: m=165 (il n’y pas de différence) H1: m≠165 Calcul de On mesure en fait 167 +/- 2.48 à 95% de confiance, ce qui n’est pas différent de 165 cm!

Théorie de la statistique de décision Les deux risques d’erreur dans un test. Erreur de 2nde espèce (compliquée) 1-a 1-b Erreur de 1ere espèce A priori on ne sait pas à quel type d’erreur on sera confronté: Le résultat de l’échantillon a révélé 167 cm probablement par pur hasard. On conclue que la moyenne pourrait être 165 cm alors qu’en fait elle est mesurée à 167 cm.

Théorie de la statistique de décision H0 : hypothèse nulle ou principale Ex: Les haches de type A présentent les mêmes teneurs en Sn que les haches de type B. H1 : hypothèse alternative ou contraire … Soumission à une épreuve de vérité! Conclusion : différence attribuable aux fluctuations d’échantillonnage???

Théorie de la statistique de décision Niveau de signification : un peu arbitraire… significatif : 0.05 hautement significatif : 0.01 très hautement significatif : 0.001. Test bilatéral / unilatéral : bilatéral : différence sans se préoccuper du sens. Unilatéral : > ou <. Zone de rejet d’un seul coté de la distribution de probabilité de référence. Echantillons indépendants ou appariés: Indépendants : aucune influence du 1er ech sur le 2nd. Appariés : prélèvements par paires. Ex : fumeurs H + F.

Comparaison de deux moyennes expérimentales–grands échantillons - Comparaison des moyennes de 2 grands échantillons indépendants (n1 et n2 >30): Deux échantillons qui suivent des lois normales: m1, s21; m2, s22 H0 : m1 = m2 Si H0 est vraie, Zc suit une loi normale N(0,1)

Comparaison de deux moyennes expérimentales–grands échantillons - H1 : m1 ≠ m2 bilatéral

Comparaison de deux moyennes expérimentales–grands échantillons - H1 : m1 > m2 unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons - H1 : m1 < m2 unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons - Pour résumer: Maintenant un exemple...

Comparaison de deux moyennes expérimentales–grands échantillons - Taille des silex sur deux sites Les moyennes de ces deux échantillons prélevés indépendamment l’un de l’autre diffèrent-elles d’une façon hautement significative?

Comparaison de deux moyennes expérimentales–grands échantillons - n1 et n2 grands -> test sur la loi normale H0 : ma = mb H1 : ma  mb (bilatéral) a = 0.01, Za/2 = 2.57

Comparaison de deux moyennes expérimentales–grands échantillons - H0 rejetée au seuil de signification de 1%

Comparaison d’une moyenne empirique à une moyenne théorique Même principe que précédemment (quand n est grand): H0: m=m0 que l’on teste sur la loi normale N(0,1)

Comparaison de deux moyennes expérimentales– petits échantillons - Cas des petits échantillons: Test t Deux populations normales m1 et m2 de même variance (au moins approximativement) s2. Si n1 et n2 sont petits, s2x1 et s2x2 sont des estimateurs peu précis de s2. Dans ce cas, la variable différence centrée réduite n’obéit plus à une loi normale mais à une loi de Student à n=n1+n2-2 degrés de liberté.

Comparaison de deux moyennes expérimentales– petits échantillons - La variance de la distribution des différences de moyennes est estimées par s2D avec

Comparaison de deux moyennes expérimentales– petits échantillons - Ce qui donne… H0 : ma = mb Avec n = n1 + n2 - 2

Comparaison de deux moyennes expérimentales– petits échantillons - Si les variances s’avèrent inégales alors test t modifié. avec

Comparaison d’une moyenne empirique à une moyenne théorique Même principe que précédemment. Suivant si n est petit ou grand, on calcule les variables auxiliaires suivantes: H0: m=m0 que l’on teste sur la loi de Student ou loi normale N(0,1)

Comparaison de moyennes de deux échantillons appariés Fondée sur les différences de chaque paire d’éléments On imagine que la différence obéit à une loi normale, mais en général on utilise une loi de Student à n-1 degrés de liberté:

Comparaison de moyennes de deux échantillons appariés H0 : m1 = m2 ou md = 0 H1: m1  m2 , bilatéral H1: m1 > m2 , unilatéral H1: m1 < m2 , unilatéral t calculé pour n = n-1 degrés de liberté

Comparaison de deux fréquences expérimentales Comparaison des fréquences de 2 grands échantillons indépendants. Deux échantillons : f1, n1; f2, n2 On approxime la loi binomiale par la loi normale mais: n1>30, n2>30, n1f1>5, n2f2>5, n1(1-f1)>5, n2(1-f2)>5 H0 : p1 = p2 = p

Comparaison de deux fréquences expérimentales Sous H0 on peut réunir les deux échantillons, et on est conduit à l’estimation de p Zc devient H1: p1≠p2 H1: p1>p2 H1: p1<p2 Test sur la loi normale N(0,1)

Comparaison d’une fréquence empirique et d’une fréquence théorique La différence entre f et p est-elle seulement explicable par les aléas dus à l’échantillonnage? On approxime la loi binomiale par la loi normale mais: n>30, np>5 et nq>5 H0: f = p H1: p1≠p2 H1: p1>p2 H1: p1<p2 Test sur la loi normale N(0,1)

Comparaison de deux variances expérimentales Deux échantillons qui suivent des lois normales: m1, s21; m2, s22 Plus grande variance H0: s21=s22 calcul de : >1 Plus petite variance Si H0 est vraie, Fc suit une loi de Fisher-Snedecor avec n1=n1-1 et n2=n2-1

La loi de Fisher - Snedecor : F(n1,n2) Soit c21 et c22, un couple de variables aléatoires indépendantes suivant respectivement des lois du c2 à n1 et n2 degrés de libertés. Utile pour les tests de variance et de covariance

La loi de Fisher - Snedecor : F(n1,n2)

Comparaison de deux variances expérimentales H1: s21>s22 Sous H0: Pr(Fc<Fa)=1-a Accept. H0 rejet H0 Fa

Comparaison de deux variances expérimentales H1: s21≠s22 Sous H0 : Pr(Fc<Fa/2)=1-a Accept. H0 rejet H0 a/2 Fa/2

Comparaison de deux variances expérimentales Table de Fisher- Snedecor

Tests non-paramétriques L3 PRO Tests non-paramétriques 24/03/2017 Statistiques

1. Généralités – Conditions d’application Pourquoi et quand utiliser des statistiques non-paramétriques? Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les paramètres des distributions (p.e. moyenne et écart type) avant de procéder au test d’hypothèse proprement dit n’est plus nécessaire. Quand?: L’échelle des données est ordinale plutôt que sous forme d’intervalles ou de rapports. Dans ce cas les opérations arithmétiques n’ont pas de sens! Les mesures sont sur des échelles d’intervalles ou de rapports mais les distributions de fréquences observées sont très éloignées de la distribution normale. 24/03/2017 Statistiques

1. Généralités – Conditions d’application Données Paramétrique Non-paramétrique Distribution normale n grand Précis et fiable Si H0 est rejeté, le résultat devrait être le même qu’avec le test paramétrique Si H0 est accepté, le résultat n’est peut être pas fiable Distribution non normale n petit Résultat absolument pas fiable: souvent un rejet de H0 abusif Meilleur résultat possible avec de telles données 24/03/2017 Statistiques

Test du χ2 Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori ou à une population donnée. Test du χ2 d’homogénéité: Il s'agit alors de se demander si deux listes de nombres de même effectif peuvent dériver de la même loi de probabilité. Principe L’analyse se fait à l’aide d’un tableau de corrélation (variables quantitatives regroupées en classes) ou (plus souvent) de contingence (variables qualitatives). Il ne concerne que des données discrètes. On calcule les fréquences attendues de chacune des cases puis les écarts entre celles-ci et les fréquences observées.

Préparation des données. Test du χ2 Tableau de contingence: les MnMs transgéniques

Préparation des données. Test du χ2 Les tableaux de corrélation: le territoire et la masse des marsupiaux

La loi du Khi carré: c2

Conformité. Test du χ2 Pour calculer la statistique χ2, on a besoin des: - fréquences absolues observées - fréquences absolues attendues Remarque importante: les fréquences du tableau sont des fréquences absolues observées, jamais des fréquences relatives!

Conformité. Test du χ2 Les fréquences attendues (théoriques) sont nécessaires 1. Si on connaît déjà (grâce à une théorie) les fréquences attendues théoriques, on les utilise directement. Exemple: l'hérédité des pois de Mendel:

Conformité. Test du χ2 Test du χ2 H0 : Il n’y a pas de relation entre les variables… χ2 = 0 H1: Il y a une relation entre les variables… χ2 > 0

où, si N est la fréquence totale Conformité. Test du χ2 où, si N est la fréquence totale H0: c2=0 H1: c2>0 Si c2 = 0, fréq théoriques identiques aux fréq. obs., si c2 > 0, elles ne sont pas exactement identiques.

Conformité. Test du χ2 Unités 1 2 3 4 5 6 7 8 9 Fréq Obs 17 31 29 18 Un exemple Le tableau suivant montre la distribution des unités 0, 1,2, …, 9 d’une table de nombres aléatoires comportant 250 nombres. Est-ce que la distribution observée est significativement différente de la distribution théorique? Unités 1 2 3 4 5 6 7 8 9 Fréq Obs 17 31 29 18 14 20 35 30 36 Fréq Est. 25 Solution: critique à n = 10-1 = 9 degrés de liberté = 16,92 23.3>16,92. Cette table de nombre aléatoire est suspecte.

Pourquoi 9 degrés de liberté dans l’exemple précédent? Degré de liberté. Test du χ2 Pourquoi 9 degrés de liberté dans l’exemple précédent? = k -1 si les fréquences théoriques peuvent être calculées sans avoir à estimer les paramètres de la population à partir des statistiques d’échantillon. = k – 1 – m si les fréquences théoriques peuvent être calculées en n’estimant que m paramètres de la population à partir des statistiques d’échantillon. Idéalement, au moins 5 occurrences par case!

Degré de liberté. Test du χ2 24/03/2017 Statistiques

Homogénéité. Test du χ2 24/03/2017 Statistiques

Homogénéité. Test du χ2 24/03/2017 Statistiques

Impossibilité de rejeter H0 Homogénéité. Test du χ2 Guérit Ne guérit pas Total Groupe A (serum) 75 25 100 Groupe B (sans sérum) 65 35 140 60 200 Fréquences observées Guérit Ne guérit pas Total Groupe A (serum) 70 30 100 Groupe B (sans sérum) 140 60 200 Fréquences attendues sous H0 Impossibilité de rejeter H0

Homogénéité. Test du χ2 Exemple Tableau de contingence du nombre de joueurs de hockey de différentes nationalités utilisant différentes marques de bâtons de hockey. Étape 1 : Question “biologique” Le choix de la marque du bâton de hockey que les joueurs utilisent est-il influencé par l’origine du joueur?

Homogénéité. Test du χ2 Étape 2: Déclaration des hypothèses H0: il n’y a pas de préférence de marque de bâton de hockey chez les joueurs de différentes nationalités (donc: la variable "marque de bâton" et la variable "nationalité" sont indépendantes) : χ2 = 0 H1: les joueurs de différentes nationalités ont des préférences différentes au niveau de la marque de bâton de hockey qu’ils utilisent : χ2 > 0 Étape 3 : Test statistique utilisé Étape 4: Conditions d’application • données sous forme de fréquences • indépendance des observations • fréquences distribuées normalement

Homogénéité. Test du χ2 Calcul des fréquences théoriques: fth(i,j) = (ni × nj)/N exemple, la première cellule :

Homogénéité. Test du χ2 Étape 5 : Distribution de la variable auxiliaire Si H0 est vraie, la statistique χ2calc suit une distribution de χ2 à υ = (l – 1) × (c – 1) = (5 – 1) × (6 –1) = 20 d.d.l. On rejette H0 si χ2calc ≥ χ2(0,05, 20) = 31,41 Étape 6 : Règle de décision Étape 7: Calcul du test Étape 8: Décision statistique On ne rejette pas H0 au seuil α = 0,05 car si χ2calc < χ2(0,05, 20) Étape 9: Interprétation biologique Les joueurs de différentes nationalités n’utilisent pas des bâtons de hockey de marques différentes car les compagnies font la promotion de leurs bâtons avec la même intensité dans les pays étudiés.

1. Généralités – Les tests non paramétriques en pratique 24/03/2017 Statistiques