STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Comparaison d’une moyenne observée à une moyenne théorique
ANOVA à un facteur (Rehailia)
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Introduction aux statistiques
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Comparaison de plusieurs moyennes Analyse de variance
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Comparaison de plusieurs moyennes Analyse de variance
Statistiques et Probabilités au lycée
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La corrélation et la régression
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Analyse factorielle de variance: Principes d’expérimentation
Méthodes de Biostatistique
1 Introduction à la théorie des tests. 2 Plan I- choix entre 2 paramètres de tendance centrale Choix entre 2 proportions pour un caractère qualitatif.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
STATISTIQUES DESCRIPTIVES
Intervalles de confiance pour des proportions L’inférence statistique
ANOVA à 1 facteur en groupes de mesure indépendants
Tests d’ajustement à une distribution théorique
L’erreur standard et les principes fondamentaux du test de t
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
La statistique ?? Non ! C’est facile.
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Probabilités et statistique MQT-1102
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

caractère observé X, de moyenne m, de variance s² Population caractère observé X, de moyenne m, de variance s² Un test consiste à Émettre une hypothèse, notée H0, appelée hypothèse nulle, sur un paramètre de X, sa loi... Proposer une hypothèse alternative, notée H1 Choisir une grandeur calculée à partir de l’échantillon, appelée statistique Construire une règle de décision Déterminer la zone de rejet de l’hypothèse H0 en fonction d’un risque d’erreur a que l’on veut bien accepter Prendre une décision

LES RISQUES D’ERREUR DANS UN TEST La décision est Accepter H0 Rejeter H0 Mauvaise décision: Erreur a a = P(Rejeter H0 sachant que H0 est vraie) H0 vraie Bonne décision La réalité est H0 fausse Mauvaise décision: Erreur b b = P(Accepter H0 sachant que H0 est fausse) Bonne décision

EXEMPLE: Les OGM sont-ils bons pour la santé? IMPORTANCE DU CHOIX DES HYPOTHESES H0 est l’hypothèse à laquelle on tient le plus, la plus vraisemblable... Il est donc plus grave de la rejeter à tort que de l’accepter à tort a = P(Rejeter H0 sachant que H0 est vraie) Pour construire le test on se fixe b = P(Accepter H0 sachant que H0 est fausse) Souvent l’utilisateur ne calcule pas EXEMPLE: Les OGM sont-ils bons pour la santé? Point de vue du consommateur H0 = les OGM ne sont pas bons Point de vue de MONSANTO H0 = les OGM sont bons Si b n’est pas calculé, le choix de H0 n’est pas innocent

Test de comparaison d’une moyenne à une valeur donnée (variance connue) Conditions d’application: s connu. X suit une loi N(m,s), n quelconque X quelconque, n > 5 (AFNOR) Hypothèses: H0 = { m = m0} contre Statistique: qui est un bon estimateur de la moyenne Règle de décision: m0 m0-h m m H1 est vraie H0 est vraie Si H0 est vraie, m = m0 est une bonne estimation de m, donc est proche de m Si H1 est vraie, m < m0 est une bonne estimation de m, donc est proche de m < m0-h On rejette H0 On accepte H0 > m0-h Conclusion: Il existe m0-h tel que

Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 1 Règle de décision: m0 m m0-h H0 est vraie H1 est vraie < m0-h On rejette H0 On accepte H0 > m0-h Zone de rejet: suit une a = P(Rejeter H0 sachant que H0 est vraie) a donné et donc h

Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 2 Règle de décision: m0 m m0-h H0 est vraie H1 est vraie < m0-h On rejette H0 On accepte H0 > m0-h Zone de rejet: permet de calculer h Décision: Si < m0-h , on rejette H0 avec un risque a connu de se tromper Si > m0-h , on accepte H0 avec un risque b de se tromper b = P(Accepter H0 sachant que H0 est fausse) suit une b est fonction de m, et n’est pas toujours calculée par l’utilisateur. Si c’est le cas, plutôt que d’accepter H0 , il vaut mieux conclure que l’échantillon observé ne permet pas de rejeter H0.

Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 3 ….. et fin La règle de décision dépend de H1 m0-h m0 H0 m H1 < m0-h On rejette H0 Règle: m0+h m0 H0 m H1 > m0+h On rejette H0 Règle: m0+h m0-h H1 = { m m0} m0 H0 m H1 Règle: < m0-h On rejette H0 ou > m0+h

a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Test de comparaison d’une moyenne à une valeur donnée (variance inconnue) Conditions d’application: s inconnu. X suit une loi N(m,s), n quelconque X quelconque, n 30 (AFNOR) Hypothèses: H0 = { m = m0} contre H1 = { m m0} Statistique: suit une T(n-1) (approximativement N(0,1) si n 30) Règle de décision: < m0-h On rejette H0 > m0+h On rejette H0 < m0-h On rejette H0 ou > m0+h Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Décision: en comparant à m0-h ou (et) m0+h

Test de comparaison d’une proportion à une valeur donnée Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n 50 et np(1-p) 9 (AFNOR) Hypothèses: H0 = { p = p0} contre Statistique: F bon estimateur de la proportion ou f > p0+h Règle de décision: f < p0-h On rejette H0 f > p0+h a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Zone de rejet: Décision: en comparant f à p0-h ou (et) p0+h

a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Test de comparaison de deux moyennes (variances connues) Conditions d’application: s1 , s2 connus . X1 suit une N(m1,s1), X2 suit une N(m2,s2), ni quelconques Xi quelconque, ni > 5 (AFNOR) Hypothèses: H0 = { m1 = m2 } contre m1 - m2 = 0 Statistique: Si H0 vraie, suit une N(0, sd) avec Règle de décision: On rejette H0 On rejette H0 On rejette H0 ou Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Décision: en comparant à h ou (et) -h

Test de comparaison de deux moyennes (variances inconnues) Conditions d’application: n1 et n2 30 (AFNOR) Hypothèses: H0 = { m1 = m2 } contre m1 - m2 = 0 Statistique: Si H0 vraie, suit une N(0, sd) avec Règle de décision: On rejette H0 On rejette H0 On rejette H0 ou Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Décision: en comparant à h ou (et) -h

Test de comparaison de deux proportions Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n1p, n1(1-p), n2p, n2(1-p) 5 Hypothèses: H0 = { p1 = p2 } contre p1 - p2 = 0 Statistique: Si H0 vraie, F1 - F2 suit une N(0 ,sd) avec et (estimation de p = p1 = p2) Règle de décision: On rejette H0 f1 - f2 < -h On rejette H0 f1 - f2 > h On rejette H0 ou f1 - f2 < -h f1 - f2 > h Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Décision: en comparant f1 - f2 à h ou (et) -h

TEST D’AJUSTEMENT UN EXEMPLE On a observé pendant une longue période le montant hebdomadaire des dépôts en liquide dans la banque Ibardinescroak de Saint Jean de Luz. [8000 - 10000] [10000 - 12000] [6000 - 8000] [4000 - 6000] [2000 - 4000] [0 - 2000] 28 100 166 222 58 10 montant effectif Montant des dépôts Fréquence Le montant hebdomadaire des dépôts peut-il être considéré comme une loi Normale ?

Estimation ponctuelle: Première étape: estimation des paramètres Estimation ponctuelle: Deuxième étape: ajustement à une loi normale Le montant hebdomadaire des dépôts est-il issu d’une v.a. X de loi Normale (m = 6561 ; s = 2016) ?

Comment mesurer globalement la proximité des deux graphiques ? Observations X loi N(6561 ; 2016) n densité npi = aire de la surface de la classe i ni = aire de la surface de la classe i Classe i Classe i pi = P(X classe i) ni = effectif observé dans la classe i npi = effectif théorique dans la classe i Si les observations sont issues de la loi Normale (6561 ; 2016), les effectifs observés ni dans la classe i doivent être très proches des effectifs théoriques npi. Comment mesurer globalement la proximité des deux graphiques ?

2) Une mesure probabiliste 1) Une mesure intuitive La proximité des 2 aires peut être mesurée par ni - npi Effectif observé Effectif théorique = Efoi - Efti Plus cette quantité est faible (positive ou négative) plus les aires sont proches 2 La proximité des 2 graphiques peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 graphiques 2) Une mesure probabiliste Nombre de classes de la variable Nombre de paramètres estimés ni est une observation d’une v.a. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité qui suit une loi de c² à n = (k - r - 1) d.d.l.

Remarques importantes Le nombre de classes et l’amplitude des classes n’a pas d’importance L’utilisation de la loi du c² n’est justifiée que si les effectifs théoriques de chacune des classes est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des classes contiguës afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du c² dépend du nombre de classes après regroupement.

Résumé sur le test d’ajustement Hypothèses: H0 = { les observations sont issues d’une certaine loi} contre H1 = { les observations ne sont pas issues de cette loi } est une c² à n = (k - r -1) d.d.l. Si H0 vraie, Statistique: Règle de décision: On rejette H0 d > h l’échantillon observé ne permet pas de rejeter H0 d < h Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = , d’où h Décision: en comparant d à h

TEST D’INDEPENDANCE DE 2 VARIABLES UN EXEMPLE Catégories socio-professionelles Professions libérales employés Fonctionnaires Moins de 500 € Entre 500 et 2000 € Plus de 2000 € 20 50 180 30 230 10 Montant des dépôts en liquide dans la banque Ibardinescroak en 2005 Total 250 100 210 90 300 600 X Y Y a-t-il un lien entre le montant des dépôts et la catégorie socio-professionnelle ?

Etudions la distribution de chacune des catégories professionnelles = = = nij/ ni. = n.j/ n pour tout i et j Si la variable X était indépendante de la variable Y, les distributions de chaque modalité de X seraient identiques, et identiques à celle du total

, pour tout i et j Tableau initial Tableau lorsque X et Y sont indépendantes Si les 2 variables X et Y sont indépendantes, les 2 tableaux doivent contenir des valeurs très proches: nij doit être très proche de , pour tout i et j Comment mesurer globalement la proximité des deux tableaux ?

2) Une mesure probabiliste 1) Une mesure intuitive La proximité de 2 cellules peut être mesurée par Effectif observé Effectif théorique = Efoij - Eftij Plus cette quantité est faible (positive ou négative) plus les cellules sont proches 2 La proximité des 2 tableaux peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 tableaux 2) Une mesure probabiliste Nombre de modalités de la variable en ligne Nombre de modalités de la variable en colonne nij est une observation d’une v.a. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité qui suit une loi de c² à n = (l-1)(c-1) d.d.l.

Remarques importantes L’utilisation de la loi du c² n’est justifiée que si les effectifs théoriques de chacune des cellules est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des modalités d’une des 2 variables afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du c² dépend du nombre de modalités des 2 variables après regroupement.

Résumé sur le test d’indépendance de deux variables Hypothèses: H0 = { les 2 variables X et Y sont indépendantes } contre H1 = { les 2 variables X et Y sont dépendantes } est une c² à n = (l-1)(c-1) d.d.l. Si H0 vraie, Statistique: Règle de décision: On rejette H0 d > h l’échantillon observé ne permet pas de rejeter H0 d < h Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = , d’où h Décision: en comparant d à h