STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Comparaison de deux moyennes observées
Comparaison de plusieurs moyennes Analyse de variance
Comparaison de plusieurs moyennes Analyse de variance
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Du chapitre 1 au chapitre 2 1. Les graphiques : introduction (p.15)  Pour prendre possession des données o des chiffres dans un tableau, c’est bien o.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
O ij BrunChâtainRouxBlond Total Marron Noisette Vert Bleu Total Dans cet exemple,
Notions de statistiques et d’analyse de données
V Suite géométrique : 1°) Définition : un+1
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Tableau à double entrée
Analyse, Classification,Indexation des Données ACID
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Comparaison de deux pourcentages.
Chapitre 4: Variation dans le temps
Cours d’Econométrie de la Finance (STA202 – IV 4-5)
Loi Normale (Laplace-Gauss)
Statistique descriptive
de toute série statistique
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Projet pour un festival des sciences
chapitre 3 Les Statistiques
Plans d’experiences : plans de melanges
Cours 8 Stat IV: Khi2 Désign experimental. BIO 3500 – Hiver 2017
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
Risque d’erreur de 1ère espèce : α
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
4.3 Estimation d’une proportion
4.5 Tests D’hypothèses sur une proportion
Projet pour un festival des sciences
4.4 Tests D’hypothèses sur une moyenne
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
Introduction aux statistiques Intervalles de confiance
Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence.
La gestion des stocks (Modèle de Wilson).
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Rappel (3): les étapes des tests statistiques
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Test 2.
Présentation 5 : Sondage à probabilités inégales
Présentation 8 : Redressement des estimateurs
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Programme d’appui à la gestion publique et aux statistiques
Projet pour un festival des sciences
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Transcription de la présentation:

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Un test consiste à Population caractère observé X, de moyenne  de variance  ² Émettre une hypothèse, notée H 0, appelée hypothèse nulle, sur un paramètre de X, sa loi... Construire une règle de décision Déterminer la zone de rejet de l’hypothèse H 0 en fonction d’un risque d’erreur  que l’on veut bien accepter Prendre une décision Choisir une grandeur calculée à partir de l’échantillon, appelée statistique Proposer une hypothèse alternative, notée H 1

LES RISQUES D’ERREUR DANS UN TEST La réalité est La décision est Accepter H 0 H 0 vraie Rejeter H 0 H 0 fausse Bonne décision Mauvaise décision: Erreur   = P(Rejeter H 0 sachant que H 0 est vraie) Mauvaise décision: Erreur   = P(Accepter H 0 sachant que H 0 est fausse)

IMPORTANCE DU CHOIX DES HYPOTHESES H 0 est l’hypothèse à laquelle on tient le plus, la plus vraisemblable... Il est donc plus grave de la rejeter à tort que de l’accepter à tort  = P(Rejeter H 0 sachant que H 0 est vraie) Pour construire le test on se fixe  = P(Accepter H 0 sachant que H 0 est fausse) Souvent l’utilisateur ne calcule pas EXEMPLE: Les OGM sont-ils bons pour la santé? Point de vue de MONSANTO H 0 = les OGM sont bons Si  n’est pas calculé, le choix de H 0 n’est pas innocent Point de vue du consommateur H 0 = les OGM ne sont pas bons

Test de comparaison d’une moyenne à une valeur donnée (variance connue) Hypothèses: H 0 = {  =  0 } contre Statistique:qui est un bon estimateur de la moyenne Conditions d’application:  connu. X suit une loi N( ,  ), n quelconque X quelconque, n > 5 (AFNOR) Si H 0 est vraie,  =  0  Si H 1 est vraie,  <  0   0 -h est une bonne estimation de  donc est proche de  Règle de décision: 00 Conclusion: Il existe  0 -h tel que  0 -h On rejette H 0 On accepte H 0  0 -h H 0 est vraie H 1 est vraie

suit une Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 1  donné et donc h  = P(Rejeter H 0 sachant que H 0 est vraie) Zone de rejet: Règle de décision: 00    0 -h H 0 est vraie H 1 est vraie  0 -h On rejette H 0 On accepte H 0  0 -h

suit une Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 2 Décision: Règle de décision: 00    0 -h H 0 est vraie H 1 est vraie  0 -h On rejette H 0 On accepte H 0  0 -h Si <  0 -h, on rejette H 0 avec un risque  connu de se tromper Si >  0 -h, on accepte H 0 avec un risque  de se tromper  = P(Accepter H 0 sachant que H 0 est fausse)  est fonction de , et n’est pas toujours calculée par l’utilisateur. Si c’est le cas, plutôt que d’accepter H 0, il vaut mieux conclure que l’échantillon observé ne permet pas de rejeter H 0. Zone de rejet: permet de calculer h

La règle de décision dépend de H 1  0 -h On rejette H 0 Règle:  0 +h On rejette H 0 Règle:  0 -h On rejette H 0 ou  0 +h Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 3 ….. et fin  H1H1  0 -h  H1H1  0 +h  H1H1  H1H1  0 -h  H0H0  H0H0 H 1 = {   0 }  H0H0

Test de comparaison d’une moyenne à une valeur donnée (variance inconnue) Hypothèses: H 0 = {  =  0 } contre H 1 = {   0 } Règle de décision:  0 -h On rejette H 0  0 +h On rejette H 0  0 -h On rejette H 0 ou  0 +h Zone de rejet: Décision: en comparant à  0 -h ou (et)  0 +h  = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Conditions d’application:  inconnu. X suit une loi N( ,  ), n quelconque X quelconque, n 30 (AFNOR) Statistique:suit une T (n-1) (approximativement N(0,1) si n 30)

Test de comparaison d’une proportion à une valeur donnée Hypothèses: H 0 = { p = p 0 } contre ou f >  p 0 +h Règle de décision: f  p 0 -h On rejette H 0 f >  p 0 +h On rejette H 0 f  p 0 -h On rejette H 0  = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Zone de rejet: Décision: en comparant f à p 0 -h ou (et) p 0 +h Statistique:F bon estimateur de la proportion Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n 50 et np(1-p) 9 (AFNOR)

 1 -  2 = 0 Test de comparaison de deux moyennes (variances connues) Conditions d’application:     connus. X 1 suit une N(  ,   ), X 2 suit une N(  ,   ), n i quelconques X i quelconque, n i > 5 (AFNOR) Règle de décision: Zone de rejet: Statistique: Si H 0 vraie, suit une N( ,  d ) avec On rejette H 0 ou Décision: en comparant à h ou (et) -h  = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Hypothèses: H 0 = {  1 =  2 } contre

 1 -  2 = 0 Test de comparaison de deux moyennes (variances inconnues) Règle de décision: Zone de rejet: Hypothèses: H 0 = {  1 =  2 } contre On rejette H 0 Décision: en comparant à h ou (et) -h  = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h Statistique: Si H 0 vraie, suit une N( , s d ) avec On rejette H 0 ou Conditions d’application: n 1 et n 2 30 (AFNOR)

p 1 - p 2 = 0 Test de comparaison de deux proportions Règle de décision: Zone de rejet: Hypothèses: H 0 = { p 1 = p 2 } contre Décision: en comparant f 1 - f 2 à h ou (et) -h  = P(Rejeter H 0 sachant que H 0 est vraie) = …….. d’où h On rejette H 0 f 1 - f 2 < -h On rejette H 0 f 1 - f 2 > h On rejette H 0 ou f 1 - f 2 < -h f 1 - f 2 > h Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n 1 p, n 1 (1-p), n 2 p, n 2 (1-p) 5 Statistique: Si H 0 vraie, F 1 - F 2 suit une N( 0,  d ) avec et (estimation de p = p 1 = p 2 )

TEST D’AJUSTEMENT UN EXEMPLE On a observé pendant une longue période le montant hebdomadaire des dépôts en liquide dans la banque Ibardinescroak de Saint Jean de Luz. [ ][ ][ ][ ][ ][ ] montant effectif Montant des dépôts Fréquence Le montant hebdomadaire des dépôts peut-il être considéré comme une loi Normale ?

Première étape: estimation des paramètres Estimation ponctuelle: Deuxième étape: ajustement à une loi normale Le montant hebdomadaire des dépôts est-il issu d’une v.a. X de loi Normale (  = 6561 ;  = 2016) ?

ObservationsX loi N(6561 ; 2016) Classe i n i = effectif observé dans la classe i n densité p i = P(X classe i) np i = effectif théorique dans la classe i Si les observations sont issues de la loi Normale (6561 ; 2016), les effectifs observés n i dans la classe i doivent être très proches des effectifs théoriques np i. Comment mesurer globalement la proximité des deux graphiques ? nini = aire de la surface de la classe i np i = aire de la surface de la classe i

Nombre de classes de la variable Nombre de paramètres estimés La proximité des 2 aires peut être mesurée par n i - np i Plus cette quantité est faible (positive ou négative) plus les aires sont proches La proximité des 2 graphiques peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 graphiques 2 1) Une mesure intuitive 2) Une mesure probabiliste n i est une observation d’une v.a. Effectif observé Effectif théorique = Efo i - Eft i qui suit une loi de  ² à = (k - r - 1) d.d.l. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité

Remarques importantes L’utilisation de la loi du  ² n’est justifiée que si les effectifs théoriques de chacune des classes est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des classes contiguës afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du  ² dépend du nombre de classes après regroupement. Le nombre de classes et l’amplitude des classes n’a pas d’importance

Résumé sur le test d’ajustement Règle de décision: Zone de rejet: Hypothèses: Décision: en comparant d à h Statistique: H 0 = { les observations sont issues d’une certaine loi} contre H 1 = { les observations ne sont pas issues de cette loi } On rejette H 0 d > h l’échantillon observé ne permet pas de rejeter H 0 d < h  = P(Rejeter H 0 sachant que H 0 est vraie) =, d’où h est une  ² à = (k - r -1) d.d.l. Si H 0 vraie,

TEST D’INDEPENDANCE DE 2 VARIABLES Y a-t-il un lien entre le montant des dépôts et la catégorie socio-professionnelle ? UN EXEMPLE Catégories socio- professionelles Professions libérales employés Fonctionnaires Moins de 500 €Entre 500 et 2000 €Plus de 2000 € Montant des dépôts en liquide dans la banque Ibardinescroak en 2005 Total X Y

= = = Etudions la distribution de chacune des catégories professionnelles Si la variable X était indépendante de la variable Y, les distributions de chaque modalité de X seraient identiques, n ij / n i. = n. j / n pour tout i et j et identiques à celle du total

Tableau initialTableau lorsque X et Y sont indépendantes Si les 2 variables X et Y sont indépendantes, les 2 tableaux doivent contenir des valeurs très proches: n ij doit être très proche de, pour tout i et j Comment mesurer globalement la proximité des deux tableaux ?

Nombre de modalités de la variable en ligne Nombre de modalités de la variable en colonne La proximité de 2 cellules peut être mesurée par Plus cette quantité est faible (positive ou négative) plus les cellules sont proches La proximité des 2 tableaux peut être mesurée par Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 tableaux 2 1) Une mesure intuitive 2) Une mesure probabiliste n ij est une observation d’une v.a. Effectif observé Effectif théorique = Efo ij - Eft ij qui suit une loi de  ² à = ( -1)(c-1) d.d.l. Donc est une observation d’une v.a. dont la loi n’est malheureusement pas connue. On utilise la quantité

Remarques importantes L’utilisation de la loi du  ² n’est justifiée que si les effectifs théoriques de chacune des cellules est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des modalités d’une des 2 variables afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du  ² dépend du nombre de modalités des 2 variables après regroupement.

Résumé sur le test d’indépendance de deux variables Règle de décision: Zone de rejet: Hypothèses: Décision: en comparant d à h Statistique: H 0 = { les 2 variables X et Y sont indépendantes } contre H 1 = { les 2 variables X et Y sont dépendantes } On rejette H 0 d > h l’échantillon observé ne permet pas de rejeter H 0 d < h  = P(Rejeter H 0 sachant que H 0 est vraie) =, d’où h est une  ² à = ( -1)(c-1) d.d.l. Si H 0 vraie,