ENP 7137 Module 3 Professeur Filip Palda. Différence entre moyennes On ne peut pas simplement calculer la différence et conclure qu’elle existe si on.

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Test statistique : principe
Les tests d’hypothèses (I)
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Régression -corrélation
variable aléatoire Discrète
Vérification des données
La loi normale et l’estimation de paramètres
Fluctuations d’une fréquence selon les échantillons, Probabilités
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Eléments de Statistiques
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
Les probabilités ... la valeur d'un hasard est égale à son degré d'improbabilité. Milan Kundera.
L’inférence statistique
Échantillonnage (STT-2000)
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Le test t.
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
MATHÉMATIQUES FINANCIÈRES I
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Fabienne BUSSAC PROBABILITÉS 1. VOCABULAIRE
Chapitre 3: Variables aléatoires réelles continues
TNS et Analyse Spectrale
Concepts fondamentaux: statistiques et distributions
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
02/10/07 MATHÉMATIQUES FINANCIÈRES I Neuvième cours.
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
Chapitre 4 Variables aléatoires discrètes
Échantillonnage (STT-2000)
Échantillonnage (STT-2000)
ENP 7137 Module 4 Professeur Filip Palda. Objectifs : De façon générale, les études ne sont pas randomisées. La «solution» est de créer un groupe ayant.
Analyse des semis de point
ENP 7137 Module 10 Professeur Filip Palda. Introduction Objectif : comprendre la méthode de Heckman pour corriger les biais de sélection. Avec le logiciel.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Probabilités et statistique MQT-1102
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
MAXIMUM ET MINIMUM D’UNE FONCTION
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

ENP 7137 Module 3 Professeur Filip Palda

Différence entre moyennes On ne peut pas simplement calculer la différence et conclure qu’elle existe si on constate que cette dernière n’est pas nulle (zéro). La différence mathématique n’indique pas nécessairement une différence statistique. Similarité entre moyennes en statistique: quand on déduit que les 2 échantillons sont tirés de la même distribution statistique.

Similarité entre les groupes E et C : Ex : déterminer si 2 tables de roulette sont semblables. Objectif : comprendre comment calculer la probabilité que la différence entre moyennes ait été générée par le même processus statistique. Compréhension de la notion de test statistique, en particulier du test t et de sa valeur P.

 Ouvrez workprog.sav Calculez la différence entre incaft et incbef Incdiff = incaft - incbef (transform, compute) La fonction Compute calcule la différence de salaire après et avant l’expérimentation pour CHAQUE individu.

Exercice : faites un independent samples t test pour les participants et les non-participants au programme. Test variable : c’est la variable qu’on veut tester par le test t. Autrement dit, on cherche à savoir s’il existe une différence entre les moyennes des sous-ensembles de cette variable. Ici, on a 2 sous-ensembles : –group =1 (expérimental) –group = 0 (contrôle). Le grouping variable est une variable catégorique qui nous indique l’appartenance du cas (ici la personne) au groupe expérimental ou contrôle.

Levene's Test for Equality of Variances t-test for Equality of Means FSig.tdfSig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference LowerUpper INCDIFFEqual variances assumed 4,664,03121,480998,0004,4266,206084, ,83097 Equal variances not assumed 21,401968,258,0004,4266,206844,020674,83247 La cellule Sig. (2-tailed) indique que la probabilité qu’on observe PAR HASARD une différence entre les groupes E et C de 4 426$ est inférieure à 1/1000.

Cette signification statistique est calculée à partir de la valeur de t = 21,4 calculée comme suit :

 SPSS connaît la distribution de la statistique t dans le cas où il n’existe aucune différence entre les moyennes. Alors, connaissant cette distribution, SPSS peut nous indiquer la probabilité d’observer un tel t.  C’est le même concept qu’avec la pièce de monnaie. Si on observe 10 faces de suite, 10 est analogue à notre valeur de t = 21,4. On connaît la distribution statistique d’une pièce honnête : F = 50%, P = 50%. Ainsi on peut calculer que la probabilité d’obtenir 10 faces de suite = 0,0009 soit 1/1000. Ceci est analogue au Sig. (2-tailed).

 Calculer la différence entre les moyennes des variables : age, education et incbeff. Levene's Test for Equality of Variances t-test for Equality of Means FSig.tdfSig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference LowerUpper Age in yearsEqual variances assumed 3,282,070-,578998,563-,05,086-,218,119 Equal variances not assumed -,579997,998,563-,05,085-,217,118 Income before the program Equal variances assumed,355,5511,052998,293,1090,10356-,09423,31223 Equal variances not assumed 1,051987,022,293,1090,10370-,09449,31249 Level of education Equal variances assumed,370,5431,201998,230,06,048-,037,153 Equal variances not assumed 1,200988,447,230,06,048-,037,153

Intervalle de confiance  Constater une différence statistiquement significative est d’une utilité limitée car ce test ne précise pas dans quel intervalle cette différence se trouve. Ceci est la fonction de l’intervalle de confiance.  Exercice : ouvrez la banque de données SALESPERFORMANCE.SAV

 Quelle formation l’entreprise devrait favoriser pour ses employés?  salesperformance.sav. Cette base de données fictive présente l’évaluation de deux formations pour les employés d’une entreprise. 60 employés, divisés en 3 groupes, reçoivent la formation habituelle. En plus, le 2e groupe reçoit une formation technique et le 3e groupe, une formation pratique. Chaque employé est évalué à la fin de la formation et les résultats de tous sont compilés. Donc, chaque observation dans la base de données représente un employé et indique le groupe auquel il appartient, ainsi que son résultat.

Intervalles de confiance : Diff 1 et 2 (-17,7, -2,21) Diff 2 et 3 (-10,9, -0,5) Diff 1 et 3 (-22,1, -9,2) La definition de Wikipedia est FAUSSE!| En statistiques, et en particulier dans la théorie des sondages, lorsqu'on cherche à estimer la valeur d'un paramètre, on parle d'intervalle de confiance lorsque l'on donne un intervalle qui contient, avec un certain degré de confiance, la valeur à estimer. Le degré de confiance est en principe exprimé sous la forme d'une probabilité. Par exemple, un intervalle de confiance à 95% (ou au seuil de risque de 5%) a une probabilité égale à 0,95 de contenir la valeur du paramètre que l'on cherche à estimer.statistiquessondages estimer 95 X sur 100 l’intervalle contient la vraie valeur du parametre

Ouvrez la banque de données BANKLOAN.SAV bankloan.sav. Cette base de données fictive représente les efforts d’une banque pour réduire son taux de mauvaise créance. La base de données contient l’information financière et démographique sur 850 consommateurs, anciens et prospectifs. Les 700 premières observations sont des consommateurs qui ont précédemment reçu un prêt. Les dernières 150 observations sont des consommateurs prospectifs que la banque souhaite classifier selon leur risque de crédit.

Les 700 premières personnes ont reçu des prêts. L’objectif est de voir si les personnes qui ont un défaut de paiement sont différentes de celles qui n’en ont pas. Le type d’individu qui présente un défaut est significativement différent sur tous les plans du type d’individu qui n’a pas de défaut de paiement.

Sommaire du cours : Pendant les 2 premiers cours, on n’avait pas une idée précise de la signification de différence statistique. Cela veut dire : attacher une probabilité à notre incertitude.

Devoir 3 ADL.SAV adl.sav. Cette base de données fictive présente les bénéfices d’une thérapie visant à soigner les victimes d’un accident cérébrovasculaire. Les médecins ont aléatoirement réparti des patientes dans les deux groupes. Le premier groupe a reçu une thérapie habituelle; le deuxième groupe a reçu, en plus, une thérapie émotionnelle. Trois mois après les traitements, les habiletés des patientes à conduire leurs tâches quotidiennes ont été évaluées en utilisant des variables ordinales.

Pt. ID Treatment group Female pts. Pt. age Hospital LOS (durée du séjour à l’hôpital) Diabetes mellitus Hypertensive Atrial fibrillation Prior stroke Current smoker Post-stroke depression Travel ADL Cooking ADL Housekeeping ADL 1)Déterminez si, avant le traitement, les 2 groupes ont été répartis aléatoirement. Assurez-vous de choisir les caractéristiques pertinentes à la performance. 2)Est-ce que le traitement émotionnel est un succès? Expliquez la significativité et incluez une interprétation des intervalles de confiance. 3)Faites un sommaire du chapitre 3 du guide du Conseil du Trésor : 4) module1/Method%20devaluation%2 0de%20programmes.pdfhttp://palda.dyndns.org/enap/7137a/ module1/Method%20devaluation%2 0de%20programmes.pdf