Révision et preparation à l’examen

Slides:



Advertisements
Présentations similaires
Comparaison de plusieurs moyennes observées
Advertisements

Comparaison de plusieurs moyennes observées
Outils Statistiques Damien Van Gysel CHU de Nice
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
TP 7 : UNE PROPRIÉTÉ DES ONDES, LA DIFFRACTION BUSQUET Stéphane LENNE Karl-Eric TS Physique-Chimie.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Notions de statistiques et d’analyse de données
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Statistiques descriptives univariées
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Comparaison de deux pourcentages.
Élection québécoise du 2 décembre 1881.
Loi Normale (Laplace-Gauss)
Élection canadienne du 28 juillet 1930.
Statistique descriptive
Microéconomie I.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Élection canadienne du 20 juillet-12 oct
Coefficient de corrélation linéaire
POL1803: Analyse des techniques quantitatives
Échantillonnage non-aléatoire
La Conclusion.
Plans d’experiences : plans de melanges
Cours 8 Stat IV: Khi2 Désign experimental. BIO 3500 – Hiver 2017
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Stats III: corrélation & Processus de publication scientifique
La droite de régression
Cours 9 Autres types de Statistiques. Article 4 BIO 3500 – Hiver 2017
Technologies de l’intelligence d’affaires Séance 12
Exploitation de mesures scientifiques.
Les modèles linéaires (Generalized Linear Models, GLM)
2.2 Probabilité conditionnelle
Plans d'expérience Méthode Taguchy.
Statistiques industrielles – Exemple d’application
4.4 Tests D’hypothèses sur une moyenne
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
Plans d'expérience Méthode Taguchy.
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Analyse de la variance et de la covariance Analyse de la variance à 1 facteur ANOVA à 2 facteurs Conditions d’utilisation.
POL1803: Analyse des techniques quantitatives
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
© 2005, Michel Cloutier La gestion des stocks – La gestion de l’incertitude Calcul du stock de sécurité.
Statistiques.
Rappel (3): les étapes des tests statistiques
P LAMBOLEZ Partie maths V GILLOT Partie anglais
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Présentation 3 : Sondage aléatoire simple
On lance 100 fois de suite une pièce de monnaie.
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Programme d’appui à la gestion publique et aux statistiques
PROGRAMMATION SCIENTIFIQUE EN C
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Élection canadienne du 26 octobre 1908.
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Récapitulation du jour 2ème
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
Transcription de la présentation:

Révision et preparation à l’examen Cours 10 Révision et preparation à l’examen 20 mars BIO 3500 – Hiver 2017

Plan de match Distribution Mesures de tendance centrale et de dispersion Test d’hypothèses Test de t ANOVA Corrélation Régression Khi carré

Distribution Distribution de fréquence Intervalle Point milieu 170 162 184 155 180 167 170 166 168 164 172 167 180 154 180 151 153 164 177 149 173 160 152 173 158 143 169 170 154 168 153 165 160 162 162 168 175 169 166 177 175 148 167 166 159 178 156 172 143 171 181 170 174 153 173 165 156 163 173 162 160 162 165 146 177 165 163 176 172 178 135 151 154 145 170 164 163 165 178 171 166 157 156 167 157 154 164 166 184 167 164 167 153 170 162 192 154 166 170 170 158 167 154 169 162 169 162 158 151 179 159 171 165 165 166 180 180 172 165 155 151 158 164 184 170 154 162 166 150 169 173 155 173 149 174 168 162 172 158 183 175 176 165 147 168 168 171 148 166 171 165 176 145 155 176 163 176 167 171 169 171 169 172 171 178 155 164 176 155 173 158 149 176 146 151 166 163 163 147 161 149 155 146 155 177 168 166 168 163 152 169 170 159 163 186 162 148 173 180 150 Distribution de fréquence Intervalle Point milieu Fréquence 135-141 138 1 142-148 145 12 149-155 152 32 156-162 159 30 163-169 166 60 170-176 173 44 177-183 180 16 184-190 187 3 191-197 194 2 Histogramme

Distribution

Distribution

La distribution (loi) normale Distribution parfaitement symétrique! des données sont contenues par 3 écarts-types moyenne contient 95% des données

Échantillon vs population Population: L’entièreté des unités d’intérêt Ex: Tous les lacs du Québec Ex: Les cerfs de virginie de la Montérégie Échantillon: La partie de la population qui est mesurée Ex: 10 lacs répartis uniformément sur le territoire Ex: Les cerfs abattus à la chasse cet automne

Échantillon vs population Un échantillon doit le plus possible être représentatif de la population! Sinon, on fera des inférences erronées à l’aide des tests statistiques

Mesures de tendance centrale Mode, la valeur la plus fréquente Médiane, la valeur séparant la série de données en 2 Mettre les valeurs en ordre croissant, la médiane est la valeur à la position (n+1)/2 Si le nombre de valeur est pair, il faut additionner et faire la moyenne des deux valeurs séparant la série en deux Ex, données: 1, 2, 2, 4, 6, 6 -> (6+1)/2=3.5 valeur médiane Médiane=(2+4)/2=3

Mesures de tendance centrale Moyenne, la somme de toutes les n valeurs de la série de données divisées par n La meilleur estimation de la tendance centrale, mais affectée par les valeurs extrêmes   Pour l’échantillon Pour la population  

Mesures de dispersion Variance μ σ2 N Unité: ex: taille en cm, variance de la taille en cm2 Pour l’échantillon Pour la population N μ σ2 N Taille de l’échantillon Taille de la population

Mesures de dispersion 30272

Mesures de dispersion Écart-type: écart moyen à la moyenne Unité: ex: taille en cm, écart-type de la taille en cm Pour l’échantillon Pour la population    

Mesures de dispersion Coefficient de variation: sert à comparer la variation de deux groupes dont les moyennes ou les unités sont différentes Unité: ex: taille en cm, coefficient de variation pas d’unité Pour l’échantillon Pas de signe différent pour la population

Type de variable Numérique/quantitative: Nominale/qualitative Continue: peut prendre n’importe quelle valeur ex- taille Discrète: un nombre de valeurs limité ex – nb de marmottes Nominale/qualitative ex – sexe, type de forêt, espèces Ordinale: qui peut être ordonnée ex- âge de la vie (enfant, adolescent, adulte)

Statistiques inférentielles

Statistiques inférentielles Statistiques descriptives: décrire un ensemble de données sous forme: de graphiques de tableaux de fréquences de moyennes, médianes, modes, variances Statistiques inférentielles: tirer des conclusions concernant la population à partir des résultats obtenus sur un échantillon

Les étapes du test d’hypothèse Poser les hypothèses Récolter les observations Déduire la distribution de la statistique en fonction de l’hypothèse nulle Calculer la valeur de la statistique à partir des données (ex., valeur de t, valeur de F, valeur de X2) Calculer la probabilité (p) d’obtenir une telle valeur ou une valeur plus extrême Tirer une conclusion. Si p<α, on rejette H0

Hypothèses nulles et alternatives Hypothèse nulle (H0): Hypothèse du statut quo Maintenue jusqu’à preuve du contraire Hypothèse d’égalité dans la majorité des cas Ex. H0: = 20 Hypothèse alternative (H1): Hypothèse qu’on voudrait démontrer (habituellement) Utilisation conditionnelle au rejet de H1 Ex. H1: ≠ 20 μ μ

Hypothèses nulles et alternatives L’hypothèse nulle (H0) et l’hypothèse alternative (H1) doivent couvrir l’ensemble des possibilités et être mutuellement exclusives

Tirer une conclusion Si p<α, on rejette H0 Si la statistique calculée>statistique critique, on rejette H0 Ex, tcalculé > tcritique Autrement dit, si la statistique calculée > statistique critique, obligatoirement p <α

Tirer une conclusion Réalité (inconnu) Décision Ho vrai Ho fausse Rejet de Ho Erreur de première espèce (type I) P=α Décision correcte Non-rejet de Ho Décision correcte P=1- α Erreur de seconde espèce Deux types d’erreurs possible lors d’une décision statistique

Types de tests vus Variable explicative Variable réponse Condition Test Statistique Nominale Continue 2 catégories Test t Nominale Continue 3+ catégories ANOVA Continue Pas de relation cause-effet Corrélation Continue Continue Continue Il y a une relation de cause-effet Régression Nominale Nominale ----------- Chi-Carré

La loi de Student / test de t

3 types de test de t Comparaison de deux moyennes Ex: Comparer la température corporelle des mouches et des éléphants Comparaison d’une moyenne à une valeur théorique Ex: Est-ce que le poids des moufettes est de 10kg? Comparaison de deux moyennes appariées Ex: Niveau de santé mentale avant et après un discours de Donald Trump

Test bilatéral 2 moyennes H0: μa = μb H1: μa ≠ μb Valeur théorique H0: μa = Valeur H1: μa ≠ Valeur Valeurs appariées H0: μa1 = μa2 H1: μa1 ≠ μa2

Test unilatéral 2 moyennes H0: μa ≤ μb H1: μa > μb Valeur théorique H0: μa ≥ Valeur H1: μa < Valeur Valeurs appariées H0: μa1 ≥ μa2 H1: μa1 < μa2 où la direction inverse pour l’inégalité

Test unilatéral À utiliser seulement si l’on a une justification Ex: seul l’une des deux options nous intéresse. Ex: on juge l’une des deux options pratiquement impossible Si on test on ne peut pas découvrir si b est plus grand que a 2 moyennes H0: μa ≤ μb H1: μa > μb

Distribution de probabilité t vs taille de l'échantillon (n) Le calcul du degré de libérté change en fonction des variantes du test de t - il y a seulement de 5% des moyens d'échantillon qui peuvent avoir une valeur plus grande ou plus petit que 3.18 pour n=4 avoir une valeur plus grande ou plus petit que 2.45 pour n=7 d.d.l = degré de liberté = d.f. = degree of freedom 2 moyennes d.d.l. = n-2 Valeur théorique d.d.l. = n-1 Valeurs appariées d.d.l. = n-1

Trouver le t critique: Table de t ex: k=8 , alpha=0.05, test bilatéral tcrit= 2.306

Analyse de variance

L’analyse de variance Principalement utilisée pour comparer plusieurs moyennes Utilise la loi de Fisher comme distribution des probabilités L’analyse vérifie si la variance entre les moyennes des groupes est supérieure à la variance à l’intérieur des groupes

L’analyse de variance Variabilité intra Variabilité inter Si nous avons k groupes et N observations totales, les d.d.l. sont k-1 et N-k Ex: k=3, N=9 ….. F(2,6)

Distribution des probabilités sous la loi de F α = 0.05 Probabilité

Hypothèses Distribution F, deux d.d.l. H0: les moyennes sont égales H1: au moins une moyenne diffère des autres moyennes μa = μb = μc = μd μa ≠ μb ≠ μc ≠ μd ou μi≠μj

L’ANOVA et le test t Lorsqu’il n’y a que deux moyennes à comparer (i.e. k=2) les deux tests s’appliquent également On trouvera qu’il produisent la même probabilité et que

Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt) Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur alpha afin d’obtenir un alpha global desiré. Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs

Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt) Test de Tuckey : Résultats Les groupes 1 et 2 ne diffèrent pas. Les groupes 2 et 3 non plus. 1 et 3 diffèrent. 1, 2 et 3 diffèrent de 4 et 5. Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5 A B C

Corrélation

Corrélation Mesurer la force de l’association linéaire entre 2 variables quantitatives positive négative nulle Corrélation

Corrélation La corrélation n'est pas une relation de cause à effet!!!! Consommation de margarine Divorce au Maine

r de Pearson On utilise la méthode de Pearson dérivée de la covariance et adaptée à des échantillons d’une population Valeur estimée : r de Pearson La valeur de r varie entre -1 et 1 r = 0; corrélation nulle r = -1 ou 1; corrélation parfaite

Les trois types de corrélation Question sur les corrélations négatives et positives… corrélation positive corrélation négative corrélation nulle

Tests d’hypothèses H0: ρ=0 H0: ρ≠0 la variable x et la variable y ne sont pas corrélées H0: ρ≠0 la variable x et la variable y sont corrélées Lorsque p=0 r se distribue normalement… ah pis non…

Test sur le coefficient On utilise un test de t pour tester l’hypothèse nulle H0: ρ=0 et H1: ρ≠0 d.d.l. = n-2

Régression

Objectifs de la régression Il y a une variable d’intérêt pour laquelle vous voulez avoir : Une prédiction de ses valeurs futures Une explication de ses variations Une estimation de l’erreur possible dans votre prédiction

Contraste avec la corrélation En corrélation: on regarde la force d’association ou de liaison entre deux variables Régression simple: On utilise une variable dépendante (à prédire, Y) et une autre dite predictive (X) qui détermine la valeur de la première (du moins, en partie) On est non seulement intéressé à la force de la relation, mais aussi à sa forme: de quel façon Y change en fonction de X

Corrélation et régression La longueur du bras ne CAUSE pas la longueur de la jambe

Corrélation et régression [hormone de croissance X] La concentration de l’hormone de croissance X CAUSE la longueur de la jambe et du bras

Définitions L’équation de prédiction produite par l’analyse de régression s’appelle un modèle linéaire (à cause de son incertitude, et parce qu’elle est en forme de droite) La variable utilisée pour la prédiction s’appelle variable indépendante ou explicative La variable prédite se nomme la variable dépendante ou réponse

Équation d’une droite Y 1.0 = ordonnée à l’origine = pente X

Équation d’une droite Y X Y = 0.4 + 0.5X = ordonnée à l’origine = 0.4 (3, 1.9) (2, 1.4) Y = 0.4 + 0.5X Y (1, 0.9) = ordonnée à l’origine = 0.4 = pente = 0.5 (0, 0.4) 1 2 3 X

Valeurs prédites et résiduelles ε = valeur résiduelle = erreur de prediction = Ŷ – Y *** se calcule perpendiculaire à X *** On veut que X prédise Y, donc on calcule l’erreur sur Y Ŷ Y ε Y X

Principes des moindres carrés   Y X Quelle est la meilleure droite ? La droite optimale est celle pour laquelle la somme des erreurs résiduelles au carré est minimale

Droite de régression et erreur résiduelle L’erreur résiduelle (résidus) sont les écarts ( ) entre les valeurs observées et les valeurs prédites de par le modèle de régression Ŷ = a + bX Y = a +bX + ε ε = Ŷ – Y a: ordonnée à l’origine b: pente

Coefficient de détermination On utilise le terme R2 pour désigner le coefficient de détermination Le R2 donne la portion de la variabilité expliquée par le modèle R2 = variation de Y expliquée/variation totale de Y R2 = 1 – variation résiduelle/variation totale Le R2 varie entre 0 et 1 (relation parfaite) ou si vous préférez, entre 0% et 100% de la variation de Y expliquée par le modèle…

Test sur la pente où où H0: b=0. H1: b≠0 Il n’y a pas de relation linéaire entre la variable explicative X et la variable dépendante Y H1: b≠0 Il y a une relation linéaire entre la variable explicative X et la variable dépendante Y où où

Test sur la pente d.d.l. = n-2 où où

Khi-carré et tables de contingence

Analyse de fréquences Permet de faire des tests d’hypothèses en se servant de données exprimées en terme de fréquences Permet de voir des liens entre facteurs à partir des données de fréquences

Test d’hypothèses H0: La variable A et la variable B sont indépendantes H0: pi = pj = p ou p = 1/nb de classes H1: La variable A et la variable B ne sont pas indépendantes H0: pi ≠ pj

Tables de contingence Observée Calculé la fréquence attendue de chaque cellule Pour chaque cellule: Somme ligne *somme colonne Abondance totale (N) Ex: mâles attendus à Anticosti = 97*64/160=38.8 mâles à Anticosti

Tables de contingence Observée Attendue Mâles Femelles Anticosti 38.8 25.2 Cantons de l'Est 48.5 31.5 Laurentides 9.7 6.3 Attendue

Khi-carré Degrés de liberté = (k-1)(m-1) Où k est le nombre de categories de la première variable et m est le nombre de catégories de la deuxième variable. Dans l’exemple présent: (3-1)(2-1) = 2 n

Exemples de questions

Example 1 Robert est un nouvel employé dans une compagnie privée sans échelle salariale fixe. Tout de même, il aimerait savoir à quel salaire il devrait s’attendre dans 4 ans, moment à lequel il planifie avoir son premier enfant. Il obtient des informations sur l’ancienneté et le salaire de 10 collègues. Que doit-il faire à partir de ces données pour projeter son salaire dans 4 ans? Quelles seront ses hypothèses? S’il obtient un p de 0,21, quelles doivent être ses conclusions?

Example 2 Jim veut étudier en médecine, mais n’a pas obtenu les notes nécessaires au CÉGEP. Il décide d’entreprendre le chemin de croix que de nombreuses personnes ont fait avant lui et d’obtenir un bacc en biologie avant de réappliquer en médecine. Afin de choisir l’université lui permettant de maximiser ses chances d’être accepté en médecine, mais voulant demeurer à Montréal, il désire comparer le taux d’acceptation en médecine d’étudiants ayant complété leur bacc en biologie à l’UQÀM, l’UdM, McGill et Concordia. Admettant qu’il a accès à ces données (nb d’appliquants et nb d’acceptés provenant de chaque université), quel test devrait-il faire? Identifiez les variables et leur type. Admettant que le test est significatif, comment peut-il déterminer quelle université maximise ses chances?

Example 3 Arianne a remarqué que les animaux de grandes tailles semblent vivre plus longtemps que ceux de petites tailles. Quel test devrait-elle faire pour vérifier son observation? Quels seraient les hypothèses? Que peut-elle conclure si après avoir obtenu des informations sur 20 espèces, elle obtient une valeur de t=2.3?