Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Révision et preparation à l’examen
Cours 10 Révision et preparation à l’examen 20 mars BIO 3500 – Hiver 2017
2
Plan de match Distribution
Mesures de tendance centrale et de dispersion Test d’hypothèses Test de t ANOVA Corrélation Régression Khi carré
3
Distribution Distribution de fréquence Intervalle Point milieu
Distribution de fréquence Intervalle Point milieu Fréquence 138 1 145 12 152 32 159 30 166 60 173 44 180 16 187 3 194 2 Histogramme
4
Distribution
5
Distribution
6
La distribution (loi) normale
Distribution parfaitement symétrique! des données sont contenues par 3 écarts-types moyenne contient 95% des données
7
Échantillon vs population
Population: L’entièreté des unités d’intérêt Ex: Tous les lacs du Québec Ex: Les cerfs de virginie de la Montérégie Échantillon: La partie de la population qui est mesurée Ex: 10 lacs répartis uniformément sur le territoire Ex: Les cerfs abattus à la chasse cet automne
8
Échantillon vs population
Un échantillon doit le plus possible être représentatif de la population! Sinon, on fera des inférences erronées à l’aide des tests statistiques
9
Mesures de tendance centrale
Mode, la valeur la plus fréquente Médiane, la valeur séparant la série de données en 2 Mettre les valeurs en ordre croissant, la médiane est la valeur à la position (n+1)/2 Si le nombre de valeur est pair, il faut additionner et faire la moyenne des deux valeurs séparant la série en deux Ex, données: 1, 2, 2, 4, 6, 6 -> (6+1)/2=3.5 valeur médiane Médiane=(2+4)/2=3
10
Mesures de tendance centrale
Moyenne, la somme de toutes les n valeurs de la série de données divisées par n La meilleur estimation de la tendance centrale, mais affectée par les valeurs extrêmes Pour l’échantillon Pour la population
11
Mesures de dispersion Variance μ σ2 N
Unité: ex: taille en cm, variance de la taille en cm2 Pour l’échantillon Pour la population N μ σ2 N Taille de l’échantillon Taille de la population
12
Mesures de dispersion 30272
13
Mesures de dispersion Écart-type: écart moyen à la moyenne
Unité: ex: taille en cm, écart-type de la taille en cm Pour l’échantillon Pour la population
14
Mesures de dispersion Coefficient de variation: sert à comparer la variation de deux groupes dont les moyennes ou les unités sont différentes Unité: ex: taille en cm, coefficient de variation pas d’unité Pour l’échantillon Pas de signe différent pour la population
15
Type de variable Numérique/quantitative: Nominale/qualitative
Continue: peut prendre n’importe quelle valeur ex- taille Discrète: un nombre de valeurs limité ex – nb de marmottes Nominale/qualitative ex – sexe, type de forêt, espèces Ordinale: qui peut être ordonnée ex- âge de la vie (enfant, adolescent, adulte)
16
Statistiques inférentielles
17
Statistiques inférentielles
Statistiques descriptives: décrire un ensemble de données sous forme: de graphiques de tableaux de fréquences de moyennes, médianes, modes, variances Statistiques inférentielles: tirer des conclusions concernant la population à partir des résultats obtenus sur un échantillon
18
Les étapes du test d’hypothèse
Poser les hypothèses Récolter les observations Déduire la distribution de la statistique en fonction de l’hypothèse nulle Calculer la valeur de la statistique à partir des données (ex., valeur de t, valeur de F, valeur de X2) Calculer la probabilité (p) d’obtenir une telle valeur ou une valeur plus extrême Tirer une conclusion. Si p<α, on rejette H0
19
Hypothèses nulles et alternatives
Hypothèse nulle (H0): Hypothèse du statut quo Maintenue jusqu’à preuve du contraire Hypothèse d’égalité dans la majorité des cas Ex. H0: = 20 Hypothèse alternative (H1): Hypothèse qu’on voudrait démontrer (habituellement) Utilisation conditionnelle au rejet de H1 Ex. H1: ≠ 20 μ μ
20
Hypothèses nulles et alternatives
L’hypothèse nulle (H0) et l’hypothèse alternative (H1) doivent couvrir l’ensemble des possibilités et être mutuellement exclusives
21
Tirer une conclusion Si p<α, on rejette H0
Si la statistique calculée>statistique critique, on rejette H0 Ex, tcalculé > tcritique Autrement dit, si la statistique calculée > statistique critique, obligatoirement p <α
22
Tirer une conclusion Réalité (inconnu) Décision Ho vrai Ho fausse Rejet de Ho Erreur de première espèce (type I) P=α Décision correcte Non-rejet de Ho Décision correcte P=1- α Erreur de seconde espèce Deux types d’erreurs possible lors d’une décision statistique
23
Types de tests vus Variable explicative Variable réponse Condition
Test Statistique Nominale Continue 2 catégories Test t Nominale Continue 3+ catégories ANOVA Continue Pas de relation cause-effet Corrélation Continue Continue Continue Il y a une relation de cause-effet Régression Nominale Nominale Chi-Carré
24
La loi de Student / test de t
25
3 types de test de t Comparaison de deux moyennes
Ex: Comparer la température corporelle des mouches et des éléphants Comparaison d’une moyenne à une valeur théorique Ex: Est-ce que le poids des moufettes est de 10kg? Comparaison de deux moyennes appariées Ex: Niveau de santé mentale avant et après un discours de Donald Trump
26
Test bilatéral 2 moyennes H0: μa = μb H1: μa ≠ μb Valeur théorique
H0: μa = Valeur H1: μa ≠ Valeur Valeurs appariées H0: μa1 = μa2 H1: μa1 ≠ μa2
27
Test unilatéral 2 moyennes H0: μa ≤ μb H1: μa > μb Valeur théorique
H0: μa ≥ Valeur H1: μa < Valeur Valeurs appariées H0: μa1 ≥ μa2 H1: μa1 < μa2 où la direction inverse pour l’inégalité
28
Test unilatéral À utiliser seulement si l’on a une justification
Ex: seul l’une des deux options nous intéresse. Ex: on juge l’une des deux options pratiquement impossible Si on test on ne peut pas découvrir si b est plus grand que a 2 moyennes H0: μa ≤ μb H1: μa > μb
29
Distribution de probabilité t vs taille de l'échantillon (n)
Le calcul du degré de libérté change en fonction des variantes du test de t - il y a seulement de 5% des moyens d'échantillon qui peuvent avoir une valeur plus grande ou plus petit que 3.18 pour n=4 avoir une valeur plus grande ou plus petit que 2.45 pour n=7 d.d.l = degré de liberté = d.f. = degree of freedom 2 moyennes d.d.l. = n-2 Valeur théorique d.d.l. = n-1 Valeurs appariées d.d.l. = n-1
30
Trouver le t critique: Table de t
ex: k=8 , alpha=0.05, test bilatéral tcrit= 2.306
31
Analyse de variance
32
L’analyse de variance Principalement utilisée pour comparer plusieurs moyennes Utilise la loi de Fisher comme distribution des probabilités L’analyse vérifie si la variance entre les moyennes des groupes est supérieure à la variance à l’intérieur des groupes
33
L’analyse de variance Variabilité intra Variabilité inter
Si nous avons k groupes et N observations totales, les d.d.l. sont k-1 et N-k Ex: k=3, N=9 ….. F(2,6)
34
Distribution des probabilités sous la loi de F
α = 0.05 Probabilité
35
Hypothèses Distribution F, deux d.d.l. H0: les moyennes sont égales
H1: au moins une moyenne diffère des autres moyennes μa = μb = μc = μd μa ≠ μb ≠ μc ≠ μd ou μi≠μj
36
L’ANOVA et le test t Lorsqu’il n’y a que deux moyennes à comparer (i.e. k=2) les deux tests s’appliquent également On trouvera qu’il produisent la même probabilité et que
37
Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt)
Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur alpha afin d’obtenir un alpha global desiré. Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs
38
Test post-hoc Pour determiner quelle(s) moyenne(s) diffère(nt)
Test de Tuckey : Résultats Les groupes 1 et 2 ne diffèrent pas. Les groupes 2 et 3 non plus. 1 et 3 diffèrent. 1, 2 et 3 diffèrent de 4 et 5. Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5 A B C
39
Corrélation
40
Corrélation Mesurer la force de l’association linéaire entre 2 variables quantitatives positive négative nulle Corrélation
41
Corrélation La corrélation n'est pas une relation de cause à effet!!!!
Consommation de margarine Divorce au Maine
42
r de Pearson On utilise la méthode de Pearson dérivée de la covariance et adaptée à des échantillons d’une population Valeur estimée : r de Pearson La valeur de r varie entre -1 et 1 r = 0; corrélation nulle r = -1 ou 1; corrélation parfaite
43
Les trois types de corrélation
Question sur les corrélations négatives et positives… corrélation positive corrélation négative corrélation nulle
44
Tests d’hypothèses H0: ρ=0 H0: ρ≠0
la variable x et la variable y ne sont pas corrélées H0: ρ≠0 la variable x et la variable y sont corrélées Lorsque p=0 r se distribue normalement… ah pis non…
45
Test sur le coefficient
On utilise un test de t pour tester l’hypothèse nulle H0: ρ=0 et H1: ρ≠0 d.d.l. = n-2
46
Régression
47
Objectifs de la régression
Il y a une variable d’intérêt pour laquelle vous voulez avoir : Une prédiction de ses valeurs futures Une explication de ses variations Une estimation de l’erreur possible dans votre prédiction
48
Contraste avec la corrélation
En corrélation: on regarde la force d’association ou de liaison entre deux variables Régression simple: On utilise une variable dépendante (à prédire, Y) et une autre dite predictive (X) qui détermine la valeur de la première (du moins, en partie) On est non seulement intéressé à la force de la relation, mais aussi à sa forme: de quel façon Y change en fonction de X
49
Corrélation et régression
La longueur du bras ne CAUSE pas la longueur de la jambe
50
Corrélation et régression
[hormone de croissance X] La concentration de l’hormone de croissance X CAUSE la longueur de la jambe et du bras
51
Définitions L’équation de prédiction produite par l’analyse de régression s’appelle un modèle linéaire (à cause de son incertitude, et parce qu’elle est en forme de droite) La variable utilisée pour la prédiction s’appelle variable indépendante ou explicative La variable prédite se nomme la variable dépendante ou réponse
52
Équation d’une droite Y 1.0 = ordonnée à l’origine = pente X
53
Équation d’une droite Y X Y = 0.4 + 0.5X = ordonnée à l’origine = 0.4
(3, 1.9) (2, 1.4) Y = X Y (1, 0.9) = ordonnée à l’origine = 0.4 = pente = 0.5 (0, 0.4) 1 2 3 X
54
Valeurs prédites et résiduelles
ε = valeur résiduelle = erreur de prediction = Ŷ – Y *** se calcule perpendiculaire à X *** On veut que X prédise Y, donc on calcule l’erreur sur Y Ŷ Y ε Y X
55
Principes des moindres carrés
Y X Quelle est la meilleure droite ? La droite optimale est celle pour laquelle la somme des erreurs résiduelles au carré est minimale
56
Droite de régression et erreur résiduelle
L’erreur résiduelle (résidus) sont les écarts ( ) entre les valeurs observées et les valeurs prédites de par le modèle de régression Ŷ = a + bX Y = a +bX + ε ε = Ŷ – Y a: ordonnée à l’origine b: pente
57
Coefficient de détermination
On utilise le terme R2 pour désigner le coefficient de détermination Le R2 donne la portion de la variabilité expliquée par le modèle R2 = variation de Y expliquée/variation totale de Y R2 = 1 – variation résiduelle/variation totale Le R2 varie entre 0 et 1 (relation parfaite) ou si vous préférez, entre 0% et 100% de la variation de Y expliquée par le modèle…
58
Test sur la pente où où H0: b=0. H1: b≠0
Il n’y a pas de relation linéaire entre la variable explicative X et la variable dépendante Y H1: b≠0 Il y a une relation linéaire entre la variable explicative X et la variable dépendante Y où où
59
Test sur la pente d.d.l. = n-2 où où
60
Khi-carré et tables de contingence
61
Analyse de fréquences Permet de faire des tests d’hypothèses en se servant de données exprimées en terme de fréquences Permet de voir des liens entre facteurs à partir des données de fréquences
62
Test d’hypothèses H0: La variable A et la variable B sont indépendantes H0: pi = pj = p ou p = 1/nb de classes H1: La variable A et la variable B ne sont pas indépendantes H0: pi ≠ pj
63
Tables de contingence Observée
Calculé la fréquence attendue de chaque cellule Pour chaque cellule: Somme ligne *somme colonne Abondance totale (N) Ex: mâles attendus à Anticosti = 97*64/160=38.8 mâles à Anticosti
64
Tables de contingence Observée Attendue Mâles Femelles Anticosti 38.8
25.2 Cantons de l'Est 48.5 31.5 Laurentides 9.7 6.3 Attendue
65
Khi-carré Degrés de liberté = (k-1)(m-1)
Où k est le nombre de categories de la première variable et m est le nombre de catégories de la deuxième variable. Dans l’exemple présent: (3-1)(2-1) = 2 n
66
Exemples de questions
67
Example 1 Robert est un nouvel employé dans une compagnie privée sans échelle salariale fixe. Tout de même, il aimerait savoir à quel salaire il devrait s’attendre dans 4 ans, moment à lequel il planifie avoir son premier enfant. Il obtient des informations sur l’ancienneté et le salaire de 10 collègues. Que doit-il faire à partir de ces données pour projeter son salaire dans 4 ans? Quelles seront ses hypothèses? S’il obtient un p de 0,21, quelles doivent être ses conclusions?
68
Example 2 Jim veut étudier en médecine, mais n’a pas obtenu les notes nécessaires au CÉGEP. Il décide d’entreprendre le chemin de croix que de nombreuses personnes ont fait avant lui et d’obtenir un bacc en biologie avant de réappliquer en médecine. Afin de choisir l’université lui permettant de maximiser ses chances d’être accepté en médecine, mais voulant demeurer à Montréal, il désire comparer le taux d’acceptation en médecine d’étudiants ayant complété leur bacc en biologie à l’UQÀM, l’UdM, McGill et Concordia. Admettant qu’il a accès à ces données (nb d’appliquants et nb d’acceptés provenant de chaque université), quel test devrait-il faire? Identifiez les variables et leur type. Admettant que le test est significatif, comment peut-il déterminer quelle université maximise ses chances?
69
Example 3 Arianne a remarqué que les animaux de grandes tailles semblent vivre plus longtemps que ceux de petites tailles. Quel test devrait-elle faire pour vérifier son observation? Quels seraient les hypothèses? Que peut-elle conclure si après avoir obtenu des informations sur 20 espèces, elle obtient une valeur de t=2.3?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.