Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on.

Slides:

Advertisements

Présentations similaires

Introduction à l’analyse

Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6

LES NOMBRES PREMIERS ET COMPOSÉS

Additions soustractions

Distance inter-locuteur

Test statistique : principe

ACTIVITES Les fractions (10).

Les identités remarquables

C1 Bio-statistiques F. KOHLER

CONFORMITE d’une distribution expérimentale à une distribution théorique Professeur Pascale FRIANT-MICHEL > Faculté de Pharmacie

Les tests d’hypothèses

LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.

Régression -corrélation

Analyse de la variance à un facteur

Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.

Cours de physique générale I Ph 11

GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.

La Régression Multiple

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Régression linéaire simple

Tableaux de distributions

LES NOMBRES PREMIERS ET COMPOSÉS

L’Analyse de Covariance

Corrélation et régression linéaire simple

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

RACINES CARREES Définition Développer avec la distributivité Produit 1

Représentation des systèmes dynamiques dans l’espace d’état

Systèmes mécaniques et électriques

Représentation des systèmes dynamiques dans l’espace d’état

Représentation des systèmes dynamiques dans l’espace d’état

DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.

La corrélation et la régression multiple

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Analyse de variance à un critère de classification (ANOVA)

Corrélation Principe fondamental d’une analyse de corrélation

Comparaison de deux échantillons

Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,

ANOVA à critères multiples

LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.

Analyse factorielle de variance: Principes d’expérimentation

Résoudre une équation du 1er degré à une inconnue

La régression multiple

P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)

Mise en forme en Mathématiques

1/65 微距摄影美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.

Les Chiffres Prêts?

Rappels de statistiques descriptives

Probabilités et Statistiques Année 2010/2011

Régression linéaire simple

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.

Concepts fondamentaux: statistiques et distributions

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.

Tests d’ajustement à une distribution théorique

L’erreur standard et les principes fondamentaux du test de t

Analyse de variance à un critère de classification (ANOVA)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 1.

Révision des concepts fondamentaux

Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,

Quelques commentaires sur les tests statistiques

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Régression multiple Quand et pourquoi on.

BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.

Transcription de la présentation:

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 1 Régression multiple Quand et pourquoi on les utilise Modèle général de la régression multiple Épreuves dhypothèses Le problème de la multicollinéarité Marche à suivre Régression polynomiale

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 2 Modèles linéaires (GLM) *peuvent être discontinues ou traitées comme étant discontinues

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 3 Quand utiliser la régression multiple? Afin d estimer la relation entre une variable dépendante (Y) et plusieurs variables indépendantes (X 1, X 2, …) ex: la relation entre la production primaire, la concentration de phosphore et labondance du zooplancton Log [P] Log Production Log [P] Log Production Log [Zoo]

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 4 Le modèle général: qui définit un plan à k- dimensions, ou = ordonnée à lorigine, j = coefficient de régression partiel de Y sur X j, X ij est la valeur de la ième observation de la variable dépendante X j, et i est la valeur des résidus de la ième observation. Le modèle général de la régression multiple X2X2 X1X1 Y X2X2 X1X1 Y, X 1, X 2 ^ Y X, X 1 2.

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 5 Quest-ce que le coefficient de régression partiel? j est le taux de variation de Y pour une variation de X j quand toutes les autres variables sont maintenues constantes; Ce nest pas la pente de la régression de Y sur X j, regroupées pour toutes les autres variables! X1X1 Y X 2 = 3 X 2 = 1 X 2 = -1 X 2 = -3 Régression partielle Régression simple

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 6 Leffet de léchelle Deux variables indépendantes sur différentes échelles ont une pente différente, même si la variation proportionnelle de Y est la même Alors, si on veut comparer leffet relatif de chaque variable sur Y, on doit éliminer les effets de différentes échelles. Y j = XjXj Y j =

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 7 Comme j dépend de la taille de X j, pour déterminer leffet relatif de chaque variable indépendante, on doit normaliser les coefficients de la régression: 1) en transformant toutes les variables et 2) en ajustant une régression sur les données transformées. Les coefficients normalisés j * donnent une estimation de leffet relatif de X j sur Y Le modèle de la régression multiple: version normalisée

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 8 Coefficients de régression: résumé Les coefficients de régression partielle: égaux à la pente de la régression de Y sur X j quand toutes les autres variables indépendantes sont maintenues constantes Les coefficients de régression normalisés: représentent le taux de changement Y ( en unités décart-type) par écart-type de X j lorsque toutes les autres variables sont maintenues constantes.

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 9 Hypothèses implicites Les résidus sont indépendants Les résidus sont homoscédastiques Linéarité des relations entre Y et tous les X Pas derreur de mesure sur les variables indépendantes Les résidus sont distribués normalement

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 10 Répartition de la somme des carrés totale en somme des carrés du modèle et des résidus: Épreuves dhypothèses I: répartition de la somme des carrés totale X2X2 X1X1 Y SC Modèle SC Totale SC Résidus

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 11 Épreuves dhypothèses I: répartition de la somme des carrés totale Alors, CM modèle = s 2 Y et Cm erreur = 0 si les valeurs observées = attendues pour tous les i calculer F = CM modèle /CM erreur et comparer à la distribution de F avec 1 et N-2 dl. H 0 : F = 1

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 12 Épreuves dhypothèses II: signification des coefficients de régression partielle Tester chaque hypothèse à laide dun test de t: Note: cest un test bilatéral! YY X 1, X 2 fixes H 01 : = 0, rejetée X 2 = 1 X 2 = 2 YY H 02 : 2 = 0, acceptée X 2, X 1 fixes X 1 = 2 X 1 = 3

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 13 Multicolinéarité Si les variables indépendantes sont corrélées, elles ne sont pas indépendantes. Lévaluation de la colinéarité se fait en regardant les matrices de covariance ou de corrélation X1X1 indépendantes X3X3 X2X2 colinéaires X2X2 Variance Covariance

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 14 Multicolinéarité: problèmes Si deux variables indépendantes X 1 et X 2 ne sont pas corrélées, la somme des carrés du modèle linéaire incluant les deux variables égale la somme des SC modèle de chacune pris séparément Toutefois, si elles sont corrélées, la somme des carrées sera plus petite Alors, si on a un modèle incluant X 1, de combien augmente la SS modèle quand X 2 est aussi inclus (ou vice versa)?

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 15 Multicolinéarité: conséquences Inflation de lerreur type des coefficients de régression une grande sensibilité des coefficients estimés et des erreurs types à de petits changements dans les données cependant, les estimés des coefficients de régression partielle ne sont pas biaisés une ou plusieurs variables peuvent ne pas apparaître dans le modèle final de la régression parce quelle covarie avec une autre variable indépendante

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 16 Détection de la multicolinéarité R 2 élevé mais peu de variables significatives Fortes corrélations entre les X Fortes corrélations partielles entre les variables indépendantes (si lune des variables indépendantes est une fonction linéaire de plusieurs autres) Valeurs propres, indice de condition, et facteur dinflation de la variance.

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 17 Quantifier les effets de la multicolinéarité Vecteurs propres: une série de lignes 1, 2,…, k dans un espace à k-dimensions. Ces vecteurs sont orthogonaux les uns par rapport aux autres Valeurs propres: la longueur des vecteurs correspondants X2X2 X1X1 X2X2 X1X

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 18 Quantifier les effets de la multicolinéarité Les valeurs propres: si toutes les valeurs propres sont environ égales, il y a peu de multicolinéarité Indice de condition: racine carrée( l / s ); si près de 1, il y a peu de multicolinéarité Facteur dinflation de la variance: 1 - proportion de la variance des variables indépendantes expliquée par toutes les autres. Si près de 1, indique une faible colinéarité. X2X2 X1X1 X2X2 X1X1 Faible corrélation 1 = 2 Forte corrélation 1 >> 2

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 19 Solutions Récolter plus de données afin de réduire les corrélations Éliminer certaines variables indépendantes Régression sur les composantes principales ou ridge regression, qui mène à des estimés des coefficients biaisés mais avec des erreurs types plus petites

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 20 Régression multiple: principes de base Évaluer la signification dune variable en ajustant deux modèles: un incluant le terme, et lautre où il est enlevé. Tester pour les changements dans lajustement au modèle ( ) associés avec lexclusion du terme en question Malheureusement, peut dépendre de dautres variables sil y a multicolinéarité! Modèle A (X 1 inclus) Modèle B (X 2 exclus) G ou F (ex: R 2 ) Enlever X 1 (petit ) Garder X 1 (grand )

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 21 Ajustement de modèles de régression multiple But: trouver le meilleur modèle, avec les données disponiles Problème1: définition de meilleur? –R 2 le plus élevé? –La variance résiduelle la plus petite? –R 2 le plus élevé mais qui ne contient que des termes significatifs? –Qui maximise R 2 avec un minimum de variables indépendantes?

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 22 Sélection des variables indépendantes (suite) Problème 2: même avec une définition du meilleur modèle, quelle méthode doit-on utiliser pour le trouver? Possibilités: –calculer tous les modèles possibles (2 k -1) et choisir le meilleur –recourir à une procédure qui réduira le nombre de modèles à ajuster

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 23 Stratégie I: calculer tous les modèles possibles calculer tous les modèles possibles et choisir le meilleur désavantages: –coûte cher en temps –le problème de la définition du meilleur modèle reste entier avantages: –si on a une définition du meilleur modèle, on le trouvera! {X 1, X 2, X 3 } {X2}{X2} {X1}{X1} {X3}{X3} {X1, X2}{X1, X2} {X2, X3}{X2, X3} {X1, X3}{X1, X3} {X1, X2, X3}{X1, X2, X3}

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 24 Stratégie II: sélection progressive Commencer avec la variable dont le coefficient de corrélation partielle r est le plus élevé ajouter les autres une à une jusquà ce quil ny ait plus de j significativement différents de 0. problème: si X j est inclus, il restera dans le modèle même si sa contribution à SC modèle est minime. une fois les autres variables incluses. {X 1, X 2, X 3 } {X2}{X2} r 2 > r 1 > r 3 {X1, X2, X3}{X1, X2, X3} {X1, X2}{X1, X2} R R 2 R R 21 R 21 R 2 {X2}{X2} {X1, X2, X3}{X1, X2, X3} Modèle final R 123 R 21 {X 1, X 2 } R 123 R 21

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 25 Sélection progressive: ordre dentrée Commencer avec la variable dont le coefficient de corrélation partielle est le plus élevé ensuite, ajouter la variable qui provoque la plus grande augmentation du R 2 (test de F de la signification de laugmentation). On doit aussi spécifier un F seuil pour lentrée des variables dans le modèle {X 1, X 2, X 3, X 4 } {X2}{X2} r 2 > r 1 > r 3 > r 4 {X2, X1}{X2, X1} {X2, X4}{X2, X4} p[F(X 2, X 4 )] =.55 X 4 éliminé p dentrée =.05 {X2, X3}{X2, X3}{X2, X1}{X2, X1} p[F(X 2 )] =.001 p[F(X 2, X 1 )] =.002 p[F(X 2, X 3 )] = {X2, X3}{X2, X3}

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 26 Stratégie III: Élimination rétrograde Commencer avec toutes les variables retirer du modèle les variables qui ne réduise pas significativement R 2. Les variables sont retirées une à la fois en commençant avec celle dont le coefficient de régression partielle est le plus bas Toutefois, une fois quune variable est retirée du modèle, elle reste exclue, et ce même si elle explique une portion significative de la variabilité une fois que dautres variables sont enlevées {X 1, X 2, X 3 } {X3}{X3} r 2 < r 1 < r 3 {X1, X3}{X1, X3} R R 13 R 3 R 13 R 13 R 123 {X3}{X3} {X1, X2, X3}{X1, X2, X3} Modèle final R R 123 R 13 R 123 R 3 R 13 {X1, X3}{X1, X3}

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 27 Élimination rétrograde: ordre dentrée Commencer avec la variable dont le coefficient de corrélation partielle est le plus faible. Continuer avec la variable qui provoque la plus petite réduction du R 2 (test de F pour déterminer la signification de laugmentation, F seuil) {X 1, X 2, X 3, X 4 } {X 2, X 1, X 3 } r 2 > r 1 > r 3 > r 4 {X2, X1}{X2, X1} p[F(X 2, X 1 )] =.25 p de sortie =.10 p[F(X 2, X 3 )] = p[F(X 2, X 1, X 3 )] =.44 X 4 enlevé X 3 enlevéX 1, X 2 restent X 2, X 3, X 1 restent {X1, X3}{X1, X3}{X2, X3}{X2, X3} p[F(X 1, X 3 )] =.009

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 28 Stratégie IV: régression pas à pas Une fois quune variable est incluse (ou enlevée), on regarde dans les variables qui restent pour trouver dautres variables qui devraient être enlevées (incluses). On regarde aussi les variables qui sont déjà dans le modèle afin déviter dentrer dans une boucle, on doit spécifier les niveaux des p dentrée > p de sortie {X 1, X 2, X 3, X 4 } {X2}{X2} r 2 > r 1 > r 4 > r 3 {X 1, X 2, X 3 } {X2, X4}{X2, X4} p[F(X 2, X 4 )] =.03 p dentrée =.10 p de sortie =.05 {X2, X3}{X2, X3}{X2, X1}{X2, X1} p[F(X 2 )] =.001 p[F(X 2, X 1 )] =.002 p[F(X 2, X 3 )] =.09 {X 1, X 2, X 4 } p[F(X 1, X 2, X 4 )] =.02 p[F(X1, X 2, X 3 )] =.19 {X1, X4}{X1, X4}

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 29 Exemple Le log de la richesse en espèces des herptiles (logherp) est une fonction du log de laire du marais (logarea), du pourcentage de terre boisée dans un rayon de 1 km (cpfor2) et de la densité de routes pavées dans un rayon de 1 km (thtdens)

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 30 Exemple (toutes les variables) DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.490 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA CPFOR THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 31 Exemple (suite) ANALYSIS OF VARIANCE SOURCE SS DF MS F-RATIO P REGRESSION RESIDUAL

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 32 Exemple: sélection progressive DEPENDENT VARIABLE LOGHERP MINIMUM TOLERANCE FOR ENTRY INTO MODEL = FORWARD STEPWISE WITH ALPHA-TO-ENTER=.050 AND ALPHA-TO-REMOVE=.100 STEP # 0 R=.000 RSQUARE=.000 VARIABLE COEFF. SE. STD COEF. TOL. F 'P' IN CONSTANT OUT PART. CORR LOGAREA E CPFOR E THTDEN E

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 33 Sélection progressive (suite) STEP # 1 R=.596 RSQUARE=.355 TERM ENTERED: LOGAREA VARIABLE COEFF. SE. STD COEF. TOL. F 'P' IN CONSTANT 2 LOGAREA E OUT PART. CORR CPFOR THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 34 Sélection progressive (suite) STEP # 2 R=.732 RSQUARE=.536 TERM ENTERED: THTDEN VARIABLE COEFF. SE. STD COEF.TOL. F 'P' IN CONSTANT 2 LOGAREA THTDEN OUT PART. CORR CPFOR

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 35 Sélection progressive: modèle final FORWARD STEPWISE: P TO INCLUDE =.15 DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.490 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 36 Exemple: élimination rétrograde (modèle final) BACKWARD STEPWISE: P TO REMOVE =.15 DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.499 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 37 Exemple: subset model DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.405 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA CPFOR

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 38 Que faire si la relation entre Y et le ou les X(s) nest pas linéaire? option 1: transformer les données option 2: utiliser une régression non-linéaire option 3: utiliser une régression polynomiale

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 39 Une régression polynomiale inclus des termes de degrés croissants de la variable indépendante Le modèle de la régression polynomiale Vitesse du courant (cm/s) Biomasse des mouches noires (mgDM/m²) Modèle linéaire Modèle polynomial de second ordre

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 40 Ajuster une régression linéaire simple Ajuster un modèle quadratique, vérifier sil y a augmentation de la SS modèle continuer en ajoutant des termes de degrés supérieur (X 3, X 4, etc..) jusquà ce que SS modèle naugmente plus de manière significative. Inclure les termes jusquà la puissance (nombre de points dinflexion plus 1) Le modèle de la régression polynomiale: marche à suivre Vitesse du courant (cm/s) Biomasse des mouches noires (mgDM/m²) Modèle linéaire Modèle polynomial de second ordre

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 41 Régression polynomiale: mise en garde La signification biologique des termes élevés à une certaine puissance est généralement inconnue par définition, les termes polynomiaux sont fortement corrélés: les erreurs types sont grandes (la précision est faible) et augmentent avec lordre du terme Les extrapolations de modèles polynomiaux sont toujours un non sens X1X1 Y Y = X 1 - X 1 2

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 42 Analyse de puissance pour GLM Dans tous les GLM, les hypothèses sont éprouvées au moyen dun test de F. Ne pas oublier: les SC erreur et dl erreur appropriés dépendent du type danalyse et des hypothèses que lon veut tester En connaissant F, on peut calculer R 2, la proportion de la variance totale de Y expliquée par le facteur (source) considéré

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 43 R 2 partiel et total R 2 total (R 2 YB ) est la proportion de la variance de Y expliquée par le groupe de variables indépendantes B. Le R 2 partiel (R 2 YA,B - R 2 YA ) est la proportion de la variance de Y expliquée par B quand la proportion de la variance expliquée par un autre groupe A est enlevée. Proportion de la variance expliquée par A et B (R 2 YA,B ) Proportion de la variance expliquée par A (R 2 YA )(R 2 total) Proportion de la variance expliquée par B indépendamment de A (R 2 YA,B - R 2 YA ) (R 2 partiel)

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 44 R 2 partiel et total R 2 total (R 2 YB ) pour un groupe B est égal au R 2 partiel (R 2 YA,B - R 2 YA ) si (1) R 2 total pour A (R 2 YA )=0; ou (2) si A et B sont indépendants (dans ce cas, R 2 YA,B = R 2 YA + R 2 YB ) Proportion de la variance expliquée par B (R 2 YB )(R 2 total) Proportion de la variance indépendante de A (R 2 YA,B - R 2 YA ) (R 2 partiel) A Y B A Égal si

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 45 R 2 partiel et total dans une régression multiple Si nous avons trois variables indépendantes X 1,X 2 and X 3 Log [P] Log Production Log [Zoo]

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 46 Définition de la grandeur de leffet pour une régression multiple La grandeur de leffet f 2 est égal au rapport entre R 2 facteur du facteur (source) et 1- R 2 erreur. À noter: les deux R 2 facteur et R 2 erreur dépendent de lhypothèse nulle que lon veut tester.

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 47 Cas 1: un groupe de variables B {X 1, X 2, …} est relié à Y, le R 2 total (R 2 YB ) est connu La proportion de la variance associée à lerreur est 1- R 2 YB H 0 : R 2 YB = 0 Exemple: leffet de laire des terres humides, du couvert forestier, de la densité des routes sur la richesse spécifique des reptiles et amphibiens du sud-est de lOntario. B ={LOGAREA, CPFOR2,THTDEN } Définition de la grandeur de leffet: cas 1

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 48 DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.490 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA CPFOR THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 49 Définition de la grandeur de leffet: cas 2 Cas 2: la proportion de la variance de Y expliquée par B qui est plus grande que celle expliquée par A est donnée par (R 2 YA,B - R 2 YA ) La proportion de la variance associée à lerreur est de 1- R 2 YA,B H 0 : R 2 YA,B - R 2 YA = 0 Exemple: la richesse en espèces des herptile du sud-est de lOntario. B ={THTDEN}, A = {LOGAREA, CPFOR2},AB = {LOGAREA, CPFOR2, THTDEN}

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 50 DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.405 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA CPFOR DEP VAR: LOGHERP N: 28 MULTIPLE R: SQUARED MULTIPLE R: ADJUSTED SQUARED MULTIPLE R:.490 STANDARD ERROR OF ESTIMATE: VARIABLE COEFF. SE STD COEF. TOL. T P CONSTANT LOGAREA CPFOR THTDEN

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 51 Définition de la grandeur de leffet: cas 2 La proportion de la variance de LOGHERP expliquée par THTDEN (B) plus grande que la proportion expliquée par LOGAREA and CPFOR2 (A) est R 2 YA,B - R 2 YA =.098 la proportion de la variance expliquée par lerreur est égale à 1- R 2 YA,B = Donc, la taille de leffet pour la variable THTDEN est

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 52 Determination de la puissance Une fois que f 2 est déterminé, (a priori comme une hypothèse alternative ou a posteriori qui est la taille de leffet observée), on peut calculer le paramètre F non- central Si on connaît et les degrés de liberté associés au facteur (source) ( 1 ) et à lerreur ( 2 ), on peut déterminer la puissance à partir de tables pour un donné. =.05) =.01) 2 décroissant 1- 1 = 2 = =

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 53 Exemple: la richesse en espèces des amphibiens du sud-est de lOntario Échantillon de 28 terres humides 3 variables (LOGAREA, CPFOR2, THTDEN) Variable dépendante est le log 10 du nombre despèces damphibiens et reptiles Quelle est la probabilité de détecter un effet de CPFOR2 de grandeur égale à la grandeur de leffet estimée une fois que les effets de LOGAREA et THTDEN ont été contrôlés, pour =.05?

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 54 Exemple: la richesse en espèces des herptiles du sud-est de lOntario La grandeur de leffet f 2 de CPFOR2 une fois les effets de LOGAREA et THTDEN contrôlés =.024 Source (CPFOR2) dl = 1 = 1 Le nombre de degrés de liberté de lerreur dl = 2 = = 25