La corrélation et la régression multiple

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Les tests d’hypothèses (II)
La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Régression ou corrélation
Comparaison de plusieurs moyennes Analyse de variance
Régression -corrélation
Indépendance & Khi-deux ²
Corrélation linéaire et la droite de régression
Un neurone élémentaire
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Plans à groupes indépendants: organisation

La Régression Multiple
Structure de causalité bivariée
1.2 COMPOSANTES DES VECTEURS
L’inférence statistique
Analyse de la variance : ANOVA à un facteur
Régression linéaire simple
Espaces vectoriels Montage préparé par : S André Ross
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Rappel... Systèmes dynamiques: discrets; continus.
Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009.
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
L’analyse de variance.
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Analyse factorielle de variance: Principes d’expérimentation
La régression multiple
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
M2 Sciences des Procédés - Sciences des Aliments
Intervalles de confiance pour des proportions L’inférence statistique
Statistique Cours #4 Régression linéaire simple et multiple
ANOVA à 1 facteur en groupes de mesure indépendants
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Corrélation et causalité
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Transcription de la présentation:

La corrélation et la régression multiple

Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Il y a deux façons de « voir » ces données: 1- De façon habituelle (par rapport aux variables)

Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Il y a deux façons de « voir » ces données: 2- De façon vectorielle (par rapport aux sujets)

Idée de la régression simple Vecteurs Un vecteur est déterminé par sa longueur et son orientation

Idée de la régression simple Vecteurs La longueur d’un vecteur La longueur (norme) d’un vecteur est notée: Autrement dit, la norme équivaut à calculer l’écart-type 1 6

Idée de la régression simple Vecteurs Standardiser les données On ramène la longueur du vecteur à 1

Idée de la régression simple Vecteurs Relation entre 2 vecteurs Si on a les mêmes valeurs dans chacune des deux variables, alors les deux vecteur seront superposés. À mesure que les données diffèrent pour chacune des variables, l’angle entre les deux vecteurs augmentera.

Idée de la régression simple Vecteurs Relation entre 2 vecteurs Donc, plus l’angle augmente, plus la partie commune diminue. Si l’angle est de 90º, alors il n’y a plus de partie commune.

Idée de la régression simple Vecteurs Relation entre 2 vecteurs Or, le cosinus de cet angle est le coefficient de corrélation. Si l’angle est nul (ou de 180º) alors le cosinus vaut 1 (ou -1); indiquant une relation parfaite. Et à l’autre extrême, si l’angle est de 90º (ou 270º), alors le cosinus vaut 0; indiquant une absence de relation.

Idée de la régression simple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? L’idée est de trouver la projection (l’ombre) de v sur u la plus courte

Idée de la régression simple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? L’idée est de trouver la projection (l’ombre) de v sur u la plus courte Démo au tableau (Vraie uniquement dans le cas 2D)

Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous sommes en présence de plusieurs prédicteurs Exemple avec 2 prédicteurs

Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Puisque dans notre cas nous avons 2 prédicteurs, il est possible de représenter la relation dans un nuage de points en 3 dimensions

Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous pouvons illustrer aussi les différentes relations par une matrice de diagrammes de dispersion bivariée. x1 x2 y x1 x2 y

Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous pouvons également calculer les corrélations bivariées.

Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes De la droite de régression vers l'hyperplan de régression

Idée de la régression simple Illustration graphique Il n’est pas possible d’illustrer graphiquement les vecteurs en 5 dimensions. Toutefois, les calculs sont sensiblement les mêmes.

Idée de la régression multiple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? Formule universelle, quelque soit le nombre de prédicteurs (et de variables prédites)

Les coefficients de régression standardisés Permet de mesurer « l’importance » des prédicteurs, puisque ceux-ci ont tous une variabilité de 1 et une moyenne de 0. Donc, une augmentation d’une unité au niveau de z1, augmentera de 0.74 écart-types au niveau de yZ. ^

Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliquée par l’ensemble des prédicteurs. Matrice des sommes des carrés et produits croisés (SSCP) (Sum of square and cross product)

Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliquée par l’ensemble des prédicteurs. En divisant la matrice SSCP par le nombre de degrés de liberté on obtient une matrice de variance - covariance De plus, la matrice SSCP peut se partitionner en fonction des variables prédicteurs et de la variable prédite (critérium) Spp Spc Scp Scc

Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliqué par l’ensemble des prédicteurs. Le R2 est le résultat du produit matriciel suivant: Le R2adj est une estimation non biaisé de la variabilité dans la population

Test d’hypothèse L’hypothèse émise est que le coefficient de détermination entre les prédicteurs et le critérium y est nulle dans la population. Autrement dit, on cherche à savoir quels sont les x et y linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux. Comme le Fobs >Fcrit (22.0273>19.00), on rejette H0 et on accepte H1. Les 2 populations sont dépendantes.

Test d’hypothèse/ANOVA L’hypothèse émise est que le coefficient de détermination entre les prédicteurs et le critérium y est nulle dans la population. Comme F(2,2)=22.0273, p.<0.05, on rejette H0 et on accepte H1. Les 2 populations sont dépendantes.

Corrélations partielles et semi partielles L’idée est de mettre en évidence l’effet d’un prédicteur sur notre variable prédite en contrôlant les effets des autres prédicteurs. Coefficient de détermination semi partielle C’est la variance globale (R2) moins la variance globale en excluant le prédicteur à l’étude de la banque de données. La portion de variance qui est unique au prédicteur Coefficient de détermination partielle C’est la proportion de variance associée avec un prédicteur mais pas avec les autres. Autrement dit, c’est la quantité de variance non estimée par les autres prédicteurs mais qui l’est par le prédicteur à l’étude.

Corrélations partielles et semi partielles Y e b a c x1 x2

Corrélations partielles et semi partielles Exemple x1 x2 39 % de la variance de y est expliquée uniquement par le premier prédicteur. 9% de la variance de y est expliquée uniquement par le deuxième prédicteur. 90% de la variance de y non expliquée par le deuxième prédicteur, l’est par le premier. 67% de la varaince de y non expliquée par le premier prédicteur, l’est par le deuxième.

Corrélations partielles et semi partielles Test de signification Comme les différents paramètres (pri, bi, Bi) dépendent tous de la proportion de variance expliquée par le coefficient de corrélation semi partielle, si ce dernier est significatif, alors tous les autres paramètres le seront aussi. x1 x2

Les erreurs types associées aux paramètres de la régression Erreur type associée aux coefficients de régression Erreur type associée aux coefficients de régression standardisée

Les intervalles de confiance associées aux paramètres de la régression Intervalle de confiance associé aux coefficients de régression Intervalle de confiance associé aux coefficients de régression standardisée

Diagnostique et remède - Diagrammes de dispersion - Diagrammes des résiduels - Diagramme de normalité - Multicolinéarité - Scores extrêmes

Diagrammes de dispersion Exemple tiré de Howell Les diagrammes de dispersion peuvent aider à voir la nature et la force des relations bivariées. On peut également voir s’il y a des scores extrêmes et des « trous ».

Diagrammes des résiduels Pour évaluer si une relation nonlineaire est présente et si la variance de l’erreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs.

Diagrammes des résiduels Pour évaluer si une relation nonlineaire est présente et si la variance de l’erreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs et en fonction de la variable prédite Il peut être plus facile à voir l’homoscédasticité si le graphique est construit en par rapport à la valeur absolue des résiduels

Diagramme de normalité Pour évaluer si la distribution des erreurs est normale, on fait un graphique des probabilités normales r = 0.99

Multicolinéarité Dans un monde idéal, chaque prédicteur serait corrélé avec la variable dépendante et ils ne seraient pas corrélés entre eux. Toutefois, cela n’arrive jamais et les prédicteurs sont dans les faits corrélés entre eux. Si la corrélation est élevé alors on dira qu’il y a un problème de multicolinéarité. S’il y a multicolinéarité, alors cela indique qu’une (ou plusieurs) variable(s) est (sont) redondante(s).

Multicolinéarité Exemple: Première solution

Multicolinéarité Exemple: Deuxième solution

Multicolinéarité Exemple: Illustration des deux solutions Par conséquent, aucun interprétation est possible.

Multicolinéarité Tolérance: Permet de mesurer l’indépendance d’un prédicteur donné par rapport aux autres prédicteurs. La tolérance doit être le plus grand possible (>0.1). Variance Influence Factor (VIF): Permet de mesurer l’inflation de la variance d’un coefficient de régression i du au fait de la corrélation du prédicteur i avec les autres prédicteurs. Le VIF est la réciproque de la tolérance. Comme nous désirons des coefficients stables, le VIF doit être le plus petit possible (<10). Des valeurs élevé de VIF indiques en général des différences élevées entre les estimés et les vrais coefficients de régression.

Multicolinéarité Exemple

Scores extrêmes Studentized Deleted Residual Identification d’un score extrême chez la variable dépendante: Studentized Deleted Residual Hat matrix: Valeurs prédites: Résiduels: SDR:

Scores extrêmes Studentized Deleted Residual Identification d’un score extrême chez la variable dépendante: Studentized Deleted Residual L’idée est de mesurer la différence entre le résiduel observé et le résiduel obtenu lorsque la ième variable est enlevée. Cette différence est alors normalisée pour donner le score ti.

Scores extrêmes Studentized Deleted Residual Identification d’un score extrême chez la variable dépendante: Studentized Deleted Residual Les données se distribuent selon une distribution de Student (t). Il suffit de faire une correction de Bonferronni pour identifier les scores extrêmes. Exemple

Scores extrêmes Hat matrix leverage value Identification d’un score extrême chez les prédicteurs: Hat matrix leverage value Leverage: Note: dans SPSS le leverage est données par hii-1/n. Le score indique la distance entre la valeur d’une observation et la valeur de la moyenne de toutes les observations.

Scores extrêmes Hat matrix leverage value Identification d’un score extrême chez les prédicteurs: Hat matrix leverage value Un score sera considéré comme extrême si - hii>2(p+1)/n - hii>0.5 (note: 0.2< hii<0.5 = effet moyen) Exemple: le critère = 2(p+1)/n = 0.24 Les scores 3 et 45 sont possiblement Problématiques.

Scores extrêmes DFFITS Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: DFFITS Permet de mesurer l’influence de l’observation i sur la valeur prédite de cette observation. C’est en fait un studentized deleted residual pondéré par le leverage de l’observation

Scores extrêmes DFFITS Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: DFFITS Un score sera considéré comme extrême si - DFFITSi > 2((p+1)/n) Pour de grand échantillons - DFFITSi > 1 Pour de petit et moyen échantillon

Scores extrêmes Distance de Cook Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: Distance de Cook Permet de mesurer l’influence de la ième observation sur l’ensemble des n valeurs prédites. Il a noter que Di dépend de la valeur du résiduel et du leverage.

Scores extrêmes Distance de Cook Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: Distance de Cook Les données se distribuent selon un F(p+1, n-p-1). Si le percentile est inférieur à ~10-20%, l’observation n’a pas beaucoup d’influence sur la valeur prédite. Si le percentile est ~50% ou +, l’observation a un bon effet sur la valeur prédite. F(p+1, n-p-1) => F(5+1, 50-5-1) = >F(6, 44) = 0.33, p = 0.085