Corrélation et régression linéaire simple La corrélation La régression linéaire simple
Introduction Etude de la relation entre deux variables quantitatives: Y Nuage de points: description de l’association linéaire: corrélation, régression linéaire simple explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple
La corrélation 1. La covariance Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:
Covariance et nuage de points La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0 La covariance mesure l’intensité de la relation LINEAIRE entre x et y, mais son ordre de grandeur est sans signification.
2. Le coefficient de corrélation linéaire La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:
2. Le coefficient de corrélation linéaire La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 r = 0.9 X2 r = 0.5 X2 r = 0 r = -0.9 X2 r = -0.5 r = 0 X2 X2 X1
3. Conditions d’utilisation La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8 Conditions pour que le coeff de corr linéaire représente bien la relation entre X et Y.
La corrélation 3. Conditions d’utilisation Homoscédasticité Y X Homoscédasticité Hétéroscédasticité Homoscédasticité La variance de Y est indépendante de X et vice-versa.
La corrélation 3. Conditions d’utilisation Linéarité La relation est linéaire Y Y Linéarité Non-linéarité X X
Non respect des conditions d’utilisation La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH 40 LFKL 1.5 30 1.4 Conditions non respectées: linéarité, homoscédasticité. Si les conditions d’utilisation ne sont pas respectées on peut essayer une transformation ou utiliser la corrélation non paramétrique. 20 1.3 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique
4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)
La corrélation 4. Tests de la corrélation b. Test de r = 0 Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité
La régression linéaire simple Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X
La régression linéaire simple Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X Remarquer que les 2 courbes de régression ne sont pas confondues (elles passent par les les tangentes à l’ellipse parallèles aux axes). Il n’y a pas une seule courbe pour rendre compte d’un nuage de points. - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles
La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X
2. L’estimation des paramètres La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X
Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés On cherche le minimum de
Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés
Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés Si y = a+bx alors et Les estimateurs de a et b obtenus par lezs moindres carrés sont identiques à ceux obtenus par le maximum de vraissemblance. On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:
3. Qualité de l’ajustement La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) distribution normale des erreurs variance identique (homoscédasticité) indépendance: linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus
La régression linéaire simple 3. Qualité de l’ajustement Normalité de l’erreur Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?
La régression linéaire simple 3. Qualité de l’ajustement Homoscédasticité Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc
Indépendance entre erreurs, linéarité La régression linéaire simple 3. Qualité de l’ajustement Indépendance entre erreurs, linéarité Structure de l’erreur? Résidus Résidus Relation non linéaire?
Décomposition de la variation La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:
Décomposition de la variation La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Y + = SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) = +
4. Coefficient de détermination La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?
La régression linéaire simple 4. Coefficient de détermination Relation entre r et r2 Donc En particulier, r = 0 <=> r2 = 0
La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à
La régression linéaire simple Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple Autres tests comparaison de la pente à une valeur non nulle comparaison de l’ordonnée à l’origine à une valeur quelconque comparaison de pentes
La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)
La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests test de r Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente