La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Corrélation et régression linéaire simple

Présentations similaires


Présentation au sujet: "Corrélation et régression linéaire simple"— Transcription de la présentation:

1 Corrélation et régression linéaire simple
La corrélation La régression linéaire simple

2 Introduction Etude de la relation entre deux variables quantitatives:
Y Nuage de points: description de l’association linéaire: corrélation, régression linéaire simple explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple

3 La corrélation 1. La covariance
Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:

4 Covariance et nuage de points
La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0 La covariance mesure l’intensité de la relation LINEAIRE entre x et y, mais son ordre de grandeur est sans signification.

5 2. Le coefficient de corrélation linéaire
La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:

6 2. Le coefficient de corrélation linéaire
La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 r = 0.9 X2 r = 0.5 X2 r = 0 r = -0.9 X2 r = -0.5 r = 0 X2 X2 X1

7 3. Conditions d’utilisation
La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8 Conditions pour que le coeff de corr linéaire représente bien la relation entre X et Y.

8 La corrélation 3. Conditions d’utilisation Homoscédasticité
Y X Homoscédasticité Hétéroscédasticité Homoscédasticité La variance de Y est indépendante de X et vice-versa.

9 La corrélation 3. Conditions d’utilisation Linéarité
La relation est linéaire Y Y Linéarité Non-linéarité X X

10 Non respect des conditions d’utilisation
La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH 40 LFKL 1.5 30 1.4 Conditions non respectées: linéarité, homoscédasticité. Si les conditions d’utilisation ne sont pas respectées on peut essayer une transformation ou utiliser la corrélation non paramétrique. 20 1.3 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique

11 4. Tests de la corrélation
a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)

12 La corrélation 4. Tests de la corrélation b. Test de r = 0
Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité

13 La régression linéaire simple
Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X

14 La régression linéaire simple
Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X Remarquer que les 2 courbes de régression ne sont pas confondues (elles passent par les les tangentes à l’ellipse parallèles aux axes). Il n’y a pas une seule courbe pour rendre compte d’un nuage de points. - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles

15 La régression linéaire simple
1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X

16 2. L’estimation des paramètres
La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X

17 Méthode des moindres carrés
La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés On cherche le minimum de

18 Méthode des moindres carrés
La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés

19 Méthode des moindres carrés
La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés Si y = a+bx alors et Les estimateurs de a et b obtenus par lezs moindres carrés sont identiques à ceux obtenus par le maximum de vraissemblance. On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:

20 3. Qualité de l’ajustement
La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) distribution normale des erreurs variance identique (homoscédasticité) indépendance: linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus

21 La régression linéaire simple
3. Qualité de l’ajustement Normalité de l’erreur Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?

22 La régression linéaire simple
3. Qualité de l’ajustement Homoscédasticité Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc

23 Indépendance entre erreurs, linéarité
La régression linéaire simple 3. Qualité de l’ajustement Indépendance entre erreurs, linéarité Structure de l’erreur? Résidus Résidus Relation non linéaire?

24 Décomposition de la variation
La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:

25 Décomposition de la variation
La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Y + = SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) = +

26 4. Coefficient de détermination
La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?

27 La régression linéaire simple
4. Coefficient de détermination Relation entre r et r2 Donc En particulier, r = 0 <=> r2 = 0

28 La régression linéaire simple
5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à

29 La régression linéaire simple
Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents

30 La régression linéaire simple
Autres tests comparaison de la pente à une valeur non nulle comparaison de l’ordonnée à l’origine à une valeur quelconque comparaison de pentes

31 La régression linéaire simple
Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)

32 La régression linéaire simple
Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests test de r Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente


Télécharger ppt "Corrélation et régression linéaire simple"

Présentations similaires


Annonces Google