Corrélation et régression linéaire simple

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
ANOVA à un facteur (Rehailia)
La régression logistique: fondements et conditions d’application
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Régression ou corrélation
Comparaison de plusieurs moyennes Analyse de variance
Nombre de sujets nécessaires en recherche clinique
Corrélations et ajustements linéaires.
Comparaison de plusieurs moyennes Analyse de variance
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
Chapitre 2 Les indices.
Autres LOIS de PROBABILITES

Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
La Régression Multiple
Analyse de la variance : ANOVA à un facteur
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
L’Analyse de Covariance
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
Lanalyse de la covariance. X y ANOVA Lanalyse de la covariance y X ANOVA.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
2. Modèles linéaires.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Lien entre deux variables
Howell Chap. 11: ANOVA. Du monde connu au monde inconnu Du test t à l’analyse de varianceDu test t à l’analyse de variance Trouvez des nouveaux noms pour.
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
ANOVA à 1 facteur en groupes de mesure indépendants
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
Rappels Variables nominales :
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Analyse de variance à un critère de classification (ANOVA)
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Transcription de la présentation:

Corrélation et régression linéaire simple La corrélation La régression linéaire simple

Introduction Etude de la relation entre deux variables quantitatives: Y Nuage de points: description de l’association linéaire: corrélation, régression linéaire simple explication / prédiction d’une variable à partir de l’autre: modèle linéaire simple

La corrélation 1. La covariance Statistique descriptive de la relation entre X et Y: variation conjointe 1. La covariance Dans l’échantillon: Estimation pour la population:

Covariance et nuage de points La corrélation Covariance et nuage de points < 0 Contribution > 0 < 0 > 0 La covariance mesure l’intensité de la relation LINEAIRE entre x et y, mais son ordre de grandeur est sans signification.

2. Le coefficient de corrélation linéaire La corrélation 2. Le coefficient de corrélation linéaire « de Pearson » Dans l’échantillon: Estimation pour la population:

2. Le coefficient de corrélation linéaire La corrélation 2. Le coefficient de corrélation linéaire Indice de covariance absolu: -1 ≤ r ≤ 1 X2 r = 0.9 X2 r = 0.5 X2 r = 0 r = -0.9 X2 r = -0.5 r = 0 X2 X2 X1

3. Conditions d’utilisation La corrélation 3. Conditions d’utilisation Normalité La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy) est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa. r = 0 r = 0.8 Conditions pour que le coeff de corr linéaire représente bien la relation entre X et Y.

La corrélation 3. Conditions d’utilisation Homoscédasticité Y X Homoscédasticité Hétéroscédasticité Homoscédasticité La variance de Y est indépendante de X et vice-versa.

La corrélation 3. Conditions d’utilisation Linéarité La relation est linéaire Y Y Linéarité Non-linéarité X X

Non respect des conditions d’utilisation La corrélation Non respect des conditions d’utilisation 60 1.8 1.7 50 1.6 FKLNGTH 40 LFKL 1.5 30 1.4 Conditions non respectées: linéarité, homoscédasticité. Si les conditions d’utilisation ne sont pas respectées on peut essayer une transformation ou utiliser la corrélation non paramétrique. 20 1.3 10 20 30 40 50 0.5 1.0 1.5 2.0 AGE LAGE Relation âge - longueur chez l’esturgeon: transformation log-log; Alternative: utiliser la corrélation non paramétrique

4. Tests de la corrélation a. Distribution d’échantillonnage du coefficient de corrélation linéaire Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies, sous Ho: r = 0: Attention, sous Ha: r ≠ 0: distribution complexe (Student)

La corrélation 4. Tests de la corrélation b. Test de r = 0 Absence de relation linéaire (mais pas absence de relation y compris causale) Sous Ho: Si H0 est rejetée: corrélation ≠ causalité

La régression linéaire simple Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses. Y X

La régression linéaire simple Courbes de régression E(X/Y) Description de la relation: densité de probabilité de Y conditionnellement à X: E(Y/X) Y Courbe de régression = E(Y/X) et E(X/Y) Si (X,Y) binormale alors les courbes de régression sont des droites X Remarquer que les 2 courbes de régression ne sont pas confondues (elles passent par les les tangentes à l’ellipse parallèles aux axes). Il n’y a pas une seule courbe pour rendre compte d’un nuage de points. - X et Y tiennent un rôle symétrique ! - Plusieurs courbes possibles

La régression linéaire simple 1. Le modèle On suppose: y = f(x) = a + bx Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, s) X = variable explicative (« indépendante »), contrôlée Y = variable expliquée (dépendante ), aléatoire Y Relation de causalité ≠ interdépendance X

2. L’estimation des paramètres La régression linéaire simple 2. L’estimation des paramètres a? b? Méthode d’estimation: les moindres carrés: Mi yi y = a+bx ei M’i ei = yi - (a + bxi) Y minimale xi X

Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés On cherche le minimum de

Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés

Méthode des moindres carrés La régression linéaire simple 2. L’estimation des paramètres Méthode des moindres carrés Si y = a+bx alors et Les estimateurs de a et b obtenus par lezs moindres carrés sont identiques à ceux obtenus par le maximum de vraissemblance. On peut alors prédire y pour x compris dans l’intervalle des valeurs de l’échantillon:

3. Qualité de l’ajustement La régression linéaire simple 3. Qualité de l’ajustement On a supposé: Yi = a + bXi + ei avec pour X = xi, Yi : N(a+bxi, s) distribution normale des erreurs variance identique (homoscédasticité) indépendance: linéarité de la relation Test a posteriori : étude du nuage de points/ du graphe des résidus

La régression linéaire simple 3. Qualité de l’ajustement Normalité de l’erreur Résidus Valeurs prédites Questions à se poser: structure de l’erreur? Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?

La régression linéaire simple 3. Qualité de l’ajustement Homoscédasticité Résidus Valeurs prédites Possibilité de transformation: attention aux transformations ad hoc

Indépendance entre erreurs, linéarité La régression linéaire simple 3. Qualité de l’ajustement Indépendance entre erreurs, linéarité Structure de l’erreur? Résidus Résidus Relation non linéaire?

Décomposition de la variation La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X? Variabilité? Somme des Carrés des Ecarts SCE:

Décomposition de la variation La régression linéaire simple 4. Coefficient de détermination Décomposition de la variation Y + = SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) = +

4. Coefficient de détermination La régression linéaire simple 4. Coefficient de détermination La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression: Coefficient de détermination 0 ≤ r2 ≤ 1 Relation avec r?

La régression linéaire simple 4. Coefficient de détermination Relation entre r et r2 Donc En particulier, r = 0 <=> r2 = 0

La régression linéaire simple 5. Tests Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : r2 = 0 NB: numériquement équivalent à

La régression linéaire simple Test sur la pente Principe des tests sur les paramètres: Ici: Ho: b = 0 NB: Les tests de nullité de b, r et r2 sont numériquement équivalents

La régression linéaire simple Autres tests comparaison de la pente à une valeur non nulle comparaison de l’ordonnée à l’origine à une valeur quelconque comparaison de pentes

La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Question Y a-t-il un lien? Corrélation Quel lien? Régression Explication de Y par X: Modèle linéaire simple Modèle (X,Y) binormal => linéarité des régressions Dy/x : a, b Dx/y : c, d Y = a + bx + e Pour X = xi, Yi : N(a+bxi, s)

La régression linéaire simple Bilan X et Y aléatoires X contrôlée, Y aléatoire Lien r: paramètre de la distribution de (X,Y) R2 : part de variation de Y expliquée par X Tests test de r Tests sur les pentes b et d - test de r2: ANOVA - test sur la pente