Méthodes de Biostatistique Chapitre 8 Régression Linéaire
1. Analyse des corrélations Le but de l’analyse des corrélations est de comprendre la nature et le degré de relations qui peuvent exister entre deux variables X et Y. Le coefficient de corrélation (rho) quantifie la nature et le degré de relation entre les deux variables. Le coefficient de corrélation possède la propriété suivante:
1.1 Coefficient de corrélation échantillonnal Comme on a présenté pour la moyenne et la variance, dans le cas où on a des observations échantillonnale, le coefficient de corrélation échantillonnal est donné par où est la covariance échantillonnale.
1.2 Inférence statistique de En général, on s’intéresse à l’existence de relation linéaire entre deux variables. On teste alors La statistique de test appropriée est donnée par On rejette l’hypothèse nulle si
2. Régression Linéaire Simple Si on rejette l’hypothèse que la corrélation est non nulle entre les deux variables X et Y, on peut se poser les questions suivantes: 1. Quelle équation mathématique peut-on utiliser pour décrire la relation qui existe entre X et Y ( une droite, une parabole,..)? 2. Comment peut-on estimer l’équation qui décrit cette relation? 3. Le modèle proposé dans 1. est-il approprié? Ces questions nous poussent à étudier ce qu’on appelle un modèle de régression linéaire simple.
2. Régression Linéaire Simple (suite) Supposons que la relation entre X et Y est linéaire. Alors la droite qui relie Y à X est appelée une équation de régression linéaire simple et est donnée par: où Y est la variable dépendante X est la variable indépendante est appelé l’ordonné à l’origine (la valeur de Y pour X=0) est la pente est l’erreur aléatoire.
2. Régression Linéaire Simple (suite) Les estimateurs des paramètres de la régression sont: L’estimation de la droite de la régression linéaire simple est où est la valeur espérée de Y pour un valeur donnée de X.
3. Coefficient de détermination: Le coefficient de détermination, noté par , est le quotient défini par: Ce coefficient nous donne la proportion de la variation totale de la population dans Y expliquée en régressant Y sur X. Une valeur “Assez grande” de implique que plus de variation dans la variable dépendante est expliquée par la variable indépendante.