La corrélation et la régression
Mesure de la relation entre deux variables 2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidents Attention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales La relation est décrite par le coefficient de corrélation (r) Il varie entre -1 et 1: 1 (ou -1) = relation parfaite 0 = absence de relation Il existe donc trois cas possibles: Relation positive : x augmente; y augmente Relation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pas
Exemples de relation
Exemples de relation
Exemple
Exemple Mesure la direction et la grandeur de la relation
Note
Exemple Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.
Coefficient de détermination Variance commune = 0 % x y Variance commune = 25 % x y Variance commune = 80 % x y
Exemple 77% de la variance en y peut être expliquée par la variance en x Exemple 2 (SAT) 36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT
Coefficient de corrélation erronés Restriction de l’étendue: diminue la corrélation
Coefficient de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.75 L H
Coefficient de corrélation erronés Utilisation de groupes extrêmes: augmente la corrélation r = 0.50 L H x
Coefficient de corrélation erronés Combiner des groupes: augmente ou diminue la corrélation r2 = 0 r1 > 0 r1 = 0 r2 > 0 r2 > 0 r1 > 0
Coefficient de corrélation erronés Score extrême: augmente ou diminue la corrélation x x x x x x x x x x x x x x x x x x x
Coefficient de corrélation erronés Relation non linéaire: diminue la corrélation
Note Même si le coefficient de corrélation est celui rapporté, il n’est pas un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.
Inférence
Inférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.
Exemple Comme le tobs >tcrit (3.209>3.182) on rejette H0 et on accepte H1. Les 2 populations sont donc dépendantes.
Régression linéaire
Régression linéaire On veut une relation fonctionnelle entre 2 variables et non seulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédiction y1 Rappel des caractérisiques (pente, constante) de l’équation d’une droite x1
Les paramètres de la droite de régression Si on remplace b0
Note On sait que Si on remplace la covariance par sa valeur
Exemple 2
Exemple 2
Prédiction À partir de l’équation de régression, il est possible de faire des prédiction Ex. 1 Si x = 7.5, que vaut ?
Prédiction De façon similaire on peut prédire x à partie de y Ex. 2 Si y = 9.65, que vaut ?
Prédiction Enfin! Ex. 3 Si x = 3, que vaut ? Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur
Erreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.
Note Pour des grands échantillons
Intervalles de confiance Prédiction à partir d’un nouveau score L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.
Intervalles de confiance Prédiction à partir d’un nouveau score Exemple xnew= 7.5 pour un IC de 95%
Relation entre le test t et la corrélation
Groupes indépendants Variabilité dans l’estimation des paramètres (erreur type) a c b Par Pythagore Si on remplace « a » par sa valeur
Groupes dépendants Variabilité dans l’estimation des paramètres (erreur type) c a q b Par la loi du Cosinus Si on remplace « a » par sa valeur
Groupes dépendants