Le modèle de régression linéaire Claude Marois © 2010
La régression linéaire : Existe-t-il une relation entre variables ? Si oui, la prise en compte des valeurs d’une variable permet-elle de prédire les valeurs de l’autre ; On suppose deux variables X et Y, on peut représenter la distribution de ces deux variables par un nuage de points ;
La régression linéaire : Ainsi, on construit un diagramme de dispersion : X 1,Y 1 ; X 2,Y 2 ;…….; X n Y n Comment représenter ce nuage de points ou diagramme de dispersion par une droite ou une courbe «représentative» : i.e. une droite qui décrit les rapports entre ces deux variables ; Cette droite s’appelle droite d’ajustement ;
La ligne de régression simple : Permet de trouver les tendances de Y sous l’influence de X 1 X 2 X 3 …….. X n ; Y = f (X) La ligne de régression résulte de la généralisation limitée par une ou plusieurs variables indépendantes : c’est la droite qui s’ajuste le mieux au nuage de points ;
La ligne de régression simple : La ligne de droite traduit la généralisation la plus grande : Droite de régression linéaire au premier degré : Y=a+bX Courbe de régression par les polynômes Y= a + b 1 X+ b 2 X 2 +……+ b n X n Chaque exposant de X indique les changements de direction de la courbe ;
La méthode des moindres carrés: «Least square» Il y a plusieurs méthodes d’estimation des paramètres: -Méthode des moindres carrés -Méthode du maximum de vraisemblance -Méthode du meilleur estimateur linéaire non biaisé -* Méthode des moindres carrés permet de calculer des estimateurs non biaisés
L’équation de cette ligne: Y= A+bX D’où b = constante i.e. le rapport de «Y» quand «X» change Par exemple, la valeur de «b» = Y2 - Y1 = pente X2 – Y1 Plusieurs types de fonction: la plus connue … La fonction polynomiale: Y = ao + a1X² + …+ an Xⁿ d’où n > 0 an ≠ 0
La fonction polynomiale: Y = ao + a1X² + …+ an Xⁿ d’où n > 0 an ≠ 0 La fonction quadratique second degré: Y = ao + b1X + b2 X² La fonction au troisième degré : Y = ao + b1X + b2X² + b3X³
L’écart entre la droite de régression et les points du diagramme de dispersion constitue la différence entre la valeur Yi et la valeur correspondante sur la droite «D»; Les écarts sont des résidus ou des écarts : D1² + D2² + D3² +….+ Dn² est une mesure de l’efficacité ou de la qualité d’ajustement ; L’objectif est de trouver la plus petite somme, la droite qui donne le meilleur ajustement et qui vérifie la propriété suivante: D1² + D2² + D3² +….+ Dn² la plus petite de toutes les sommes des écarts;
Quand une courbe vérifie cette propriété, cette droite s’appelle une droite de régression, droite pour laquelle la somme des carrés des erreurs est MINIMUM; Par les moindres carrés, on calcule les paramètres à l’aide des équations suivantes: b = nΣ XY – (ΣX)(ΣY) nΣX² - (ΣX)² a = Ymoy. – b X moy.
Propriétés d’une droite de régression: L’équation peut être utile pour prédire une valeur de Y pour n’importe quelle valeur de X ; La droite passe toujours par le point Xmoy. et Ymoy. ; L’ordonnée à l’origine «a» donne la valeur de Y quand X égale zéro; La pente «b» mesure les variations de Y par rapport aux variations de X : la pente peut être nulle, positive ou négative; Le coefficient de régression n’est pas symétrique i.e. la pente de X sur Y n’est pas égale à la pente de Y sur X sauf si la corrélation est égale à 1.00 ;
La régression linéaire : Il y a des relations non-linéaires qui sont «linéarisables» ; Une ligne droite est une fonction linéaire ; Comment identifier une relation non-liénaire ? Par un diagramme de dispersion :
Il y a une variété de courbes différentes de la ligne droite ; Par exemple : Fonction trigonométrique : Y=sinX Fonction exponentielle : Y= aoaX Fonction logarithmique : Y=a Ln X
Linéarisation : Certaines de ces fonctions peuvent être linéarisées par une simple transformation : Par exemple, la fonction puissance : Y= aX b par une transformation logarithmique : log Y = log a + b log X