Télécharger la présentation
Publié parIdelle Munier Modifié depuis plus de 10 années
1
Régression affine Montage préparé par : André Ross
Professeur de mathématiques Cégep de Lévis-Lauzon
2
Introduction Lorsqu’on obtient des données à partir d’une expérience de laboratoire, d’un sondage ou d’une recherche, même si le phénomène peut être décrit par un modèle affine, il faut s’attendre à ce qu’il y ait une différence entre les valeurs observées et les valeurs décrites par le modèle. Aucun modèle n’est une description exacte d’un phénomène expérimental. Lorsqu’on étudie la relation entre les variables d’un phénomène pour lequel on dispose de données empiriques, la représentation graphique se révèle un moyen efficace pour déceler si le phénomène est descriptible par un modèle affine car, visuellement, il est facile de détecter si le nuage de points suggère une droite.
3
Méthode graphique La façon la plus simple et la plus rapide consiste à représenter les points sur un papier quadrillé et à choisir parmi toutes les droites possibles passant par deux des points représentés (à l’aide d’une règle transparente) celle qui semble la plus satisfaisante pour décrire le phénomène. On choisit ainsi parmi les données deux points (x1; y1) et (x2; y2) dont les coordonnées vont nous permettre de trouver l’équation de la droite à l’aide de l’expression : = y2 – y1 x2 – x1 y – y1 x – x1 On peut également trouver les valeurs de a et b en solutionnant le système d’équations suivant : y1 = ax1 + b y2 = ax2 + b
4
Application de la méthode graphique
Le tableau ci-contre donne la solubilité du bromure de potassium dans l’eau en fonction de la température de l’eau. La température T est donnée en degrés centigrades et la concentration c est donnée en grammes de soluté par cent grammes d’eau. Représentons graphiquement les données. T i ci Supposons que la droite passant par les points (20; 63,7) et (70; 88,6) nous semble la plus apte à décrire la relation entre les variables. c 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 100 80 60 40 20 Utiliser la méthode graphique pour trouver un modèle décrivant la relation entre la température T et la solubilité c. Solubilité (g/100 g) Alors : = 88,6 – 63,7 70 – 20 c – 63,7 T – 20 20 40 60 80 T et : c(T) = 0,498T + 53,74 Température (°C) S
5
Calcul des résidus Méthode graphique
On peut mesurer la précision du modèle obtenu en calculant pour chaque valeur de la variable indépendante la différence entre la valeur observée (ci) et la valeur donnée par le modèle mathématique (cm), ces différences sont appelées les résidus. 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm cm r2 53,74 58,72 63,70 68,68 73,66 78,64 83,62 88,60 –1,84 –0,92 0,00 0,52 0,34 0,06 0,18 3,3856 0,8464 0,0000 0,2704 0,1156 0,0036 0,0324 La somme des carrés des résidus est la mesure de précision du modèle mathématique. Effectuons le calcul des résidus pour le modèle c(T) = 0,498T + 53,74 Somme des carrés 4,6540
6
Méthode des données regroupées
Cette méthode consiste à regrouper les points en deux groupes contenant chacun la moitié ou environ la moitié des données. On détermine alors la valeur moyenne pour la variable indépendante et pour la variable dépendante dans chaque groupe. Ces valeurs moyennes représentées par (x1; y1) et (x2; y2) servent alors pour trouver l’équation d’une droite à l’aide de la proportion : = y2 – y1 x2 – x1 y – y1 x – x1 On peut également trouver les valeurs de a et b en solutionnant le système d’équations suivant : y1 = ax1 + b y2 = ax2 + b
7
Application de la méthode des données regroupées
Utiliser la méthode des données regroupées pour trouver un modèle décrivant la relation entre la température T et la solubilité c à partir des données ci-contre. En regroupant les données et en calculant les moyennes, on obtient : T i ci 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 4 = 15 x1 = 51,9 + 57,8 + 63,7 + 69,2 4 y1 = = 60,65 4 x2 = = 55 74,0 + 78,7 + 83,8 + 88,6 4 y2 = = 81,275 En déterminant l’équation de la droite par ces deux points, on obtient : = 81,275 – 60,65 55 – 15 c – 60,65 T – 15 et : c(T) = 0,516T + 52,92 S S
8
Méthode des données regroupées
Calcul des résidus Méthode des données regroupées 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm Effectuons le calcul des résidus pour le modèle c(T) = 0,516T + 52,92 cm r2 52,92 58,08 63,24 68,40 73,56 78,72 83,88 89,04 –1,02 –0,28 0,46 0,80 0,44 –0,02 –0,08 –0,44 1,0404 0,0784 0,2116 0,6400 0,1936 0,0004 0,0064 On constate que la somme des carrés des résidus est inférieure à celle du modèle obtenu par la méthode graphique. Cela signifie que e modèle donne une meilleure description du lien entre les variables. Somme des carrés 2,3644
9
Méthode des moindres carrés
Cette méthode consiste à calculer : x , la moyenne des valeurs de la variable indépendante; y , la moyenne des valeurs de la variable dépendante; x2 , la moyenne des carrés des valeurs de la variable indépendante; xy , la moyenne des produits des valeurs des deux variables. Les paramètres a et b de la droite cherchée sont alors obtenus en solutionnant le système d’équations : y = ax + b xy = ax2 + bx En pratique, on détermine les valeurs moyennes dans un tableau en utilisant de préférence un tableur électronique.
10
Application de la méthode des moindres carrés
Utiliser la méthode des moindres carrés pour trouver un modèle décrivant la relation entre la température T et la solubilité c à partir des données ci-contre. En isolant b dans la première équation : Déterminons les valeurs moyennes. T ici 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci T i2 b = 70,9625 – 35a T = 280 8 = 35 En substituant dans la deuxième équation : 100 400 900 1600 2500 3600 4900 14000 578 1274 2076 2960 3935 5028 6202 22053 2756,625 = 1750a + 35(70,9625 – 35a) c = 567,7 8 = 70,9625 2756,625 = 1750a ,6875 – 1225a 272,9375 = 525a et a = 0, T2 = 14000 8 =1750 Par substitution, on a alors : b = 52, Tc = 22053 8 = 2757,625 En arrondissant, le modèle affine est alors : On doit alors résoudre le système d’équations : c(T) = 0,520T + 52,77 280 567,7 70,9625 = 35a + b 2756,625 = 1750a + 35b S S
11
Méthode des moindres carrés
Calcul des résidus Méthode des moindres carrés 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm Effectuons le calcul des résidus pour le modèle c(T) = 0,520T + 52,77 cm r2 52,77 57,97 63,17 68,37 73,57 78,77 83,97 89,17 –0,87 –0,17 0,53 0,83 0,43 –0,07 –0,57 0,7569 0,0289 0,2809 0,6889 0,1849 0,0049 0,3249 On constate que la somme des carrés des résidus est inférieure à celle des deux autres modèles. Cela signifie que ce modèle donne une meilleure description du lien entre les variables. En fait, on peut démontrer que la méthode des moindres carrés donne toujours le modèle pour lequel la somme des carrés des résidus est minimale. Somme des carrés 2,2992
12
Application de la méthode des moindres carrés
En résolvant les équations : 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci 100 400 900 1600 2500 3600 4900 14000 T ici 578 1274 2076 2960 3935 5028 6202 22053 T i2 280 567,7 y = ax + b xy = ax2 + bx on obtient les expressions suivantes : a = nS xiyi – (S xi)(S yi) nS xi2 – (S xi)2 8 ´ – 280 ´567,7 8 ´14000 – 2802 a = = 0, b = S yi – a S xi n 567,7 8 280 8 b = – 0, = 52, S Le modèle affine est alors : c(T) = 0,520T + 52,77
13
Exemple 2.3.4 –13 –8 –4 2 8 15 52,0 44,0 36,8 28,0 18,0 6,8 T Q TQ T2 –676,0 –352,0 –147,2 56,0 144,0 102,0 169 64 16 4 225 Le constructeur d’habitations pour lequel vous travaillez a décidé d’évaluer le coût de chauffage des maisons qu’il construit afin de se servir de ce renseignement dans sa publicité. Il a fait relever, pour des périodes de 24 heures, la consommation moyenne de mazout en fonction de la température extérieure. Les relevés ont été faits en fonction de la température moyenne durant ces 24 heures. Les données obtenues ont été compilées dans le tableau ci-contre : On peut alors calculer les paramètres : a = nS TiQi – (S Ti)(S Qi) nS Ti2 – (S Ti)2 6 ´ (–873,2) – 0 ´185,6 6 ´542 – 02 a = = –1,611 185,6 –873,2 542 b = S Qi – a S Ti n Q 50 40 30 20 10 185,6 6 6 b = – (–1,611) = 30,93 Mazout consommé (L) Le modèle affine est alors : Trouver, par la méthode des moindres carrés, le modèle affine décrivant la relation entre la température et la quantité de mazout consommée. Q(T) = –1,611T + 30,93 –12 –8 –4 4 8 12 T Température (°F) S S
14
Mesures de la précision du modèle
Le calcul des résidus est une des mesures de précision utilisées, mais on utilise également le coefficient de corrélation et le coefficient de détermination. Le calcul des résidus est une des mesures de précision utilisées, mais on utilise également le coefficient de corrélation et le coefficient de détermination. Le coefficient de corrélation est donné par : r = nS xiyi – (S xi)(S yi) nS xi2 – (S xi) nS yi2 – (S yi)2 Cela peut sembler affolant à première vue, mais quatre de ces sommes sont déjà effectuées en dressant le tableau pour déterminer les paramètres a et b. Il ne reste qu’à calculer la somme des carrés des yi. S S
15
Calcul du coefficient de corrélation
Considérons le tableau obtenu à l’exemple –13 –8 –4 2 8 15 52,0 44,0 36,8 28,0 18,0 6,8 T Q –676,0 –352,0 –147,2 56,0 144,0 102,0 T2 169 64 16 4 225 TQ Q2 2704,00 1936,00 1354,24 784,00 324,00 46,24 Pour calculer le coefficient de corrélation, il nous manque la somme des carrés de la variable indépendante. Déterminons cette somme. Calculons le coefficient : 185,6 –873,2 542 7148,48 r = nS TiQi – (S Ti)(S Qi) nS Ti2 – (S Ti) nS Qi2 – (S Qi)2 6 ´(–873,2) – 0 ´185,6 r = = –0,9998 S 6 ´542 – 02 6 ´7148,58 – (185,6)2
16
Interprétation du coefficient de corrélation
Le coefficient de corrélation linéaire r est un nombre compris entre –1 et 1 (–1 ≤ r ≤ 1). Lorsque r = 0 (corrélation nulle), le modèle affine n’est pas du tout indiqué pour modéliser le phénomène. Lorsque r est proche de 1 ou de –1, le regroupement des points dans le voisinage de la droite est important. r = 1 corrélation positive parfaite r > 0 corrélation positive r = –1 corrélation négative parfaite r < 0 corrélation négative
17
Droite de tendance La droite de régression permet de construire des modèles simples qui sont utilisés pour analyser des situations ou pour décrire une tendance. On l’appelle alors droite de tendance. On distingue deux cas dans l’analyse de tendance, selon que les valeurs estimées sont à l’intérieur ou à l’extérieur de l’ensemble des données observées. Lorsque les prévisions portent sur des valeurs à l’intérieur de l’intervalle des données, le processus est appelé interpolation. Généralement, les estimations provenant d’une interpolation sont plutôt fiables. Lorsque les prévisions portent sur des valeurs à l’extérieur de l’ensemble des données, le processus est appelé extrapolation. Il faut noter que la fiabilité est plus grande lorsqu’on fait des prédictions pour des valeurs proches de l’ensemble des données observées. Les prédictions portant sur des valeurs éloignées de cet intervalle donnent une estimation qui, sans être à rejeter, doit être considérée de façon plus critique.
18
nS ci2 – (S ci)2 nS ai2 – (S ai)2
Exemple 2.3.5 4,0 8,0 12,0 16,0 20,5 ? 5,2 11,2 16,1 21,0 26,9 15,85 ci ai ciai ci2 ai2 Lors d’une expérience de polarimétrie du sucrose, on a noté l’angle de rotation des solutions étalon dans une cellule de 2,00 dm. Les couples obtenus sont donnés dans la tableau ci-contre. La concentration c est en grammes par 100 mL et l’angle de rotation a est en degrés. Déterminons la préimage de 15,85 par ce modèle. Calculons le coefficient de corré-lation : On peut calculer les paramètres : 20,88 89,6 192,2 336,0 551,45 16,0 64,0 144,0 256,0 420,25 27,04 125,44 259,21 441,00 723,71 r = nS ciai – (S ci)(S ai) nS ci2 – (S ci) nS ai2 – (S ai)2 a(c) = 1,30c + 0,38 = 15,85 a = nS ciai – (S ci)(S ai) nS ci2 – (S ci)2 d’où c = 11,9. 5 ´ 1191,05 – 60,5 ´80,4 5 ´900,25 – 60,52 a = 60,5 80,4 1191,05 900,25 1576,30 Conclusion 5 ´1191,05 – 60,5 ´80,4 a r = = 1,297... 20 30 10 La concentration qui donne un angle de rotation de 15,85° est de 11,9 g/100 ml. b = S ai – a S ci n 5 ´900,25 – 60,52 5 ´1576,3 – 80,42 Déterminer un modèle mathématique décrivant la correspondance entre la concentration et l’angle de rotation en utilisant la méthode des moindres carrés. = 0, Angle de rotation (degrés) 80,4 5 60,5 5 b = – 1,297... = 0, On a une corrélation positive très forte. Le modèle affine est donc très approprié dans cette situation. Le modèle affine est alors : 4 8 12 c 16 20 a(c) = 1,30c + 0,38 Concentration (g/100 mL) S S S S
19
Conclusion On peut utiliser différentes méthodes pour déterminer un modèle affine décrivant la relation entre des données expérimentales, méthode graphique, méthode des données regroupées et méthode par régression. La méthode la plus précise est celle par régression. Cependant, la précision du modèle dépend également de la précision des mesures expérimentales. Par le calcul des résidus, du coefficient de corrélation et du coefficient de détermination, on peut chiffrer la précision du modèle et l’intensité du lien de linéarité entre les variables.
20
Lecture Mathématiques pour la chimie et la biologie, section 2.3, p.54 à 62. Exercices Mathématiques pour la chimie et la biologie, section 2.4, p. 63 et 64.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.