Régression affine Montage préparé par : André Ross

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
Licence pro MPCQ : Cours
Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Les numéros 70 –
Les numéros
Les identités remarquables
Thème : ESPACE ET MOUVEMENT
Introduction à la logique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
Modèle affine Montage préparé par : André Ross
Produit de Matrices Montage préparé par : André Ross
Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.
Angles et distances dans R2
Géométrie vectorielle
RELATION COÛT-VOLUME-BÉNÉFICE
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Produit vectoriel Montage préparé par : André Ross
Présentation générale
Les puissances de 10 - Sommaire
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Fonction puissance Montage préparé par : André Ross
Modèles de Leontieff Montage préparé par : André Ross
Les nombres.
Le point le plus près Montage préparé par : André Ross
Montage préparé par : André Ross Professeur de mathématiques Cégep de Lévis-Lauzon André Ross Professeur de mathématiques Cégep de Lévis-Lauzon Modélisation.
Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.
Régression linéaire simple
Fonction puissance et modélisation
La fonction LOGARITHMIQUE
Tableaux de distributions
Tableaux de distributions
Produit mixte Montage préparé par : André Ross
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
La droite dans R2 Montage préparé par : André Ross
Variation et taux de variation
Sommations et notation sigma
Modélisation affine Montage préparé par : André Ross
Les chiffres & les nombres
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Factorisation de trinômes
MODULE 8 Les fonctions SINUSOÏDALES
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Résoudre une équation du 1er degré à une inconnue
Aire d’une figure par encadrement
Écart moyen et écart type
La droite dans R3 Montage préparé par : André Ross
Sous-espaces vectoriels engendrés
Chapitre 5 Prévisions.
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Annexe Résultats provinciaux comparés à la moyenne canadienne
Rappels de statistiques descriptives
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Statistiques à 2 variables
Transcription de la présentation:

Régression affine Montage préparé par : André Ross Professeur de mathématiques Cégep de Lévis-Lauzon

Introduction Lorsqu’on obtient des données à partir d’une expérience de laboratoire, d’un sondage ou d’une recherche, même si le phénomène peut être décrit par un modèle affine, il faut s’attendre à ce qu’il y ait une différence entre les valeurs observées et les valeurs décrites par le modèle. Aucun modèle n’est une description exacte d’un phénomène expérimental. Lorsqu’on étudie la relation entre les variables d’un phénomène pour lequel on dispose de données empiriques, la représentation graphique se révèle un moyen efficace pour déceler si le phénomène est descriptible par un modèle affine car, visuellement, il est facile de détecter si le nuage de points suggère une droite.

Méthode graphique La façon la plus simple et la plus rapide consiste à représenter les points sur un papier quadrillé et à choisir parmi toutes les droites possibles passant par deux des points représentés (à l’aide d’une règle transparente) celle qui semble la plus satisfaisante pour décrire le phénomène. On choisit ainsi parmi les données deux points (x1; y1) et (x2; y2) dont les coordonnées vont nous permettre de trouver l’équation de la droite à l’aide de l’expression : = y2 – y1 x2 – x1 y – y1 x – x1 On peut également trouver les valeurs de a et b en solutionnant le système d’équations suivant : y1 = ax1 + b y2 = ax2 + b

Application de la méthode graphique Le tableau ci-contre donne la solubilité du bromure de potassium dans l’eau en fonction de la température de l’eau. La température T est donnée en degrés centigrades et la concentration c est donnée en grammes de soluté par cent grammes d’eau. Représentons graphiquement les données. T i ci Supposons que la droite passant par les points (20; 63,7) et (70; 88,6) nous semble la plus apte à décrire la relation entre les variables. c 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 100 80 60 40 20 Utiliser la méthode graphique pour trouver un modèle décrivant la relation entre la température T et la solubilité c. Solubilité (g/100 g) Alors : = 88,6 – 63,7 70 – 20 c – 63,7 T – 20 20 40 60 80 T et : c(T) = 0,498T + 53,74 Température (°C) S

Calcul des résidus Méthode graphique On peut mesurer la précision du modèle obtenu en calculant pour chaque valeur de la variable indépendante la différence entre la valeur observée (ci) et la valeur donnée par le modèle mathématique (cm), ces différences sont appelées les résidus. 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm cm r2 53,74 58,72 63,70 68,68 73,66 78,64 83,62 88,60 –1,84 –0,92 0,00 0,52 0,34 0,06 0,18 3,3856 0,8464 0,0000 0,2704 0,1156 0,0036 0,0324 La somme des carrés des résidus est la mesure de précision du modèle mathématique. Effectuons le calcul des résidus pour le modèle c(T) = 0,498T + 53,74 Somme des carrés 4,6540

Méthode des données regroupées Cette méthode consiste à regrouper les points en deux groupes contenant chacun la moitié ou environ la moitié des données. On détermine alors la valeur moyenne pour la variable indépendante et pour la variable dépendante dans chaque groupe. Ces valeurs moyennes représentées par (x1; y1) et (x2; y2) servent alors pour trouver l’équation d’une droite à l’aide de la proportion : = y2 – y1 x2 – x1 y – y1 x – x1 On peut également trouver les valeurs de a et b en solutionnant le système d’équations suivant : y1 = ax1 + b y2 = ax2 + b

Application de la méthode des données regroupées Utiliser la méthode des données regroupées pour trouver un modèle décrivant la relation entre la température T et la solubilité c à partir des données ci-contre. En regroupant les données et en calculant les moyennes, on obtient : T i ci 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 0 + 10 + 20 + 30 4 = 15 x1 = 51,9 + 57,8 + 63,7 + 69,2 4 y1 = = 60,65 40 + 50 + 60 + 70 4 x2 = = 55 74,0 + 78,7 + 83,8 + 88,6 4 y2 = = 81,275 En déterminant l’équation de la droite par ces deux points, on obtient : = 81,275 – 60,65 55 – 15 c – 60,65 T – 15 et : c(T) = 0,516T + 52,92 S S

Méthode des données regroupées Calcul des résidus Méthode des données regroupées 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm Effectuons le calcul des résidus pour le modèle c(T) = 0,516T + 52,92 cm r2 52,92 58,08 63,24 68,40 73,56 78,72 83,88 89,04 –1,02 –0,28 0,46 0,80 0,44 –0,02 –0,08 –0,44 1,0404 0,0784 0,2116 0,6400 0,1936 0,0004 0,0064 On constate que la somme des carrés des résidus est inférieure à celle du modèle obtenu par la méthode graphique. Cela signifie que e modèle donne une meilleure description du lien entre les variables. Somme des carrés 2,3644

Méthode des moindres carrés Cette méthode consiste à calculer : x , la moyenne des valeurs de la variable indépendante; y , la moyenne des valeurs de la variable dépendante; x2 , la moyenne des carrés des valeurs de la variable indépendante; xy , la moyenne des produits des valeurs des deux variables. Les paramètres a et b de la droite cherchée sont alors obtenus en solutionnant le système d’équations : y = ax + b xy = ax2 + bx En pratique, on détermine les valeurs moyennes dans un tableau en utilisant de préférence un tableur électronique.

Application de la méthode des moindres carrés Utiliser la méthode des moindres carrés pour trouver un modèle décrivant la relation entre la température T et la solubilité c à partir des données ci-contre. En isolant b dans la première équation : Déterminons les valeurs moyennes. T ici 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci T i2 b = 70,9625 – 35a T = 280 8 = 35 En substituant dans la deuxième équation : 100 400 900 1600 2500 3600 4900 14000 578 1274 2076 2960 3935 5028 6202 22053 2756,625 = 1750a + 35(70,9625 – 35a) c = 567,7 8 = 70,9625 2756,625 = 1750a + 2483,6875 – 1225a 272,9375 = 525a et a = 0,051988... T2 = 14000 8 =1750 Par substitution, on a alors : b = 52,766666... Tc = 22053 8 = 2757,625 En arrondissant, le modèle affine est alors : On doit alors résoudre le système d’équations : c(T) = 0,520T + 52,77 280 567,7 70,9625 = 35a + b 2756,625 = 1750a + 35b S S

Méthode des moindres carrés Calcul des résidus Méthode des moindres carrés 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci r ci – cm Effectuons le calcul des résidus pour le modèle c(T) = 0,520T + 52,77 cm r2 52,77 57,97 63,17 68,37 73,57 78,77 83,97 89,17 –0,87 –0,17 0,53 0,83 0,43 –0,07 –0,57 0,7569 0,0289 0,2809 0,6889 0,1849 0,0049 0,3249 On constate que la somme des carrés des résidus est inférieure à celle des deux autres modèles. Cela signifie que ce modèle donne une meilleure description du lien entre les variables. En fait, on peut démontrer que la méthode des moindres carrés donne toujours le modèle pour lequel la somme des carrés des résidus est minimale. Somme des carrés 2,2992

Application de la méthode des moindres carrés En résolvant les équations : 10 20 30 40 50 60 70 51,9 57,8 63,7 69,2 74,0 78,7 83,8 88,6 T i ci 100 400 900 1600 2500 3600 4900 14000 T ici 578 1274 2076 2960 3935 5028 6202 22053 T i2 280 567,7 y = ax + b xy = ax2 + bx on obtient les expressions suivantes : a = nS xiyi – (S xi)(S yi) nS xi2 – (S xi)2 8 ´ 22053 – 280 ´567,7 8 ´14000 – 2802 a = = 0,5198805... b = S yi – a S xi n 567,7 8 280 8 b = – 0,5198805... = 52,7666... S Le modèle affine est alors : c(T) = 0,520T + 52,77

Exemple 2.3.4 –13 –8 –4 2 8 15 52,0 44,0 36,8 28,0 18,0 6,8 T Q TQ T2 –676,0 –352,0 –147,2 56,0 144,0 102,0 169 64 16 4 225 Le constructeur d’habitations pour lequel vous travaillez a décidé d’évaluer le coût de chauffage des maisons qu’il construit afin de se servir de ce renseignement dans sa publicité. Il a fait relever, pour des périodes de 24 heures, la consommation moyenne de mazout en fonction de la température extérieure. Les relevés ont été faits en fonction de la température moyenne durant ces 24 heures. Les données obtenues ont été compilées dans le tableau ci-contre : On peut alors calculer les paramètres : a = nS TiQi – (S Ti)(S Qi) nS Ti2 – (S Ti)2 6 ´ (–873,2) – 0 ´185,6 6 ´542 – 02 a = = –1,611 185,6 –873,2 542 b = S Qi – a S Ti n Q 50 40 30 20 10 185,6 6 6 b = – (–1,611) = 30,93 Mazout consommé (L) Le modèle affine est alors : Trouver, par la méthode des moindres carrés, le modèle affine décrivant la relation entre la température et la quantité de mazout consommée. Q(T) = –1,611T + 30,93 –12 –8 –4 4 8 12 T Température (°F) S S

Mesures de la précision du modèle Le calcul des résidus est une des mesures de précision utilisées, mais on utilise également le coefficient de corrélation et le coefficient de détermination. Le calcul des résidus est une des mesures de précision utilisées, mais on utilise également le coefficient de corrélation et le coefficient de détermination. Le coefficient de corrélation est donné par : r = nS xiyi – (S xi)(S yi) nS xi2 – (S xi)2 nS yi2 – (S yi)2 Cela peut sembler affolant à première vue, mais quatre de ces sommes sont déjà effectuées en dressant le tableau pour déterminer les paramètres a et b. Il ne reste qu’à calculer la somme des carrés des yi. S S

Calcul du coefficient de corrélation Considérons le tableau obtenu à l’exemple 2.3.4. –13 –8 –4 2 8 15 52,0 44,0 36,8 28,0 18,0 6,8 T Q –676,0 –352,0 –147,2 56,0 144,0 102,0 T2 169 64 16 4 225 TQ Q2 2704,00 1936,00 1354,24 784,00 324,00 46,24 Pour calculer le coefficient de corrélation, il nous manque la somme des carrés de la variable indépendante. Déterminons cette somme. Calculons le coefficient : 185,6 –873,2 542 7148,48 r = nS TiQi – (S Ti)(S Qi) nS Ti2 – (S Ti)2 nS Qi2 – (S Qi)2 6 ´(–873,2) – 0 ´185,6 r = = –0,9998 S 6 ´542 – 02 6 ´7148,58 – (185,6)2

Interprétation du coefficient de corrélation Le coefficient de corrélation linéaire r est un nombre compris entre –1 et 1 (–1 ≤ r ≤ 1). Lorsque r = 0 (corrélation nulle), le modèle affine n’est pas du tout indiqué pour modéliser le phénomène. Lorsque r est proche de 1 ou de –1, le regroupement des points dans le voisinage de la droite est important. r = 1 corrélation positive parfaite r > 0 corrélation positive r = –1 corrélation négative parfaite r < 0 corrélation négative

Droite de tendance La droite de régression permet de construire des modèles simples qui sont utilisés pour analyser des situations ou pour décrire une tendance. On l’appelle alors droite de tendance. On distingue deux cas dans l’analyse de tendance, selon que les valeurs estimées sont à l’intérieur ou à l’extérieur de l’ensemble des données observées. Lorsque les prévisions portent sur des valeurs à l’intérieur de l’intervalle des données, le processus est appelé interpolation. Généralement, les estimations provenant d’une interpolation sont plutôt fiables. Lorsque les prévisions portent sur des valeurs à l’extérieur de l’ensemble des données, le processus est appelé extrapolation. Il faut noter que la fiabilité est plus grande lorsqu’on fait des prédictions pour des valeurs proches de l’ensemble des données observées. Les prédictions portant sur des valeurs éloignées de cet intervalle donnent une estimation qui, sans être à rejeter, doit être considérée de façon plus critique.

nS ci2 – (S ci)2 nS ai2 – (S ai)2 Exemple 2.3.5 4,0 8,0 12,0 16,0 20,5 ?   5,2 11,2 16,1 21,0 26,9 15,85 ci ai ciai ci2 ai2 Lors d’une expérience de polarimétrie du sucrose, on a noté l’angle de rotation des solutions étalon dans une cellule de 2,00 dm. Les couples obtenus sont donnés dans la tableau ci-contre. La concentration c est en grammes par 100 mL et l’angle de rotation a est en degrés. Déterminons la préimage de 15,85 par ce modèle. Calculons le coefficient de corré-lation : On peut calculer les paramètres : 20,88 89,6 192,2 336,0 551,45 16,0 64,0 144,0 256,0 420,25 27,04 125,44 259,21 441,00 723,71 r = nS ciai – (S ci)(S ai) nS ci2 – (S ci)2 nS ai2 – (S ai)2 a(c) = 1,30c + 0,38 = 15,85 a = nS ciai – (S ci)(S ai) nS ci2 – (S ci)2 d’où c = 11,9. 5 ´ 1191,05 – 60,5 ´80,4 5 ´900,25 – 60,52 a = 60,5 80,4 1191,05 900,25 1576,30 Conclusion 5 ´1191,05 – 60,5 ´80,4 a r = = 1,297... 20 30 10 La concentration qui donne un angle de rotation de 15,85° est de 11,9 g/100 ml. b = S ai – a S ci n 5 ´900,25 – 60,52 5 ´1576,3 – 80,42 Déterminer un modèle mathématique décrivant la correspondance entre la concentration et l’angle de rotation en utilisant la méthode des moindres carrés. = 0,99933163 Angle de rotation (degrés) 80,4 5 60,5 5 b = – 1,297... = 0,3823... On a une corrélation positive très forte. Le modèle affine est donc très approprié dans cette situation. Le modèle affine est alors : 4 8 12 c 16 20 a(c) = 1,30c + 0,38 Concentration (g/100 mL) S S S S

Conclusion On peut utiliser différentes méthodes pour déterminer un modèle affine décrivant la relation entre des données expérimentales, méthode graphique, méthode des données regroupées et méthode par régression. La méthode la plus précise est celle par régression. Cependant, la précision du modèle dépend également de la précision des mesures expérimentales. Par le calcul des résidus, du coefficient de corrélation et du coefficient de détermination, on peut chiffrer la précision du modèle et l’intensité du lien de linéarité entre les variables.

Lecture Mathématiques pour la chimie et la biologie, section 2.3, p.54 à 62. Exercices Mathématiques pour la chimie et la biologie, section 2.4, p. 63 et 64.