Statistique descriptive Bivariée STAT S101 Esteban Callejas Perez ecalleja@ulb.ac.be H.4.145
La covariance entre deux variables 𝑥 et 𝑦 ( 𝑠 𝑥𝑦 ) peut être calculé comme suite: 𝑠 𝑥𝑦 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 ou 𝑠 𝑥𝑦 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 On se rappelle que la variance de 𝑥 ( 𝑠 𝑥 2 ) est calculé comme : 𝑠 𝑥 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 ou 𝑠 𝑥 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Le coefficient de corrélation de Bravais-Pearson (𝑟) entre les variables 𝑥 et 𝑦 est calcule selon la formule suivante: 𝑟= 𝑠 𝑥𝑦 𝑠 𝑥 𝑠 𝑦
La covariance entre les rangs i 𝑥 et 𝑖 𝑦 des variables 𝑥 et 𝑦 ( 𝑠 𝑖 𝑥 𝑖 𝑦 ) peut être calculé comme suite: 𝑠 𝑖 𝑥 𝑖 𝑦 = 1 𝑛 𝑖 𝑥 = 𝑖 𝑦 =1 𝑛 𝑖 𝑥 − 𝑖 𝑥 𝑖 𝑦 − 𝑖 𝑦 = 1 𝑛 𝑖 𝑥 = 𝑖 𝑦 =1 𝑛 𝑖 𝑥 𝑖 𝑦 − 𝑖 𝑥 𝑖 𝑦 On se rappelle que la variance du rang 𝑖 𝑥 ( 𝑠 𝑖 𝑥 2 ) est calculé comme : 𝑠 𝑖 𝑥 2 = 1 𝑛 𝑖 𝑥 =1 𝑛 𝑖 𝑥 − 𝑖 𝑥 2 ou 𝑠 𝑖 𝑥 2 = 1 𝑛 𝑖 𝑥 =1 𝑛 𝑖 𝑥 2 − 𝑖 𝑥 2 Le coefficient de corrélation de Spearman ( 𝑟 𝑠 ) entre les variables 𝑥 et 𝑦 est calcule selon la formule suivante: 𝑟 𝑠 = 𝑠 𝑥𝑦 𝑠 𝑥 𝑠 𝑦
𝑦 𝑖 =𝑎+𝑏 𝑥 𝑖 𝑏= 𝑠 𝑥𝑦 𝑠 𝑥 2 𝑎= 𝑦 −𝑏 𝑥 Le Droite de Régression suppose une dépendance linéaire de 𝑦 en 𝑥: 𝑦 𝑖 =𝑎+𝑏 𝑥 𝑖 + 𝑒 𝑖 𝑦 est la variable dépendante (expliquée). 𝑥 est la variable explicative. 𝑒 est l’erreur (résidu) de la dépendance linéaire supposé. Equation: 𝑦 𝑖 =𝑎+𝑏 𝑥 𝑖 𝒚 sont les valeurs ajustées. 𝒃 (pente de la droite de régression ou coefficient de régression de 𝑦 en 𝑥) est la quantité dont varie 𝑦 lorsque 𝑥 varie d´une unité. 𝑏= 𝑠 𝑥𝑦 𝑠 𝑥 2 𝒂 (ordonné a l’origine de la droite de régression) est la valeur de 𝑦 lorsque 𝑥=0. 𝑎= 𝑦 −𝑏 𝑥
Les résidus ( 𝑒 𝑖 𝑖=1,2,⋯,𝑛 ) sont définis par l’équation: 𝑒 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 La moyenne des résidus ( 𝑒 ) est toujours zéro: 𝑒 = 1 𝑛 𝑖=1 𝑛 𝑒 𝑖 =0 La variance des résidus (variance résiduelle) ( 𝑠 𝑦∙𝑥 2 ) est: 𝑠 𝑦∙𝑥 2 = 1 𝑛 𝑖=1 𝑛 𝑒 𝑖 2
𝑅 2 =1− 𝑠 𝑦∙𝑥 2 𝑠 𝑦 2 = 𝑠 𝑟𝑒𝑔 2 𝑠 𝑦 2 𝑠 𝑟𝑒𝑔 2 = 𝑅 2 𝑠 𝑦 2 Le coefficient de détermination ( 𝑅 2 ) est une mesure du pouvoir explicatif de la variable explicative 𝑥 et est noté: 𝑅 2 =1− 𝑠 𝑦∙𝑥 2 𝑠 𝑦 2 = 𝑠 𝑟𝑒𝑔 2 𝑠 𝑦 2 La variance des valeurs ajustées est appelée variance expliquée par la régression et est notée 𝑠 𝑟𝑒𝑔 2 . 𝑠 𝑟𝑒𝑔 2 = 𝑅 2 𝑠 𝑦 2 C’est possible de decomposer la variance come suit: 𝑠 𝑦 2 = 𝑠 𝑟𝑒𝑔 2 + 𝑠 𝑦∙𝑥 2 Ou aussi: 𝑠 𝑦∙𝑥 2 = 1− 𝑅 2 𝑠 𝑦 2