Corrélation Position du problème Définition covariance (X,Y) r =

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Université de Ouagadougou
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Régression ou corrélation
Tests de comparaison de pourcentages
Comparaison de plusieurs moyennes Analyse de variance
- Régression linéaire -
Méthodes statistiques. Ajustements et corrélation
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Corrélations et ajustements linéaires.
Régression -corrélation
Corrélation linéaire et la droite de régression
Chapitre 2 Les indices.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Howell Chap. 11: ANOVA. Du monde connu au monde inconnu Du test t à l’analyse de varianceDu test t à l’analyse de variance Trouvez des nouveaux noms pour.
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Chapitre 12 Régression linéaire simple et corrélation linéaire
Les fonctions de référence
Probabilités et Statistiques
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Stat-infoCM6a : 1 Rappels.
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
STATISTIQUES.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
1 1 Licence Stat-info CM6 b 2004 V1Christophe Genolini Régression linéaire : problème On a les notes math et français suivantes : Un élève a 10 en math,
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Transcription de la présentation:

Corrélation Position du problème Définition covariance (X,Y) r = On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement. Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y Définition covariance (X,Y) r = var(X) * var (Y) Le coefficient de corrélation mesure l’association linéaire entre X et Y Il fait jouer un rôle symétrique à X et Y Il reste identique si on change d’unité ou d’origine

Représentation graphique Corrélation Tableau des valeurs : Représentation graphique Nuage de points Paramètres : Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation Éléments nécessaires : Nombre de couples : N Total des produits X*Y Total des X et des Y Total des carrés des X et des Y

Corrélation Calculs : sx = Tx2 N ^ • Covariance Effectifs N (nombre de couple) Total des valeurs (somme) Tx et Ty Total des carrés des valeurs Ux et Uy Total des produits Txy SCEx = Ux - Tx2 N Sx = SCEx N sx = SCEx ^ Nx- 1 S (x - x)*(y - y) • Covariance cov (x,y) = N = Txy - Tx *Ty N

Régression et corrélation : x et y sont deux variables aléatoires : x en fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation y est explicable par x (action /dose) => régression Droite de régression des moindres carrés Droite de régression de y en x y x • d1 d2 y = a + b X Minimise la somme des d1i S [yi - y(x)] = S ( yi - a - b * xi) 2 Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b Droite de régression de x en y Minimise la somme des d2i

Calcul du coefficient de corrélation cov(x,y) Sx 2 * Sy = Sx * Sy Txy - Tx *Ty N SCEx * SCEy r varie de -1 à + 1 si r = 0 pas de liaison si r = 1 (ou -1) la connaissance de x (ou de y) donne toute l'information. Il est alors inutile de mesurer l'autre variable. Test du coefficient de corrélation contre 0 Hypothèse nulle x et y sont indépendants. r fluctue autour de 0 du fait du hasard. Hypothèses alternatives Test bilatéral x et y sont liés. r est différent de 0

Corrélation Conditions d'applications Si N est petit pour une valeur de x donnée, la distribution des y (distribution liée) est normale et de variance constante (et réciproquement). Le modèle linéaire a un sens Utilisation de la table du coefficient de corrélation (N<100) Calcul d'une statistique t de Student r 2 t = N - 2 DDL = N - 2 1-r Recherche dans la table (r ou t) de la valeur correspondant à alpha choisi. Si r ou t > r ou t alpha on rejette H0 : les deux variables sont liées Si r ou t < r ou t alpha on ne peut pas rejeter H0. Les deux variables sont indépendantes mais ATTENTION au risque beta. Si il y a une liaison, dans le cas où la distribution (xy) est normale, r mesure la force de la liaison

Divers types de résultats Importance de la visualisation du nuage de points « Amande à petit ventre » Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9 « Amande à gros ventre » Faible corrélation positive Faible corrélation négative Pas de corrélation r voisin de 0

Coefficient de corrélation de rang de Spearman Si condition d'application pour le coefficient de corrélation usuelle ne sont pas remplies, on calcul le coefficient de corrélation non pas entre les valeurs mais entre leur rang. Coefficient de corrélation Rs : di = xi - yi S di 2 i=1 n 6 ________ rs = 1 - 2 N(N - 1) • Test du rs Spearman utilisation de table ou calcul d’un t de Student

Situation du problème : Régression linéaire Situation du problème : Étude da l’association de deux variables quantitatives X et Y telle que X explique Y. Cela revient à étudier la distribution de Y pour chaque valeur de X. S’il y a une association entre X et Y la distribution conditionnelle de Y varie selon les valeurs de X. La moyenne et la variance conditionnelle de Y dépendent de X. Ici on ne va s'intéresser qu’à la variation de la moyenne mY/X. La fonction de régression de Y en X est la fonction f décrivant la variation de la moyenne conditionnelle de Y par rapport à X : f(x) = E(Y/X) Exemple : Poids de naissance en fonction du terme de la grossesse, Baisse de la tension artérielle en fonction de la dose d’anti-hypertenseur... Tableau des valeurs : Terme Poids moyen Ecart type estimé 27 1146 437,46 28 1292 371,02 29 1694 617,39 ....

Représentation des données Exemple Poids de naissance / Terme Pour chaque valeur du terme on a la moyenne et l’écart type du poids de naissance. On trace le nuage de points. On envisage des fonctions simples entre lesquelles on essaie de choisir : droite, exponentielle, parabole. En pratique, par transformation de variable, on se ramène à une droite : E(Y/x) = f(x) = a + bx Si l’on se ramène aux valeurs individuelles on a : y = a + by + e ou e est l’écart entre la valeur individuelle y de chaque sujet et la moyenne de y pour une valeur e x donnée.

Régression linéaire Droite de régression Estimation par le méthode des moindres carrés : Chaque sujet de la population est représenté par un couple de valeur (x,y) sur le graphique. La droite de régression est parmi toutes les droites possible celle qui résume le mieux le nuage de points. Le critère retenu pour mesurer la distance d’un point à la droite est la distance verticale entre le point xiyi et la droite. La distance de la droite à l’ensemble des points est par définition la somme des carrés des distances. La droite de régression est celle qui minimise cette distance.

Estimation des paramètres de la droite Régression linéaire Estimation des paramètres de la droite Données nécessaires Y = a + bX N = Nombre de couple Tx = Xi Ty = Yi Txy = XiYi Ux = Xi i=1 N 2 b = Txy - Tx*Ty N Ux - Tx 2 a = b * Ty Tx N

Test de la pente de la droite de régression Régression linéaire Test de la pente de la droite de régression Hypothèses Hypothèse nulle : b = 0 : il n’y a pas d'association entre X et Y Hypothèse alternative : b différent de 0 (test bilatéral) Conditions : La régression doit être linéaire Pour X fixé, les valeurs de Y doivent être indépendantes de distribution normale et de variance constante Écart type de la pente : sy ^ 2 2 b sx ^ sb 2 ^ = N - 2

Test de la pente de la droite de régression Régression linéaire Test de la pente de la droite de régression Statistique : t de Student b DDL = N-2 t = sb ^ - Décision : Si t est supérieur à t alpha on rejette H0. Il existe une relation entre les variation de X et de Y : Pour chaque valeur de X, Y augment en moyenne de b. Sinon, la pente peut être considérée comme nulle : les valeurs de Y sont indépendantes de X - Prédiction : S’il pente est différente de 0, on peut prédire la valeur de Y à partir de celle de X. On ne doit pas extrapoler en dehors des valeurs de X que l’on a observé. On peut calculer un intervalle de confiance pour les valeurs prédites