Régression -corrélation

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
STATISTIQUE INFERENTIELLE L ’ESTIMATION
La régression logistique: fondements et conditions d’application
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Régression ou corrélation
Tests de comparaison de pourcentages
Comparaison de plusieurs moyennes Analyse de variance
Les TESTS STATISTIQUES
Corrélations et ajustements linéaires.
Comparaison de plusieurs moyennes Analyse de variance
Laboratoire Inter-universitaire de Psychologie
Tests de comparaison de moyennes
La Régression Multiple
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Régression linéaire (STT-2400)
Géométrie analytique Équations d’une droite
La régression multiple
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
Méthodes de Biostatistique
Théorème de la limite centrale l’inférence statistique
Lien entre deux variables
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
Chapitre 12 Régression linéaire simple et corrélation linéaire
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Rappels Variables nominales :
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
Stat-infoCM6a : 1 Rappels.
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
1 1 Licence Stat-info CM6 a 2004 V1Christophe Genolini Rappels 1.Variables nominales : –Oui / Non –Bleu / Brun / Roux / Noir Pour déterminer s’il y a un.
Le modèle de régression linéaire Claude Marois © 2010.
Statistiques à 2 variables
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Corrélation et causalité
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Régression -corrélation FRT C3

Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : Hypothèse nulle H0 : indépendance Hypothèse alternative H1: relation Fonction de la loi de distribution des variables : 2 variables qualitatives : H0 : p1=p2 ; H1 : p1p2 test du ² ou test  de comparaison de 2 % 2 variables qualitatives : H0 : p1 = p2; H1 : p1  p2 1 var qualitative, 1 var quantitative (loi N) H0 : 1 = 2 ; H1 : 1  2 test  de comparaison de moyennes

Rappel sur les tests statistiques (2) Chaque sujet de la population étudiée est défini par une valeur de chacune des 2 variables 2 var qualitatives : Traitement A ou B et réponse succès ou échec 1 var qualit et 1 var quantit : somnifère A ou B et durée de sommeil en heures S’il s’agit de 2 variables quantitatives mesurées chez chaque sujet : la relation recherchée entre les 2 variables est celle d’une régression : Dose d’interferon et réduction de la charge virale Taille de la tumeur et survie après traitement

Régression – corrélation Principe On étudie un échantillon de n sujets chez lesquels 2 variables x et y sont mesurées  n couples de valeurs (x,y) nuage de points d’abscisse xi et ordonnée yi en supposant la relation linéaire, déterminer la droite qui décrit « au mieux » la relation entre x et y il s’agit de la droite de régression observée, définie par sa pente et son ordonnée à l’origine E(y/x) =  + x y = a + bx

                                  5.5 5 4.5 4 3.5 3 2.5 2 1.5       Taille des adypocytes ()     3.5 4 4.5 5 5.5 6 6.5 Glycémie (mmol/l) Ici : y = variable aléatoire x = variable dépendante, prédictive,explicative Il s’agit de la droite de régression de y sur x

Droite de régression de y sur x E(y/x) =  + x x sert à prédire y E(y/x) = espérance de y pour un x donné  = ordonnée à l’origine c-à-d : y pour x = 0  = paramètre mesurant la pente de la droite de régression Estimation de la droite de régression y = a + bx Par la méthode des moindres carrés : minimise la somme des carrés des points à la droite

                      La droite minimise : (yi – y’i)² =  [yi – (a + b xi)]² i i             5.5 5 4.5 4 3.5 3 2.5 2 1.5       Taille des adypocytes () Y’i     yi 3.5 4 4.5 5 5.5 6 6.5 Glycémie (mmol/l)

Caractéristiques de la droite observée Do passe par le centre de gravité G (mx, my) b est la pente de la droite (po)  (x – mx) (y – my) estimation de la cov(x,y)  (x – mx)² estimation de la var(x) a, valeur de y pour x = 0 a pour valeur : y = my – b mx Que signifie Do pour la relation entre x et y ? H0 : indépendance entre x et y  x, y a en moyenne la même valeur la pente  est nulle (covariance nulle) H1 : relation entre x et y la pente  s’écarte de 0 b =

Coefficient de régression linéaire r La pente b (po) dépend des unités de x et de y pour dire si b s’éloigne ou non de zéro, on considère la pente en « unités réduites » : r = po / (sy/sx) = po x (sx / sy) r = (x – mx) (y – my) estimation de la cov(x,y)   (x – mx)². (y – my)²  var x . var y la valeur de r fluctue toujours entre -1 et +1 le signe du numérateur donne le sens de la relation : + : y augmente quand x augmente - : y diminue quand x augmente

Sous H0,  fluctue autour de 0  - la droite Do donnant my en fonction de x fluctue autour de l’horizontale - le coefficient r qui exprime la pente po en coordonnées réduites fluctue autour de 0 La loi de probabilité précisant ces fluctuations est résumée par la table du coefficient de régression r qui donne pour (n-2) ddl l’intervalle de fluctuation (-r,+r) pour un risque  donné Si r sort de l’intervalle, on rejette H0 On peut aussi utiliser la table t après avoir calculé : r n-2 (1 – r2) t =

Conditions d’application du test Distribution de y normale pou un x donné = distribution liée De variance constante x N (1,2y/x1) N (1,2y/x2) N (1,2y/x3) y 3 2 1 x1 x2 x3 x Le test est robuste, valide si « n est grand »

Limites de la régression linéaire Les variables x et y peuvent être liées par une relation non linéaire. La recherche d’une relation par la droite des moindres carrés et le coefficient r ne permettra pas de rejeter H0 y .. .. … . . . . .. . .. . … . . … .. . . .. . .. .. . . .. .. .. … . .. .. .. . .. . .. . . .. . .. .. . .. . . . … …. . .. . .. .. .. . . . . . . .. … .. .. .. .. … .. .. . y … . .. .. .. .. … . .. … .. … …. ….; .. . …… .. .. …. …… … … .. .. x x b 0 mais dispersion des points (Var ++)  r < valeur seuil, non rejet H0 r = 0 on retient H0 Pourtant  <une relation entre x et y

Régression – corrélation (1) Étudie la dépendance de y par rapport à x La distribution de x peut être contrôlée : Ex : étude d’une activité enzymatique y pour des doses croissantes d’une substance x À partir de la droite, on peut prédire y pour les doses de x comprises dans l’intervalle testé La régression x/y n’a pas de sens

Prédiction de y pour des valeurs de x dans [0 – 4] Y 40 30 20 10 0 0,5 1 2 3 4 x

Régression – corrélation (2) Étudie l’interdépendance de x et de y X et Y sont aléatoires par nature et par distribution Chacune des droites y/x et x/y permet de prédire la valeur la plus probable d’une variable pour une valeur donnée de l’autre Le coefficient r = coefficient de corrélation de x et y . Est le même pour les 2 droites permet de tester l’indépendance de mesurer l’intensité de la liaison

b  b’ même coefficient r y x = a’ + b’y y = a + bx x

Force de l’association entre X et Y 2 notions complémentaires r s’éloigne significativement de 0, rejet H0 Force de l’association représentée par la valeur de r : Entre 0,8 et 1 : force d’association importante Entre 0,5 et 0,8 : force d’association modérée Entre 0,2 et 0,5 : force d’association faible < 0,2 : force d’association très faible Précision de la prédiction