La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Régression -corrélation FRT C3. Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : –Hypothèse nulle H 0 : indépendance –Hypothèse.

Présentations similaires


Présentation au sujet: "Régression -corrélation FRT C3. Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : –Hypothèse nulle H 0 : indépendance –Hypothèse."— Transcription de la présentation:

1 Régression -corrélation FRT C3

2 Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : –Hypothèse nulle H 0 : indépendance –Hypothèse alternative H 1 : relation Fonction de la loi de distribution des variables : –2 variables qualitatives : H 0 : p 1 =p 2 ; H 1 : p 1 p 2 test du ² ou test de comparaison de 2 % –2 variables qualitatives : H 0 : p 1 = p 2 ; H 1 : p 1 p 2 –1 var qualitative, 1 var quantitative (loi N) H 0 : 1 = 2 ; H 1 : 1 2 test de comparaison de moyennes

3 Rappel sur les tests statistiques (2) Chaque sujet de la population étudiée est défini par une valeur de chacune des 2 variables –2 var qualitatives : Traitement A ou B et réponse succès ou échec –1 var qualit et 1 var quantit : somnifère A ou B et durée de sommeil en heures Sil sagit de 2 variables quantitatives mesurées chez chaque sujet : la relation recherchée entre les 2 variables est celle dune régression : –Dose dinterferon et réduction de la charge virale –Taille de la tumeur et survie après traitement

4 Régression – corrélation Principe On étudie un échantillon de n sujets chez lesquels 2 variables x et y sont mesurées n couples de valeurs (x,y) nuage de points dabscisse x i et ordonnée y i en supposant la relation linéaire, déterminer la droite qui décrit « au mieux » la relation entre x et y il sagit de la droite de régression observée, définie par sa pente et son ordonnée à lorigine E(y/x) = + xy = a + bx

5 Glycémie (mmol/l) Taille des adypocytes ( ) Ici : y = variable aléatoire x = variable dépendante, prédictive,explicative Il sagit de la droite de régression de y sur x

6 Droite de régression de y sur x E(y/x) = + x –x sert à prédire y –E(y/x) = espérance de y pour un x donné – = ordonnée à lorigine c-à-d : y pour x = 0 – = paramètre mesurant la pente de la droite de régression Estimation de la droite de régression –y = a + bx –Par la méthode des moindres carrés : minimise la somme des carrés des points à la droite

7 Glycémie (mmol/l) Taille des adypocytes ( ) yiyi YiYi La droite minimise : (y i – y i )² = [y i – (a + b x i )]² i i

8 Caractéristiques de la droite observée D o passe par le centre de gravité G (m x, m y ) b est la pente de la droite (p o ) (x – m x ) (y – m y )estimation de la cov(x,y) (x – m x )²estimation de la var(x) a, valeur de y pour x = 0 a pour valeur : y = m y – b m x Que signifie D o pour la relation entre x et y ? H 0 : indépendance entre x et y x, y a en moyenne la même valeur la pente est nulle (covariance nulle) H 1 : relation entre x et y la pente sécarte de 0 b =

9 Coefficient de régression linéaire r La pente b (po) dépend des unités de x et de y pour dire si b séloigne ou non de zéro, on considère la pente en « unités réduites » : r = p o / (sy/sx) = p o x (sx / sy) r = (x – mx) (y – my) estimation de la cov(x,y) (x – mx)². (y – my)² var x. var y la valeur de r fluctue toujours entre -1 et +1 le signe du numérateur donne le sens de la relation : + : y augmente quand x augmente - : y diminue quand x augmente

10 Sous H 0, fluctue autour de 0 - la droite D o donnant m y en fonction de x fluctue autour de lhorizontale - le coefficient r qui exprime la pente p o en coordonnées réduites fluctue autour de 0 La loi de probabilité précisant ces fluctuations est résumée par la table du coefficient de régression r qui donne pour (n-2) ddl lintervalle de fluctuation (-r,+r) pour un risque donné Si r sort de lintervalle, on rejette H 0 On peut aussi utiliser la table t après avoir calculé : r n-2 (1 – r 2 ) t =

11 Conditions dapplication du test Distribution de y normale pou un x donné = distribution liée De variance constante x y x1x2x3xx1x2x3x N ( 1, 2 y/x 1 ) N ( 1, 2 y/x 2 ) N ( 1, 2 y/x 3 ) Le test est robuste, valide si « n est grand »

12 Limites de la régression linéaire Les variables x et y peuvent être liées par une relation non linéaire. La recherche dune relation par la droite des moindres carrés et le coefficient r ne permettra pas de rejeter H 0 y y x x r = 0 on retient H 0 Pourtant

13 Régression – corrélation (1) 1.Régression –Étudie la dépendance de y par rapport à x –La distribution de x peut être contrôlée : Ex : étude dune activité enzymatique y pour des doses croissantes dune substance x À partir de la droite, on peut prédire y pour les doses de x comprises dans lintervalle testé La régression x/y na pas de sens

14 Y , x Prédiction de y pour des valeurs de x dans [0 – 4]

15 Régression – corrélation (2) 2. Corrélation –Étudie linterdépendance de x et de y –X et Y sont aléatoires par nature et par distribution –Chacune des droites y/x et x/y permet de prédire la valeur la plus probable dune variable pour une valeur donnée de lautre –Le coefficient r = coefficient de corrélation de x et y. Est le même pour les 2 droites – permet de tester lindépendance de mesurer lintensité de la liaison

16 x y y = a + bx x = a + by b bmême coefficient r

17 Force de lassociation entre X et Y 2 notions complémentaires –r séloigne significativement de 0, rejet H 0 –Force de lassociation représentée par la valeur de r : Entre 0,8 et 1 : force dassociation importante Entre 0,5 et 0,8 : force dassociation modérée Entre 0,2 et 0,5 : force dassociation faible < 0,2 : force dassociation très faible –Précision de la prédiction


Télécharger ppt "Régression -corrélation FRT C3. Rappel sur les tests statistiques (1) Recherche une relation entre 2 variables : –Hypothèse nulle H 0 : indépendance –Hypothèse."

Présentations similaires


Annonces Google