La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants.

Présentations similaires


Présentation au sujet: "La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants."— Transcription de la présentation:

1 La corrélation et la régression multiple

2 Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Il y a deux façons de « voir » ces données: Il y a deux façons de « voir » ces données: 1- De façon habituelle (par rapport aux variables)

3 Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants. Il y a deux façons de « voir » ces données: Il y a deux façons de « voir » ces données: 2- De façon vectorielle (par rapport aux sujets)

4 Idée de la régression simple Vecteurs Vecteurs Un vecteur est déterminé par sa longueur et son orientation Un vecteur est déterminé par sa longueur et son orientation

5 Idée de la régression simple Vecteurs Vecteurs La longueur dun vecteur La longueur dun vecteur 6 1 La longueur (norme) dun vecteur est notée: Autrement dit, la norme équivaut à calculer lécart-type

6 Idée de la régression simple Vecteurs Vecteurs Standardiser les données Standardiser les données On ramène la longueur du vecteur à 1

7 Idée de la régression simple Vecteurs Vecteurs Relation entre 2 vecteurs Relation entre 2 vecteurs Si on a les mêmes valeurs dans chacune des deux variables, alors les deux vecteur seront superposés. À mesure que les données diffèrent pour chacune des variables, langle entre les deux vecteurs augmentera.

8 Idée de la régression simple Vecteurs Vecteurs Relation entre 2 vecteurs Relation entre 2 vecteurs Donc, plus langle augmente, plus la partie commune diminue. Si langle est de 90º, alors il ny a plus de partie commune.

9 Idée de la régression simple Vecteurs Vecteurs Relation entre 2 vecteurs Relation entre 2 vecteurs Or, le cosinus de cet angle est le coefficient de corrélation. Si langle est nul (ou de 180º) alors le cosinus vaut 1 (ou -1); indiquant une relation parfaite. Et à lautre extrême, si langle est de 90º (ou 270º), alors le cosinus vaut 0; indiquant une absence de relation.

10 Idée de la régression simple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? Lidée est de trouver la projection (lombre) de v sur u la plus courte

11 Idée de la régression simple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? Lidée est de trouver la projection (lombre) de v sur u la plus courte Démo au tableau (Vraie uniquement dans le cas 2D)

12 Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous sommes en présence de plusieurs prédicteurs Nous sommes en présence de plusieurs prédicteurs Exemple avec 2 prédicteurs Exemple avec 2 prédicteurs

13 Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Puisque dans notre cas nous avons 2 prédicteurs, il est possible de représenter la relation dans un nuage de points en 3 dimensions Puisque dans notre cas nous avons 2 prédicteurs, il est possible de représenter la relation dans un nuage de points en 3 dimensions

14 Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous pouvons illustrer aussi les différentes relations par une matrice de diagrammes de dispersion bivariée. Nous pouvons illustrer aussi les différentes relations par une matrice de diagrammes de dispersion bivariée. x1x1 x1x1 x2x2 y x2x2 y

15 Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes Nous pouvons également calculer les corrélations bivariées. Nous pouvons également calculer les corrélations bivariées.

16 Mesure de la relation entre une variable dépendante et plusieurs variables indépendantes De la droite de régression vers l'hyperplan de régression De la droite de régression vers l'hyperplan de régression

17 Idée de la régression simple Illustration graphique Illustration graphique Il nest pas possible dillustrer graphiquement les vecteurs en 5 dimensions. Toutefois, les calculs sont sensiblement les mêmes.

18 Idée de la régression multiple Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? Formule universelle, quelque soit le nombre de prédicteurs (et de variables prédites)

19 Les coefficients de régression standardisés Permet de mesurer « limportance » des prédicteurs, puisque ceux-ci ont tous une variabilité de 1 et une moyenne de 0. Donc, une augmentation dune unité au niveau de z 1, augmentera de 0.74 écart- types au niveau de y Z. ^

20 Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R 2 ). Ce R 2 sinterprète de façon similaire quen régression simple, soit le pourcentage de variance expliquée par lensemble des prédicteurs. Matrice des sommes des carrés et produits croisés (SSCP) (Sum of square and cross product)

21 Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R 2 ). Ce R 2 sinterprète de façon similaire quen régression simple, soit le pourcentage de variance expliquée par lensemble des prédicteurs. En divisant la matrice SSCP par le nombre de degrés de liberté on obtient une matrice de variance - covariance De plus, la matrice SSCP peut se partitionner en fonction des variables prédicteurs et de la variable prédite (critérium) Scp Spp Spc Scc

22 Le coefficients de détermination Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R 2 ). Ce R 2 sinterprète de façon similaire quen régression simple, soit le pourcentage de variance expliqué par lensemble des prédicteurs. Le R 2 est le résultat du produit matriciel suivant: Le R 2 adj est une estimation non biaisé de la variabilité dans la population

23 Test dhypothèse Lhypothèse émise est que le coefficient de détermination entre les prédicteurs et le critérium y est nulle dans la population. Autrement dit, on cherche à savoir quels sont les x et y linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et quil existe une relation linéaire entre les deux. Comme le F obs >F crit ( >19.00), on rejette H 0 et on accepte H 1. Les 2 populations sont dépendantes.

24 Test dhypothèse/ANOVA Lhypothèse émise est que le coefficient de détermination entre les prédicteurs et le critérium y est nulle dans la population. Comme F(2,2)= , p.<0.05, on rejette H 0 et on accepte H 1. Les 2 populations sont dépendantes.

25 Corrélations partielles et semi partielles Lidée est de mettre en évidence leffet dun prédicteur sur notre variable prédite en contrôlant les effets des autres prédicteurs. Coefficient de détermination semi partielle Cest la variance globale (R 2 ) moins la variance globale en excluant le prédicteur à létude de la banque de données. La portion de variance qui est unique au prédicteur Coefficient de détermination partielle Cest la proportion de variance associée avec un prédicteur mais pas avec les autres. Autrement dit, cest la quantité de variance non estimée par les autres prédicteurs mais qui lest par le prédicteur à létude.

26 Corrélations partielles et semi partielles a b c e Y x1x1 x2x2

27 Exemple 39 % de la variance de y est expliquée uniquement par le premier prédicteur. 9% de la variance de y est expliquée uniquement par le deuxième prédicteur. 90% de la variance de y non expliquée par le deuxième prédicteur, lest par le premier. 67% de la varaince de y non expliquée par le premier prédicteur, lest par le deuxième. x1x1 x2x2

28 Corrélations partielles et semi partielles Test de signification x1x1 x2x2 Comme les différents paramètres (pr i, b i, B i ) dépendent tous de la proportion de variance expliquée par le coefficient de corrélation semi partielle, si ce dernier est significatif, alors tous les autres paramètres le seront aussi.

29 Les erreurs types associées aux paramètres de la régression Erreur type associée aux coefficients de régression Erreur type associée aux coefficients de régression standardisée

30 Les intervalles de confiance associées aux paramètres de la régression Intervalle de confiance associé aux coefficients de régression Intervalle de confiance associé aux coefficients de régression standardisée

31 Diagnostique et remède - Diagrammes de dispersion - Diagrammes des résiduels - Diagramme de normalité - Multicolinéarité - Scores extrêmes

32 Diagrammes de dispersion Exemple tiré de Howell Les diagrammes de dispersion peuvent aider à voir la nature et la force des relations bivariées. On peut également voir sil y a des scores extrêmes et des « trous ».

33 Diagrammes des résiduels Pour évaluer si une relation nonlineaire est présente et si la variance de lerreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs.

34 Diagrammes des résiduels Pour évaluer si une relation nonlineaire est présente et si la variance de lerreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs et en fonction de la variable prédite Il peut être plus facile à voir lhomoscédasticité si le graphique est construit en par rapport à la valeur absolue des résiduels

35 Diagramme de normalité Pour évaluer si la distribution des erreurs est normale, on fait un graphique des probabilités normales r = 0.99

36 Multicolinéarité Dans un monde idéal, chaque prédicteur serait corrélé avec la variable dépendante et ils ne seraient pas corrélés entre eux. Toutefois, cela narrive jamais et les prédicteurs sont dans les faits corrélés entre eux. Si la corrélation est élevé alors on dira quil y a un problème de multicolinéarité. Sil y a multicolinéarité, alors cela indique quune (ou plusieurs) variable(s) est (sont) redondante(s).

37 Multicolinéarité Exemple: Première solution

38 Multicolinéarité Exemple: Deuxième solution

39 Multicolinéarité Exemple: Illustration des deux solutions Par conséquent, aucun interprétation est possible.

40 Multicolinéarité Tolérance: Permet de mesurer lindépendance dun prédicteur donné par rapport aux autres prédicteurs. La tolérance doit être le plus grand possible (>0.1). Variance Influence Factor (VIF): Permet de mesurer linflation de la variance dun coefficient de régression i du au fait de la corrélation du prédicteur i avec les autres prédicteurs. Le VIF est la réciproque de la tolérance. Comme nous désirons des coefficients stables, le VIF doit être le plus petit possible (<10). Des valeurs élevé de VIF indiques en général des différences élevées entre les estimés et les vrais coefficients de régression.

41 Multicolinéarité Exemple

42 Scores extrêmes Hat matrix: Identification dun score extrême chez la variable dépendante: Studentized Deleted Residual Valeurs prédites: Résiduels: SDR:

43 Scores extrêmes Identification dun score extrême chez la variable dépendante: Studentized Deleted Residual Lidée est de mesurer la différence entre le résiduel observé et le résiduel obtenu lorsque la ième variable est enlevée. Cette différence est alors normalisée pour donner le score t i.

44 Scores extrêmes Identification dun score extrême chez la variable dépendante: Studentized Deleted Residual Les données se distribuent selon une distribution de Student (t). Il suffit de faire une correction de Bonferronni pour identifier les scores extrêmes. Exemple

45 Scores extrêmes Leverage: Identification dun score extrême chez les prédicteurs: Hat matrix leverage value Le score indique la distance entre la valeur dune observation et la valeur de la moyenne de toutes les observations. Note: dans SPSS le leverage est données par h ii -1/n.

46 Scores extrêmes Identification dun score extrême chez les prédicteurs: Hat matrix leverage value Un score sera considéré comme extrême si - h ii >2(p+1)/n - h ii >0.5(note: 0.2< h ii <0.5 = effet moyen) Exemple: le critère = 2(p+1)/n = 0.24 Les scores 3 et 45 sont possiblement Problématiques.

47 Scores extrêmes Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: DFFITS Permet de mesurer linfluence de lobservation i sur la valeur prédite de cette observation. Cest en fait un studentized deleted residual pondéré par le leverage de lobservation

48 Scores extrêmes Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: DFFITS Un score sera considéré comme extrême si - DFFITS i > 2 ((p+1)/n) Pour de grand échantillons - DFFITS i > 1Pour de petit et moyen échantillon

49 Scores extrêmes Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: Distance de Cook Permet de mesurer linfluence de la ième observation sur lensemble des n valeurs prédites. Il a noter que D i dépend de la valeur du résiduel et du leverage.

50 Scores extrêmes Une fois que les scores extrêmes sont identifiés, il faut vérifier leur influence: Distance de Cook Les données se distribuent selon un F(p+1, n-p-1). Si le percentile est inférieur à ~10-20%, lobservation na pas beaucoup dinfluence sur la valeur prédite. Si le percentile est ~50% ou +, lobservation a un bon effet sur la valeur prédite. F(p+1, n-p-1) => F(5+1, ) = >F(6, 44) = 0.33, p = 0.085


Télécharger ppt "La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants."

Présentations similaires


Annonces Google