La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modèle linéaire. Analyse numérique dune matrice de corrélation. Transitivité et Colinéarité. Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et.

Présentations similaires


Présentation au sujet: "Modèle linéaire. Analyse numérique dune matrice de corrélation. Transitivité et Colinéarité. Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et."— Transcription de la présentation:

1 Modèle linéaire. Analyse numérique dune matrice de corrélation. Transitivité et Colinéarité. Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP FUTUROSCOPE CHASSENEUIL CEDEX.

2 1. introduction au modèle linéaire.

3 1.1 un exemple étude des liaisons entre le revenu, lâge, la CSP, le niveau de diplôme, lorientation politique, le sexe … au sein dune population délecteurs. Grand nombre de tableaux croisés : impuissance des tests classiques du 2 et de Fisher modélisation : expression mathématique des liaisons.

4 1.2 modèle linéaire. Y : revenu X 1 : âge X 2 : CSP X 3 : diplôme X 4 : orientation politique : variable dajustement Y = X X X X 4 + hypothèses rigides (linéarité, indépendance des observations, normalité et homoscédasticité de la variable dajustement ).

5 1.3 interprétation du modèle toutes choses égales par ailleurs. recherche dun effet propre de X j sur Y : j 0. lâge X 1 augmente dun an : le revenu moyen Y augmente toujours de 1, quelle que soient la CSP, le diplôme, lorientation politique. démarche implicite : on suppose a priori lexistence dun effet propre et on le contrôle.

6 1.4 analyse en quatre points : Analyse numérique de la matrice des corrélations : transitivité, corrélation partielle. Colinéarité : instabilité des estimations Evaluation de la régression bornée. Régression orthogonale. Sélection des composantes principales.

7 2. Analyse numérique dune matrice de corrélation

8 2.1 Modèle linéaire. Y = X 1 + … + j X j p X p + E(X j ) = 0, V(X j ) = 1 j = coefficients de régression théoriques : variable résiduelle : E( ) = 0, V( ) = 2 X : matrice des observations des X j (en colonnes) Y : matrice des observations de Y (en colonne) R : matrice symétrique p x p des corrélations entre les variables X j

9 2.2 Estimateur MCO B : estimateur sans biais de variance minimale (efficace) défini par (B 1, B 2,..., B p ) t. B j : estimateur du coefficient j Les propriétés des estimateurs dépendent de R -1

10 2.3. Factorisation de Cholesky. Le calcul de R -1 consiste à factoriser R puis à inverser T. Factorisation de Cholesky T matrice triangulaire supérieure La matrice R étant symétrique définie positive est inversible : la matrice T existe et est inversible. L R = T T t

11 2.4 Calcul de la matrice T i = 1,..., pt i,1 = r 1,i / [r 1,1 ] ½ (1) i-1 i = 2,..., pt i,i = [r i,i - t i,k 2 ] 1/2 (2) k=1 i-1 r i,j - t i,k t j,k k = 1 i=2,...,p-1 j=i+1,...pt j,i = ___________________ (3) t i,i

12 -1 a p,p–1 < r p,p–1 < b p,p Encadrement dun terme a p,p–1 = – t p–1,p–1 [1 – t p,k 2 ] 1/2 + t p–1,k t p,k b p,p–1 = t p–1,p–1 [1 – t p,k 2 ] 1/2 + t p–1,k t p,k généralisation par permutation k = 1 p-2 a i,j < r i,j < b i,j

13 c p,p = t p,k 2 r p,p > c p,p r j,j > c j,j c j,j = R j 2 k = terme diagonal p-1 R j 2 : coefficient de détermination obtenu dans la régression de X j par les autres variables explicatives

14 2.6 Exemple numérique X 1 X 2 X 3 X 4 X 1 1 X X X r 1,2 ] , [ r 4,4 ].98, + [R 4 2 = 0.98

15 3. Relations entre les corrélations

16 3.1 Transitivité de la corrélation. XYZ X1 R = Y0.81 Zr 3,1 r 3,2 1 Forte corrélation entre X et Y : r 1,2 = 0.8 Une forte corrélation entre Y et Z (r 3,2 = 0.8) implique-t-elle une forte corrélation entre X et Z (r 3,1 élevé) ?

17 XYZ X1 R = Y0.81 Zr 3,1 r 3,2 1 r 3,2 =-0.2r 3,1 ]-0.75, 0.43[ r 3,2 = 0.6r 3,1 ] 0, 0.96 [ r 3,2 = 0.746r 3,1 ] 0.196, 1[ (>>0 pour n=100) r 3,2 = 0.919r 3,1 ] 0.499, 1[ 3.2 Evaluation de la transitivité

18 3.3 Représentation graphique ensemble des couples (r 3,2, r 3,1 ) tels que la matrice soit définie positive (r 1,2 = 0.8)

19 3.4 Généralisation cas dune matrice p x p : relation entre r 1,2 et r 3,4 : quelle est la conséquence de la liaison entre la CSP et le diplôme (r 1,2 ) sur la liaison entre lâge et le revenu (r 3,4 ) ? X 1 X 2 X 3 X 4 X 1 1 X X X

20 3.5 Représentation graphique

21 3.6 Représentation graphique

22 3.7 Positionnement du coefficient de corrélation Evaluation de la position de r i,j dans son intervalle ] a, b [ à laide dun indice variant de –1 à (r i,j – (a+b)/2) / [ (b – a)/2 ] 1

23 3.8 corrélation partielle relation entre r k,l et rp i,j : r k,l tend vers a (ou b) implique que rp i,j tend vers 1 en v.a. (sous conditions) On obtient le coefficient de corrélation partielle : r i,j = (a + b)/2 si et seulement si rp i,j = 0 rp i,j fonction linéaire croissante de r i,j r i,j tend vers a ou b si et seulement rp i,j tend vers 1 en v.a. rp i,j = (r i,j – (a+b)/2) / [ (b – a)/2 ]

24 4. Colinéarités statistiques.

25 4.1 Application du modèle Domaine dapplication D = ensemble des valeurs vraisemblables des variables explicatives. forte liaison entre la CSP et le diplôme : un employé a rarement un diplôme BAC+5. Le modèle ne permet pas destimer le revenu dun employé titulaire dun BAC+5. Plus les variables explicatives sont nombreuses : plus le risque de colinéarité est élevé. moins la colinéarité est visible. plus le domaine dapplication est restreint.

26 4.2 Colinéarités statistiques entre deux variables : leur coefficient de corrélation linéaire est proche de 1 en valeur absolue. entre plusieurs variables : il existe une combinaison linéaire de ces variables de variance faible (doù lACP).

27 4.3 Conséquences numériques Les termes de la matrice R -1 sont élevés, en particulier les termes diagonaux. Termes diagonaux de V B : variances des estimateurs B j

28 4.4 Effets de la colinéarité statistique Variances des estimateurs MCO des j élevées : doù valeurs des coefficients estimés parfois élevées. Coefficients de corrélation entre les B j proches de 1 : compensation entre les estimations Conséquence : coefficients estimés parfois opposés aux coefficients théoriques Coefficient de détermination instable.

29 4.5 modèle simulé. Y = 0.5 X X 2 – 0.5 X 3 – 0.5 X 4 + n = 100R 2 = 1 X 1 X 2 X 3 X 4 X 1 1 X X X

30 4.6 Interprétation du modèle : Le modèle théorique correspond aux propriétés suivantes : lâge et la CSP ont un effet propre positif sur le revenu ( 1 = 2 = 0.5 ) le diplôme et lorientation politique un effet propre négatif sur le revenu ( 3 = 4 = ).

31 4.7 Estimations suivant les MCO (premier échantillon, n = 100) Estimation écart-type t vraie valeur b b b b b R 2 = 0.49

32 4.8 Estimations suivant les MCO (deuxième échantillon, n = 100) Estimationécart-type t vraie valeur b b b b b R 2 = 0.50

33 4.9 Coefficient de détermination Troisième exemple X 1 X 2 X 3 Y X 1 1 X X Y R 2 = (r 1,2 = 0.600) R 2 = (r 1,2 = 0.599)

34 4.10 Variation du coefficient de détermination R 4 2 en fonction de r 1,2

35 5. Détection de la colinéarité. X 1 X 2 X 3 X 4 X 1 1 X X X

36 5.1 Facteurs dinflation Facteurs dinflation : Indice de multicolinéarité (Tomassonne) : En labsence totale de colinéarité, les facteurs dinflation et lindice I sont égaux à 1 f j = 1 / (1 – R j 2 ) (termes diagonaux de la matrice R -1 ) I = (1/p) f j (moyenne des facteurs dinflation)

37 5.2 Valeurs propres On note 1, 2, …, p les valeurs propres de R classées suivant les valeurs décroissantes. Lindice de conditionnement (Belsley et al.): = 1/ p (ou 1 / p ) Lindice de multicolinéarité : I = (1/p) 1/ j Faibles valeurs propres : colinéarité statistique

38 5.3 Application au modèle simulé b 1 f 1 =62 b 2 f 2 =26 b 3 f 3 =14 b 4 f 4 =50 Facteurs dinflation : I = 38 = = = =0.5 4 = Valeurs propres Indice de conditionnement Indice de multicolinéarité

39 6. Application de la régression bornée.

40 6.1 Estimateur biaisé dun paramètre E[(X – ) 2 ] = V(X) + [E(X) – ] 2 E[(X – ) 2 ] = V(X) > E[(X – ) 2 ]

41 6.2 Estimateur de la régression bornée (Pour k = 0, on retrouve lestimateur des MCO) critère des MC sous la contrainte B 2 M

42 6.3 Application. On fait varier k de 0 à 1. on estime les coefficients de régression par lestimateur de la régression bornée. On construit la représentation graphique des b j en fonction de k appelée ridge trace. On choisit k de façon que leurs valeurs soient stabilisées.

43 6.4 Premier exemple

44 6.5 estimations (k = 0.1)

45 6.6 Deuxième exemple

46 6.7 estimations (k = 0.02).

47 6.8 Distances entre vecteur observé et vecteur réel d, B = b j – j (erreur quadratique ) 50 échantillons de taille 100 : 50 distances 1) par la régression des MCO k = 0 2) par la régression bornéek = ) par la régression bornéek = 0.05

48 6.9 Résultats numériques Carrés des distances entre vecteurs estimés et vecteur vrai (50 vecteurs estimés)

49 6.10 Les 20% plus mauvais résultats par les MCO

50 6.11 fonction de répartition des carrés des distances (MCO)

51 6.12 Variation de la moyenne des ||B - || 2

52 6.13 Optimisation Meilleure Moyenne des Variance valeur de k : carrés des distances k = Forte stabilité de lerreur quadratique pour 0.05 < k < 0.1

53 6.14 Critique de la régression bornée amélioration considérable des estimations mise en oeuvre nécessitant une démarche critique danalyse des coefficients de régression. résultats discutables dans le cas de coefficients de régression théoriques élevés en valeur absolue. Doù la nécessité de les évaluer a priori.

54 6.15 Développements Régression bornée partielle : on calcule les dérivées des coefficients de régression par rapport à chaque terme diagonal de R, et on on ajoute une constante à ceux dont la dérivée est la plus grande en v.a. Détection de valeurs influentes : les valeurs observées influentes sont celles par rapport auxquelles les dérivées des coefficients de régression sont les plus grandes en v.a.

55 7. régression orthogonale

56 7.1 Méthode ACP du tableau de données X : U : tableau des vecteurs principaux, vecteurs propres unitaires de R. C : tableau des composantes principales C l (n lignes et q colonnes) On considère les composantes principales comme variables explicatives. C = X U

57 7.2 Modélisation et estimateurs estimateur B des coefficients de régression des variables initiales : Y = C 1 + … + l C l p C p + B = 1/n D 1/ C t Y B = U B V B = U V B U t l = cov (Y, C l ) / l

58 7.3 Choix des composantes principales Algorithme descendant On sélectionne la composante principale C l en fonction de son coefficient de régression b l avec la variable expliquée Y. b l > b 0 : on sélectionne la composante principale. b l < b 0 :on écarte la composante principale. Le test sur le coefficient de corrélation partielle rp l est équivalent : on fixe alors une valeur limite rp 0.

59 7.4 Premier type derreur Y = C 1 + … + l C l p C p + (théo.) erreur possible : introduire C l avec l nul : la moyenne des carrés des erreurs est égale à : b l 2 l (erreur de type I) Y = b 0 + b 1 C 1 + … + b l C l b p C p + e (obs.)

60 7.5 Second type derreur erreur possible : éliminer C l avec l non nul (erreur de type II) La moyenne des carrés des erreurs est égale à l 2 l Y = b 0 + b 1 C 1 + … + b l C l b p C p + e (obs.) Y = C 1 + … + l C l p C p + (théo.)

61 7.6 évaluation de lerreur de type II: l inconnu : Démarche baysienne Probabilité a priori sur lensemble contenant le coefficient de régression l E( l 2 l ) : mesure de lerreur de type II. En pratique : on étudie le coefficient de corrélation partielle (loi normale tronquée).

62 7.7 Algorithme On calcule la somme des deux erreurs on en déduit celui qui minimise la moyenne des deux erreurs. On choisit la région critique du test en fixant un coefficient de corrélation partielle limite. On recommence le calcul en faisant varier le coefficient de corrélation partielle limite de -1 à 1. On applique cet algorithme aux deux exemples précédents.

63 7.8 Application (1 e simulation). Pour chaque valeur du coefficient de corrélation partiel limite rp entre 0 et 1, on calcule la somme des deux erreurs

64 7.9 Résultats numériques Valeur limite du coefficient de corrélation partielle Valeur du coefficient de corrélation correspondant Valeur limite du F vraisemblance P(F>f)=

65 7.10 Exemple 1 : conclusion toutes les composantes principales sont conservées. les coefficients de régresion sont égaux aux coefficients de régression initiaux (MC). la régression bornée et la régression orthogonale donnent des résultats très différents. Doù la nécessité dune réflexion a priori sur les coefficients de régression théoriques.

66 7.11 Application (2 e simulation). Valeur limite 0.149, observée On élimine C 4. On élimine également C 1, et les prédicteurs retenus sont C 2 et C 3 (variance résiduelle estimée minimale).

67 Exemple 2 : conclusion b b b b Régression orthogonale des moindres carrés estimation écart-type La régression orthogonale diminue considé- rablement les écarts-types des estimateurs.

68 7.13 Commentaires sur lalgorithme Eliminer une composante principale de faible variance nest pas toujours une bonne décision. Le choix des composantes principales à éliminer dépend de [r(Y,C l ) 2 / l ]. Risque de 1 e espèce correspondant à la valeur limite largement supérieur à 5%. Conserver une composante principale de variance relativement élevée nest pas toujours une bonne décision.

69 CONCLUSION Le modèle linéaire compense limpuissance des tests classiques en recourant à des hypothèses rigides. Ces hypothèses mathématiques sont vérifiées dans les simulations effectuées, mais jamais dans la réalité. Une réflexion non statistique sur la nature des données est indispensable pour appliquer le modèle linéaire et en interpréter correctement les résultats.

70 BIBLIOGRAPHIE 1.Colinéarité et régression linéaire, Math. & Sci. hum. Mathematics and Social Sciences (43 e année, n° 173, 2005(4), p. 5-25). 2.évaluation de la régression bornée. Revue des Nouvelles Technologies de lInformation, éd. Cépaduès sous presse. 3.Limites de linformatisation des sciences de lhomme et de la société. Contribution à louvrage collectif Les sciences humaines et sociales à lheure des technologies de linformation et de la communication, dir. B. Reber C. Brossaud, publication prévue juin 2007, Hermès, Paris.

71 Compléments

72 Matrices de corrélation X 1 X 2 X 3 X 4 Y X X X X Y Y


Télécharger ppt "Modèle linéaire. Analyse numérique dune matrice de corrélation. Transitivité et Colinéarité. Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et."

Présentations similaires


Annonces Google