Analyse Factorielle Exploratoire

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Vocabulaire 6.2 Français II Bon voyage ! 1.
CALCUL MENTAL Bernard Izard 6° Avon CM I - TABLES x +
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
1. Les caractéristiques de dispersion. 11. Utilité.
Demande globale, élasticités et équilibre de marché
Introduction à la logique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
LA RÉGRESSION MULTIPLE
Analyse Factorielle des Correspondances
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
La méthodologie………………………………………………………….. p3 Les résultats
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
L’Heure Telling Time.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Analyse factorielle.
Présentation générale
Cours de physique générale I Ph 11
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Le Concours de Conaissance Francais I novembre 2012.
Calcul mental Calcul mental Année scolaire Classe de …
Titre : Implémentation des éléments finis sous Matlab
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
Systèmes mécaniques et électriques
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Les Nombres 0 – 100 en français.
CALCUL LITTERAL I LA DISTRIBUTIVITE k ( a + b ) = k a + k b 1° Règle
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Mise en forme en Mathématiques
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Leçons To attend Assister à 2. To fish.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Annexe Résultats provinciaux comparés à la moyenne canadienne
EGALITE PROFESSIONNELLE ENTRE LES FEMMES ET LES HOMMES
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Analyse Factorielle Exploratoire Michel Tenenhaus

1. Les données de Kendall

Tableau des corrélations One of the questions of interest here is how the variables cluster, in the sense that some of the qualities may be correlated or confused in the judge’s mind. (There was no purpose in clustering the candidates - only one was to be chosen).

2. Classification Ascendante Hiérarchique des variables * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Complete Linkage (Méthode des voisins les plus éloignés) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ X6 6 òûòòòòòòòø X12 12 ò÷ ùòø X8 8 òûòø ó ó X11 11 ò÷ ùòòòòò÷ ùòòòòòòòòòòòòòòòòòòòø X5 5 òòò÷ ó ó X10 10 òòòòòûòòòòò÷ ùòòòòòø X13 13 òòòòò÷ ó ó X2 2 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ùòòòòòòòòòòòø X4 4 òòòòòòòòòòòûòòòòòòòòòòòòòø ó ó X14 14 òòòòòòòòòòò÷ ùòòòòòòòòòòò÷ ó X7 7 òòòòòòòòòòòòòòòòòòòòòòòòò÷ ó X9 9 òòòòòòòòòòòûòòòòòòòø ó X15 15 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø ó X1 1 òòòòòòòòòòòòòòòòòòò÷ ùò÷ X3 3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Interprétation des blocs Bloc 1 : Qualités humaines favorables au poste (Appearance), Self-confidence, Lucidity, Salesmanship, Drive, Ambition, Grasp, Potential Bloc 2 : Qualités de franchise et de communication Likeability, Honesty, Keenness to join Bloc 3 : Expérience Form of letter of application, Experience, Suitability Bloc 4 : Diplôme Academic ability

3. Uni-dimensionabilité d’un bloc de variables Question : Un bloc de variables Xj est-il essentiellement unidimensionnel ? Réponse : 1) La première valeur propre 1 de l’analyse en composante principale du bloc est supérieure à 1, les autres sont inférieures à 1. Chaque variable est plus corrélée à la première composante principale qu’aux autres composantes principales. Chaque variable Xj a une corrélation supérieure à 0.5, en valeur absolue, avec la première composante.

Application : ACP de chaque bloc Bloc 1 unidimensionnel

Application Bloc 2 Bloc 3

Fiabilité de l’instrument de mesure Mesure globale de l’homogénéité d’un bloc de variables positivement corrélées entre elles : L’Alpha de Cronbach Question : Comment mesurer globalement la fiabilité de l’instrument de mesure ? C’est à dire le niveau d’homogénéité d’un bloc de variables xi positivement corrélées entre elles ? Réponse : Utilisation du Alpha de Cronbach

Le modèle où : avec les ei et  indépendants.

Définition du  de Cronbach Formule de calcul du  de Cronbach  1, et = 1 lorsque toutes les corrélations entre les xi sont égales à 1 et toutes les variances des xi sont égales.

 de Cronbach pour items centrés-réduits On a la décomposition suivante : Si les variables sont centrées-réduites on obtient : Un bloc de variables positivement corrélées entre elles est homogène si la corrélation moyenne est grande.

 de Cronbach pour items centrées-réduites Le rapport devient : Un bloc est considéré comme homogène si : -   0.6 pour des recherches exploratoires -   0.7 pour des recherches confirmatoires

Application :  de Cronbach de chaque bloc Les corrélations sont toutes positives.

Bloc 1 R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Item-total Statistics Scale Scale Corrected Mean Variance Item- Squared Alpha if Item if Item Total Multiple if Item Deleted Deleted Correlation Correlation Deleted X2 41.2708 364.1591 .5052 .4435 .9599 X5 41.4167 327.0142 .8356 .7957 .9435 X6 42.0417 300.9344 .8633 .8823 .9404 X8 43.5625 289.2726 .8883 .8530 .9391 X10 43.0417 312.5940 .8122 .7783 .9438 X11 42.3750 305.6011 .8937 .8493 .9384 X12 42.1042 303.3293 .8834 .8853 .9390 X13 42.6667 301.1206 .8570 .8345 .9409 Reliability Coefficients 8 items Alpha = .9503 Standardized item alpha = .9489 Scale = Somme des variables

Bloc 2 Item-total Statistics Scale Scale Corrected Mean Variance Item- Squared Alpha if Item if Item Total Multiple if Item Deleted Deleted Correlation Correlation Deleted X4 13.6042 19.5208 .7823 .6127 .6185 X7 11.7083 25.1472 .5986 .4166 .8125 X14 14.1875 23.4747 .6312 .4695 .7820 Reliability Coefficients 3 items Alpha = .8153 Standardized item alpha = .8138

Bloc 3 Item-total Statistics Scale Scale Corrected Mean Variance Item- Squared Alpha if Item if Item Total Multiple if Item Deleted Deleted Correlation Correlation Deleted X1 10.1875 36.9641 .6165 .3824 .8184 X9 11.9583 28.3812 .7043 .5107 .7287 X15 10.2292 27.7974 .7318 .5405 .6981 Reliability Coefficients 3 items Alpha = .8223 Standardized item alpha = .8237

5. ACP des données de Kendall

ACP des données de Kendall Les corrélations inférieures à 0.5 en valeur absolue ne sont pas montrées.

ACP + « Rotation Varimax » Seules sont montrées les corrélations maximum en valeur absolue sur chaque ligne.

6. Analyse Factorielle orthogonale 6.1. Les données p variables aléatoires X1,…, Xp, en général centrées-réduites. 6.2. Le modèle X1 = 11Y1 + … + 1mYm + e1 . Xi = i1Y1 + … + imYm + ei Xp = p1Y1 + … + pmYm + ep où : Yj = facteurs communs centrés-réduits ei = facteurs spécifiques centrés et de variance i Les facteurs Y1,…, Ym, e1,…, em sont tous non corrélés entre eux.

6.3. Analyse Factorielle (Option analyse en composantes principales) Les données p variables X1,…, Xp centrées-réduites. Estimation des facteurs Y1, …, Ym Les m premières composantes principales réduites. Choix de m Nombre de valeurs propres supérieures à 1.

Application Kendall

Calcul des saturations (loadings) ij Les loadings ij sont les coefficients de régression des Yj dans la régression de Xi sur les facteurs Y1,…, Ym. Les facteurs étant orthogonaux (= non corrélés) on a : ij = Cor(Xi, Yj) Calcul des communautés (communalities) hi2

Application Kendall Matrice des corrélations entre les variables et les facteurs

Calcul des spécificités i hi2 = communauté Var(ei) = spécificité Qualité de la décomposition Variance expliquée par Y1 ( = 1) Variance expliquée par Ym ( = m) Variance totale Variance résiduelle

Application Kendall avec m = 4 Communauté Variance expliquée

6.4. Décomposition de R en AF orthogonale Modèle : Xi = i1Y1 + … + imYm + ei Formules de décomposition :

Formule générale R =  + 

6.5. Les objectifs de l’AF orthogonale L’analyse factorielle orthogonale consiste à rechercher une décomposition de la matrice des corrélations R de la forme : R =  +  Les ij sont les saturations et les i les spécificités. Méthodes usuelles d’extraction des saturations : - Analyse en composantes principales - Méthodes des facteurs principaux - Méthodes des moindres carrés - Méthodes des moindres carrés pondérés - Maximum de vraisemblance

Application Kendall R =

m = 4

6.6. Les méthodes de rotation Formule de décomposition (p = 3, m = 2) :

Les méthodes de rotation Matrice de rotation d’un angle  : Y Y´ y´ * -sin cos A y * T X * cos sin x  Matrice de rotation T : T´T = T T´= I x´ x´ = Proj(A) sur l’axe X´ y´ = Proj(A) sur l’axe Y´   X´

Indétermination de la décomposition Nouvelle matrice des saturations après rotation :

Les méthodes de rotation VARIMAX et QUARTIMAX Objectifs : (1) Pour chaque colonne de  les |ij| sont proches de 0 ou 1 : ==> Facteurs bien typés. C’est l’objectif de VARIMAX. (2) Sur chaque ligne de  il y a un |ij| proche 1 et tous les autres proches de 0 : ==> Typologie des variables. C’est l’objectif de QUARTIMAX.

Exemple avec les blocs 2 et 3 R2(Xj;Y1,Y2)  = Seulement dans l’option ACP

Exemple avec les blocs 2 et 3

Utilisation de la rotation Varimax * T ( TT = I ) =  = 

Utilisation de la rotation varimax

Exemple Kendall complet Application (ACP + Varimax)

Application (ACP + Varimax) Présentation améliorée Corrélations inférieures à 0.4 en valeur absolue non montrées

6.7. Estimation des facteurs communs (AF orthogonale) On recherche une variable (ou score) aussi proche que possible de Yj. La régression de Yj sur X1,…, Xp donne :

Application (ACP + Varimax) Coefficients appliqués aux variables centrées-réduites

Estimation des facteurs

7. Test de sphéricité de Bartlett Test : H0 : R = Identité (aucune corrélation entre les X) On rejette H0 au risque  de se tromper si

Application

8. Kaiser-Meyer-Olkin Measure of Sampling Adequacy La corrélation partielle Xi = i0 + i1Y1 + … + imYm + i Xk = k0 + k1Y1 + … + kmYm + k ==> Cor(Xi, Xk / Y1, …, Ym) = Cor(i, k) Pour un modèle factoriel : Les facteurs spécifiques sont non corrélés entre eux. Xi =  i1Y1 + … +  imYm + ei ==> Cor(Xi, Xk / Y1, …, Ym) = Cor(ei, ek) = 0 « Anti-image correlation » -aik : Si le modèle factoriel est vrai les aik = cor(Xi, Xk/ Autres X) sont faibles en valeur absolue.

Application Kendall

Kaiser-Meyer-Olkin Measure of Sampling Adequacy Comparaison entre les corrélations rik et les corrélations partielles aik :

9. CONCLUSION (!!!!) … we find ourselves in sympathy with the growing group of statisticians who doubt if FA is worth using except in a few particular types of application. For example Hills (1977) has said that FA is not « worth the time necessary to understand it and carry it out ». He goes on to say that he regards FA as an « elaborate way of doing something which can only be crude, namely picking out clusters of inter-related variables, and then finding some sort of average of the variables in a cluster in spite of the fact that the variables may be measured on different scales. » C. Chatfield & A.J. Collins, 1980

10. Autres méthodes d’extraction des saturations - Méthodes des facteurs principaux - Méthodes des moindres carrés - Méthodes des moindres carrés pondérés - Maximum de vraisemblance

10.1 La matrice des saturations Modèle : Xi = i1Y1 + … + imYm + ei Les ij sont les saturations (ou loadings) Matrice des saturations dans SPSS - Yj = Composantes principales réduites : Component Matrix - Yj orthogonaux : Factor Matrix - Yj corrélés : Pattern Matrix Si les Yj sont orthogonaux : ij = Cor(Xi, Yj). Si les Yj sont corrélés, les Cor(Xi, Yj) sont données dans la « Structure Matrix ».

10.2 Communauté et spécificité en AF orthogonale Modèle : Xi = i1Y1 + … + imYm + ei Décomposition de la variance : hi2 = communauté Var(ei) = spécificité Communauté initiale et finale : (option autre que l’ACP)

10.3 Qualité de la décomposition en AF orthogonale Modèle : Xi = i1Y1 + … + imYm + ei Décomposition de la variance : De On déduit : Variance expliquée par Y1 Variance expliquée par Ym Variance résiduelle Variance totale

10.4 Méthodes des facteurs principaux Modèle : Xi = i1Y1 + … + imYm + ei Utilisation des formules de décomposition :

Méthode des facteurs principaux Exemple p=3 et m=2 Algorithme itératif : on part des communautés initiales, on estime les saturations, puis on recalcule les communautés à l’aide des saturations. On itère jusqu’à convergence des communautés.

Application Kendall

Application Kendall Facteurs principaux Facteur principaux + rotation varimax ACP

Application Kendall

10.5 Méthode des moindres carrées

Application Kendall

10.6 Méthodes des moindres carrés généralisée Modèle : Xi = i1Y1 + … + imYm + ei, Var(ei) = i où et

10.7 Méthode du maximum de vraisemblance Modèle : Xi = i1Y1 + … + imYm + ei , Var(ei) = i Hypothèse : Les variables Xj suivent une loi multinormale de moyenne  et de matrice de covariance . Notations : S = matrice de covariances observée sur un échantillon de taille n matrice de covariance reconstituée par le modèle Maximisation : On recherche les saturations et les spécificités estimées maximisant le logarithme de la vraisemblance des données :

10.8 Test de validité du modèle à m facteurs On rejette le modèle à m facteurs au risque  de se tromper si : Remarque :

Application aux données de Kendall m = 4 m = 5 m = 6 Ce test est connu pour rejeter trop facilement le modèle.

11. Analyse Factorielle oblique 11.1. Les données p variables aléatoires X1,…, Xp, en général centrées-réduites. 11.2. Le modèle X1 = 11Y1 + … + 1mYm + e1 . Xi = i1Y1 + … + imYm + ei Xp = p1Y1 + … + pmYm + ep où : - Les facteurs communs Yj peuvent être corrélés entre eux. - Les facteurs spécifiques ei ,…, em sont tous non corrélés entre eux et avec les facteurs communs.

Le modèle X1 = 11Y1 + … + 1mYm + e1 . Xi = i1Y1 + … + imYm + ei Xp = p1Y1 + … + pmYm + ep s’écrit aussi

Le modèle de l’analyse factorielle oblique :

12.3. Les méthodes de rotation oblique Formule de décomposition (p = 3, m = 2) : où  = (T’T)-1 est une matrice de corrélation

Options SPSS Direct Oblimin Method A method for oblique (nonorthogonal) rotation. When delta equals 0 (the default), solutions are most oblique. As delta becomes more negative, the factors become less oblique. To override the default delta of 0, enter a number less than or equal to -0.8. Promax Rotation An oblique rotation, which allows factors to be correlated. This rotation can be calculated more quickly than a direct oblimin rotation, so it is useful for large datasets.

Application aux données de Kendall Matrice des corrélations  entre les facteurs

Matrice des saturations ih Difficile à interpréter car les facteurs sont corrélées entre eux.

Matrice des Cor(Xi, Yj) Cette matrice est plus naturelle à interpréter.

Matrice des Cor(Xi, Yj) améliorée Cette matrice est encore plus facile à interpréter.