Cours 4: Analyse discriminante (AFD)

Slides:



Advertisements
Présentations similaires
Eléments d'algèbre linéaire
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Cours d‘Analyse de Données
La mesure des inégalités
Gestion de portefeuille
Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
Chapitre 5. Description numérique d’une variable statistique.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Unité #1 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
Licence 3ème année de sociologie Semestre 1
Unité #2 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
1. Les caractéristiques de dispersion. 11. Utilité.
Corrélations et ajustements linéaires.
Régression -corrélation
Résoudre graphiquement une équation ou une inéquation simple
Analyse en Composantes Principales
Statistiques descriptives
Analyse en Composante Principale (ACP)
Travail paraclinique Gén-Hyg-Expl
Concepts avancés en mathématiques et informatique appliquées
Résoudre graphiquement f(x)≤-2
Groupe 1: Classes de même intervalle
La segmentation
Dynamique des solides.
L’Analyse de Covariance
Rappel... Systèmes dynamiques: discrets; continus.
La corrélation et la régression multiple
Les modèles linéaires (Generalized Linear Models, GLM)
RECONNAISSANCE DE FORMES
Régression linéaire (STT-2400)
« Analyses descriptives multidimensionnelles »
Rappel... Diagonalisation. Transformations linéaires.
ASI 3 Méthodes numériques pour l’ingénieur
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & tests. Partie 3.
La décomposition en valeurs singulières: un outil fort utile
Analyses typologiques
ASI 3 Méthodes numériques pour l’ingénieur
Rappel... Valeurs propres et vecteurs propres. Définitions;
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Cours de mathématiques économiques
PROGRAMMATION SCIENTIFIQUE EN C
Leçon 1: Les Systèmes Linéaires Continus Et Invariants
Cours 3 : Classification
La firme Les techniques à deux facteurs La demande de facteurs
Séquence FONCTION DE VARIABLE(S) REELLE(S) :
REGLAGE ECONOMIQUE DES PRODUCTIONS Le réglage tertiaire.
Cours 3ème Fonctions linéaires et fonctions affines I Fonctions linéaires II Fonctions affines.
Rappels de statistiques descriptives
Etudier une relation de proportionnalité
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Présentation du marché obligataire
Micro-intro aux stats.
Présentation de l’ACP à travers un exemple
ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
Calendrier (sur MathSV)
Analyse de données Cours 3 Analyse en composantes principales (ACP)
ETUDE DE 2 VARIABLES QUANTITATIVES
Interpolation et Approximation
STATISTIQUES.
Les dangers des drogues
Corrélation et causalité
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Classification-Segmentation
Mesures de description des valeurs des variables
Analyse en Composantes Principales Vue synoptique.
Transcription de la présentation:

Cours 4: Analyse discriminante (AFD) I- Principes de l’AFD II- Données et définitions III- Recherche du premier axe discriminant IV- Recherche des axes de rang supérieur V- AFD à la main VI- AFD sous R

I- Principes de l’AFD Objectif : Discriminer (séparer, caractériser) m groupes d’individus préalablement définis, décrits par p variables quantitatives. Moyen : Rechercher des combinaisons linéaires des p variables initiales (axes discriminants) permettent de caractériser au mieux les groupes. D’un point de vue technique, l’AFD peut être vue comme l’ACP normée du nuage des centres de gravités des m groupes d’individus, munis du poids des groupes.

I- Principes de l’AFD

II- 1 Les données E1 …… Ek ….. Em Tableau X centré (sinon, on le centre) Groupe Valeurs E1 …… Ek ….. Em

II-1 Les données = matrice des poids ( si poids égaux) Matrices associées = matrice des poids ( si poids égaux)

= matrice centrée correspondante II- 1 Les données = matrice centrée correspondante = effectif du groupe k = matrice diagonale des poids des individus du groupe k ( si poids égaux) = centre de gravité du groupe k M =matrice diagonale des poids des différents groupes ( si poids égaux)

II-2 Définitions Inertie ou variance inter-classes : matrice de var-cov des p variables calculée sur le nuage des centres de gravités des m groupes Inertie ou variance intra-classes : Où est la matrice de var-cov des p variables calculée sur les individus du groupe k Inertie ou variance totale : On a :

II-2 Définitions Cas particulier : Les poids sont tous égaux

III- Recherche du premier axe discriminant (P) On cherche u1 tel que en projection sur cet axe: Les centres de gravité des différents groupes soient les plus éloignés possibles (inertie INTER-classe élevée ) - Les individus d’un même groupe soient concentrés le plus possible autour de leur centre de gravité (inertie INTRA-classes faible )  

III- Recherche du premier axe discriminant Inertie du nuage projeté : D1 =X u1 coordonnées du nuage projeté (P) chercher -Inertie inter-classes maximale -Inertie intra-classes minimale (P) Maximal

III- Recherche du premier axe discriminant (P) est le vecteur propre unitaire de associé à la plus grande valeur propre : Définitions : est la direction du premier axe discriminant D1 =X u1 est la première variable discriminante:vecteur constitué des coordonnées des n individus sur l’axe 1 est le pouvoir discriminant de l’axe 1

III- Recherche du premier axe discriminant Remarque : On peut montrer que (P) maximal La solution de ce nouveau problème est le vecteur propre unitaire de W-1B associé à la valeur propre Il est égal à à une constante près

III- Recherche du premier axe discriminant Prop : est le pouvoir discriminant de l’axe 1 l1  [ 0,1 ] l1 = 1 : discrimination parfaite l1 = 0 : Les centres de gravité des nuages de points sont confondus ( aucune discrimination n’est possible).

IV- Recherche des axes de rang supérieurs L’AFD du tableau X s’obtient en cherchant les vecteurs propres uk et les valeurs propres associées de : le k° axe discriminant est le vecteur propre associé à la valeur propre de rang k de cette matrice. Le nombre maximum d’axes (= nombre de valeurs propres non nulles) que l’on puisse obtenir en effectuant l’AFD sur m groupes est ( m-1 ).

V- AFD à la main On observe deux variables quantitatives X1 et X2 sur un ensemble de n=5 individus de même poids, supposés répartis en deux groupes (M : masculin et F : féminin) :   Groupe X1 X2 M F 1 3 2 6 5 4

V- AFD à la main

V- AFD à la main Grandeurs d’intérêt : n1=3, n2=2, n=5

V- AFD à la main Recherche de l’axe discriminant : Matrice variance totale: V = X’X/n Matrice de variance inter-classes : Matrice de variance intra-classes :

V- AFD à la main Matrice à diagonaliser :

V- AFD à la main La valeur propre non nulle de V-1B est = 0.79, qui est le pouvoir de discriminant de l’axe ( rappelons que plus cette valeur est proche de 1 meilleure est la discrimination) Le vecteur propre unitaire associé à cette valeur propre est donné par : Les coordonnées sur cet axe D=Xu sont :

V- AFD à la main >c=read.table("cours.txt",header=T) Groupe X1 X2 >mc=matrix(apply(c[,2:3],2,mean),5,2,byrow=T) >X=as.matrix(c[,2:3]-mc) > X1=X[X$Groupe=="M",] > X2=X[X$Groupe=="F",] >G1=apply(X1[,2:3],2,mean) > G2=apply(X2[,2:3],2,mean) >V=(t(X)%*%X)/5 >M=diag(c(3/5,2/5)) >C=rbind(G1,G2) >B=t(C)%*%M%*%C >V1=(t(X1)%*%X1)/3-G1%*%t(G1) > V2=(t(X2)%*%X2)/2-G2%*%t(G2) >W=(3*V1+2*V2)/5 >I=solve(V)%*%B > u=eigen(I)$vector >lambda= eigen(I)$values >D=X%*%u

VI- AFD sous R On effectue l’ACP sur le nuage de point des centres de gravités du tableau centré. On utilise la fonction lda() de la library MASS On utilise la fonction discrimin() de la library ade4

VI- AFD sous R Library(MASS) lda(formula, data, ...,) Formula : A formula of the form 'groups ~ x1 + x2 + ...' That is, the response is the grouping factor and the right hand side specifies the (non-factor) discriminators. data: Data frame from which variables specified in 'formula' are preferentially to be taken. prior: the prior probabilities of class membership. If unspecified, the class proportions for the training set are used. If present, the probabilities should be specified in the order of the factor levels.

VI- AFD sous R

VI- AFD sous R >a=lda(groupe~age+revenu+patrimoine+emprunt,d) #d=Données Call: lda(groupe ~ age + revenu + patrimoine + emprunt, data = d) Prior probabilities of groups: Coefficients de la matrice M 1 2 3 0.3 0.3 0.4 Group means: moyennes par groupe des variables du tableau d age revenu patrimoine emprunt 1 34.33333 146.3333 690.000 340.0 2 31.33333 148.3333 1433.333 230.0 3 45.50000 185.0000 1287.500 372.5

VI- AFD sous R Coefficients of linear discriminants: Coordonnées des vecteurs u1 et u2 renormalisées LD1 LD2 age 0.048261265 -2.169801e-01 revenu 0.025594479 5.976213e-04 patrimoine -0.011352863 1.724238e-04 emprunt -0.005286007 -5.039816e-05 Proportion of trace: mu/somme(mu): % d’inertie conservé par chaque axe LD1 LD2 0.8451 0.1549

VI- AFD sous R >names(a) [1] "prior" "counts" "means" "scaling" "lev" "svd" "N" [8] "call" "terms" "xlevels" a$prior: poids des groupes a$counts : nombre d’individus dans les groupes a$means : moyenne des variables dans les groupes a$scaling: coordonnées des axes discriminants dans l’ancien repère a$lev : nombre de niveaux du facteur groupe a$svd:??

VI- AFD sous R >a$means age revenu patrimoine emprunt 1 34.33333 146.3333 690.000 340.0 2 31.33333 148.3333 1433.333 230.0 3 45.50000 185.0000 1287.500 372.5 Le groupe 1 est un groupe de gens assez jeunes à revenus plus faibles que la moyenne dont le patrimoine est nettement plus faible que dans les autres classes et le taux d’emprunt plus élevé que la moyenne Le groupe 2 est caractérisé par des gens jeunes de revenus moyens, mais dont le patrimoine est très important et le taux d’emprunt très faible Le groupe 3 est caractérisé par des gens plus agés de revenus confortables et de patrimoine assez important, ayant un taux d’emprunt plus élevé que dans les autres classes

VI- AFD sous R >plot(a, col = as.numeric(d[ ,5])) Graphe de X%*%a$scaling

VI- AFD sous R Sur le graphique, on voit que l’axe 1 sépare bien les 3 groupes, en particulier le groupe 1 des deux autres groupes. Le pouvoir discriminant de l’axe 2 est moindre: >Lambda=diag(T(a$scaling)%*%B%*%a$scaling/T(a$scaling)%*%V%*%a$scaling) Lambda=0.93 0.72 L’interprétation des facteurs discriminants peut se faire comme en ACP en calculant les coordonnées des variables sur les axes (corrélations r(Xj,Dk))

VI- AFD sous R >D=d%*%a$scaling >cor(d,D) LD1 LD2 age -0.03673802 -0.9991592 revenu -0.13640214 -0.5627526 patrimoine -0.96159782 -0.1540505 emprunt -0.23596443 -0.4321157 L’axe 1 est un effet taille et isole les individus ayant des valeurs importantes des variables, en particulier à gros patrimoine. Ils s’opposent aux individus du groupe 1. L’axe 2 est aussi un effet taille et isole les individus plus agés que les autres: on y trouve les individus du groupe 3, qui s’opposent à ceux des deux autres groupes.