Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Analyse discriminante
Michel Tenenhaus
2
Les objectifs de l’analyse discriminante
Étude d’un tableau IndividusVariables : Les individus sont décrits par p variables X1,…, Xp. Les individus sont répartis en k classes selon les modalités d’une variable qualitative Y. Rechercher des variables discriminantes Zh, combinaisons linéaires des Xj, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante). Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).
3
Exemple : Qualité des vins de Bordeaux
Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d’insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)
4
Les données
5
Analyse univariée Température
6
Analyse univariée Soleil
7
Analyse univariée Chaleur
8
Analyse univariée Pluie
9
Analyse factorielle discriminante Recherche de la première variable discriminante
On recherche une première variable discriminante centrée séparant au mieux les k classes. On recherche des a1j conduisant à une variable Z1 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z1 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z1 égale à 1.
10
Calcul des variables discriminantes sur les données d’origine
Z1 = .009*Température *Soleil *Chaleur - .006*Pluie
11
Normalisation Chaque X est centrée et normalisée par l’écart-type
commun aux classes (racine-carrée du carré moyen intra-classes) :
12
Calcul des variables discriminantes sur les données normalisées
Z1 = .750*X *X *X *X4
13
Analyse de la variance de Z1 sur la qualité
14
Analyse factorielle discriminante Recherche de la deuxième variable discriminante
On recherche une deuxième variable discriminante centrée et non corrélée à Z1 séparant au mieux les k classes. On recherche des a2j conduisant à une variable Z2 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z2 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z2 égale à 1.
15
Analyse de la variance de Z2 sur la qualité
16
Les deux variables discriminantes
17
Le premier plan discriminant
18
Carte des qualités Territorial Map Les droites frontières
Canonical Discriminant Function 2 ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô 6.0 ô ô ó ó 4.0 ô ô ô ô ô ô 2.0 ô ô ô ô ô ô ó ó ó ó ó ó ó * * ó .0 ô ô ô ô ô ô ô ó ó ó * ó ó ó ó ó -2.0 ô ô ô ô ô ô ó ó ó ó ó ó ó ó -4.0 ô ô ô ô ô ô ó ó ó ó ó ó ó ó ó ó -6.0 ô ô Canonical Discriminant Function 1 Carte des qualités Symbols used in territorial map Symbol Group Label Bon Moyen Médiocre * Indicates a group centroid Les droites frontières sont les médiatrices des segments joignant les centres de gravité des groupes
19
Premier plan discriminant et carte des qualités
Variable discriminante Z1 6 4 2 -2 -4 Variable discriminante Z2 3 1 -1 Qualité Group Centroids Médiocre Moyen Bon 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 5 Une nouvelle observation est classée dans le groupe pour lequel la distance entre l’observation et le centre du groupe est la plus faible.
20
Prévision de la qualité pour une nouvelle année (obs. 35)
Pour le Bordeaux 1958 : - Température = 3 000 - Soleil = 1 100 - Chaleur = 20 - Pluie = 300 Prévoir sa qualité.
21
Prévision de la qualité pour une nouvelle année (obs. 35)
22
Prévision de la qualité pour une nouvelle année (obs. 35)
23
Résultats de l’analyse factorielle discriminante
Z1 = Score prédictif de la qualité du vin construit à partir des variables météo.
24
Résultats de l’analyse factorielle discriminante
25
Résultats de l’analyse factorielle discriminante
s = Nombre maximum de variables discriminantes = k-1 = Eta
26
Test en analyse factorielle discriminante (données multinormales)
Test 1 through s (ici s=2) Test : H0 : 1 = … = s = 0 (au niveau de la population) H1 : au moins 1 > 0 Statistique : Wilks’ Lambda = (1-12)...(1-s2) Décision : On rejette H0 au risque si
27
Test m through s Test : H0 : m = … = s = 0 (au niveau de la population) H1 : au moins m > 0 Statistique : Wilks’ Lambda = (1-m2)...(1-s2) Décision : On rejette H0 au risque si
28
Corrélation intra-classes entre les X et les Z
29
Visualisation d’une corrélation intra-classes
Z Z * * * * * * * * * * * * * Pluie Pluie Corrélation intra-classes négative Corrélation globale positive
30
Analyse discriminante bayesienne
Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe La probabilité qu’une observation provienne de la classe « Y = h » sachant que « X = x = (x1,…, xp) » peut s’écrire : avec des fonctions de classification gh(x) de la forme : gh(x) = bh0 + bh1X1+ … + bhpXp où les X sont les variables d’origine.
31
Les fonctions de classification gh(x)
Elles sont calculées ici en supposant les 3 qualités a priori équiprobables :
32
Calcul des probabilités de chaque qualité pour chaque année
33
Qualité de la prévision
34
Validité de la qualité de la prévision évaluée par Jack-knife
35
Prévision de la qualité pour une nouvelle année
Pour le Bordeaux 1958 : - Température = 3 000 - Soleil = 1 100 - Chaleur = 20 - Pluie = 300 Prévoir sa qualité.
36
Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2
La prédiction de la qualité du vin à l’aide des territoires de qualité construits sur le plan discriminant (Z1, Z2) est équivalente à la prédiction de la qualité obtenue par analyse discriminante bayesienne des variables discriminantes (Z1, Z2).
37
Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2
38
Deuxième exemple : les races canines
39
Le tableau disjonctif complet
xijl = si l’individu i possède la modalité l de la variable j = sinon
40
Analyse factorielle discriminante
Y = Fonction X = variables indicatrices des caractéristiques physiques et psychiques des chiens
41
Premier plan discriminant
3 grand bleu de gascogne pointer dobermann levrier fox-hound epagneul français 2 setter basset 1 bull-mastiff mastiff epagneul breton terre-neuve dogue allemand labrador (chasse) boxer saint-bernard dalmatien (compagnie) berger allemand -1 colley beauceron fonction chihuahua pékinois utilité -2 caniche cocker teckel bull-dog chasse Z2 fox-terrier -3 compagnie -6 -4 -2 2 4 Z1
42
Variables discriminantes
43
Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z1, Z2)
44
Analyse discriminante bayesienne (sur les données d’origine transformées en indicatrices)
Problème : Appliquer une méthode supposant la normalité sur des données binaires !!!!
45
Prévision de la fonction d’un chien
46
Prévision de la fonction d’un chien
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.