La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

Présentations similaires


Présentation au sujet: "1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits."— Transcription de la présentation:

1 1 Analyse discriminante Michel Tenenhaus

2 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits par p variables X 1,…, X p. Les individus sont répartis en k classes selon les modalités dune variable qualitative Y. Rechercher des variables discriminantes Z h, combinaisons linéaires des X j, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante). Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).

3 3 Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

4 4 Les données

5 5 Analyse univariée Température

6 6 Analyse univariée Soleil

7 7 Analyse univariée Chaleur

8 8 Analyse univariée Pluie

9 9 Analyse factorielle discriminante Recherche de la première variable discriminante On recherche une première variable discriminante centrée séparant au mieux les k classes. On recherche des a 1j conduisant à une variable Z 1 ayant un F ou, de manière équivalente, un 2 maximum dans lanalyse de la variance de Z 1 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z 1 égale à 1.

10 10 Calcul des variables discriminantes sur les données dorigine Z 1 =.009*Température +.007*Soleil -.027*Chaleur -.006*Pluie

11 11 Normalisation Chaque X est centrée et normalisée par lécart-type commun aux classes (racine-carrée du carré moyen intra-classes) :

12 12 Calcul des variables discriminantes sur les données normalisées Z 1 =.750*X *X *X *X 4

13 13 Analyse de la variance de Z 1 sur la qualité

14 14 Analyse factorielle discriminante Recherche de la deuxième variable discriminante On recherche une deuxième variable discriminante centrée et non corrélée à Z 1 séparant au mieux les k classes. On recherche des a 2j conduisant à une variable Z 2 ayant un F ou, de manière équivalente, un 2 maximum dans lanalyse de la variance de Z 2 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z 2 égale à 1.

15 15 Analyse de la variance de Z 2 sur la qualité

16 16 Les deux variables discriminantes

17 17 Le premier plan discriminant

18 18 Carte des qualités Symbols used in territorial map Symbol Group Label Bon 2 2 Moyen 3 3 Médiocre * Indicates a group centroid Territorial Map Canonical Discriminant Function ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô 6.0 ô 31 ô ó 31 ó 4.0 ô ô ô 31 ô ô ô ó 31 ó 2.0 ô ô ô 3221 ô ô ô ó ó ó * * ó.0 ô ô ô 32 ô 21 ô ô ô ó ó ó 32 * 21 ó ó ó -2.0 ô ô ô 32 ô 21 ô ô ó ó -4.0 ô ô 32 ô ô 21 ô ô ó ó -6.0 ô ô ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô Canonical Discriminant Function 1 Les droites frontières sont les médiatrices des segments joignant les centres de gravité des groupes

19 19 Premier plan discriminant et carte des qualités Une nouvelle observation est classée dans le groupe pour lequel la distance entre lobservation et le centre du groupe est la plus faible.

20 20 Température Chaleur Pluie ** * * * * g2g2 ** * * * * g3g3 ** * * * * * * * * * * * * * * g1g1 ** * * * Premier plan discriminant et territoire des qualités g * Z1Z1 Z2Z2 g3g3 ** ** g2g2 ** ** g1g1 ** ** Le premier plan discriminant contient les centres de gravité des groupes *A *B Affecter une observation A à la classe la plus proche (g h ) est équivalent à affecter la projection B à la classe la plus proche.

21 21 Distance carrée au centre de gravité dans le plan (Z 1,Z 2 )

22 22 Prévision de la qualité pour une nouvelle année (obs. 35) Pour le Bordeaux 1958 : -Température = Soleil = Chaleur = 20 -Pluie = 300 Prévoir sa qualité.

23 23 Prévision de la qualité pour une nouvelle année (obs. 35)

24 24 Prévision de la qualité pour une nouvelle année (obs. 35)

25 25 Résultats de lanalyse factorielle discriminante Z 1 = Score prédictif de la qualité du vin construit à partir des variables météo.

26 26 Résultats de lanalyse factorielle discriminante

27 27 Résultats de lanalyse factorielle discriminante s = Nombre maximum de variables discriminantes = k-1 = Eta

28 28 Test en analyse factorielle discriminante (données multinormales) Test 1 through s (ici s=2) Test : H 0 : 1 = … = s = 0 (au niveau de la population) H 1 : au moins 1 > 0 Statistique : Wilks Lambda = ( )... (1- s 2 ) Décision : On rejette H 0 au risque si

29 29 Test m through s Test : H 0 : m = … = s = 0 (au niveau de la population) H 1 : au moins m > 0 Statistique : Wilks Lambda = (1- m 2 )... (1- s 2 ) Décision : On rejette H 0 au risque si

30 30 Corrélation intra-classes entre les X et les Z

31 31 * * * * * * * * * * * * * * * * * * Z Pluie * * * * * * * * * * * * * * * * * * Z * * * * * * * * * * * * Visualisation dune corrélation intra-classes Corrélation globale positive Corrélation intra-classes négative

32 32 Analyse discriminante bayesienne Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe La probabilité quune observation provienne de la classe « Y = h » sachant que « X = x = (x 1,…, x p ) » peut sécrire : avec des fonctions de classification g h (x) de la forme : g h (x) = b h0 + b h1 X 1 + … + b hp X p où les X sont les variables dorigine.

33 33 Les fonctions de classification g h (x) Elles sont calculées ici en supposant les 3 qualités a priori équiprobables :

34 34 Calcul des probabilités de chaque qualité pour chaque année

35 35 Qualité de la prévision

36 36 Validité de la qualité de la prévision évaluée par Jack-knife

37 37 Prévision de la qualité pour une nouvelle année Pour le Bordeaux 1958 : -Température = Soleil = Chaleur = 20 -Pluie = 300 Prévoir sa qualité.

38 38 Analyse discriminante bayesienne sur les variables discriminantes Z 1, Z 2 1. La prédiction de la qualité du vin à laide des territoires de qualité construits sur le plan discriminant (Z 1, Z 2 ) est équivalente à la prédiction de la qualité obtenue par analyse discriminante bayesienne des variables discriminantes (Z 1, Z 2 ). 2. Lanalyse discriminante bayesienne des variables dorigine (X 1,…,X p ) et lanalyse discriminante bayesienne des variables discriminantes (Z 1, Z 2 ) conduisent aux mêmes probabilités calculées des modalités de Y.

39 39 Analyse discriminante bayesienne sur les variables discriminantes Z 1, Z 2

40 40 Utilisation de la méthode de segmentation CART Y ordinale : le critère Ordered Twoing Segment t Effectif = n t Segment t droit Effectif = n tdroit Segment t gauche Effectif = n tgauche X X = 0X = 1

41 41 Règles darrêt : - Improvement min = Effectif segment parent < 25 - Effectif segment descendant < 1 Nb de groupes pour CV = 25

42 42 Crossvalidation (Documentation SPSS) Crossvalidation divides the sample into a number of subsamples, or folds. Tree models are then generated, excluding the data from each subsample in turn. The first tree is based on all of the cases except those in the first sample fold, the second tree is based on all of the cases except those in the second sample fold, and so on. For each tree, misclassification risk is estimated by applying the tree to the subsample excluded in generating it. You can specify a maximum of 25 sample folds. The higher the value, the fewer the number of cases excluded for each tree model. Crossvalidation produces a single, final tree model. The crossvalidated risk estimate for the final tree is calculated as the average of the risks for all of the trees.

43 43 Deuxième exemple : les races canines

44 44 Le tableau disjonctif complet x ijl = 1 si lindividu i possède la modalité l de la variable j = 0 sinon

45 45 Analyse factorielle discriminante Y = Fonction X = variables indicatrices des caractéristiques physiques et psychiques des chiens

46 46 Premier plan discriminant Z Z fonction utilité chasse compagnie terre-neuve teckel setter saint-bernard pointer pékinois mastiff levrier labrador (chasse) grand bleu de gascogne fox-terrier fox-hound epagneul français epagneul breton dogue allemand dobermann dalmatien (compagnie) colley cocker chihuahua caniche bull-mastiff bull-dog boxer berger allemand basset beauceron

47 47 Variables discriminantes

48 48 Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z 1, Z 2 )

49 49 Analyse discriminante bayesienne ( sur les données dorigine transformées en indicatrices) Problème : Appliquer une méthode supposant la normalité sur des données binaires !!!!

50 50 Prévision de la fonction dun chien

51 51 Prévision de la fonction dun chien


Télécharger ppt "1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits."

Présentations similaires


Annonces Google