Analyse discriminante

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Vocabulaire 6.2 Français II Bon voyage ! 1.
Licence pro MPCQ : Cours
Distance inter-locuteur
Le pluriel des noms
Les numéros
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
Les identités remarquables
Sirop de Liège « industriel »
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LA RÉGRESSION MULTIPLE
Analyse discriminante
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
Description et estimation
Analyse de la variance à un facteur
STATISTIQUE Core International Management Program 2008/2009 Michel Tenenhaus.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
CONCOURS DE CONAISSANCE 4 Français I Mars Il ________ la géographie (to learn).
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
LES NOMBRES PREMIERS ET COMPOSÉS
La Saint-Valentin Par Matt Maxwell.
Unit 4: Les animaux Unit 4: Les animaux.
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
C'est pour bientôt.....
1 INETOP
Les Nombres 0 – 100 en français.
+21 Anticipations économiques en Europe Decembre 2013 Indicateur > +20 Indicateur 0 á +20 Indicateur 0 á -20 Indicateur < -20 Union européenne total: +14.
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Vocabulaire 7.1 Français II Bon voyage ! 1.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
CALENDRIER-PLAYBOY 2020.
Exercice de vérification 1 p
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
Partie II: Temps et évolution Energie et mouvements des particules
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Transcription de la présentation:

Analyse discriminante Michel Tenenhaus

Les objectifs de l’analyse discriminante Étude d’un tableau IndividusVariables : Les individus sont décrits par p variables X1,…, Xp. Les individus sont répartis en k classes selon les modalités d’une variable qualitative Y. Rechercher des variables discriminantes Zh, combinaisons linéaires des Xj, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante). Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).

Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d’insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

Les données

Analyse univariée Température

Analyse univariée Soleil

Analyse univariée Chaleur

Analyse univariée Pluie

Analyse factorielle discriminante Recherche de la première variable discriminante On recherche une première variable discriminante centrée séparant au mieux les k classes. On recherche des a1j conduisant à une variable Z1 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z1 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z1 égale à 1.

Calcul des variables discriminantes sur les données d’origine Z1 = .009*Température + .007*Soleil - .027*Chaleur - .006*Pluie - 32.876

Normalisation Chaque X est centrée et normalisée par l’écart-type commun aux classes (racine-carrée du carré moyen intra-classes) :

Calcul des variables discriminantes sur les données normalisées Z1 = .750*X1 + .547*X2 - .198*X3 - .445*X4

Analyse de la variance de Z1 sur la qualité

Analyse factorielle discriminante Recherche de la deuxième variable discriminante On recherche une deuxième variable discriminante centrée et non corrélée à Z1 séparant au mieux les k classes. On recherche des a2j conduisant à une variable Z2 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z2 sur le facteur Y définissant les classes. On choisit comme normalisation une variance intra-classes de Z2 égale à 1.

Analyse de la variance de Z2 sur la qualité

Les deux variables discriminantes

Le premier plan discriminant

Carte des qualités Territorial Map Les droites frontières Canonical Discriminant Function 2 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô 6.0 ô 31 ô ó 31 ó 4.0 ô ô ô 31 ô ô ô 2.0 ô ô ô 3221 ô ô ô ó 32 21 ó ó 32 21 ó ó 32 21 ó ó * 32 21 * ó .0 ô ô ô 32 ô 21 ô ô ô ó 32 21 ó ó 32 * 21 ó ó 32 21 ó ó 32 21 ó -2.0 ô ô ô 32 ô 21 ô ô ó 32 21 ó ó 32 21 ó ó 32 21 ó ó 32 21 ó -4.0 ô ô 32 ô ô 21 ô ô ó 32 21 ó ó 32 21 ó ó 32 21 ó ó 32 21 ó ó 32 21 ó -6.0 ô 32 21 ô Canonical Discriminant Function 1 Carte des qualités Symbols used in territorial map Symbol Group Label ------ ----- -------------------- 1 1 Bon 2 2 Moyen 3 3 Médiocre * Indicates a group centroid Les droites frontières sont les médiatrices des segments joignant les centres de gravité des groupes

Premier plan discriminant et carte des qualités Variable discriminante Z1 6 4 2 -2 -4 Variable discriminante Z2 3 1 -1 Qualité Group Centroids Médiocre Moyen Bon 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 5 Une nouvelle observation est classée dans le groupe pour lequel la distance entre l’observation et le centre du groupe est la plus faible.

Prévision de la qualité pour une nouvelle année (obs. 35) Pour le Bordeaux 1958 : - Température = 3 000 - Soleil = 1 100 - Chaleur = 20 - Pluie = 300 Prévoir sa qualité.

Prévision de la qualité pour une nouvelle année (obs. 35)

Prévision de la qualité pour une nouvelle année (obs. 35)

Résultats de l’analyse factorielle discriminante Z1 = Score prédictif de la qualité du vin construit à partir des variables météo.

Résultats de l’analyse factorielle discriminante

Résultats de l’analyse factorielle discriminante s = Nombre maximum de variables discriminantes = k-1 = Eta

Test en analyse factorielle discriminante (données multinormales) Test 1 through s (ici s=2) Test : H0 : 1 = … = s = 0 (au niveau de la population) H1 : au moins 1 > 0 Statistique : Wilks’ Lambda = (1-12)...(1-s2) Décision : On rejette H0 au risque  si

Test m through s Test : H0 : m = … = s = 0 (au niveau de la population) H1 : au moins m > 0 Statistique : Wilks’ Lambda = (1-m2)...(1-s2) Décision : On rejette H0 au risque  si

Corrélation intra-classes entre les X et les Z

Visualisation d’une corrélation intra-classes Z Z * * * * * * * * * * * * * Pluie Pluie Corrélation intra-classes négative Corrélation globale positive

Analyse discriminante bayesienne Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe La probabilité qu’une observation provienne de la classe « Y = h » sachant que « X = x = (x1,…, xp) » peut s’écrire : avec des fonctions de classification gh(x) de la forme : gh(x) = bh0 + bh1X1+ … + bhpXp où les X sont les variables d’origine.

Les fonctions de classification gh(x) Elles sont calculées ici en supposant les 3 qualités a priori équiprobables :

Calcul des probabilités de chaque qualité pour chaque année

Qualité de la prévision

Validité de la qualité de la prévision évaluée par Jack-knife

Prévision de la qualité pour une nouvelle année Pour le Bordeaux 1958 : - Température = 3 000 - Soleil = 1 100 - Chaleur = 20 - Pluie = 300 Prévoir sa qualité.

Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2 La prédiction de la qualité du vin à l’aide des territoires de qualité construits sur le plan discriminant (Z1, Z2) est équivalente à la prédiction de la qualité obtenue par analyse discriminante bayesienne des variables discriminantes (Z1, Z2).

Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2

Deuxième exemple : les races canines

Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

Analyse factorielle discriminante Y = Fonction X = variables indicatrices des caractéristiques physiques et psychiques des chiens

Premier plan discriminant 3 grand bleu de gascogne pointer dobermann levrier fox-hound epagneul français 2 setter basset 1 bull-mastiff mastiff epagneul breton terre-neuve dogue allemand labrador (chasse) boxer saint-bernard dalmatien (compagnie) berger allemand -1 colley beauceron fonction chihuahua pékinois utilité -2 caniche cocker teckel bull-dog chasse Z2 fox-terrier -3 compagnie -6 -4 -2 2 4 Z1

Variables discriminantes

Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z1, Z2)

Analyse discriminante bayesienne (sur les données d’origine transformées en indicatrices) Problème : Appliquer une méthode supposant la normalité sur des données binaires !!!!

Prévision de la fonction d’un chien

Prévision de la fonction d’un chien