La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers

Présentations similaires


Présentation au sujet: "1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers"— Transcription de la présentation:

1 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers

2 2 Bibliographie Bardos: « Analyse discriminante », Dunod, 2001 Celeux, Nakache :« Analyse discriminante sur variables qualitatives» Polytechnica,1994 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles statistiques pour données qualitatives » Technip, 2005 Hastie, Tibshirani, Friedman : « The Elements of Statistical Learning », Springer-Verlag, 2001 Hosmer, Lemeshow : «Applied logistic regression», Wiley, 2000 Nakache, Confais: « Statistique explicative appliquée », Technip, 2003 Thomas, Edelman,Crook: « Credit scoring and its applications », SIAM, 2002

3 3 Plan nI Lanalyse discriminante II La régression logistique III Prédicteurs qualitatifs et scoring IV Comparaison

4 4 Objet détude Observations multidimensionnelles réparties en k groupes définis a priori. K=2 le plus souvent Exemples dapplication : Pronostic des infarctus (J.P. Nakache) 2 groupes : décès, survie (variables médicales) Iris de Fisher : 3 espèces : 4 variables (longueur et largeur des pétales et sépales) Risque des demandeurs de crédit 2 groupes : bons, mauvais (variables qualitatives) Autres : Publipostage, reclassement dans une typologie.

5 5 Quelques dates : Analyse discriminante Mahalanobis (crâniologie) 1927 Fisher(biométrie) 1936 Régression logistique Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie) 1973

6 6 1.Aspect géomètrique: -Réduction de dimension, axes et variables discriminantes. -Cas de 2 groupes. -Méthodes géométriques de classement. 2.AD probabiliste I : Lanalyse discriminante

7 7 Représentation des données n points dans p appartenant à k groupes.

8 8 Réduction de dimension. Recherche daxes et de variables discriminantes. Dispersion intergroupe et dispersion intra groupe. W = matrice variance intra W = 1/n n i V i B = matrice variance inter B = 1/n n i (g i - g) (g i - g) V = W + B variance totale V1V1 g1g1 V2V2 g2g2 VkVk gkgk

9 9 Axes discriminants : deux objectifs Dispersion intraclasse minimale : min uWu Dispersion interclasse maximale : max uBu u g2g2 gkgk g1g1

10 10 Simultanéité impossible Compromis :

11 11 ACP du nuage des g i avec : Métrique V -1 Métrique W -1 Mahalanobis

12 12 Nombre daxes discriminants ACP des groupes : dimension de lespace contenant les groupes g i Si n>p>k (cas usuel), k-1 axes discriminants Exemple célèbre : Iris de Fisher K = 3 Setosa, Versicolor, Virginica P=4 longueur pétale, longueur sépale, largeur pétale, largeur sépale n 1 =n 2 =n 3 =50 Donc deux axes

13 13 Iris setosaIris versicolorIris virginica

14 14

15 15

16 16 Cas de deux groupes g 1 et g 2 sont sur une une droite : 1 seul axe discriminant : RAPPEL : en ACPaxe a, facteur u = M a Combinaison discriminante proportionnelle à M (g 2 - g 1 ) = W -1 (g 2 - g 1 ) ou V -1 (g 2 - g 1 ) FONCTION DE FISHER : e a

17 17 Historique

18 18 Distance de MAHALANOBIS Distance au sens de la métrique W pour p=1 : 2.p quelconque : Standardisation de chaque composante x j Décorrélation... g1g1 DpDp g2g2

19 19 Équivalence régression

20 20 Équivalence régression MAIS : Modèle linéaire usuel non valide : en discriminante cest linverse que lon suppose :

21 21 Conséquences Pas de test, pas derreurs standard sur les coefficients MAIS possibilité dutiliser les méthodes de pas à pas en régression. Aussi une source de malentendus…

22 22 Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 1 2 SURVIE DECES DECES SURVIE DECES DECES SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE

23 23 FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA VARIABLES FONCTION REGRESSION TYPES STUDENT NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL CONSTANTE R2 = F = PROBA = D2 = T2 = PROBA = SPAD

24 24 Méthodes géométriques de classement Échantillon dapprentissage e observation de groupe inconnu e classé dans le groupe i tel que: d(e ; g i ) minimal g1g1 g2g2 g3g3 G1G1 G2G2 G3G3 e

25 25 pour deux groupes On classe dans G 1 si: Fonction de Fisher >c Score de Fisher:

26 26 Interprétation géométrique Projection sur la droite des centres avec la métrique W -1 Dualité axe-frontière plane frontière axe discriminant

27 27 Analyse discriminante probabiliste.

28 28 La règle bayésienne naïve dans le cadre normal

29 29 La règle bayésienne

30 30 Analyse discriminante probabiliste: cas de deux groupes

31 31 Fonction de score et probabilité Fonction de score S(x) : Règle :affecter au groupe 1 si S(x)>0 Probabilité dappartenance au groupe 1 :

32 32 Probabilité a posteriori

33 33 S(x) Probabilité derreur de classement de G2 en G1 : On classe en G1 si S(x)>0

34 34 Proc discrim SAS

35 35 II: La régression logistique II.1 Le modèle logistique simple II.2 Odds ratios II.3 Interprétation économètrique II.4 Estimation II.5 Tests

36 36 II.1 Le modèle logistique simple Réponse dichotomique : Y = 0 / 1 Variable explicative : X Objectif : Modéliser Le modèle linéaire (x) = x convient mal lorsque X est continue. Le modèle logistique est plus naturel (x) = Prob(Y = 1/X = x)

37 37 Le modèle logistique simple ou Fonction de lien : Logit

38 38 Il sagit bien dun probléme de régression: Modélisation de lespérance conditionnelle E(Y/X=x)=f(x) Choix de la forme logistique en épidémiologie: Sajuste bien Interprétation de 1 en termes dodds-ratio

39 39 II.2 Odds-Ratio Si X binaire (sujet exposé X=1, non exposé X=0)

40 40 Odds-Ratio Mesure lévolution du rapport des chances dapparition de lévénement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1. Formule générale:

41 41 II.3Interprétation économètrique Y possession dun bien durable par un ménage: manifestation visible dune variable latente Z inobservable continue. Z est l« intensité du désir » de posséder le bien Si Z

42 42 Modèle dutilité pour le ménage i de caractéristiques x i (âge, sexe, revenu, CSP...), la possession du bien procure un niveau dutilité U(1,x i ), la non possession U(0,x i ). Y i = 1 U(1,x i ) > U(0,x i ) Y i = 0 U(0,x i ) > U(1,x i ) Variable latente Z i = U(1,x i ) – U(0,x i ).

43 43 Modèle dutilité (suite) Z i = x i + i π i = P(Y i =1|x i )= P(Z i > 0)=P(x i > - i ) = F(x i ) F fonction de répartition de - i Choix de F: Logistique :modèle logit, régression logistique Normal: modèle probit

44 44 II.4 Estimation des paramètres Les données y i = 1 si caractère présent, 0 sinon Le modèle

45 45 Vraisemblance (conditionnelle!) Probabilité dobserver les données [(x 1,y 1 ), …, (x i,y i ), …, (x n,y n )]

46 46 maximum de vraisemblance maximisent Maximisation de la log-vraisemblance Estimateurs obtenus par des procédures numériques: pas dexpression analytique

47 47 Précision (asymptotique) des estimateurs La matrice est estimée par la matrice

48 48

49 49 Régression logistique multiple Généralisation à p variables explicatives X 1,…, X p.

50 50

51 51 II.5 Tests sur les paramètres Trois méthodes sont disponibles pour tester lapport de la variable X au modèle : 1.Le test de Wald 2.La méthode du rapport de vraisemblance 3.Le test du score

52 52 Test de Wald analogue à un test de Student en régression usuelle, si lon considère la statistique w définie par : représente lestimation de lécart-type de lestimateur de 1. Sous lhypothèse H 0, w 2 suit approximativement une loi du khi-deux à un degré de liberté. Rejet de H 0 si w 2

53 53 Test du rapport des vraisemblances Lapport de la variable X est mesuré à laide de la statistique : G = -2 log [ ] sous lhypothèse H 0 G suit asymptotiquement une loi du khi-deux à un degré de liberté. Vraisemblance sans la variable:

54 54 Test du score U vecteur des dérivées partielles de la log- vraisemblance estimées Le score suit également asymptotiquement sous H 0 une loi du khi-deux à un degré de liberté En régression logistique simple, le score est égal à nr 2, où r est le coefficient de corrélation linéaire (abusif!) entre Y et X

55 55 Comparaison des 3 tests

56 56 Tests Tests dabsence deffet de toutes les variables: H 0 : 1 = …… = p = 0 Rapport de vraisemblance G Score test U Sous H 0, suivent tous deux asymptotiquement une loi du 2 à p ddl

57 57 III Discrimination sur variables qualitatives et scoring

58 58 Un peu de (pré)histoire Fisher (1940) Un seul prédicteur Equations de lAFC « Scores » were introduced

59 59

60 60

61 61 Cas général p prédicteurs Quantification optimale: Donner des scores partiels aux catégories pour maximiser la distance de Mahalanobis dans R p Une analyse discriminante où les variables qualitatives sont remplacées par des indicatrices =X

62 62 X nest pas de plein rang: rank(X)= m i -p Solution classique: éliminer une indicatrice par prédicteur Disqual (Saporta, 1975): ADL effectuée sur une sélection de facteurs de lACM de X. Analogue de la régression sur composantes principales

63 63 DISQUAL 1 ère étape Analyse des correspondances du tableau des prédicteurs. k variables numériques : garder les coordonnées factorielles les plus discriminantes

64 64 2 ème étape : Analyse discriminante linéaire (Fisher). Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories Coefficients = grille de notation

65 65 Sélection des axes Selon lordre de lACM % dinertie Selon le pouvoir discriminant Student sur 2 groupes,F sur k groupes

66 66 Example assurance (SPAD) 1106 contrats automobile belges: 2 groupes: « 1 bons», « 2 mauvais » 9 prédicteurs: 20 catégories Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2)

67 67 ACM

68 68 ADL de Fisher sur les composantes FACTEURS CORRELATIONS COEFFICIENTS F F F F F F F F F F F CONSTANTE R2 = F = D2 = T2 = Score= 6.90 F F F F F F10

69 69 scores normalisés Echelle de 0 à 1000 Transformation linéaire du score et du seuil

70 70 Grille de score

71 71 Scoring et régression logistique Inclusion aisée de prédicteurs qualitatifs en introduisant m i -1 indicatrices Modalité omise= modalité de référence. Attention à linterprétation Standard de lindustrie bancaire (sauf Banque de France)

72 72

73 73 IV Comparaison logistique- discriminante Avantages proclamés de la logistique: Interprétabilité des coefficients (odds-ratios) Erreurs standard calculables Modélisation des probabilités Hypothèses plus générales quen AD gaussienne Maximum de vraisemblance au lieu de moindres carrés (régression linéaire de Y sur les X j ) Prise en charge facile des X qualitatifs (logiciels)

74 74 Mais: Erreurs standard asymptotiques, bootstrap en AD Non convergence en cas de séparation parfaite. Fisher existe toujours Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard LAD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)

75 75 Querelle largement idéologique (modélisation versus analyse des données) LAD est aussi un modèle, mais sur les lois des X/Y, la logistique sur les lois de Y/X En pratique différences peu nettes: fonctions de score souvent très proches « It is generally felt that logistic regression is a safer, more robust bet than the LDA model, relying on fewer assumptions. It is our experience that the models give very similar results, even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)

76 76 Variable N Mean Std Dev Sum Minimum Maximum scorfish scorlog scorfish scorlog scorfish scorlog

77 77 Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring Si lobjectif est de classer: On ne fait plus de la science mais de laide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en généralisation

78 78 Qualité dune règle de classement Tableau de classement : On classe des observations dont le groupe est connu : Pourcentage de bien classés : Taux derreur de classement :

79 79 Sur quel échantillon faire ce tableau ? Échantillon test dindividus supplémentaires. Si on reclasse léchantillon ayant servi à construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS surestimation du pourcentage de bien classés. Solutions pour des échantillons de petite taille : Validation croisée ou bootstrap

80 80 Seuil et probabilités a posteriori P(G1/x) dépend des probas a priori p 1 et p 2 Problèmes de léchantillonnage stratifié poser priors = en discrim ou pevent= en Logistic sinon probas a posteriori fausses seul le terme constant 0 est modifié: on ajoute ln(p 2 /p 1 ) Sans importance pour un score

81 81 Qualité dun score Quil soit obtenu par Fisher ou logistique: Comparaison des distributions du score sur les deux groupes fonctions de répartition

82 82 Courbe ROC Groupe à détecter G 1 : scores élevés Sensibilité 1- = P(S>s/G 1 ):% de vrais positifs Spécificité 1- =P(S

83 83 Courbe ROC

84 84 Courbe ROC Evolution de 1- puissance du test en fonction de, risque de première espèce lorsque le seuil varie Proportion de vrais positifs en fonction de la proportion de faux positifs Un site:

85 85 Courbe ROC invariante pour toute transformation monotone croissante Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles On tire une obs de G 1 et une de G 2 AUC estimée par la proportion de paires concordantes n c statistique de Wilcoxon-Mann-Whitney U+W= n 1 n n 1 (n 1 +1) AUC=U/n 1 n 2

86 86 Association des probabilités prédites et des réponses observées Pairs 2550 Percent Concordant 94.3 Percent Discordant 5.7 Percent Tied 0.0 Somers' D Gamma Tau-a c Exemple infarctus proc logistic

87 87 Infarctus: comparaison Fisher et logistique

88 88 Assurance

89 89

90 90 Lift chart % of the target

91 91 Surface sous la courbe de lift Proportion des unités ayant un score>s Surface:

92 92 Coefficient Ki (Kxen) Ki=(aire entre courbe lift et diagonale) / (aire entre courbe lift et courbe idéale) Ki=Somers D ou Accuracy Ratio AR

93 93 Optimiser AUC ou Ki: mêmes résultats. Ne prend pas en compte les coûts Ne pas comparer sur données dapprentissage…

94 94 Les 3 échantillons Apprentissage: pour estimer les paramètres des modèles Test : pour choisir le meilleur modèle Validation : pour estimer la performance sur des données futures Nécessité de faire plusieurs tirages Modèle final: avec toutes les observations

95 95 Conclusion ADL et régression logistique: fondements également solides mais différents Un faux débat sil sagit seulement de prédire. Convergence des pratiques : validation en logistique Courbe ROC en discriminante Prudence quand on calcule des probabilités: Vraies probas ou simples scores


Télécharger ppt "1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers"

Présentations similaires


Annonces Google