La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Scoring Séance II. Rappel de la modélisation sur un exemple -Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois -X : variables explicatives.

Présentations similaires


Présentation au sujet: "Scoring Séance II. Rappel de la modélisation sur un exemple -Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois -X : variables explicatives."— Transcription de la présentation:

1 Scoring Séance II

2 Rappel de la modélisation sur un exemple -Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois -X : variables explicatives (âge, revenu,…) -Population destimation: crédits accordés de 2001 à Modélisation Logistique

3 Plan 1- Travail sur les variables : X et Y 2- Mesure de la qualité dun score a-Courbe de performance et courbe de sélection b- Propriétés c- Comparaison de courbes de performance d- Courbe de discrimination 3- Performance pour un établissement de crédit

4 1- Travail sur les variables explicatives a- Découpages des variables quantitatives Objectif: - délinéariser Moyens: -Transformation des variables quantitatives en variables dichotomiques -Découpage selon des critères de risques (critère de variance, Belson, Qui-Deux)

5 1- Travail sur les variables explicatives a- Découpages des variables quantitatives

6 1- Travail sur les variables explicatives b- Regroupement des modalités des var. qualitatives Objectif: - Réduire le nombre de modalités des variables qualitatives afin de rendre lestimation plus robuste Moyens: -Selon une logique subjective: instituteur avec professeur -Selon un taux de risque: si lintervalle de confiance des taux de risques est faible -Selon le profil selon toutes les autres variables

7 1- Travail sur les variables explicatives c- Sélection des variables à mettre dans le modèle Objectif: -Mettre un minimum de variables dans le modèle afin de simplifier et de rendre le modèle plus robuste Moyens: -Sélection Backward: -Etape 1: estimation dun modèle avec toutes les variables disponibles. -Etape 2: calcul de la significativité de chaque variable. -Etape 3: suppression des variables disponibles de la moins significative. Retour à létape 1 si un seuil de significativité nest pas attend (5%, 1%,…) -Sélection Foreward -Etape 1: on estime tous les modèles à une variable en plus des variables imposées -Etape 2: on calcul la performance de tous les modèles -Etape 3: on impose en plus la variable qui donne le meilleure modèle Retour à létape 1 si un seuil de gain de performance est atteint (5%, 1%)

8 1- Travail sur les variables explicatives d- Sélection des croisements de variables Objectif: -Trouver des liens non additifs -Décorréler le modèle Moyens: -Sélection subjective: -Exemple: (Revenu-Charges) / (Nb de personnes dans le foyer) -Exemple: Situation familiale et âge et nb denfants -Recherche automatique -Analyse du gain marginal de performance de chaque croisement par rapport au modèle avec les variables seules -Analyse de la matrice de corrélation des variables explicatives entre elles.

9 2- Mesure de la qualité dun score Rappel des objectifs: -Classer les individus -Discriminer les bons des mauvais -Définir un seuil dacceptation -Arbitrer entre risques et volume

10 2- Mesure de la qualité dun score a- Courbe de performance et courbe de sélection Courbe de performance: La courbe de performance du score S est définie par léquation paramétrique: -x(s)=P(S s) -y(s)=P(Y=0/S s)/P(Y=0) On note y= p (x) léquation implicite. y(s) représente la proportion relative de défaillants sélectionnés Courbe de sélection - x(s)=P(S s) -y(s)=P(S s/Y=0) On note y= s (x) léquation implicite y(s) représente la proportion conditionnelle de défaillants sélectionnés Rque: s (x)=P(S s/Y=0)=P(Y=0/S s)P(S s)/P(Y=0)=x p (x) La courbe de sélection est souvent préférée car plus interprétable.

11 2- Mesure de la qualité dun score b- Propriétés Propriété 1: La courbe de sélection (resp. performance) est indépendante de la représentation retenue pour le score (ex: Xß, 1/(1+exp(Xß))) : Dém: soit h strictement croissante et S*=h(S). Alors la courbe de performance associée à S* a pour équation paramétrique: -x*(s)=P(S* s)=x(h -1 (s))=x(s*) -y*(s)=y(h -1 (s))=P(Y=0/S h -1 (s))P(Y=0)=y(s*) La courbe de sélection (resp. de performance) regarde la qualité du classement, elle est invariante par transformation bijective Autres propriétés de la courbe de sélection: -La courbe est dans le carré [0,1] x [0,1] -La courbe est croissante: plus bas est le seuil moins accepte de mauvais -La courbe passe par (0,0): si on naccepte personne, on naccepte pas de mauvais -La courbe passe par (1,1): si on accepte tout le monde, on accepte tous les mauvais

12 2- Mesure de la qualité dun score b- Exemple 1-P(Y=0)

13 2- Mesure de la qualité dun score c- Comparaison des Courbes de sélection Remarque: Les courbes de sélection dépendent à la fois du score S considéré, de la population sur laquelle on lévalue et du critère Y. -Application dun score sur des populations différentes: -Population de test et de construction -Par génération de production -Application de différents scores: -Ancien et nouveau scores -Selon le seuil de sélection des variables -Selon les variables utilisées -Application sur différents critères Y: -Critère 3 incidents de paiements ou Critère contentieux (Cf. partie 3) Comparaison: Le score S* est plus performant sur la population Pop* que le score S^ sur la population Pop^ ssi la courbe de sélection de (S*,Pop*) est en dessous de (S^, Pop^). Remarque: Cette comparaison est une relation dordre partiel. Si les scores sont non comparables, il faut faire intervenir le seuil dacceptation.

14 2- Mesure de la qualité dun score c- Comparaison des Courbes de sélection

15 2- Mesure de la qualité dun score d- Mesure synthétique de la performance Indice de Gini: Cest le rapport entre la qualité du score S mesurée comme la surface sous la bissectrice et la performance du score idéal. Gini= Surf1 / Surf2 1-P(Y=0)

16 2- Mesure de la qualité dun score d- Mesure synthétique de la performance Adéquation à la loi logistique: On calcule sur des intervalles de X ß: x= moyenne sur lintervalle de (X ß) y= ln (P1 / (1-P1) ) avec P1=moyenne sur lintervalle de P (Y=1/ X ß) Pour mémoire, on a posé: P(Y=1/ X ß) = 1/( 1+exp(-X ß) ) La courbe doit se rapprocher dune droite.

17 2- Mesure de la qualité dun score e- Courbes de Discrimination On regarde les lois conditionnelles des scores sachant les valeurs de Y: - f0(s) densité de S sachant Y=0 - G0(s) fonction de répartition de S sachant Y=0 - f1(s) densité de S sachant Y=1 - G1(s) fonction de répartition de S sachant Y=1 Courbe de discrimination: -x(s)= G1(s) pourcentage de bon refusé -y(s)= G0(s) pourcentage de mauvais refusé Un autre indice synthétique de performance: La statistique de Kolmogorov-Smirnov : KS=Max sur s de (G0(s) – G1(s)) Comparaison: un score (S*,Pop*) est plus discriminant quun score (S^, Pop^) ssi il se trouve au dessus. Cest une relation dordre partielle. Remarque: un score qui est plus discriminant quun autre est également plus performant.

18 2- Mesure de la qualité dun score e- Courbes de Discrimination

19 3- Performance pour un établissement de Crédit En variant les critères de risque On estime sur les incidents lourds mais on vérifie la performance sur les contentieux et les pertes. Lestimation et la mesure de performance se font sur des critères différents car il faut un nb minimum de réalisations observées supérieure pour lestimation. NombreLatence dobservation Pertinence Incidents légers 1 mois de retard Incidents lourds 3 mois de retard Contentieux Perte

20 3- Performance pour un établissement de Crédit En variant les critères marketing On estime sur les demandes de documentations mais on mesure la performance sur la prise de produit NombrePertinence Demande de Documentation +++ Prise de produit +++

21 3- Performance pour un établissement de Crédit En variant les horizons dobservation Question: est ce que mon score est performant pour prévoir les risques proches et lointains? Mesure de performance sur des taux de mauvais à 1 an, 2 an, 3 an, 4 an,… En variant les générations Question: est ce que mon score est performant pour toutes les générations de production? Crédit produit en 2000, 2001, … 2005 Mesure de performance par génération de production Détection des effets produits, temporels, commerciaux

22 3- Performance pour un établissement de Crédit En variant les variables Question: est ce que je peux garder la même performance mais avec des variables plsu stables/robustes? Exemple: âge versus CSP. Mesure de performance en variant les variables explicatives


Télécharger ppt "Scoring Séance II. Rappel de la modélisation sur un exemple -Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois -X : variables explicatives."

Présentations similaires


Annonces Google