Sélection de clientèle Plan du Cours Enjeux, Modélisation C. Cattelan Mesure de performance, construction des variables C. Cattelan Biais, Modèles de Durée V. Mouveroux Utilisation à l’acceptation C. Cattelan Utilisation Bâle II et Marketing V. Mouveroux Veille Technologique V. Mouveroux Examen Cyrille Cattelan: cyrille.cattelan@groupe-eurofactor.com, 0672148294 Vincent Mouveroux: vmouveroux@sofinco.fr, 0614434247
Séance 1 La sélection de clientèle Modélisation Problématique du Crédit Scoring Autres problématiques Modélisation Critère endogène qualitatif Population d’estimation Modèles économétriques à variable latente (logit, probit) Analyse discriminante Modèle de durée Comparaison des approches Autres modèles Segmentation Réseau de neurones
1.1 Problématique du crédit scoring Octroi de crédit: un demandeur de crédit demande un financement à un organisme préteur Question de l’organisme: est ce que l’emprunteur va rembourser son crédit? L’organisme a besoin d’évaluer le risque de défaillance de l’emprunteur Le risque est le facteur critique de la rentabilité d’un établissement de crédit Exemple; marge de 1%, perte de 100% si défaillance, p=probabilité de défaillance Gain= 1% x (100-p)-100% x p => Gain > 0 si p < 100/101 < 1% Un arbitrage entre: perte de marge et prendre du risque Le crédit est un produit dont le coût unitaire est inconnu (à cause de l’évaluation du risque) => prévision du risque à partir des caractéristiques de l’emprunteur pour évaluer ce coût Un score: l’outil de prévision de ce risque et donc de décision d’attribution du crédit : Oui/ non; tarification différenciée Dissocier la partir commerciale du risque Obtenir une politique d’octroi Nationale et homogène Former et aider les forces commerciales
Exemple: Score d’octroi ACCEPTE Exemple: Score d’octroi SI note > barre barre de score demande d’information calcul du score note de score Client SI note < barre 20 ans +3 Médecin +5 Célibataire 0 Locataire 0 Note de score : +8 probabilité d’être un bon payeur risque limite Base de données d’octroi stockage REFUSE Un score est un système de points Un score est un classement Points clés: Un score est un classement obtenu en sommant des points Le score d’octroi évalue le risque de non-paiement de toute demande Permet: un arbitrage entre volume de production et risque engrangé de choisir et contrôler son niveau de risque de prévoir son niveau de risque et de tarifer en conséquence d’augmenter la productivité
1.1 Problématique du crédit scoring Client au contentieux Client qui rembourse bien Idée du score: + Taux d’endettement Score +8 +6 +3 +1 Note de score = 2 + 3x taux - 0.05 x âge - + Age -
1.1 Problématique du crédit scoring Idée du score: Prévoir le risque en fonction des caractéristiques de l’individu X1,… Xp(signalétique, produit acheté,…) A chaque variable on associe une note La somme des notes donnent le score de l’individu S(X1,…, Xp)=Somme (Si(Xi)) pour i de 1 à p => modèle additif Recherche des variables discriminantes et des croisements discriminants Analyse des corrélations entre risque et Xi Inférence sur le passé
1.1 Problématique du crédit scoring Types de variables disponibles: Par domaine : signalétique, produit, risque Par origine: déclaratif client, comportement observé, fichiers externes Les variables disponibles dépendent: Du type de client (particulier, entreprise,…) Du type de relation (prospect, client,…) Du type d’emprunt (immobilier, crédit consommation,…) Du type de distribution (Octroi, Pre-acceptation,…) Les catégories les plus fréquentes: Mesure de solvabilité (revenu, CSP…) Mesure de stabilité (ancienneté dans l’emploi, enfants,…) Comportement passé (bon-mauvais payeurs, épargnants,..) Déclaratif
1.1 Problématique du crédit scoring Exemple octroi crédit consommation prospects: Revenu, charges, conjoint, CSP, propriétaire, locataire Situation familiale, enfants, age, ancienneté dans l’emploi, dans la banque Fichage risque Prise d’assurance, ,… Exemple pre-acceptation crédit consommation: Flux créditeurs, flux débiteurs, épargne acquise, CSP Situation familiale, ancienneté de la relation Fichage risque, qualité de la relation passée (nombre d’impayés,…), crédit passé
1.1 Problématique du crédit scoring Exemple: crédit immobilier (proche crédit auto) Variables emprunteurs (Cf. crédit consommation) Apport personnel (capacité à épargner, risque sur l’hypothèque) Nature du bien: valeur du bien, neuf ou ancien, immeuble ou maison, nombre de pièces,… Impact sur la revente en cas de défaut Exemple: crédit aux entreprises Variable du dirigeant Bilan et ratio financiers Type d’utilisation du crédit (matériel, trésorerie,…) Secteur d’activité POINT CLE: la collecte est la sauvegarde des données fiables
1.2 Autres domaines d’applications Marketing: Ciblage clientèle pour Mailing - phoning Tatouage agence Prévision des remboursements anticipés – fermeture de produit Risque: Optimisation de la gestion contentieuse Evaluation de la qualité d’un encours => de nombreuses autres utilisations
1.2 Autres domaines d’applications Exemple: Score de réponse Assurance vie Répondant au premier mailing MAILING Construction du score S pour prévoir la réponse au premier mailing : classement Envoi du premier Mailing assurance vie Mesure de la performance du score Ré-estimation éventuelle du score Envoi du second mailing Application du score S puis sélection pour second mailing (+ témoins ) MAILING Témoins Points clés: Outils pour des clients ou des prospects Hypothèse faite: les personnes qui ont des caractéristiques proches des personnes qui ont répondu au mailing sont plus appétents à ce mailing. Besoin de mailing préalable Outil le plus performant Outil améliorable
1.2 Autres domaines d’applications ENVOI D’UN COURRIER 2 mensualités de retard Client accepté note = probabilité de payer le retard si note > barre score de comportement recouvrement si note < barre âge ancienneté emploi apport personnel ... durée depuis l’octroi retard maximum atteint durée depuis dernier impayé remboursement anticipé partiel Base de données d’octroi APPEL TELEPHONIQUE Base de données de comportement
2.1 Critère endogène qualitatif On cherche à prévoir une caractéristique qualitative dichotomique Y : Remboursement (Y=1) / contentieux (perte) (Y=0) Remarque: utilisation d’indicateurs avancés (3 mois de retard,..) Vie / dépôt de bilan Achète un produit / n’achète pas un produit* … Un score: étude de la loi (X1,…,Xp, Y) La règle d’attribution d’un crédit A( ) sur la base des caractéristiques X1,.. Xp doit permettre de maximiser le profit de l’établissement prêteur A(X) = 1: Client accepté A(X) = 0 : Client refusé Coût: C0 : accepter un client non solvable A(X)=1 et Y=0 C1 : refuser un bon client A(X)=0 et Y=1 Gain: G : accepter un bon client A(X)=1 et Y=1
2.1 Critère endogène qualitatif Hypothèse: on suppose les coûts et gains indépendants de X La régle d’octroi A ( ) est optimale pour A qui maximise: G(A) = - C0 x P[A(X)=1 et Y=0] - C1 x P[A(X)=0 et Y=1] + G x P[A(X)=1 et Y=1] Posons les lois f(x/Y=0) et f(x/Y=1) Rappel: P(Y=1/X=x) = P(Y=1) x f(x/Y=1) / f(x) On obtient: A = { x tel que (f(x/Y=1)/f(x/Y=0)) > C0 x P(Y=0) / (C1+G) / P(Y=1) } A = { x tel que P[Y=1/X=x] > C0 / (C0+C1+G) } Conclusion: deux approches Discrimination : évaluation de f(x/Y=1)/f(x/Y=0) Prévision: évaluation de P[Y=1/X=x] Note de scores équivalentes à une fonction croissante près Remarque: les modèles de durée ont une autre approche
2.2 Population d’estimation Les demandeurs de crédit des années passées Avec toutes les données clients (instruction, données comportementales,…) Avec l’observation passée de Y (risque) Population représentative et homogène Choix d’un horizon (sauf modèle de durée) Au final: Y: bon ou mauvais payeurs X: caractéristiques clients Objectifs de prévision: f(x/Y=1)/f(x/Y=0) ou P[Y=1/X=x] Données: X et Y sur une population représentative => modélisation
2.3 Modèle économétrique à variable latente Principe: Il existe une variable latente Y* non observable tel que: Y= 1 si Y*>= 0 Y= 0 si Y*< 0 Interprétation: Y* représente le niveau de risque du client Modélisation probit: Y*=X+u avec u~>N(0,1) Logit: Y*=X+u avec u~> logit [proche d’une loi normale] On exprime P[Y=1/X=x] sous forme paramétrée: P[Y=1/X=x; ] = P[Y*>=0/X=x; ]=P[X +u>0]=P[X >-u]=F(X ) Loi probit: P[Y=1/X=x; ]= (X ) => estimation de Loi logit: P[Y=1/X=x; ]= 1/(1+exp(- X )) => estimation de Remarque, on travaille sur X qui est linéaire en X: En pratique on utilise X ou des transformées de X: X2, log(X), découpage en morceau ,…
2.3 Analyse discriminante Modélisation de f(x/y) avec une classe de loi de paramètre pour prévoir f(x/Y=1)/f(x/Y=0) On pose: f(x/y=1; )=f1(x; ) loi de X des bons clients f(x/y=0; )=f0(x; ) loi de X des mauvais clients On observe les écarts entre les deux distributions, on estime et on prendra comme score: f1(x; )/f0(x; ) En pratique: analyse de données linéaires X quantitatives suivant une loi multinormale f1(x; )~> N(m1,1) et f0(x; )~> N(m0,0) On fait l’hypothèse que 1= 0 = Alors: f1(x; )/f0(x; ) = exp (-1/2 [2(m0-m1) X + constante]) C’est une forme linéaire en X Remarque: hypothèse forte sur la normalité de x (transformation de x en g(x) parfois)
2.4 Modèle de durée Logique très différente (séance 3) Modèle de durée semi-paramétrique à hasard proportionnel h(x,t)=h0(t) Exp(- X ) Note de score X Hasard de base: h0(t) Utile si: Peu de données (car on ne prend plus d’horizon) Impact du temps fort (crédits longs, mélange de génération de crédit d’ancienneté très différentes,…) Dans ce cas: Évite les biais de population Permet d’utiliser toutes les données
2.5 Comparaison des approches L’analyse discriminante est un sous-modèle du modèle logit dans lequel on a fixé f normale et de même variance => préférence pour le modèle logit Modèle de durée: ne permet pas de calculer la probabilité de survenance P[Y=1/X=x] (sauf modélisation complémentaire) plus complexe et moins facile à interpréter (semi-paramétrique, gestion des censures, horizon) permet d’éviter les biais de population et d’utiliser toutes les données quand il y en a peu
2.6 Autres modèles Segmentation Réseau de Neurones … Méthodes Cart, Chaid A chaque étape, on cherche la variable qui coupe une population en 2 sous-populations de niveaux de risque très différents Critères: variance interclasse,… En pratique: peu robuste, difficulté à prendre en compte de nombreuses variables, utile pour une première phase descriptive Réseau de Neurones En pratique: boîte noire peu interprétable et maîtrisable, pas plus performant sauf sur quelques problématiques …