Scoring Séance II.

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

Comparaison d’une moyenne observée à une moyenne théorique
Sélection de clientèle Plan du Cours
Analyse en composante indépendante
Les modèles à choix discrets
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
1 Séminaire de travail « Indicateur de croissance en France et/ou en zone euro : méthodologie et évaluation » 14 juin 2006 Indicator Models of Real GDP.
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Scoring Séance IV.
3. Analyse et estimation du mouvement dans la vidéo
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
Notions de variable aléatoire et de probabilité d’un événement
Programmes du cycle terminal
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Applications des statistiques
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Régression linéaire simple
Échantillonnage (STT-2000)
Groupe 1: Classes de même intervalle
Corrélation et régression linéaire simple
Mesurer la performance des entreprises de développement local Par Maxime Simoneau Juin 2002.
La corrélation et la régression
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Les Arbres de décision ou régression
Structure discriminante (analyse discriminante)
Objectifs Chapitre 8: Mesure en psychologie
Estimation de la valeur génétique du Pur-Sang Anglais en République Tchèque Franey Anne Frisée Vincent Vanloocke Denis.
La régression multiple
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Présentation de mémoire d’actuariat Présenté par Cédric ATCHAMA
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Module 8 : Surveillance des performances de SQL Server
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Comment mesurer les inégalités ?
Micro-intro aux stats.
Intervalles de confiance pour des proportions L’inférence statistique
Sériation et traitement de données archéologiques
Probabilités et Statistiques Année 2010/2011
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
TNS et Analyse Spectrale
Probabilités et Statistiques
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Rappel de statistiques
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
MODULE FTH 2007 Diversité génétique
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

Scoring Séance II

Rappel de la modélisation sur un exemple Y : variable dichotomique Bon/Mauvais avec un horizon à 24 mois X : variables explicatives (âge, revenu,…) Population d’estimation: crédits accordés de 2001 à 2004 Modélisation Logistique

Plan 1- Travail sur les variables : X et Y 2- Mesure de la qualité d’un score a-Courbe de performance et courbe de sélection b- Propriétés c- Comparaison de courbes de performance d- Courbe de discrimination 3- Performance pour un établissement de crédit

1- Travail sur les variables explicatives a- Découpages des variables quantitatives Objectif: - délinéariser Moyens: Transformation des variables quantitatives en variables dichotomiques Découpage selon des critères de risques (critère de variance, Belson, Qui-Deux)

1- Travail sur les variables explicatives a- Découpages des variables quantitatives

1- Travail sur les variables explicatives b- Regroupement des modalités des var. qualitatives Objectif: - Réduire le nombre de modalités des variables qualitatives afin de rendre l’estimation plus robuste Moyens: Selon une logique subjective: instituteur avec professeur Selon un taux de risque: si l’intervalle de confiance des taux de risques est faible Selon le profil selon toutes les autres variables

1- Travail sur les variables explicatives c- Sélection des variables à mettre dans le modèle Objectif: Mettre un minimum de variables dans le modèle afin de simplifier et de rendre le modèle plus robuste Moyens: Sélection Backward: Etape 1: estimation d’un modèle avec toutes les variables disponibles. Etape 2: calcul de la significativité de chaque variable. Etape 3: suppression des variables disponibles de la moins significative. Retour à l’étape 1 si un seuil de significativité n’est pas attend (5%, 1%,…) Sélection Foreward Etape 1: on estime tous les modèles à une variable en plus des variables imposées Etape 2: on calcul la performance de tous les modèles Etape 3: on impose en plus la variable qui donne le meilleure modèle Retour à l’étape 1 si un seuil de gain de performance est atteint (5%, 1%)

1- Travail sur les variables explicatives d- Sélection des croisements de variables Objectif: Trouver des liens non additifs Décorréler le modèle Moyens: Sélection subjective: Exemple: (Revenu-Charges) / (Nb de personnes dans le foyer) Exemple: Situation familiale et âge et nb d’enfants Recherche automatique Analyse du gain marginal de performance de chaque croisement par rapport au modèle avec les variables seules Analyse de la matrice de corrélation des variables explicatives entre elles.

2- Mesure de la qualité d’un score Rappel des objectifs: Classer les individus Discriminer les bons des mauvais Définir un seuil d’acceptation Arbitrer entre risques et volume

2- Mesure de la qualité d’un score a- Courbe de performance et courbe de sélection La courbe de performance du score S est définie par l’équation paramétrique: x(s)=P(S ≥ s) y(s)=P(Y=0/S ≥ s)/P(Y=0) On note y=p(x) l’équation implicite. y(s) représente la proportion relative de défaillants sélectionnés Courbe de sélection - x(s)=P(S ≥ s) y(s)=P(S ≥ s/Y=0) On note y=s(x) l’équation implicite y(s) représente la proportion conditionnelle de défaillants sélectionnés Rque: s(x)=P(S ≥ s/Y=0)=P(Y=0/S ≥ s)P(S ≥ s)/P(Y=0)=x p(x) La courbe de sélection est souvent préférée car plus interprétable.

2- Mesure de la qualité d’un score b- Propriétés Propriété 1: La courbe de sélection (resp. performance) est indépendante de la représentation retenue pour le score (ex: Xß, 1/(1+exp(Xß))) : Dém: soit h strictement croissante et S*=h(S). Alors la courbe de performance associée à S* a pour équation paramétrique: x*(s)=P(S* ≥ s)=x(h-1(s))=x(s*) y*(s)=y(h-1(s))=P(Y=0/S ≥h-1(s))P(Y=0)=y(s*) La courbe de sélection (resp. de performance) regarde la qualité du classement, elle est invariante par transformation bijective Autres propriétés de la courbe de sélection: La courbe est dans le carré [0,1] x [0,1] La courbe est croissante: plus bas est le seuil moins accepte de mauvais La courbe passe par (0,0): si on n’accepte personne, on n’accepte pas de mauvais La courbe passe par (1,1): si on accepte tout le monde, on accepte tous les mauvais

2- Mesure de la qualité d’un score b- Exemple 1-P(Y=0)

2- Mesure de la qualité d’un score c- Comparaison des Courbes de sélection Remarque: Les courbes de sélection dépendent à la fois du score S considéré, de la population sur laquelle on l’évalue et du critère Y. Application d’un score sur des populations différentes: Population de test et de construction Par génération de production Application de différents scores: Ancien et nouveau scores Selon le seuil de sélection des variables Selon les variables utilisées Application sur différents critères Y: Critère 3 incidents de paiements ou Critère contentieux (Cf. partie 3) Comparaison: Le score S* est plus performant sur la population Pop* que le score S^ sur la population Pop^ ssi la courbe de sélection de (S*,Pop*) est en dessous de (S^, Pop^). Remarque: Cette comparaison est une relation d’ordre partiel. Si les scores sont non comparables, il faut faire intervenir le seuil d’acceptation.

2- Mesure de la qualité d’un score c- Comparaison des Courbes de sélection

2- Mesure de la qualité d’un score d- Mesure synthétique de la performance Indice de Gini: C’est le rapport entre la qualité du score S mesurée comme la surface sous la bissectrice et la performance du score idéal. Gini= Surf1 / Surf2 1-P(Y=0) Surf 2 Surf 1 Surf 1 Surf 2 Surf 2 Surf 1 Surf 2 Surf 1 Surf 2 Surf 2 Surf 2 Surf 1 Surf 2 Surf 2

2- Mesure de la qualité d’un score d- Mesure synthétique de la performance Adéquation à la loi logistique: On calcule sur des intervalles de X ß: x= moyenne sur l’intervalle de (X ß) y= ln (P1 / (1-P1) ) avec P1=moyenne sur l’intervalle de P (Y=1/ X ß) Pour mémoire, on a posé: P(Y=1/ X ß) = 1/( 1+exp(-X ß) ) La courbe doit se rapprocher d’une droite.

2- Mesure de la qualité d’un score e- Courbes de Discrimination On regarde les lois conditionnelles des scores sachant les valeurs de Y: - f0(s) densité de S sachant Y=0 - G0(s) fonction de répartition de S sachant Y=0 - f1(s) densité de S sachant Y=1 - G1(s) fonction de répartition de S sachant Y=1 Courbe de discrimination: x(s)= G1(s) pourcentage de bon refusé y(s)= G0(s) pourcentage de mauvais refusé Un autre indice synthétique de performance: La statistique de Kolmogorov-Smirnov : KS=Max sur s de (G0(s) – G1(s)) Comparaison: un score (S*,Pop*) est plus discriminant qu’un score (S^, Pop^) ssi il se trouve au dessus. C’est une relation d’ordre partielle. Remarque: un score qui est plus discriminant qu’un autre est également plus performant.

2- Mesure de la qualité d’un score e- Courbes de Discrimination

3- Performance pour un établissement de Crédit En variant les critères de risque On estime sur les incidents lourds mais on vérifie la performance sur les contentieux et les pertes. L’estimation et la mesure de performance se font sur des critères différents car il faut un nb minimum de réalisations observées supérieure pour l’estimation. Nombre Latence d’observation Pertinence Incidents légers 1 mois de retard ++++ + Incidents lourds 3 mois de retard +++ ++ Contentieux Perte

3- Performance pour un établissement de Crédit En variant les critères marketing On estime sur les demandes de documentations mais on mesure la performance sur la prise de produit Nombre Pertinence Demande de Documentation ++ + Prise de produit

3- Performance pour un établissement de Crédit En variant les horizons d’observation Question: est ce que mon score est performant pour prévoir les risques proches et lointains? Mesure de performance sur des taux de mauvais à 1 an, 2 an, 3 an, 4 an,… En variant les générations Question: est ce que mon score est performant pour toutes les générations de production? Crédit produit en 2000, 2001, … 2005 Mesure de performance par génération de production Détection des effets produits, temporels, commerciaux

3- Performance pour un établissement de Crédit En variant les variables Question: est ce que je peux garder la même performance mais avec des variables plsu stables/robustes? Exemple: âge versus CSP. Mesure de performance en variant les variables explicatives