UV207 Marketing Direct 12. Data-Mining & Scoring.

Name: UV207 Marketing Direct 12. Data-Mining & Scoring.
Uploaded: 2017-12-18T15:41:20+00:00
Duration: PTM20S30
Channel: Yasmine Vigouroux
Description: UV207 Marketing Direct 12. Data-Mining & Scoring.

UV207 Marketing Direct 12. Data-Mining & Scoring

Le Data Mining Objectif du ciblage en MD : hiérarchiser les individus afin de sélectionner ceux qui ont le meilleur potentiel Réduction des coûts Amélioration ROI Vente plus facile (appétence identifiée) => élaboration d’offres pertinentes Réponses immédiates à des demandes (crédit, assurance,…) à partir de scores Méthode : attribuer à chaque adresse cible une note reliée à une probabilité => Sélectionner un sous ensemble du fichier permettant de maximiser un objectif => Datamining : ensemble des algorithmes et méthodes permettant exploration et analyse de grandes BDD informatiques, sans a priori, En vue de détecter dans ces données des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision » Pour constituer des groupes d’individus ; rechercher une relation de dépendance entre VI et VD. S. Stufféry, enseignant datamineur,

Loi des 20/80 20% des clients, 80% du CA et 200% du bénéfice !
Bien sûr, le CA augmente toujours Mais les coûts augmentent plus vite ! Le profit dégagé sur les clients les plus rentables est perdu sur les derniers Résultat par classe et cumulé

Trois grandes familles de méthodes
Visualisation/ description : compréhension synthétique de l’ensemble des données Classification et structuration : techniques de classification automatique (typologies, réseaux de neurones…) Explication et prédiction de type scoring : relier un phénomène à expliquer à un phénomène explicatif pour extraire des modèles de classement ou de prédiction (arbre de décision, régressions, analyse discriminante…) Trouver une fonction f(X1, …, Xp) permettant de prédire Y

Visualisation / description
Objectif : compréhension synthétique des données Moyens : Statistiques élémentaires (moyenne, médiane, min/max, écart-type, etc) Nuages de point des observations Histogrammes (données en groupes de classes) Tris croisés / tableau de contingence

Classification / structuration
Objectif : former des groupes Moyens : Segmentation typologique des clients Réseau neurones : chaque neurone se spécialise pour représenter un groupe de clients selon les points communs qui les rassemblent. La carte permet de diviser en zones. Le réseau de neurones permet d’attribuer à chacun des objets une probabilité d’appartenance à une classe. (ex: ADN)

Prédiction de type Scoring
Objectifs : trier les individus en fonction d’une probabilité de comportement => anticiper afin de cibler ses actions MD Moyen : attribuer une note (score) à chaque client afin de prédire sa probabilité d’avoir un certain comportement Ce qu’on cherche à faire : prédire la probabilité d’un comportement (départ ou non, achat ou non, envoi d’un bon de commande ou non, réponse favorable à une sollicitation commerciale ou non, défaut de paiement ou non, etc.) Moyen : fonction mathématique (régression logistique, arbre de décision, etc.) qui prédit cette probabilité en fonction de certaines caractéristiques ou variables indépendantes S = F (X1, X2, … ,Xi) Avec S = score ou note attribuée au client F = fonction du score Xi = caractéristiques des clients

Prédiction Fonctions permettant de trier les individus Z–score
Arbre de décision Régressions

Test du Chi2 : existence d’une association entre 2 variables nominales
Calcul : somme des écarts pondérés entre les effectifs théoriques et les effectifs réels de chaque case Chi2 case = (observé-théorique)2 / théorique Chi2 tableau = Somme des Chi2 case On rejette l’hypothèse H0 (non relation entre les variables) si Chi2 est supérieur à la valeur critique associée au risque d’erreur accepté (habituel 5%) avec ddl= (nb colonnes-1)*(nb lignes-1) Plus l’écart entre l’effectif théorique et l’effectif réel est important plus la relation est forte (ne résulte pas du hasard) Effectifs théoriques d’une case : effectif total multiplié par la fréquence de la ligne et la fréquence de la colonne Lecture dans la table du Chi2 critique À 5% (ddl, Chi2) = (1, 3.84) (2, 5.99)…(4, 9.49) Ou calcul du risque associé au chi2 calculé (si petit risque, rejet de H0) Une relation existe si Chi2 calculé > Chi2 critique

Illustration Chi2 Exemple « modalité : Homme/femme »
Sur adresses (N), on observe 909 réponses (b). modalité « femme » de la variable X1 = effectif de 7074 (n), soit 70% modalité « femme » = 491 réponses (x) Chi2 case = (observé-théorique)2 / théorique Chi2 tableau = Somme des Chi2 case

Le Chi2 a deux limites importantes
Limite 1 : Il dépend de la structure du tableau ne pas comparer des tableaux de tailles différentes avec un Chi2 Coefficient de Tschuprow T = Chi2/(n*racine[ddl]) Coefficient V de Cramer V = racine (T) Limite 2 : Il dépend des effectifs + l’échantillon est important, + les relations sont significatives Coefficient de contingence C = racine [Chi2/(n+Chi2)] Phi de Pearson = Phi = Chi2/ n (tableau 2x2 seulement) Selon les effectifs, le chi2 est significatif ou non. Plus les effectifs sont élevés, plus il est significatif. Les autres coefficients ne changent pas de valeur

CHAID CHi-squared Automatic Interaction Detector
Problématique : constituer des groupes pour lesquels les valeurs de Y sont Aussi semblables que possible à l'intérieur des groupes (minimiser variance intra groupe) et Aussi dissemblables entre les groupes (maximiser variance inter groupes) Principe : recherche itérative du meilleur découpage parmi les découpages possibles (en utilisant le chi2) Intérêt de la méthode : Adaptée à tous types de variables Simple et rapide Pertinence managériale : sélection des variables pertinentes (test de Chi2) mais discrétisation manuelle possible facilement transformation en règles de décision simple Mais : les variables explicatives peuvent être corrélées; pas de méthode formelle pour l’arrêt de l’arborescence

Exemple d’un arbre

Z-score (binomial) Principe :
on classe les variables selon la sur-représentation des acheteurs dans ce groupe. Plus la valeur de Z est élevée en valeur absolue, plus la modalité est associé au comportement Pour chaque modalité de la variable étudiée Z score = [x – b*p] / Racine[ b*p*(1-p)] x = nombre de réponses pour cette modalité b = nombre total de réponses pour cette modalité p = fréquence observée sur toute la population (n/N) Exemple « modalité : Homme/Femme » sur adresses (N), on observe 909 réponses (b). la modalité « femme » a un effectif de 7074 (n), soit 70% Pour la modalité « femme » on observe 491 réponses (x) alors qu’on aurait dû observer 643 réponses (p*b=70%*909). Dénominateur : racine [7074*0,0909*(1-0,0909)]= 18,1 La valeur de Z = 40,0 / 18,1 = – 2,21

Illustration Z-Score

Autres méthodes classiques
Régression linéaire Maximiser le pourcentage de la variance de Y expliqué par les variables du modèle => qualité de l’ajustement : R² Vérification Distribution normale : test t Régression logistique Dans le cas où la variable prédite est dichotomique, la spécification d’un modèle linéaire est incorrect On cherche à spécifier la probabilité d’apparition d’un événement Prévisions de Y comprises entre 0 et 1 et interprétables comme des probabilités d’occurrence d’un événement sachant les Xi =>La régression logistique permet d’étudier la relation entre une variable réponse binaire [0,1] : succès/ échec et plusieurs variables explicatives relation NON linéaire

Illustration Logistique
Ln(p/(1-p)) où p=%acheteurs dans le segment

Qualité de l’affectation des individus
A partir d’un score seuil « S », un modèle de scoring classe selon le groupe prévu Si score(i) >S alors i appartient au groupe « positif » Mais plus on cherche à bien classer les « positifs »…. plus on y ajoute de « faux positifs » (prévu positif, mais négatif) La qualité de l’affectation est déterminée par 2 indicateurs Sensibilité (a) Spécificité (b) On cherche S tel qu’il Maximise (a) (vrais positifs) Minimise (1- b) (faux positifs) Positif Négatif Prévu Positif a (1- b) Prévu Négatif (1-a) b

Qualité de l’affectation des individus
Matrice de confusion : Estimé x Réel Exemple: On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam. Ainsi, la matrice se lit comme suit : sur les 98 courriels que le système a estimé comme normaux, 3 sont en fait du spam ; sur les 102 courriels que le système a estimé comme spam, 5 sont en fait des courriels normaux.

Evaluer la qualité du ciblage Courbe ROC (receiver operating characteristic)
Utilisation de la courbe de ROC Sensibilité : taux de vrais positifs (1-Spécificité) : taux de faux positifs Taux de classification correcte (vrais positifs) en fonction du nombre de classifications incorrectes (faux positifs). la courbe doit être au-dessus de la première diagonale aléatoire (x = y). L’aire sous la courbe permet de comparer les modèles AUC : « c statistic » dans la table « prévu-réel » ou dans le graphique ROC

Evaluer la qualité du ciblage Courbe de Lift (ou de Pareto)
La courbe met en regard : le % des acheteurs, pour les individus rangés en classe d’effectifs égaux par ordre décroissant de probabilité d’achat, au pourcentage obtenu à partir d’un classement aléatoire (ligne diagonale) Lecture de la courbe: En prenant 30% du fichier on a 50% des acheteurs L’effet de levier ou « lift » est le rapport = 50% / 30% = 1.66 (amélioration vs aléatoire) L’aire sous la courbe (AUL) Area Under the Line illustre l’efficacité du scoring % des acheteurs hasard AUL % du fichier

Démarche du SCORING

5 étapes clé Extraction d’un échantillon
Travail (ou test) : à partir duquel les méthodes sont définies Validation : sur lequel les méthodes sont validées 2. Envoi de la campagne => stockage des comportements 3. Modélisation des comportements => fonction de score = f (x1, x2, …) 4. Analyse de la performance du scoring Vérification de la performance (minimiser les erreurs) via une des 3 principales méthodes (matrice de confusion, courbe de Lift, courbe de ROC) Vérification de la facilité d’utilisation (méthode compréhensible et rapide à mettre en œuvre) 5. “Scoring” de l’ensemble de la base Classement des individus selon un score Le futur proche ressemble au passé récent. Analyses préliminaires : 80% du temps - variables explicatives (tests) - recodage des variables, césures (on s’aide d’histogrammes) 70% pour l’échantillon d’apprentissage 30% pour l’échantillon de validation

Adapté de R. RAKOTOMALALA
Courbe ROC BDD de clients 2.000 clients sollicités au hasard 100 ont répondu favorablement (RR=5%) Fonction de score S(R)=(X) Echantillon de validation Echantillon d’apprentissage Si la prévision est satisfaisante : 1/ appliquer la fonction score sur le reste de la BDD 2/ trier la BDD selon le score 3/ cibler en priorité les clients à fort score 4/ prévoir la performance du ciblage grâce à la courbe ROC Matrice de confusion

Pour évaluer la qualité du score : la matrice de confusion

Pour évaluer la qualité du ciblage : la courbe ROC (Receiver Operating Characteristics)
Noms Enfants Salaires Retour Score Prvision % cible cumule % + retrouvs Natalia 2 1408 positif 0,98 + 4 6,67 Jose 1810 0,97 8 13,33 Jean 5 1800 0,96 12 20,00 Constance 1550 0,95 16 26,67 Nicolas 1 1561 0,94 20 33,33 Paul Ren 1660 0,92 24 40,00 Elizabeth 1402 négatif 0,91 28 Indre 862 0,9 32 46,67 Maria 1914 0,87 36 53,33 Barthelemy 1425 0,86 40 60,00 Adriana 1318 0,84 44 Louis 981 0,82 48 66,67 Delphine 2900 0,81 52 73,33 Guillaume 5400 0,79 56 80,00 Mathieu 2324 0,2 - 60 Thimote 0,19 64 86,67 Juliette 0,15 68 93,33 Elise 1294 0,13 72 Marie 0,1 76 Stphanie 1770 0,09 80 Marcela 1863 0,08 84 Tiphaine 0,06 88 Sandra 892 0,05 92 100,00 Eleni 2214 0,03 96 Cyndi 2021 0,01 100 25 adresses 15 retours positifs Sur la bissectrice : je touche 20% des acheteurs du produit en ciblant 20% de ma base. Sur ROC : je touche 36% des acheteurs du produit en ciblant 20% de mes clients.

Objectif : toucher clients intéressés dans une BDD clients de où taux de retour au hasard est habituellement de 5% Au hasard : envoyer à 80% de la BDD = mailings Scoring : taux de retour de 9% => possibilité d’envoyer à pour obtenir le même résultat => économie de mailings X coûts fixes par mailing

UV207 Marketing Direct 12. Data-Mining & Scoring.

Présentations similaires

Présentation au sujet: "UV207 Marketing Direct 12. Data-Mining & Scoring."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

UV207 Marketing Direct 12. Data-Mining & Scoring.

Présentations similaires

Présentation au sujet: "UV207 Marketing Direct 12. Data-Mining & Scoring."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back