La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Marketing Direct 12. Data-Mining & Scoring 1 UV207.

Présentations similaires


Présentation au sujet: "Marketing Direct 12. Data-Mining & Scoring 1 UV207."— Transcription de la présentation:

1 Marketing Direct 12. Data-Mining & Scoring 1 UV207

2 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Le Data Mining Objectif du ciblage en MD : hiérarchiser les individus afin de sélectionner ceux qui ont le meilleur potentiel  Réduction des coûts  Amélioration ROI  Vente plus facile (appétence identifiée) => élaboration d’offres pertinentes  Réponses immédiates à des demandes (crédit, assurance,…) à partir de scores Méthode : attribuer à chaque adresse cible une note reliée à une probabilité => Sélectionner un sous ensemble du fichier permettant de maximiser un objectif => Datamining : ensemble des algorithmes et méthodes permettant exploration et analyse de grandes BDD informatiques, sans a priori,  En vue de détecter dans ces données des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision »  Pour constituer des groupes d’individus ; rechercher une relation de dépendance entre VI et VD. S. Stufféry, enseignant datamineur,http://data.mining.free.fr 2

3 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Loi des 20/80 20% des clients, 80% du CA et 200% du bénéfice ! Bien sûr, le CA augmente toujours Mais les coûts augmentent plus vite ! Le profit dégagé sur les clients les plus rentables est perdu sur les derniers Résultat par classe et cumulé 3

4 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Trois grandes familles de méthodes Visualisation/ description :  compréhension synthétique de l’ensemble des données Classification et structuration :  techniques de classification automatique (typologies, réseaux de neurones…) Explication et prédiction de type scoring :  relier un phénomène à expliquer à un phénomène explicatif pour extraire des modèles de classement ou de prédiction (arbre de décision, régressions, analyse discriminante…)  Trouver une fonction f(X1, …, Xp) permettant de prédire Y

5 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Visualisation / description Objectif : compréhension synthétique des données Moyens :  Statistiques élémentaires (moyenne, médiane, min/max, écart-type, etc)  Nuages de point des observations  Histogrammes (données en groupes de classes)  Tris croisés / tableau de contingence 5

6 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Classification / structuration Objectif : former des groupes Moyens :  Segmentation typologique des clients  Réseau neurones : chaque neurone se spécialise pour représenter un groupe de clients selon les points communs qui les rassemblent. La carte permet de diviser en zones. Le réseau de neurones permet d’attribuer à chacun des objets une probabilité d’appartenance à une classe. (ex: ADN) 6

7 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Prédiction de type Scoring Objectifs : trier les individus en fonction d’une probabilité de comportement => anticiper afin de cibler ses actions MD Moyen : attribuer une note (score) à chaque client afin de prédire sa probabilité d’avoir un certain comportement  Ce qu’on cherche à faire : prédire la probabilité d’un comportement (départ ou non, achat ou non, envoi d’un bon de commande ou non, réponse favorable à une sollicitation commerciale ou non, défaut de paiement ou non, etc.)  Moyen : fonction mathématique (régression logistique, arbre de décision, etc.) qui prédit cette probabilité en fonction de certaines caractéristiques ou variables indépendantes 7 S = F (X1, X2, …,Xi) Avec S = score ou note attribuée au client F = fonction du score Xi = caractéristiques des clients

8 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Prédiction Fonctions permettant de trier les individus Z–score Arbre de décision Régressions 8

9 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Test du Chi2 : existence d’une association entre 2 variables nominales Calcul : somme des écarts pondérés entre les effectifs théoriques et les effectifs réels de chaque case Chi2 case = (observé-théorique)2 / théorique Chi2 tableau = Somme des Chi2 case  On rejette l’hypothèse H0 (non relation entre les variables) si Chi2 est supérieur à la valeur critique associée au risque d’erreur accepté (habituel 5%) avec ddl= (nb colonnes-1)*(nb lignes-1) Plus l’écart entre l’effectif théorique et l’effectif réel est important plus la relation est forte (ne résulte pas du hasard) Effectifs théoriques d’une case : effectif total multiplié par la fréquence de la ligne et la fréquence de la colonne Lecture dans la table du Chi2 critique  À 5% (ddl, Chi2) = (1, 3.84) (2, 5.99)…(4, 9.49)  Ou calcul du risque associé au chi2 calculé (si petit risque, rejet de H0) Une relation existe si Chi2 calculé > Chi2 critique 9

10 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Illustration Chi2 10 Exemple « modalité : Homme/femme » Sur adresses (N), on observe 909 réponses (b). modalité « femme » de la variable X1 = effectif de 7074 (n), soit 70% modalité « femme » = 491 réponses (x) Chi 2 case = (observé-théorique) 2 / théorique Chi 2 tableau = Somme des Chi 2 case

11 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Le Chi2 a deux limites importantes Limite 1 : Il dépend de la structure du tableau  ne pas comparer des tableaux de tailles différentes avec un Chi2  Coefficient de Tschuprow T = Chi2/(n*racine[ddl])  Coefficient V de Cramer V = racine (T) Limite 2 : Il dépend des effectifs  + l’échantillon est important, + les relations sont significatives  Coefficient de contingence C = racine [Chi2/(n+Chi2)]  Phi de Pearson = Phi = Chi2/ n (tableau 2x2 seulement)  Selon les effectifs, le chi2 est significatif ou non. Plus les effectifs sont élevés, plus il est significatif. Les autres coefficients ne changent pas de valeur 11

12 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet CHAID CHi-squared Automatic Interaction Detector Problématique : constituer des groupes pour lesquels les valeurs de Y sont  Aussi semblables que possible à l'intérieur des groupes (minimiser variance intra groupe) et  Aussi dissemblables entre les groupes (maximiser variance inter groupes) Principe : recherche itérative du meilleur découpage parmi les découpages possibles (en utilisant le chi2) Intérêt de la méthode :  Adaptée à tous types de variables  Simple et rapide  Pertinence managériale :  sélection des variables pertinentes (test de Chi2)  mais discrétisation manuelle possible facilement  transformation en règles de décision simple  Mais : les variables explicatives peuvent être corrélées; pas de méthode formelle pour l’arrêt de l’arborescence 12

13 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Exemple d’un arbre 13

14 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Z-score (binomial) Principe :  on classe les variables selon la sur-représentation des acheteurs dans ce groupe.  Plus la valeur de Z est élevée en valeur absolue, plus la modalité est associé au comportement Pour chaque modalité de la variable étudiée  Z score = [x – b*p] / Racine[ b*p*(1-p)]  x = nombre de réponses pour cette modalité  b = nombre total de réponses pour cette modalité  p = fréquence observée sur toute la population (n/N) Exemple « modalité : Homme/Femme »  sur adresses (N), on observe 909 réponses (b).  la modalité « femme » a un effectif de 7074 (n), soit 70%  Pour la modalité « femme » on observe 491 réponses (x) alors qu’on aurait dû observer 643 réponses (p*b=70%*909).  Dénominateur : racine [7074*0,0909*(1-0,0909)]= 18,1  La valeur de Z = 40,0 / 18,1 = – 2,21 14

15 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Illustration Z-Score 15

16 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Autres méthodes classiques Régression linéaire  Maximiser le pourcentage de la variance de Y expliqué par les variables du modèle => qualité de l’ajustement : R²  Vérification Distribution normale : test t Régression logistique  Dans le cas où la variable prédite est dichotomique, la spécification d’un modèle linéaire est incorrect  On cherche à spécifier la probabilité d’apparition d’un événement  Prévisions de Y comprises entre 0 et 1 et interprétables comme des probabilités d’occurrence d’un événement sachant les Xi  =>La régression logistique permet d’étudier la relation entre une variable réponse binaire [0,1] : succès/ échec et plusieurs variables explicatives  relation NON linéaire 16

17 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Illustration Logistique Ln(p/(1-p)) où p=%acheteurs dans le segment 17

18 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Qualité de l’affectation des individus A partir d’un score seuil « S », un modèle de scoring classe selon le groupe prévu  Si score(i) >S alors i appartient au groupe « positif » Mais  plus on cherche à bien classer les « positifs »….  plus on y ajoute de « faux positifs » (prévu positif, mais négatif) La qualité de l’affectation est déterminée par 2 indicateurs  Sensibilité (  )  Spécificité (  ) On cherche S tel qu’il  Maximise (  ) (vrais positifs)  Minimise (1-  ) (faux positifs) 18 PositifNégatif Prévu Positif  (1-  ) Prévu Négatif (1-  ) 

19 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Qualité de l’affectation des individus Matrice de confusion : Estimé x Réel Exemple: On considère un système de classification dont le but est de classer du courrier électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé notre classificateur avec 100 courriels normaux et 100 courriels de spam. Ainsi, la matrice se lit comme suit :  sur les 98 courriels que le système a estimé comme normaux, 3 sont en fait du spam ;  sur les 102 courriels que le système a estimé comme spam, 5 sont en fait des courriels normaux. 19

20 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Evaluer la qualité du ciblage Courbe ROC (receiver operating characteristic) Utilisation de la courbe de ROC  Sensibilité : taux de vrais positifs  (1-Spécificité) : taux de faux positifs Taux de classification correcte (vrais positifs) en fonction du nombre de classifications incorrectes (faux positifs).vrais positifsfaux positifs la courbe doit être au-dessus de la première diagonale aléatoire (x = y). L’aire sous la courbe permet de comparer les modèles AUC : « c statistic » dans la table « prévu- réel » ou dans le graphique ROC 20

21 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Evaluer la qualité du ciblage Courbe de Lift (ou de Pareto) La courbe met en regard :  le % des acheteurs, pour les individus rangés en classe d’effectifs égaux par ordre décroissant de probabilité d’achat,  au pourcentage obtenu à partir d’un classement aléatoire (ligne diagonale) Lecture de la courbe:  En prenant 30% du fichier on a 50% des acheteurs  L’effet de levier ou « lift » est le rapport = 50% / 30% = 1.66 (amélioration vs aléatoire)  L’aire sous la courbe (AUL) Area Under the Line illustre l’efficacité du scoring 21 hasard AUL % du fichier % des acheteurs

22 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Démarche du SCORING

23 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet 5 étapes clé Extraction d’un échantillon  Travail (ou test) : à partir duquel les méthodes sont définies  Validation : sur lequel les méthodes sont validées 2. Envoi de la campagne => stockage des comportements 3. Modélisation des comportements => fonction de score = f (x1, x2, …) 4. Analyse de la performance du scoring Vérification de la performance (minimiser les erreurs) via une des 3 principales méthodes (matrice de confusion, courbe de Lift, courbe de ROC) Vérification de la facilité d’utilisation (méthode compréhensible et rapide à mettre en œuvre) 5. “Scoring” de l’ensemble de la base  Classement des individus selon un score 23

24 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Adapté de R. RAKOTOMALALA Courbe ROC BDD de clients clients sollicités au hasard 100 ont répondu favorablement (RR=5%) Fonction de score S(R)=  (X) Echantillon de validation Echantillon d’apprentissage Si la prévision est satisfaisante : 1/ appliquer la fonction score sur le reste de la BDD 2/ trier la BDD selon le score 3/ cibler en priorité les clients à fort score 4/ prévoir la performance du ciblage grâce à la courbe ROC Matrice de confusion

25 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Pour évaluer la qualité du score : la matrice de confusion

26 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Pour évaluer la qualité du ciblage : la courbe ROC (Receiver Operating Characteristics) Sur la bissectrice : je touche 20% des acheteurs du produit en ciblant 20% de ma base. Sur ROC : je touche 36% des acheteurs du produit en ciblant 20% de mes clients. NomsEnfantsSalairesRetourScorePrŽvision % cible cumulŽe % + retrouvŽs Natalia positif0,98+46,67 Jose positif0,97+813,33 Jean positif0, ,00 Constance positif0, ,67 Nicolas positif0, ,33 Paul RenŽ positif0, ,00 Elizabeth négatif0, ,00 Indre 1862 positif0,9+3246,67 Maria positif0, ,33 Barthelemy positif0, ,00 Adriana négatif0, ,00 Louis 0981 positif0, ,67 Delphine positif0, ,33 Guillaume positif0, ,00 Mathieu négatif0,2-6080,00 ThimotŽe 0862 positif0, ,67 Juliette positif0, ,33 Elise négatif0, ,33 Marie négatif0,1-7693,33 StŽphanie négatif0, ,33 Marcela négatif0, ,33 Tiphaine négatif0, ,33 Sandra 0892 positif0, ,00 Eleni négatif0, ,00 Cyndi négatif0, ,00 25 adresses 15 retours positifs

27 Sommaire UV207 – Promotion des ventes & Marketing Direct – Pierre Desmet Objectif : toucher clients intéressés dans une BDD clients de où taux de retour au hasard est habituellement de 5% Au hasard : envoyer à 80% de la BDD = mailings Scoring : taux de retour de 9% => possibilité d’envoyer à pour obtenir le même résultat => économie de mailings X coûts fixes par mailing


Télécharger ppt "Marketing Direct 12. Data-Mining & Scoring 1 UV207."

Présentations similaires


Annonces Google