Bookbinders book club case Audrey Hamel Anne-Marie Nadeau 21 février 2007
Mise en Contexte L’industrie du livre Vente de livres 50 000 nouveaux titres par année au USA Rapporte 20 M de dollars annuellement 10 % des livres sont vendus par envoi postal Vente de livres 1970 apparition des grandes chaînes de librairies 1980 vente de livres dans les grands magasins à rayon 2000 vente de livre en ligne
Mise en Contexte Les clubs de livre Historiquement proposaient des contrats d’achat de livres aux consommateurs Un lecteur accepte d’acheter quelques livres et de recevoir chaque mois 1 ou 2 livres supplémentaires Face à l’augmentation de la concurrence Utilise des bases de données pour retenir de l’information sur leur consommateurs Recherche des modèles qui vont les aider à mieux cerner les préférences de leur client
Bookbinders Book Club Fondé en 1986 Spécialiste dans la vente de livres spécialisés Rejoint ses clients à l’aide de marketing direct Possède une base de données avec de l’information sur 500 000 lecteurs Problématique: La compagnie se demande si l’utilisation d’un modèle de prédiction serait utile pour cerner les consommateurs à cibler lors de l’envoi postal
Bookbinders Book Club Cas: 20 000 consommateurs ont été sélectionnés à partir d’une base de données Une offre spéciale pour un livre d’art de Florence a été envoyée par la poste 9,03% des consommateurs ont acheté le livre
Description des modèles de prédiction Régression linéaire multiple On cherche à voir le degré d’influence des différentes variables sur la décision d’achat ou non du livre d’art. Multinomial logit analysis Méthode qui permet d’identifier les variables qui influencent le choix des consommateurs Neural network model Permet de comprendre la relation entre les variables dépendantes et indépendantes en essayant de comprendre le processus de traitement de l’information dans le cerveau des individus dans le but de développer des représentations sur ordinateur du mécanisme.
Régression linéaire multiple
Statistiques de la régression Coefficient de détermination multiple 0,489959505 Coefficient de détermination R^2 0,240060317 0,235277814 Erreur-type 0,378781047 Observations 1600
Statistiques de la régression Coefficients Erreur-type Statistique t Constante 0,364228446 0,03074115 11,84823838 Gender -0,13092048 0,02003031 -6,536118556 Amt_purchased 0,000273613 0,00011104 2,464058992 Last_purchase -0,0090868 0,00217906 -4,170046646 First_purchase 0,097028602 0,01355889 7,156089006 Frequency -0,002002397 0,00181601 -1,102634906 P_Child -0,126258421 0,01640109 -7,69817277 P_Youth -0,096356294 0,02010972 -4,791527829 P_Cook -0,141490744 0,01660643 -8,520236614 P_DIY -0,135231253 0,0197873 -6,834245362 P_Art 0,117849397 0,01944268 6,061375137
Équation… Y choix = 0.36 - 0.13 x gender + 0.0003 x Amt_purch. – 0.009 x last_purch. + 0.097 x First_purch. – 0.002 x freq – 0.13 x p_child – 0.096 x p_youth – 0.14 x p_cook – 0.14 p_DIY + 0.1178 x p_art
Neural net forcasting
+
Model fit : 17,61 % Test fit : 18,54 % Overall fit: 17,79 % Nom t-stat Amt_purch 2,8123 First_purch 3,6694 Frequency -16,69 Last_purch 11,53 Gender -8,2594 P_Art 19,13 P_Child -7,9469 P_Cook -10,65 P_DIY -8,5867 P_Youth -3,3114 Model fit : 17,61 % Test fit : 18,54 % Overall fit: 17,79 %
Choice P_Art
Choice Frequency
Multinomial logit analysis
Diagnostic 1 Nous indique la variable qui influence le plus la réponse à l’envoi postal Gender Amt_purch Last_purch First_purch Frequency P_Child P_Youth P_Cook P_DIY P_Art 0.6587 2.0e+002 12.3138 3.1988 22.5763 0.7394 0.3375 0.7600 0.3913 0.4250
Diagnostic 2 Cote-t Nom t-stat Amt_purch 1,7283 First_purch -0,7318 Frequency 6,3647 Last_purch -6,2699 Gender -7,4511 P_Art 5,3532 P_Child -7,0268 P_Cook -7,797 P_DIY -6,3718 P_Youth -4,5357
Diagnostic 3 Hit rate & Choice Share Number of hits = 1289 Number of observations = 1600 The hit rate of the model = 0.8056 Choice Share (Market Share) Forecasts: Response Dummy 25.4771% 74.5229%
Résumé Facteurs (+) (-) Régression linéaire multiple P_Art First_ Purch P_DIY P_Cook Neural net forecasting Last_Purch Frequency Multinomial logit analysis Gender
Conclusions La variable « nombre de livre d’art acheté » influence significativement et positivement le choix selon les 3 modèles; L’entreprise devrait inévitablement cibler ces consommateurs; La variable « nombre de livre de recettes acheté » influence négativement le choix selon les 3 modèles; L’entreprise ne devrait donc pas cibler ces consommateurs;
Conclusions (suite) Le modèle le plus fiable semble être le « Multinomial logit analysis »; Selon ce modèle, en plus des consommateurs ayant achetés des livres d’art, l’entreprise devrait également miser sur ceux qui on fait beaucoup d’achats (frequency) dans la période donnée; Aussi, en plus des consommateurs ayant acheté des livres de recettes, l’entreprise ne devrait pas cibler en fonction du sexe (gender).
Avantages et limites Régression linéaire multiple On ne peut pas utiliser de variables binaires Neural network model (17,79 %) Avantages On peut faire des prédictions sans connaître le type de relation entre les variables Offre des fits et des prédictions plus robustes que la régression linéaire multiple lorsqu’il y a des données manquantes N’explique pas en détail les prédictions Nouvelle méthode donc peu d’information est disponible sur le modèle et son fonctionnement La performance dépend de plusieurs facteurs Multinomial logit analysis ( 80,56 %) Offre beaucoup plus d’informations
Questions ? ?