Christelle Scharff IFI 2004

Christelle Scharff IFI 2004
Régressions Christelle Scharff IFI 2004

Régression linéaire Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

Régression logistique
Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable à être égale à 0 et 1. Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

Prédiction de banqueroute

Étude de Cas

Compagnie de téléphone
Adoption d’un nouveau service téléphonique (boite vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire 10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?

Réponses au questionnaire
Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

Le modèle de régression logistique
Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk Y = 1: Choisir une option Y = 0: Ne pas choisir une option Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. Exemples: Maximum Likehood Estimates, Newton-Raphson

Interprétation des coefficients
Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès Si i > 0, le facteur i augmente la chance de succès Si i < 0, le facteur i décroît la chance de succès

Suite de l’ étude de cas

Poser le problème (1) On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne Soit Y la variable représentant l’adoption d’un nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y = 0 sinon

Poser le problème (2) On a trois variables x1 pour l’éducation, x2 pour la stabilité de résidence et x3 pour le salaire X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon X3 = 1 pour un salaire élevé, 0 sinon Modèle:

Résumé des données

Calcul de 0, 1, 2et 3 0   3

Modèle Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 2160 x = 164

Nouvelles données Calculs d’erreurs
598 nouvelle personnes sont sondées Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 85 x = 24.5

Calcul d’erreurs Total erreur: -2.8 (or 2.8 / 119 = 2.3%)
La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%

Tableau de contingence
Matrice de contingence [Kohavi, Provost, 1998]: Observé Prédit Adopteur Non Adopteur Total 103 (TP) 13 (FP) 116 Non adopteur 16 (FN) 466 (TN) 482 119 479 598 TP: true positive, FP: false positive, FN: false negative, TN: true negative

Calcul de taux Vrais positives: Cas positifs correctement prédits
103 / 119 = 86.5 % Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 % Exactitude: Nombre total de prédictions correctes ( ) / 598 = 95.15% Précision: Proportion des prédictions positives correctes 103 / ( ) = 88.8 % Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %

Quel est le meilleur modèle?
Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1: Modèle 2: Taux d’erreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a moins de FP TP 600 FP 75 FN 25 TN 300 TP 600 FP 25 FN 75 TN 300

Conclusion Méthode facile a comprendre Méthode efficace
Les prédictions sont faciles à réaliser Le bruit peut avoir un effet significatif sur la méthode Besoin de plusieurs mesures pour évaluer le modèle

Références N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.

Christelle Scharff IFI 2004

Présentations similaires

Présentation au sujet: "Christelle Scharff IFI 2004"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Christelle Scharff IFI 2004

Présentations similaires

Présentation au sujet: "Christelle Scharff IFI 2004"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back