La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.

Présentations similaires


Présentation au sujet: "1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues."— Transcription de la présentation:

1 1 Régressions Christelle Scharff IFI 2004

2 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

3 3 Régression logistique Cette méthode se focalise sur les situations où les valeurs dune variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne Au lieu de prédire la valeur dune variable, on prédit la probabilité de la variable à être égale à 0 et 1. Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

4 4 Prédiction de banqueroute

5 5 Étude de Cas

6 6 Compagnie de téléphone Adoption dun nouveau service téléphonique (boite vocale, accès a Internet…) suivant léducation, la stabilité de résidence et le salaire personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone Comment prédire ladoption dun nouveau service téléphonique en fonction de léducation, de la stabilité de résidence et du salaire dune personne?

7 7 Réponses au questionnaire Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau détude inférieur ou égale au lycée, un bas salaire et qui nont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale dadoption dun nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

8 8 Le modèle de régression logistique Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk Y = 1: Choisir une option Y = 0: Ne pas choisir une option Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. Exemples: Maximum Likehood Estimates, Newton-Raphson

9 9 Interprétation des coefficients Si i = 0, alors le facteur i na aucun effet sur la chance de succès Si i > 0, le facteur i augmente la chance de succès Si i < 0, le facteur i décroît la chance de succès

10 10 Suite de l étude de cas

11 11 Poser le problème (1) On doit calculer les probabilités dadopter un nouveau service téléphonique en fonction de léducation, de la stabilité de résidence et le salaire dune personne Soit Y la variable représentant ladoption dun nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y = 0 sinon

12 12 Poser le problème (2) On a trois variables x1 pour léducation, x2 pour la stabilité de résidence et x3 pour le salaire X1 = 1 pour un niveau d étude supérieur ou égal à luniversité, 0 sinon X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon X3 = 1 pour un salaire élevé, 0 sinon Modèle:

13 13 Résumé des données

14 14 Calcul de 0, 1, 2 et

15 15 Modèle 2160 x = 164 Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique

16 16 Nouvelles données 598 nouvelle personnes sont sondées 85 x = 24.5 Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique Calculs derreurs

17 17 Calcul derreurs Total erreur: -2.8 (or 2.8 / 119 = 2.3%) La moyenne derreur absolue (sommes des erreurs absolues / 119): 24.9%

18 18 Tableau de contingence Matrice de contingence [Kohavi, Provost, 1998]: Observé Prédit AdopteurNon AdopteurTotal Adopteur103 (TP)13 (FP)116 Non adopteur16 (FN)466 (TN)482 Total TP: true positive, FP: false positive, FN: false negative, TN: true negative

19 19 Calcul de taux Vrais positives: Cas positifs correctement prédits 103 / 119 = 86.5 % Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 % Exactitude: Nombre total de prédictions correctes ( ) / 598 = 95.15% Précision: Proportion des prédictions positives correctes 103 / ( ) = 88.8 % Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %

20 20 Quel est le meilleur modèle? Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1: Modèle 2: Taux derreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a moins de FP TP 600FP 75 FN 25TN 300 TP 600FP 25 FN 75TN 300

21 21 Conclusion Méthode facile a comprendre Méthode efficace Les prédictions sont faciles à réaliser Le bruit peut avoir un effet significatif sur la méthode Besoin de plusieurs mesures pour évaluer le modèle

22 22 Références N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.


Télécharger ppt "1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues."

Présentations similaires


Annonces Google