Christelle Scharff IFI 2004

Slides:



Advertisements
Présentations similaires
La Méthode de Simplexe Standardisation
Advertisements

CHAPITRE 4 Calcul littéral et Identités Remarquables
Approche graphique du nombre dérivé
Portée des variables VBA & Excel
Classification des signaux exemples de signaux réels
Calcul géométrique avec des données incertaines
Regroupement (clustering)
Calculs de complexité d'algorithmes
Test statistique : principe
Association entre variables
Reconnaissance de la parole
ACTIVITES Le calcul littéral (3).
5 critères de qualité d'un test
Répondez à ces quelques questions
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
1. Les caractéristiques de dispersion. 11. Utilité.
10 place de la Joliette, BP Marseille Cedex 02 Tél CENTRE DÉTUDES ET DE RECHERCHES SUR LES QUALIFICATIONS Pascale.
ASSERVISSEMENTS ET REGULATION
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Estimation de la survie comparaison des courbes de survie FRT C3.
Régression -corrélation
Analyse de la variance à un facteur
1 Analyse de la variance multivariée Michel Tenenhaus.
07/24/09 1.
Chapitre VII :Commande par retour d’état
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Cours de physique générale I Ph 11
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
LABSENTEISME EN 2012 Les résultats de lenquête 1.
1 Les pointeurs et quelques rappels sur certains éléments du langage C.
Régression linéaire simple
Réseaux de neurones.
Équations Différentielles
Régression logistique Eugénie Dostie-Goulet
Représentation des systèmes dynamiques dans l’espace d’état
Points importants de la semaine Les constantes. Les boucles. Les opérateurs relationnels Les opérateurs logiques.
La corrélation et la régression multiple
La corrélation et la régression
La régression logistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
3.1 DÉTERMINANTS (SUITE) Cours 6.
L’OFFRE ET LA DEMANDE.
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Structure discriminante (analyse discriminante)
3ème partie: les filtres
Résoudre une équation du 1er degré à une inconnue
Questions des 4 carrés Prêts ? B A Regardez bien ce diagramme
Parcours d'une séquence de longueur fixe
La régression multiple
Régression linéaire (STT-2400)
MAXIMISER les RESULTATS
Pour Principes de microéconomie, svp ajouter en haut de la page :
Régression linéaire multiple : hypothèses & interprétation
1 Modèle pédagogique d’un système d’apprentissage (SA)
Elaboré par M. NUTH Sothan
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Inéquations du premier degré à une inconnue
Chapitre 3 :Algèbre de Boole
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Christelle Scharff IFI 2004
Évaluation des examens complémentaires
Rappels Variables nominales :
IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.
Transcription de la présentation:

Christelle Scharff IFI 2004 Régressions Christelle Scharff IFI 2004

Régression linéaire Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

Régression logistique Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable à être égale à 0 et 1. Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

Prédiction de banqueroute

Étude de Cas

Compagnie de téléphone Adoption d’un nouveau service téléphonique (boite vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire 10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?

Réponses au questionnaire Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

Le modèle de régression logistique Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk Y = 1: Choisir une option Y = 0: Ne pas choisir une option Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. Exemples: Maximum Likehood Estimates, Newton-Raphson

Interprétation des coefficients Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès Si i > 0, le facteur i augmente la chance de succès Si i < 0, le facteur i décroît la chance de succès

Suite de l’ étude de cas

Poser le problème (1) On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne Soit Y la variable représentant l’adoption d’un nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y = 0 sinon

Poser le problème (2) On a trois variables x1 pour l’éducation, x2 pour la stabilité de résidence et x3 pour le salaire X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon X3 = 1 pour un salaire élevé, 0 sinon Modèle:

Résumé des données

Calcul de 0, 1, 2et 3 0 1 2 3

Modèle Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 2160 x 0.076 = 164

Nouvelles données Calculs d’erreurs 598 nouvelle personnes sont sondées Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 85 x 0.289 = 24.5

Calcul d’erreurs Total erreur: -2.8 (or 2.8 / 119 = 2.3%) La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%

Tableau de contingence Matrice de contingence [Kohavi, Provost, 1998]: Observé Prédit Adopteur Non Adopteur Total 103 (TP) 13 (FP) 116 Non adopteur 16 (FN) 466 (TN) 482 119 479 598 TP: true positive, FP: false positive, FN: false negative, TN: true negative

Calcul de taux Vrais positives: Cas positifs correctement prédits 103 / 119 = 86.5 % Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 % Exactitude: Nombre total de prédictions correctes (103 + 466) / 598 = 95.15% Précision: Proportion des prédictions positives correctes 103 / (103 + 13) = 88.8 % Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %

Quel est le meilleur modèle? Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1: Modèle 2: Taux d’erreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a moins de FP TP 600 FP 75 FN 25 TN 300 TP 600 FP 25 FN 75 TN 300

Conclusion Méthode facile a comprendre Méthode efficace Les prédictions sont faciles à réaliser Le bruit peut avoir un effet significatif sur la méthode Besoin de plusieurs mesures pour évaluer le modèle

Références N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.