Christelle Scharff IFI 2004

Slides:

Advertisements

Présentations similaires

La Méthode de Simplexe Standardisation

Advertisements

CHAPITRE 4 Calcul littéral et Identités Remarquables

Approche graphique du nombre dérivé

Portée des variables VBA & Excel

Classification des signaux exemples de signaux réels

Calcul géométrique avec des données incertaines

Regroupement (clustering)

Calculs de complexité d'algorithmes

Test statistique : principe

Association entre variables

Reconnaissance de la parole

ACTIVITES Le calcul littéral (3).

5 critères de qualité d'un test

Répondez à ces quelques questions

Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &

1. Les caractéristiques de dispersion. 11. Utilité.

10 place de la Joliette, BP Marseille Cedex 02 Tél CENTRE DÉTUDES ET DE RECHERCHES SUR LES QUALIFICATIONS Pascale.

ASSERVISSEMENTS ET REGULATION

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

Estimation de la survie comparaison des courbes de survie FRT C3.

Régression -corrélation

Analyse de la variance à un facteur

1 Analyse de la variance multivariée Michel Tenenhaus.

Chapitre VII :Commande par retour d’état

Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Cours de physique générale I Ph 11

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Méthode des k plus proches voisins

LABSENTEISME EN 2012 Les résultats de lenquête 1.

1 Les pointeurs et quelques rappels sur certains éléments du langage C.

Régression linéaire simple

Réseaux de neurones.

Équations Différentielles

Régression logistique Eugénie Dostie-Goulet

Représentation des systèmes dynamiques dans l’espace d’état

Points importants de la semaine Les constantes. Les boucles. Les opérateurs relationnels Les opérateurs logiques.

La corrélation et la régression multiple

La corrélation et la régression

La régression logistique

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

3.1 DÉTERMINANTS (SUITE) Cours 6.

L’OFFRE ET LA DEMANDE.

LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.

Structure discriminante (analyse discriminante)

3ème partie: les filtres

Résoudre une équation du 1er degré à une inconnue

Questions des 4 carrés Prêts ? B A Regardez bien ce diagramme

Parcours d'une séquence de longueur fixe

La régression multiple

Régression linéaire (STT-2400)

MAXIMISER les RESULTATS

Pour Principes de microéconomie, svp ajouter en haut de la page :

Régression linéaire multiple : hypothèses & interprétation

1 Modèle pédagogique d’un système d’apprentissage (SA)

Elaboré par M. NUTH Sothan

10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.

Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.

Inéquations du premier degré à une inconnue

Chapitre 3 :Algèbre de Boole

ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage

Rappels de statistiques descriptives

Christelle Scharff IFI 2004

Évaluation des examens complémentaires

Rappels Variables nominales :

IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.

Transcription de la présentation:

Christelle Scharff IFI 2004 Régressions Christelle Scharff IFI 2004

Régression linéaire Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

Régression logistique Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable à être égale à 0 et 1. Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

Prédiction de banqueroute

Étude de Cas

Compagnie de téléphone Adoption d’un nouveau service téléphonique (boite vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire 10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?

Réponses au questionnaire Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans. Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

Le modèle de régression logistique Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk Y = 1: Choisir une option Y = 0: Ne pas choisir une option Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes. Exemples: Maximum Likehood Estimates, Newton-Raphson

Interprétation des coefficients Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès Si i > 0, le facteur i augmente la chance de succès Si i < 0, le facteur i décroît la chance de succès

Suite de l’ étude de cas

Poser le problème (1) On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne Soit Y la variable représentant l’adoption d’un nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y = 0 sinon

Poser le problème (2) On a trois variables x1 pour l’éducation, x2 pour la stabilité de résidence et x3 pour le salaire X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon X3 = 1 pour un salaire élevé, 0 sinon Modèle:

Résumé des données

Calcul de 0, 1, 2et 3 0 1 2 3

Modèle Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 2160 x 0.076 = 164

Nouvelles données Calculs d’erreurs 598 nouvelle personnes sont sondées Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique 85 x 0.289 = 24.5

Calcul d’erreurs Total erreur: -2.8 (or 2.8 / 119 = 2.3%) La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%

Tableau de contingence Matrice de contingence [Kohavi, Provost, 1998]: Observé Prédit Adopteur Non Adopteur Total 103 (TP) 13 (FP) 116 Non adopteur 16 (FN) 466 (TN) 482 119 479 598 TP: true positive, FP: false positive, FN: false negative, TN: true negative

Calcul de taux Vrais positives: Cas positifs correctement prédits 103 / 119 = 86.5 % Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 % Exactitude: Nombre total de prédictions correctes (103 + 466) / 598 = 95.15% Précision: Proportion des prédictions positives correctes 103 / (103 + 13) = 88.8 % Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %

Quel est le meilleur modèle? Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1: Modèle 2: Taux d’erreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a moins de FP TP 600 FP 75 FN 25 TN 300 TP 600 FP 25 FN 75 TN 300

Conclusion Méthode facile a comprendre Méthode efficace Les prédictions sont faciles à réaliser Le bruit peut avoir un effet significatif sur la méthode Besoin de plusieurs mesures pour évaluer le modèle

Références N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and Cases. Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.