La régression logistique: fondements et conditions d’application

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Association entre variables
Les tests d’hypothèses (II)
Atelier sur lanalyse approfondie des migrations à partir des données de recensement: Ouagadougou novembre 2011 Bonayi Hubert DABIRE, UO/ISSP
Université de Ouagadougou
Université de Ouagadougou
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Les TESTS STATISTIQUES
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
La Régression Multiple
Structure de causalité bivariée
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Groupe 1: Classes de même intervalle
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Méthodes de prévision (STT-3220)
Méthodes de prévision (STT-3220)
Régression logistique Eugénie Dostie-Goulet
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
M2 Sciences des Procédés - Sciences des Aliments
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
Outils d’analyse: la méthode des moindres carrées
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
L’erreur standard et les principes fondamentaux du test de t
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Formation Black Belt Lean Six Sigma
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
Transcription de la présentation:

La régression logistique: fondements et conditions d’application Université de Ouagadougou Séminaire national sur l’analyse des données du recensement au Burkina Faso Ouagadougou, 14-16 novembre 2011 La régression logistique: fondements et conditions d’application Jean-François KOBIANÉ Institut Supérieur des Sciences de la Population jfkobiane@issp.bf

Pourquoi la régression logistique? La régression linéaire (simple ou multiple) se prête bien pour l’analyse d’une variable dépendante continue (intervalle ou ratio). En sciences sociales, il y a peu de variables de ce type et ce que l’on tente d’expliquer se présente souvent sous une forme dichotomique Mariée ou non ? En chômage ou actif ? Vivant ou décédé ? Vacciné ou non ? À l’école ou non ?  En somme: être ou ne pas être ?

Pourquoi la régression logistique?

Pourquoi la régression logistique? Avec la régression linéaire (RLi), les valeurs prédites seront plus grandes que 1 et plus petites que 0, au fur et à mesure qu’on s’éloigne sur l’axe des X. Une des hypothèses de la RLi est que la variance de Y est constante à travers les valeurs de X (Homoscedasticité). Ceci n’est vérifié dans la RLo, parce que la variance est égale à PQ. L’hypothèse de la RLi selon laquelle les erreurs de prédiction (Y-Y’) sont normalement distribuées n’est pas non plus tenable en RLo, puisque Y prend les valeurs 0 et 1.

Le modèle de régression logistique Le modèle de régression logistique nous permet donc de résoudre le problème de non-linéarité certaine dans la relation entre notre variable dépendante et n’importe quelle variable indépendante. Notre variable dépendante est transformée sous forme de probabilité. Il s’agit donc de mesurer l’effet de certaines variables indépendantes sur une variable dépendante qui peut essentiellement prendre les valeurs comprises entre 0 et 1.

Le modèle de régression logistique Supposons que nous connaissons uniquement la taille d’un individu et que nous souhaitons prédire son sexe. Nous pouvons raisonner en termes de probabilité comme nous pouvons raisonner en termes de odds. Supposons que la probabilité d’être un homme pour une taille donnée est de 0,9.

Le modèle de régression logistique Le odds d’être un homme dans notre exemple sera de 0,90/0,10=9. Le odds d’être une femme sera de 0,10/0,90=1/9=0,11. Il y a là une asymétrie difficilement concevable, parce que le odds d’être un homme devrait être l’opposé du odds d’être une femme. Ce problème d’asymétrie peut être résolu en recourant au logarithme népérien (ou log naturel: ln): ln(9/1)=2,219 alors que ln(1/9)=-2,217. Le log odds d’être homme est exactement l’opposé du log odds d’être femme.

Le modèle de régression logistique

Le modèle de régression logistique En régression logistique, la variable dépendante est un logit c’est-à-dire le log naturel du odds : logit(P) = a + bX Relation linéaire entre le log odds et les V.I.

Le modèle de régression logistique Le concept de logit est difficile à se représenter de façon concrète! On préférera alors parler en termes de probabilités

Formalisation mathématique (ß0 + ß1X1 + ß2X2 + ...ßzXz) e P(Y) = ______________________   (ß0 + ß1X1 + ß2X2 +..ßzXz) 1 + e P(Y):probabilité de la variable dépendante (entre 0 et 1); ß0: la constante du modèle ("intercept"); ßz : coefficient pour la variable indépendante Xz.

Transformation de l’équation 1 P(Y)= __________________________   - (ß0 + ß1X1 + ß2X2 +..ßzXz) 1 + e

Adéquation du modèle Le test d’adéquation du modèle se fait à partir de la probabilité de Chi deux. Si cette probabilité est inférieure au seuil choisi, le modèle est adéquat. Ceci signifie que les variables indépendantes considérées dans l’ensemble expliquent la variation de la variable dépendante. Elles peuvent donc prédire la valeur de Y. On a deux modèles: le modèle saturé et le modèle pas à pas. Le modèle saturé permet de calculer la contribution de chaque variable indépendante au modèle. Le modèle pas à pas permet d’identifier les mécanismes par lesquels chacune des variables indépendantes influence la variable étudiée.

R- Carré Il n’ y a pas à proprement parler d’équivalent du R2 en Rli. On calcule néanmoins un pseudo R2. Pseudo R2=chi-deux/(chi-deux+n) n étant la taille de l’échantillon