La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression logistique: fondements et conditions dapplication Jean-François KOBIANÉ Institut Supérieur des Sciences de la Population

Présentations similaires


Présentation au sujet: "La régression logistique: fondements et conditions dapplication Jean-François KOBIANÉ Institut Supérieur des Sciences de la Population"— Transcription de la présentation:

1 La régression logistique: fondements et conditions dapplication Jean-François KOBIANÉ Institut Supérieur des Sciences de la Population Séminaire national sur lanalyse des données du recensement au Burkina Faso Ouagadougou, novembre 2011 Université de Ouagadougou

2 Pourquoi la régression logistique? La régression linéaire (simple ou multiple) se prête bien pour lanalyse dune variable dépendante continue (intervalle ou ratio). La régression linéaire (simple ou multiple) se prête bien pour lanalyse dune variable dépendante continue (intervalle ou ratio). En sciences sociales, il y a peu de variables de ce type et ce que lon tente dexpliquer se présente souvent sous une forme dichotomique En sciences sociales, il y a peu de variables de ce type et ce que lon tente dexpliquer se présente souvent sous une forme dichotomique Mariée ou non ? Mariée ou non ? En chômage ou actif ? En chômage ou actif ? Vivant ou décédé ? Vivant ou décédé ? Vacciné ou non ? Vacciné ou non ? À lécole ou non ? À lécole ou non ? En somme: être ou ne pas être ? En somme: être ou ne pas être ?

3 Pourquoi la régression logistique?

4 Avec la régression linéaire (RLi), les valeurs prédites seront plus grandes que 1 et plus petites que 0, au fur et à mesure quon séloigne sur laxe des X. Avec la régression linéaire (RLi), les valeurs prédites seront plus grandes que 1 et plus petites que 0, au fur et à mesure quon séloigne sur laxe des X. Une des hypothèses de la RLi est que la variance de Y est constante à travers les valeurs de X (Homoscedasticité). Ceci nest vérifié dans la RLo, parce que la variance est égale à PQ. Une des hypothèses de la RLi est que la variance de Y est constante à travers les valeurs de X (Homoscedasticité). Ceci nest vérifié dans la RLo, parce que la variance est égale à PQ. Lhypothèse de la RLi selon laquelle les erreurs de prédiction (Y-Y) sont normalement distribuées nest pas non plus tenable en RLo, puisque Y prend les valeurs 0 et 1. Lhypothèse de la RLi selon laquelle les erreurs de prédiction (Y-Y) sont normalement distribuées nest pas non plus tenable en RLo, puisque Y prend les valeurs 0 et 1.

5 Le modèle de régression logistique Le modèle de régression logistique nous permet donc de résoudre le problème de non-linéarité certaine dans la relation entre notre variable dépendante et nimporte quelle variable indépendante. Le modèle de régression logistique nous permet donc de résoudre le problème de non-linéarité certaine dans la relation entre notre variable dépendante et nimporte quelle variable indépendante. Notre variable dépendante est transformée sous forme de probabilité. Il sagit donc de mesurer leffet de certaines variables indépendantes sur une variable dépendante qui peut essentiellement prendre les valeurs comprises entre 0 et 1. Notre variable dépendante est transformée sous forme de probabilité. Il sagit donc de mesurer leffet de certaines variables indépendantes sur une variable dépendante qui peut essentiellement prendre les valeurs comprises entre 0 et 1.

6 Le modèle de régression logistique Supposons que nous connaissons uniquement la taille dun individu et que nous souhaitons prédire son sexe. Nous pouvons raisonner en termes de probabilité comme nous pouvons raisonner en termes de odds. Supposons que la probabilité dêtre un homme pour une taille donnée est de 0,9. Supposons que nous connaissons uniquement la taille dun individu et que nous souhaitons prédire son sexe. Nous pouvons raisonner en termes de probabilité comme nous pouvons raisonner en termes de odds. Supposons que la probabilité dêtre un homme pour une taille donnée est de 0,9.

7 Le modèle de régression logistique Le odds dêtre un homme dans notre exemple sera de 0,90/0,10=9. Le odds dêtre une femme sera de 0,10/0,90=1/9=0,11. Il y a là une asymétrie difficilement concevable, parce que le odds dêtre un homme devrait être lopposé du odds dêtre une femme. Le odds dêtre un homme dans notre exemple sera de 0,90/0,10=9. Le odds dêtre une femme sera de 0,10/0,90=1/9=0,11. Il y a là une asymétrie difficilement concevable, parce que le odds dêtre un homme devrait être lopposé du odds dêtre une femme. Ce problème dasymétrie peut être résolu en recourant au logarithme népérien (ou log naturel: ln): ln(9/1)=2,219 alors que ln(1/9)=-2,217. Le log odds dêtre homme est exactement lopposé du log odds dêtre femme. Ce problème dasymétrie peut être résolu en recourant au logarithme népérien (ou log naturel: ln): ln(9/1)=2,219 alors que ln(1/9)=-2,217. Le log odds dêtre homme est exactement lopposé du log odds dêtre femme.

8 Le modèle de régression logistique

9 En régression logistique, la variable dépendante est un logit cest-à-dire le log naturel du odds : En régression logistique, la variable dépendante est un logit cest-à-dire le log naturel du odds : logit(P) = a + bX Relation linéaire entre le log odds et les V.I. logit(P) = a + bX Relation linéaire entre le log odds et les V.I.

10 Le modèle de régression logistique Le concept de logit est difficile à se représenter de façon concrète! On préférera alors parler en termes de probabilités Le concept de logit est difficile à se représenter de façon concrète! On préférera alors parler en termes de probabilités

11 Formalisation mathématique (ß0 + ß1X1 + ß2X2 +...ßzXz) (ß0 + ß1X1 + ß2X2 +...ßzXz) e P(Y)= ______________________ (ß0 + ß1X1 + ß2X2 +..ßzXz) (ß0 + ß1X1 + ß2X2 +..ßzXz) 1 + e 1 + e P(Y):probabilité de la variable dépendante (entre 0 et 1); ß0: la constante du modèle ("intercept"); ßz : coefficient pour la variable indépendante Xz.

12 Transformation de léquation 1 1 P(Y)= __________________________ - (ß0 + ß1X1 + ß2X2 +..ßzXz) - (ß0 + ß1X1 + ß2X2 +..ßzXz) 1 + e 1 + e

13 Adéquation du modèle Le test dadéquation du modèle se fait à partir de la probabilité de Chi deux. Si cette probabilité est inférieure au seuil choisi, le modèle est adéquat. Ceci signifie que les variables indépendantes considérées dans lensemble expliquent la variation de la variable dépendante. Elles peuvent donc prédire la valeur de Y. On a deux modèles: le modèle saturé et le modèle pas à pas. Le modèle saturé permet de calculer la contribution de chaque variable indépendante au modèle. Le modèle pas à pas permet didentifier les mécanismes par lesquels chacune des variables indépendantes influence la variable étudiée.

14 R- Carré Il n y a pas à proprement parler déquivalent du R2 en Rli. On calcule néanmoins un pseudo R2. Pseudo R2=chi-deux/(chi-deux+n) n étant la taille de léchantillon


Télécharger ppt "La régression logistique: fondements et conditions dapplication Jean-François KOBIANÉ Institut Supérieur des Sciences de la Population"

Présentations similaires


Annonces Google