La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les Modèles de Choix Qualitatifs

Présentations similaires


Présentation au sujet: "Les Modèles de Choix Qualitatifs"— Transcription de la présentation:

1 Les Modèles de Choix Qualitatifs
Master Economie – Finance Université de Limoges Ph. Rous – année universitaire

2 La Problématique La variable expliquée Y ne peut prendre qu’un nombre limité de valeurs. Le cas typique est celui pour lequel Y est susceptible de prendre deux valeurs (0 ou 1), permettant ainsi de rendre compte de l’occurrence ou non d’un événement. Exemple : Yi = 1 si l’individu i est actuellement au chômage = 0 si cet individu bénéficie actuellement d’un emploi

3 On veut expliquer pourquoi cet événement se produit (ou, au contraire, ne se produit pas). A cet effet, on entend croiser les réalisations de la variable binaire Y avec celles d’une certain nombre de variables explicatives Xj dont les réalisations peuvent être indifféremment de natures qualitative ou quantitative. Dans ce contexte, et dans le prolongement des modèles « standards » pour lesquels les réalisations de Y sont continues, on peut être tenté de postuler l’existence d’un lien de type linéaire entre les réalisations des Xj et celles de Y. On va voir que cette façon de concevoir la relation X Y pose de sérieuses difficultés de telle sorte que cette relation devra être spécifiée sous une forme moins conventionnelle qui donne naissance à (notamment) deux types de modélisations : les modèles Logit et Probit

4 Ces modèles (non linéaires) présentent deux points communs :
l’interprétation des coefficients n’est pas aussi limpide que ce qu’elle pouvait être dans le cas d’un modèle linéaire l’estimation elle-même de ces modèles ne se fait pas sans quelques difficultés

5 Le Modèle Linéaire une idée simple
interprétation et faiblesses du modèle

6 Une idée simple La première idée qui vient à l’esprit pour décrire le lien qui pourrait exister entre X et Y consiste à postuler l’existence d’une relation linéaire entre ces deux variables : Yi = a + b Xi + ei Attention : si, dans le cadre du modèle traditionnel, il est possible d’admettre que les erreurs présentent un certain nombre de bonnes propriétés (homoscédasticité notamment) on va voir que, dans ce nouveau contexte, la vérification de ces propriétés pose problème.

7 Le Modèle Linéaire : une interprétation en termes de probabilité de l’occurrence d’un événement
On suppose que E ei = 0 pour tout i et on note : Pi la probabilité de réalisation de l’événement {Yi = 1} 1- Pi la probabilité de réalisation de l’événement {Yi = 0} conditionnellement à la connaissance de la valeur prise par Xi Pi = Prob{Yi = 1 | Xi} On sait par ailleurs que l’espérance conditionnelle de Yi liée par Xi est la somme des modalités possibles de Yi pondérées par leurs probabilités de réalisation : E( Yi | Xi ) = 1  Pi + 0  (1-Pi) = Pi

8 Or, sous l’hypothèse E ei = 0 on a aussi :
E(Yi | Xi) = a + b Xi On voit par conséquent que : Pi = a + b Xi et b pourrait être interprété comme l‘effet marginal d‘une variation de X sur la probabilité de l‘événement Y = 1 ... ce qui pose au moins deux problèmes

9 1/ la question des probabilités calculées
Munis des coefficients estimés, il est théoriquement possible de calculer, pour un individu i donné, la probabilité pour qu’il présente la modalité Yi = 1 : Mais rien ne garantit que cette probabilité calculée prenne toujours ses valeurs dans [0, 1] probas en folie.prg

10 2/ La question de l’hétéroscédasticité des erreurs
En partant du modèle Yi = a + b Xi + ei on peut aussi écrire que ei = Yi - a - b Xi On en déduit que ei n’est susceptible de prendre que 2 valeurs : ei = 1- a - b Xi avec une probabilité Pi ei = - a - b Xi avec une probabilité 1 – Pi Le caractère gaussien de l’erreur est donc difficilement soutenable !

11 Bien plus : l’erreur est, par construction, hétéroscédastique.
Var(ei ) = E(ei2) = (1 - a - b Xi)2 (a + b Xi) + (- a - b Xi)2 (1 - a - b Xi) = (1 - a - b Xi)2 (a + b Xi) + (a + b Xi)2 (1 - a - b Xi) = (1 - a - b Xi) (a + b Xi) [ (1 - a - b Xi) + (a + b Xi)] = (1 - a - b Xi) (a + b Xi) La variance de l’erreur varie en fonction des valeurs prises par X : elle est hétéroscédastique

12 Modèles à probabilités non linéaires
Présentation

13 Le risque d ’avoir des probabilités calculées négatives est écarté en modélisant la relation X - Y sous la forme : Yi = F(a+bXi) + ei où F(.) est une application dont les réalisations s ’inscrivent obligatoirement entre 0 et 1. Quoiqu ’il existe, virtuellement, une multitude fonctions répondant à ce critère, le choix de F(.) se porte le plus souvent sur deux types de fonctions : la fonction de répartition de la loi normale la fonction de répartition de la loi logistique

14 F(.) correspond à la la fonction de répartition de la loi normale
Cas n° 1 : modèle Probit F(.) correspond à la la fonction de répartition de la loi normale On suppose ici que Yi = F(a + bXi) + ei avec : Cette hypothèse de travail donne naissance au modèle PROBIT. Notez le caractère non linéaire de la relation X  Y

15 F(.) correspond à la la fonction de répartition de la loi logistique
Cas n° 2 : modèle LOGIT F(.) correspond à la la fonction de répartition de la loi logistique On suppose ici que Yi = F(a + bXi) + ei avec : Cette hypothèse de travail donne naissance au modèle LOGIT. ProbL_ProbN.prg

16 L ’interprétation des coefficients
On a vu que, dans le cas du modèle à probabilité linéaire, la probabilité de l ’événement Yi = 1 est égale à : Pi = a + b Xi b peut alors être interprété comme l‘effet marginal d‘une variation de X sur la probabilité de l‘événement Y = 1 L ’interprétation des coefficients des modèles logit et probit est plus délicate...

17 Puisque, désormais, Yi = F (a + b Xi) + ei, l ’effet marginal d ’une variation de Xi sur la probabilité Pi que Yi soit égal à 1 est : soit, dans le cas probit : dans le cas logit : Alors qu ’avec le modèle linéaire l ’effet marginal de X sur P est constant quel que soit X (et égal à b), cet effet marginal de X sur P varie désormais en fonction du point à partir duquel il est apprécié.

18 Interprétation des modèles logit et probit
en termes de variable sous jacente

19 Yi = 0  {Yi* = b1 + b2 X2i + ... + bk Xki + ei } < g
On suppose, selon cette aproche, que les valeurs prises par la (les) variable(s) explicative(s) déterminent (à un alea près) celles d ’une variable latente (ou sous-jacente) Yi* hélas inobservable qu ’on peut interpréter comme une propension à engendrer un événement de type Yi = 1 : Yi* = b1 + b2 X2i bk Xki + ei On observerait Yi = 1 dès que cette propension dépasserait un certain seuil g : Yi = 0  {Yi* = b1 + b2 X2i bk Xki + ei } < g Yi = 1  {Yi* = b1 + b2 X2i bk Xki + ei } > g

20 Prob {Yi = 0} = Prob {Xi b + ei < g} = Prob { ei < g - Xi b}
On en déduit que : Prob {Yi = 1} = Prob {Xi b + ei > g} = Prob { ei > g - Xi b} Prob {Yi = 0} = Prob {Xi b + ei < g} = Prob { ei < g - Xi b} si on connaît la loi de ei on peut alors déterminer la probabilité de chacun des événements {Yi = 0} et {Yi = 1} connaissant les valeurs prises par les variables explicatives les valeurs des coefficients (qui doivent être estimés) Remarque : un coefficient bj positif signifie donc qu’un accroissement de Xj joue dans le sens d’une plus grande probabilité de {Y = 1}.

21 L’estimation des modèles Logit / Probit pose deux problèmes :
le seuil g qui détermine la modalité 0 ou 1 ne peut être estimé indépendamment de la constante la variance de l’erreur e ne peut être estimée indépendamment des coefficients Pb n° 1 : le seuil ne peut être identifié Prob {Yi = 1} = Prob(Yi* > g) = Prob(b1 + b2 X2i bk Xki + ei > g) = Prob(ei > (g - b1) - b2 X2i bk Xki) La constante b1 et le seuil g ne peuvent être dissociés  par la suite on fera « comme si » g = 0

22 Pb n° 2 : la variance de l’erreur ne peut être identifiée
En admettant que Yi = 1, la vraisemblance de la ie observation est : et, sous une hypothèse de symétrie de la fonction f(.) il est impossible de dissocier s de bj !

23 Corollaire de ce résultat :
L’ordre de grandeur des coefficient n’a, en lui-même, que peu d ’importance. Seuls comptent : le signe des coefficients les valeurs relatives des coefficients

24 Estimation des coefficients : la vraisemblance (expression générale pour les deux modèles Logit / Probit) On suppose que les p premiers individus de l’échantillon présentent la modalité 1 et les N-p derniers la modalité 0. L = Prob{Y1 = 1 | X1, b}  ...  Prob{Yp = 1 | Xp, b}   Prob{Yp+1 = 0 | Xp+1, b} ...  Prob{YN = 0 | XN, b} On sait que : (si f(.) symétrique)

25 ou, de manière équivalente :
On en déduit : ou, de manière équivalente : ou même encore : si on prend soin de poser : di = + 1 si Yi = 1 di = - 1 si Yi = 0

26 Vraisemblance du modèle Probit
On suppose ici que l’erreur est normalement distribuée et, puisque l’écart type s de l’erreur est indissociable des bj on fait « comme si » s était égal à 1. Sous ces hypothèses on montre facilement (cf. polycopié) que : avec : d = 1 si y = 1 d = -1 si y = 0 et que la vraisemblance de l’ensemble de l’échantillon est :

27 Les valeurs estimées des coefficients sont solutions du problème d’optimisation :
Comme les conditions du premier ordre associées à ce problème ne prennent pas la forme d’un système d’équations linéaires on est contraint de rechercher une solution numérique (et non pas analytique) pour ce problème. On devra donc utiliser une algorithme d’optimisation numérique (Marquardt, Newton, QHC...) Munis des valeurs ainsi estimées des différents coefficients, la probabilité calculée de l’événement Yi = 1 conditionnelle aux valeurs prises par les Xji est :

28 Vraisemblance du modèle Logit
On suppose ici que l’erreur est distribuée selon une loi logistique :

29 Dans ce contexte, on peut montrer que la vraisemblance et la Log – vraisemblance de l’échantillon sont respectivement : Ici encore les estimations des bj sont les solutions numériques du problème d’optimisation :

30 La probabilité calculée de Yi = 1 est :
Modèle Logit La probabilité calculée de Yi = 1 est :

31 Peut-on comparer les estimations issues des modèles Logit et Probit ?
L’estimation des coefficients, dans le cas Probit, est réalisée sous l’hypothèse : s = 1 Si e suit une loi logistique standard, sa variance est connue et obligatoirement égale à s = Les coefficients logit et probit ne peuvent être comparés qu’à la condition de prendre la précaution de prémultiplier les coefficients probit par p / 31/2 (ou de diviser les coefficients logit par p / 31/2 )

32 Conséquences d’une variation de Xj sur la probabilité de Yi = 1
Rappel : avec le modèle linéaire, le coefficient bj peut être interprété comme l’effet d’une variation unitaire de Xj sur la probabilité de Yi = 1. Avec les modèles non linéaires, il en va différemment. Une première mesure : l’effet marginal de Xj : Un inconvénient majeur de cette mesure : elle est sensible à l’échelle dans laquelle est exprimée la variable Xj  on préférera l’usage des élasticités

33 Elasticité de la probabilité de Yi = 1 à la modification de Xj : si Xji varie de 1 % de combien variera la probabilité de Y = 1 pour l ’individu i ? On voit que : la valeur de l’élasticité n’est pas affectée par l’échelle dans laquelle est exprimée la variable X la valeur de l’élasticité est susceptible de varier en fonction du point à partir duquel elle est mesurée  pour cette raison, on la mesure souvent au point moyen.

34 Expression des élasticités de Pi par rapport à une variation de Xj
calcul_effmarg_elasticites.prg Exercice : simul_logit_1.wf1 + calcul_eff_marg_elasticites.prg Estimation d’une relation de type logistique. Calcul des effets marginaux et des élasticités.

35 Appréciation de la qualité du modèle
2 niveaux d’appréciation : pouvoir explicatif (comportement du modèle sur l’échantillon qui a servi à l’estimation) pouvoir prédictif (comportement du modèle en dehors de cet échantillon) Problème : la plupart des indicateurs de performance exploitables dans le cadre d’un modèle « traditionnel » ne le sont plus dans le cadre des modèles de choix qualitatifs. On doit en effet se souvenir que les valeurs calculées de Xb ne sont jamais que les valeurs calculées de la variable latente et non pas celles de la variable Y elle même. De même, les valeurs calculées de F(Xb) sont celles de la probabilité que Y soit égal à 1... de telle sorte que l’écart qui sépare les valeurs observées de Y des valeurs calculées de la variable latente (ou de la probabilité que Y = 1) n’a plus grande signification  les tests et indicateurs fondés sur les carrés des résidus sont désormais inexploitables.

36 où LUR et LR sont les vraisemblances des modèles :
Modèle à effets fixes On pallie cette tare des résidus en privilégiant l’usage d’indicateurs fondés sur les vraisemblances (plutôt que sur les carrés des résidus) : à la statistique de Fisher pour l’hypothèse nulle bj = 0 j > 1 on substitue un ratio de Log Vraisemblance : LR = 2 (Log LUR – Log LR) où LUR et LR sont les vraisemblances des modèles : Yi = 1 si Yi* > 0 avec : Modèle UR : Yi* = b1 + b2 X2i bk Xki + ei Modèle R : Yi* = b1 + ei Sous H0, cette statistique est réputée obéir à une loi du Chi-deux à k-1 DDL.

37 Au R2 traditionnel on préfèrera :
le pseudo R2 de Cragg et Uhler : Il prend ses valeurs entre 0 et 1. Il tend vers la valeur 0 dans le cas pour lequel la vraisemblance du modèle non contraint tend vers celle du modèle contraint . A contrario, si la vraisemblance du modèle contraint tend vers zéro alors que celle du modèle non contraint tend vers 1 (cas pour lequel la contribution des variables retenues à l’explication de la probabilité P est forte), le pseudo R2 tend alors vers l’unité le R2 de Mc Fadden :

38 Indicateurs de « prédictions » correctes
Attention : il s’agit ici de mesurer l’aptitude du modèle à reproduire les valeurs effectivement observées de Y sur l’échantillon qui a servi à l’estimation des coefficients. Mais l’usage du terme « prédiction » est, dans ce contexte, assez répandu... quoiqu’incorrect ! Pour apprécier la qualité « prédictive » du modèle, on doit convenir d’un seuil au delà duquel la valeur calculée de Yi* se concrétiserait par une valeur prédite de Yi égale à 1. On peut, par exemple, convenir d’un seuil égal à 50 % (quoique ce seuil soit totalement arbitraire) :

39 Illustration : Perform_predict.prg
On peut alors rapprocher les valeurs observées et calculées de Y et calculer les trois ratios suivants : avec : NPC{1} = nombre de fois où l’événement {Yi = 1} est correctement prédit NR{1} = nombre des réalisations de l’événement {Yi = 1} NPC{0} = nombre de fois où l’événement {Yi = 0} est correctement prédit NR{0} = nombre des réalisations de l’événement {Yi = 0} NPC = nombre de prédictions correctes (quelle que soit l’occurrence) N = nombre des individus Illustration : Perform_predict.prg

40 Gain et gain relatif associés au modèle non contraint
Objectif : comparer le gain, en termes de performance « prédictive » du modèle UR par rapport au modèle R. Gain {1} = NPCUR{1}-NPCR{1} on peut aussi le rapporter à NR{1} (cf. Eviews) : (NPCUR{1}-NPCR{1}) / NR{1} Gain relatif {1}= Le gain relatif nous renseigne sur l’apport effectif du modèle UR par rapport au gain potentiel

41

42 Le problème du « gain » comme du « gain relatif » c’est que les valeurs de ces deux indicateurs sont sensibles au choix du seuil discriminant (ici 50 %). On préférera, pour ce motif, calculer les espérances : * espérance du nombre d’individus qui devraient présenter, théoriquement, la modalité Y = 1 au sein de la population des N1 individus qui présentent en effet cette modalité : * espérance du nombre d’individus qui devraient présenter, théoriquement, la modalité Y = 0 au sein de la population des N0 individus qui présentent en effet cette modalité :

43 Modèle à effets fixes

44 Test d ’adéquation de Hosmer Lemeshow
Objectif : tester l’adéquation des probabilités calculées aux probabilités théoriques (inobservables) de l’événement Yi = 1 1. on trie les individus par valeur croissante du « risque » calculé 2. on classe les individus en J classes (déciles par exemple) de nj individus 3. pour chaque classe on calcule le nombre y(j) des individus qui présentent effectivement la valeur 1 4. pour chaque classe j on calcule la probabilité moyenne de Y = 1 : On doit noter que nj Pbar(j) est l ’espérance calculée du nombre des individus qui devraient présenter la modalité 1 dans la classe j. L ’idée du test consiste à tester la nullité de l ’écart entre effectif observé et effectif « espéré » de modalité 1 pour l ’esnemble des classes. Par ailleurs, on peut montrer que nj Pbar(j) (1 - Pbar(j)) est la variance calculée de y(j). Si les probabilités sont correctement évaluées, la statistique HL : est approximativement distribuée selon une loi du Chi-Deux à J-2 DDL

45 Application : SIMUL_LOGIT.WF1
Nombre d ’individus qui présentent effectivement une valeur de Y égale à 1 Nombre d ’individus qui présentent effectivement une valeur de Y égale à 0 Effectifs de classe Bornes inf et sup pour les probabilités calculées des classes Valeur de la statistique HL Seuil de risque pour pouvoir rejeter l ’hypothèse d ’adéquation Espérance du nombre des individus qui devraient présenter une valeur de Y égale à zéro Espérance du nombre des individus qui devraient présenter une valeur de Y égale à 1

46 Modèles multinomiaux On suppose désormais que Y peut présenter un nombre de modalités supérieur à 2. Il faut alors bien distinguer : le cas où les valeurs prises par Y ne sont le reflet d ’aucune hiérarchie particulière  modèles non ordonnés le cas où les valeurs prises par Y ont, per se, une réelle signification  modèles ordonnés

47 Modèles ordonnés Exemple : expliquer le taux de fréquentation des salles de cinéma. Y  {1, 2, ..., M} Yi = 1 si i va au plus 1 fois au cinéma dans l ’année Yi = 2 si i va 2 fois au cinéma et c...

48 On peut conserver une approche en termes de variable latente en posant que :
où les Xj sont les variables susceptibles d ’agir sur Y* (la propension à aller au cinéma). Comme dans le cas binomial, la modalité de Y dépendrait directement de la position de Y* par rapport à deux seuils : Yi = 1 si Yi* < g1 Yi = 2 si g1 < Yi* < g2 Yi = 3 si g2 < Yi*

49 Li = Pi1di1  Pi2di2  (1 – Pi1 – Pi2)1 - di1 - di2
Les probabilités des différentes modalités conditionnelles aux réalisations des Xj d ’une part et des valeurs des coefficients d ’autre part sont données par : et la vraisemblance de la ie observation est : Li = Pi1di1  Pi2di2  (1 – Pi1 – Pi2)1 - di1 - di2 à la condition de poser : di1 = 1 si Yi = 1 et 0 sinon di2 = 1 si Yi = 2 et 0 sinon,

50 Dans le deuxième cas (logistique) :
Comme précédemment on retient généralement deux hypothèses pour ce qui concerne la distribution des ei : hypothèse de normalité (multinomial probit) hypothèse de distribution logistique (logit multinomial) Dans le premier cas (normal) : Dans le deuxième cas (logistique) :

51 Pi2 = F(g2 – Xi b) - F(g1 – Xi b)
La probabilité de l ’événement intermédiaire {Yi = 2} pour le ie individu est : Pi2 = F(g2 – Xi b) - F(g1 – Xi b) Selon l ’hypothèse faite on a : La probabilité du troisième événement se déduit des deux premières : Pi3 = 1 - Pi1 - Pi2

52 Li = Pi1di1  Pi2di2  (1 – Pi1 – Pi2)1 - di1 - di2
Les coefficients du modèle sont estimés par la méthode du maximum de vraisemblance : avec : Li = Pi1di1  Pi2di2  (1 – Pi1 – Pi2)1 - di1 - di2

53 A l ’occasion de l ’estimation des coefficients du modèle on se heurte aux même difficultés que celles qui ont déjà été évoquées dans le cas binaire : 1. il est impossible de dissocier l ’estimation de la constante b0 de celle des seuils g1 et g2 2. dans le cas du modèle probit, il est impossible de dissocier l ’estimation des différents coefficients de celle de la variance de l ’erreur (qu ’on pose par convention égale à l ’unité) : les coefficients estimés ne nous renseignent donc sur les valeurs théoriques de ceux-ci qu ’à un facteur multiplicatif près. Seuls comptent les signes et les valeurs relatives de ces coefficients. Exercice : simul_ordo.prg, femmes_au_travail.wf1, estim_ordo.prg : expliquer la décision du choix de travailler.

54

55 L ’interprétation des coefficients est plus délicate que dans le cas binomial...
Compte tenu des expressions de P1 et P3 (cas probit) : on peut dire que, si bj est négatif, la probabilité P1 est d ’autant plus grande que la valeur de Xj est plus élevée ; celle de P3 est d ’autant plus faible que la valeur de Xj est plus élevée

56 Réciproquement, si bj est positif, la probabilité P1 est d ’autant plus faible que la valeur de Xj est plus élevée ; celle de P3 est d ’autant plus élevée que la valeur de Xj est plus élevée On interprétera donc un coefficient bj positif en disant que tout accroissement de Xj contribue à rendre plus probable les modalités les plus élevées de Y (qui est « tirée » vers le haut de la hiérarchie). Un coefficient négatif signifie a contrario que tout accroissement de Xj contribue à tirer Y vers ses modalités les plus faibles On note que l ’effet d ’une variation de Xj sur la probabilité de l ’événement intermédiaire ne peut être établi sans ambiguïté.

57 Munis des valeurs estimées des différents coefficients, il est ensuite facile de procéder au calcul : - de la valeur prise par la variable latente : - de la valeur prise par les différentes probabilités (selon les formules données plus haut - diapos 48 et 49)

58 Nombre d’individus qui présentent effectivement chaque modalité
Exercice : femmes_au_travail.wf1 : estimer le modèle logit puis calculer les valeurs de la variable latente et les probabilités p1, p2 et p3. Espérance du nombre d’individus qui devraient présenter chaque modalité Nombre d’individus qui présentent effectivement chaque modalité Déficit (+) ou Excédent (-) prédictif du nombre d ’individus dans chaque catégorie Nombre d ’individus qui devraient présenter la modalité j sur la base du critère de probabilité maximum

59 Le modèle multinomial à modalités non ordonnées
On suppose désormais que les modalités possibles de la variable Y (m = 0, 1,..., M) ne sont le reflet d’aucun classement ou d’aucune hiérarchie sous – jacente ; l’ordre dans lequel sont rangées les différentes occurrences de Y est sans importance et ne doit pas affecter le calcul des probabilités de ces occurrences. Dans ce contexte, on privilégie une approche en termes de fonction d’utilité : on suppose désormais que chaque occurrence m induit pour l’individu un niveau spécifique de satisfaction Uim qui détermine le choix de cet individu. Ainsi, l’individu i choisit la modalité m si : Uim = Max{Ui1, Ui2,..., UiM} On peut penser que l’utilité que retire un individu i de la modalité m n’est pas la même que celle que retirerait un autre individu i’ de cette même modalité : cette utilité est susceptible de varier en fonction de caractéristiques propres à chaque individu : Uim = Um(X2i, X3i, ..., Xki) = Xi bm + eim

60 Uim = Um(X2i, X3i, ..., Xki) + eim = Xi bm + eim
Ceteris paribus le choix de l’occurrence est déterminé comme ArgMax{Xi bm + eim} et non comme ArgMax{Xi bm } : le choix est aléatoire et non déterministe Utilité retirée par l’individu i du choix de la modalité m Coefficients spécifiques à la modalité m mais communs à tous les individus caractéristiques propres de l’individu i Attention : quoique les utilités retirées d’une même occurrence puissent être différentes d’un individu à l’autre, l’expression de la fonction d’utilité est la même pour tous les individus les jeux de coefficients bm varient d’une occurrence à l’autre (sauf à supposer que toutes les occurrences sont équiprobables)

61 f(x) = exp(-x – exp(-x))
Pour des raisons de simplification, le terme d’erreur est supposé être distribué selon une loi de Log Weibull : f(x) = exp(-x – exp(-x)) F(x) = exp(-exp(-x)) Dans ce contexte, la probabilité pour que la satisfaction de l’individu i soit maximum quand il choisit m0 (c’est à dire aussi la probabilité pour qu’il choisisse effectivement la modalité m0) est : Prob{Yi = m0} =

62 Cette expression de la probabilité que l’individu choisisse m0 :
peut être rapprochée de celle de la probabilité que l’individu choisisse la modalité Y = 1 dans le cas logit binaire :

63 Comme la fonction d’utilité est ordinale la hiérarchie des préférences qu’elle décrit n’est pas affectée par une transformation monotone croissante de cette fonction. Ainsi, en procédant à la transformation suivante (qui consiste à retrancher Xi b0 aux « utilités » attachées aux différentes modalités) : on ne modifie pas l’ordre des préférences et donc des choix. Dans ces conditions, et en prenant la précaution de poser que bm* = bm- b0, il est possible d’écrire que :

64 Par la suite, et pour des raisons de commodité, on occultera l’astérisque qui affecte les différents coefficients. Mais on devra se souvenir que bjm doit désormais être interprété comme représentatif des conséquences d’une modification unitaire de Xj sur la probabilité que le choix de l’individu se porte sur la modalité m plutôt que sur la modalité 0 (si le coefficient bjm est positif cela signifie qu’un accroissement de Xj tend à rendre plus probable le choix m par rapport au choix 0).

65 Les coefficients bjm sont obtenus par maximisation de la Log Vraisemblance de l’échantillon d’estimation : où, on le rappelle, dim = 1 si, de facto, i choisit la modalité m et dim = 0 sinon.

66 Interprétation des coefficients
Si bjm est positif, tout accroissement de la valeur de Xji contribue à rendre plus probable le choix de la modalité m par rapport à celui de la modalité 0.

67 Munis des estimations des différents coefficients on peut calculer :
l’effet marginal d’une variation de Xj sur la probabilité que l’individu choisisse m (plutôt que 0) : ou l’élasticité de ce choix par rapport à Xj :

68 On note que les valeurs de l ’effet marginal comme de l ’élasticité dépendent du point à partir duquel on les mesure. Pour cette raison on les calcule le plus souvent au point moyen. Un exemple : logit_multinomial.lpj On veut expliquer les valeurs prises par Y (3 modalités possibles : 0, 1 ou 2) en fonction des valeurs prises par X2 et X3. On peut utiliser LIMDEP ou STATA apprécier le pouvoir « prédictif » du modèle calculer les effets marginaux au point moyen

69 Les coefficients et la qualité prédictive
Les coefficients attachés à l ’occurrence Y = 0 sont normés à 0. Ils n ’apparaissent pas dans la feuille de résultats On note qu ’un accroissement de X3 renforce la probabilité du choix Y = 2 par rapport au choix Y = 0 mais affaiblit la probabilité du choix Y = 1 par rapport au choix Y = 0 Il y a effectivement 339 individus qui présentent la modalité Y = 0. Sur ces 339 individus il y en a 177 pour lesquels le modèle prédit Y = 0 (pour ces 177 individus, la probabilité calculée attachée à l ’événement Y = 0 est supérieure à la probabilité des autres événements).

70 La somme des effets marginaux est nulle
Les effets marginaux Si X3 augmente d ’une unité, la probabilité attachée à Y = 0 augmente de la probabilité attachée à Y = 1 diminue de la probabilité attachée à Y = 2 augmente de = La somme des effets marginaux est nulle Des effets marginaux très importants en valeurs absolues dénotent une forte sensibilité des choix à la modification des caractéristiques individuelles

71 Le Logit Conditionnel Jusqu ’ici on a admis que les valeurs prises par les variables explicatives ne sont pas influencées par la nature du choix : quelle que soit la modalité choisie, les valeurs prises par les différentes variables explicatives sont les mêmes que les probabilités attachées aux différentes modalités ne diffèrent donc les unes des autres que par le fait qu ’à chaque modalité est attaché un jeu spécifique de coefficients (l ’individu ne pondère pas les variables explicatives de la même façon selon qu ’il envisage de porter son choix sur m ou sur m ’) Or, justement, il peut arriver que les valeurs des variables explicatives soient influencées par la nature du choix : on utilise alors un modèle Logit Conditionnel

72 Exemple : choix d ’un mode de transport en fonction :
du temps de transport Z1im induit par le choix m du coût du transport Z2im induit par le choix m Les valeurs prises par ces variables explicatives changent en fonction du choix qui est fait Dans un tel contexte on considère que les coefficients attachés aux variables Zjim sont les mêmes non seulement d ’un individu à l ’autre mais aussi d ’une modalité à l ’autre :

73 Interprétation des coefficients
Si le coefficient associé au coût du transport est négatif, tout accroissement du différentiel de coût entre la voiture (choix j) et la marche à pied (choix h) contribue à réduire la probabilité de choisir la voiture par rapport à la probabilité de choisir la marche à pied.

74 Intérêt de cette modélisation
Puisque les coefficients sont les mêmes dans les différentes options, cette modélisation autorise le calcul de la probabilité d ’une option virtuelle. Par exemple, même si les individus de l ’échantillon ne peuvent encore bénéficier des services que leur rendrait la mise en place d ’un métro urbain, rien ne s ’oppose à ce qu ’on puisse calculer, pour un individu donné, la probabilité qu ’il choisisse ce mode de transport si, par ailleurs, on est capable d ’en évaluer, pour l ’individu étudié, le coût et le temps de transport induits.

75 Effets marginaux et élasticités
Munis des estimations des différents coefficients il est possible de calculer les variations marginales et les élasticités des probabilités par rapport aux différentes variables explicatives. On les apprécie généralement au point « moyen ». Si P0 est la probabilité pour l ’individu moyen de choisir l ’option 0 : l ’effet marginal sur P0 suscité par une variation unitaire de la variable Zk par rapport à son niveau moyen dans l ’option m est :

76 L ’effet marginal sur P0 suscité par une variation unitaire de la variable Zk par rapport à son niveau moyen dans la même option 0 est : = bk P0 - bk P02 = bk P0 (1 – P0) Les élasticités se déduisent aisément des expressions des effets marginaux :

77 Application

78

79 On veut : . estimer les coefficients du modèle . apprécier le pouvoir “ prédictif ” du modèle . calculer l’élasticité (évaluée au point moyen) de la probabilité de l’option m par rapport à la durée et au coût du transport. Les copies d ’écran qui suivent permettent de configurer LIMDEP en vue de réaliser ces tâches.

80

81

82

83 I - Estimation du modèle et qualité d ’ensemble
Ui 0 = – TEMPSi0 – COUTi0 Ui1 = – TEMPSi1 – COUTi1 Ui2 = – TEMPSi2 – COUTi2

84 Le coefficient négatif associé à la variable COUT signifie que si le différentiel de coût qui sépare par exemple les deux modes de transport “ VOITURE ” et “ BUS ” se creuse, l’individu a tendance à délaisser le moyen de transport le plus onéreux pour privilégier le moins coûteux. Le coefficient a donc le signe attendu.

85 II - Statistiques descriptives

86 III - Prévisions et réalisations des choix

87 IV - Les élasticités Une modification de + 1 % du coût supporté, en moyenne, quand on choisit de se déplacer en voiture induit . un accroissement de % de la probabilité de choisir la marche à pied . un accroissement de % de la probabilité de choisir le bus . une diminution de % de la probabilité de choisir la voiture personnelle

88 Choix qualitatifs et données de panel
Le contexte : un échantillon constitué de : N observations dans l ’espace T observations dans le temps une variable expliquée qui ne peut prendre qu ’un nombre très limité de valeurs (généralement 0 ou 1)

89 La plupart des modèles estimés sur données de panel peuvent être spécifiés sous une forme très générale : Yit = ai + b Xit + eit où, selon les cas, le terme ai peut avoir un statut de constante spécifique à l ’individu i : modèle à effets fixes d ’erreur spécifique aléatoire : modèle à composantes d ’erreur (ou à effets aléatoires)

90 Modèles à effets fixes Pour l ’estimation des coefficients de ce modèle on peut utiliser soit l ’estimateur LSDV soit l ’estimateur WITHIN

91 Effets fixes : estimateur LSDV
Modèle à effets fixes Effets fixes : estimateur LSDV

92 Effets fixes : estimateur WITHIN

93 avec : ui ~ IID(0, su) d’une part
Effets aléatoires Yit = a + b Xit + ui + eit avec : ui ~ IID(0, su) d’une part E(uj Xit) = 0 quels que soient i, j et t d’autre part Si la condition d ’orthogonalité des X par rapport aux erreurs spécifiques n ’est pas respectée (ce que permet d ’établir un test d ’Hausman) on doit privilégier un estimateur WITHIN. Si la condition d ’orthogonalité est respectée, on utilise avec profit l ’estimateur des MCQG ( SWAMY ARORA).

94 On suppose désormais que le modèle étudié peut être ainsi spécifié :
Difficultés spécifiques à l ’estimation des modèles logit dans un contexte de données de panel On suppose désormais que le modèle étudié peut être ainsi spécifié : Yit = 1 si Yit* = ai + b Xit + eit > 0 Yit = 0 si Yit* = ai + b Xit + eit < 0 Dans ce contexte, on a vu que la probabilité pour que Yi soit égal à 1 est : Prob{Yit = 1} = Prob{eit > - ai - b Xit } Prob{Yit = 1} = Prob{eit < ai + b Xit } (si la distribution est symétrique)

95 Cas probit : Cas logit : et la vraisemblance de l ’échantillon est :

96 2 remarques à propos de l ’estimation des coefficients
1/ Comme le modèle est non linéaire il n ’est pas possible, comme dans le cas continu, d ’évacuer la question de l ’estimation des effets fixes en travaillant sur des données centrées autour de leurs moyennes individuelles. 2/ Comme le nombre des coefficients à estimer augmente avec le nombre d ’individus, l ’estimateur du maximum de vraisemblance ne peut converger (cft. exercice genr_panel_qualitatif.prg)

97 L ’estimateur de Chamberlain
La non convergence de l ’estimateur du coefficient attaché à X tient au fait que, compte tenu du caractère non linéaire du modèle LOGIT il n ’est pas possible de séparer la question de l ’estimation de b de celle des effets fixes ai. On peut montrer toutefois (cft polycopié) qu ’en éliminant de l ’échantillon tous les individus pour lesquels la modalité de Y (quelle qu ’elle soit) n ’a pas changé à travers le temps, il est possible d ’exprimer la vraisemblance de l ’échantillon (circonscrit aux seuls individus ayant changé au moins une fois de statut) indépendamment des effets fixes. L ’estimateur de Chamberlain est donc un estimateur du maximum de vraisemblance pour lequel la vraisemblance se limite au sous échantillon des individus dont la valeur de Y a changé dans le temps.

98 Application : prévision d ’épisodes de stress financier
panel_data_stress.dta (fichier STATA) un échantillon de 50 banques pour chaque banque on dispose d ’observations dans le temps (période , fréquence annuelle) pour les trois variables VAR1, VAR2 et VAR3 représentatives du risque encourru par la banque pour la variable Y qui est une variable indicatrice de difficultés financières (Yit = 1 si la banque i a connu un épisode de stress financier au cours de l ’année t ; 0 sinon) On veut savoir s ’il est possible d ’expliquer l ’occurrence d ’un épisode de stress aux variables représentatives du risque.

99


Télécharger ppt "Les Modèles de Choix Qualitatifs"

Présentations similaires


Annonces Google