La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les variables qualitatives Lionel Nesta Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation dÉconométrie avec Stata.

Présentations similaires


Présentation au sujet: "Les variables qualitatives Lionel Nesta Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation dÉconométrie avec Stata."— Transcription de la présentation:

1 Les variables qualitatives Lionel Nesta Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation dÉconométrie avec Stata

2 Plan du cours : première partie 1.Les variables qualitatives explicatives 1.Création et gestion des variables qualitatives sous STATA 2.Les variables muettes dans le modèle MCO 2.Les modèles à variables qualitative dépendante 1.Le modèle de probabilité linéaire 2.Lestimation par le maximum de vraisemblance 3.La régression logistique

3 Plan du cours : deuxième partie 3.La régression logistique multinomiale 1.Simple 2.Ordinale 4.Les modèles de comptage 1.Le modèle de Poisson 2.Le modèle négatif binomial

4 Les variables qualitatives explicatives

5 1. Les variables qualitatives explicatives Les variables qualitatives Les variables muettes (les dummies) Créer une variable muette avec Stata Interprétation des coefficients dans le modèle MCO Les effets croisés entre variables muettes et continues

6 Les variables qualitatives Il sagit de variables qui donnent des informations sur des caractéristiques discrètes. Le nombre de catégories prises par les variables qualitatives est en général petit. Ces valeurs peuvent être numériques mais chaque nombre indique une qualité; une caractéristiques. Une variable discrète peut avoir plusieurs modalités Deux modalités : homme ou femme Trois modalités : nationalité (française, allemande, anglaise) Plus de trois modalités : secteur (automobile, chimie, bureautique, métallurgie, etc.)

7 Les variables qualitatives Il existe plusieurs manières de coder une variable qualitative à n modalités Codage par une seule variable catégorielle Codage par n - 1 variables muettes Une variable muette ou indicatrice est une variable qualitative qui prend les valeurs 0 ou 1. On parle de variable binaire ou dichotomique. En Anglais, on parle de « dummy variables », ou « dummies »

8 Les variables qualitatives Codage par une seule variable catégorielle Deux modalités : On crée une variable catégorielle « genre » qui est égale à 1 si lindividu est une femme, 2 si lindividu est un homme. Trois modalités : On crée une variable « nationalité » qui est égale à 1 si lindividu est français, 2 si lindividu est allemand, 3 si lindividu est anglais. Variable à n modalités : On crée une variable « nationalité » qui est égale à 1 si lindividu est français, 2 si lindividu est allemand, 3 si lindividu est anglais, etc. Le codage dune variable catégorielle nécessité lutilisation dun label pour savoir à quelle modalité se réfère ledit numéro.

9 Labéliser des variables Labéliser les variables est intéressant, fastidieux, ennuyeux. Conséquence importante sur linterprétation des résultats label variable. Décrit une variable qualitative ou quantitative label variable asset "real capital" label define. Décrit les valeurs (modalité) dune variable qualitative label define firm_type 1 "biotech" 0 "Pharma" label values Applique le label défini précédemment label values type firm_type

10 Exemple de labellisation ************************************************************************************* ******* CREATION DES LABELS INDUSTRIES ********* ************************************************************************************* egen industrie = group(isic_oecd) #delimit ; label define induscode 1 "Text. Habill. & Cuir" 2 "Bois" 3 "Pap. Cart. & Imprim." 4 "Coke Raffin. Nucl." 5 "Chimie" 6 "Caoutc. Plast." 7 "Aut. Prod. min." 8 "Métaux de base" 9 "Travail des métaux" 10 "Mach. & Equip." 11 "Bureau & Inform." 12 "Mach. & Mat. Elec." 13 "Radio TV Telecom." 14 "Instrum. optique" 15 "Automobile" 16 "Aut. transp." 17 "Autres"; #delimit cr label values industrie induscode

11 Exercice 1.Téléchargez la base var_qual.dta 2.Labélisez la variable firm_type 3.Définissez un label pour la variable firm_type, sachant que la modalité 1 qualifie les grandes firmes pharmaceutiques et la modalité 2 qualifie les firmes de biotechnologie.

12 Les variables qualitatives muettes Codage par des variables muettes Deux modalités. On crée une variable muette « femme » qui est égale à 1 si lindividu est une femme, 0 sinon. On crée une variable muette « homme » qui est égale à 1 si lindividu est une femme, 0 sinon. Or une des deux variables muettes est redondante. A partir du moment où femme = 0, alors homme = 1. Autrement dit pour une variable catégorielle à deux modalités, on a besoin dune seule variable muette seulement pour avoir la même information.

13 Les variables qualitatives muettes Codage par n variables muettes Exemple avec trois modalités On crée trois variables muettes, la première étant est égale à 1 si lindividu est français, 0 sinon (variable appelé « FRA »). la deuxième modalité est égale à 1 si lindividu est allemand, 0 sinon (variable appelé « DEU »). la troisième modalité est égale à 1 si lindividu est anglais, 0 sinon (variable appelé « GBR »). Or une des trois variables muettes est redondante. A partir du moment où FRA = 0, DEU = 0, alors GBR = 1. Pour une variable à n modalités, on crée n - 1 variables muettes, chacune représentant une modalité particulière de la variable.

14 Créer une variable muette sous stata Générer une variable muette à partir dune variable qualitative. generate DEU = 0 replace DEU = 1 if country==GERMANY generate FRA = country==FRANCE Générer une variable muette à partir dune variable qualitative. generate GE = 1 if taille > 100 replace GE =0 if taille < 101 generate GE = taille > 100

15 Créer une variable muette sous stata Si vous disposez dune variable qualitative à n modalités, il peut être fastidieux de créer n-1 variables muettes La fonction tabulate a une extension très pratique, puisquelle générera autant de variables muettes quil y a de modalités dune variable catégorielle. tabulate varcat, gen(v_) tabulate country, gen(c_) Va créer la variable muette c_1 pour le premier parti, c_2 pour le second, c_3 pour le troisième, etc.

16 Interprétation des coefficients devant les variables muettes Dans la régression linéaire, le coefficient estimé sinterprète comme la variation de la variable dépendante suite à la variation dune unité de la variable explicative, toute chose égale par ailleurs. Soit le modèle de fonction de production de connaissance où « y » est le nombre de brevet produit par les firmes et « biotech » est une variable muette égale à 1 pour les firmes de biotechnologie.

17 Interprétation des coefficients devant les variables muettes Si la firme est une firme de biotechnologie, la variable muette « biotech » est égale à lunité, donc : Si la firme est une firme pharmaceutique, la variable muette « biotech » est égale à 0, donc :

18 Interprétation des coefficients devant les variables muettes Quand la variable explicative est muette, le coefficient sinterprète comme variation de la variable dépendante quand la variable muette est égale à 1, relativement à une situation où la variable muette est égale à 0. Pour deux modalités, je dois introduire une variable muette. Pour trois modalités, je dois introduire deux variables muettes. Pour n modalités, je dois introduire (n-1) variables muettes.

19 Exercice 1.A partir de la base var_qual.dta, régressez le modèle 2.Prédisez la production de brevet pour les firmes de biotechnologie et les firmes pharmaceutiques 3.Etablissez les statiques descriptives de PAT pour chacun des types de firme avec la commande table 4.Quobservez-vous ?

20 Interprétation des coefficients devant les variables muettes Pour la forme semi logarithmique (log Y), le coefficient β est interprété comme une approximation du pourcentage de variation de Y pour une variation de 1 de la variable explicative. Cette approximation est acceptable quand β est petit (β < 0.1). Quand β est grand (β 0.1), alors le pourcentage exact de la différence selon les évènements 0 ou 1 est : 100 × (e β – 1)

21 La fonction de production de connaissances Application 1: modèle de base

22

23 Application 2: Changement de modèle La fonction de production de connaissances

24 Application 2: Changement de modèle

25 Application 3: Variable muette La fonction de production de connaissances

26 Application 3: Variable muette

27 Patent ln(PAT) size

28 Application 4: Variable dinteraction La fonction de production de connaissances

29 Application 4: Variable dinteraction

30 Patent ln(PAT) Size

31 Les modèles à variable qualitative dépendante

32 Le modèle de probabilité linéaire

33 Quand la variable qualitative dépendante est binaire ou dichotomique (0/1), le modèle OLS est appelé modèle de probabilité linéaire (par exemple : Y=1 si lentreprise innove, Y=0 sinon). Y ne prend que 2 valeurs (0;1). Comment interpréter β j ? Si E(u|X)=0 alors:

34 Le modèle de probabilité linéaire Y suit une distribution de Bernoulli despérance P. Ce modèle est donc dit MPL car son espérance conditionnelle E(Y|X) peut être interprétée comme la probabilité conditionnelle que lévènement se produise compte tenu des valeurs de X : β mesure de combien est modifié la probabilité de succès quand X change dune unité (ΔX=1)

35 Les limites du modèle de prob. linéaire (1) Labsence de normalité des erreurs OLS6 : Le terme d'erreur est indépendant des variables indépendantes et suit une loi Normale de moyenne nulle et de variance 2 Les erreurs étant le complémentaire par rapport à 1 de la probabilité conditionnelle, elles suivent une distribution de Bernoulli, et non normale.

36 Les limites du modèle de prob. linéaire (1) Labsence de normalité des erreurs

37 Les limites du modèle de prob. linéaire (2) Lhétéroscédasticité des erreurs OLS5 : La variance du terme d'erreur est la même, quelle que soiet les valeurs des variables indépendantes Si le terme derreur suit une distribution de Bernoulli, alors sa variance dépend de X:

38 Les limites du modèle de prob. linéaire (2) Lhétéroscédasticité des erreurs

39 Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes Par définition, une probabilité est toujours comprise entre 0 et 1, si bien que : Or OLS ne garantit en rien cette condition : On peut imaginer des prédictions en dehors de [0;1] Leffet marginal reste constant en permanence car P = E(Y|X) croit linéairement avec X. Ceci nest pas réaliste (ex: la probabilité davoir un enfant en fonction du nombre denfants dans la fratrie).

40 Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes Mauvaises prédictions

41 Les limites du modèle de prob. linéaire (4) Un coefficient de détermination faible Les valeurs observées de Y sont égales à 1 ou 0, alors que les valeurs prédites appartiennent à lensemble des réels compris enter 0 et 1 : [0;1]. Si on confronte graphiquement les valeurs prédites avec les valeurs observées, lajustement linéaire apparaît systématiquement faible.

42 Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes Mauvaises prédictions qui baissent le R 2

43 Les limites du modèle de probabilité linéaire 1. Labsence de normalité des erreurs 2. Lhétéroscédasticité des erreurs 3. Les prédictions aberrantes 4. La faible valeur du coefficient de détermination

44 Surmonter les limites du MPL 1. Labsence de normalité des erreurs Augmenter la taille de léchantillon 2. Lhétéroscédasticité des erreurs Effectuer des estimations robustes 3. Les prédictions aberrantes Effectuer des estimations contraintes ou non linéaires 4. La faible valeur du coefficient de détermination Ne pas utiliser le R 2 pour estimer la qualité de lajustement

45 Le MPL et ses utilisations Malgré ses limites, le MPL est assez largement utilisé : 1.Parce quil constitue une base exploratoire dont les coefficients sont faciles à interpréter. 2.Parce quil marche plutôt bien pour les valeurs des variables indépendantes qui sont proches de la moyenne des données. 3.Parce quà la condition de travailler sur des grandes bases de données, il permet daborder des problèmes destimation que dautres approches ont du mal à aborder.

46 Le modèle LOGIT

47 Probabilités, chances et logit Nous voulons expliquer la réalisation évènement : la variable à expliquer prend deux valeurs : y={0;1}. En fait, on va expliquer la probabilité de réalisation (ou non) de lévènement: P(Y=y | X) [0 ; 1]. Il nous faudrait une transformation de P(Y) qui étendent lintervalle de définition. Nous allons voir que le calcul des chances permet denvisager cette transformation. Nous comprendrons alors les sources de la fonction logit.

48 Le modèle Logit (1) Modélisons la probabilité en nous assurant que quelles que soient les valeurs de X, P reste toujours entre 0 et 1.

49 Le modèle Logit (2) Ecrivons le ratio de chance (odds ratio) et prenons son log: Notons deux caractéristiques importantes et désirées du modèle : 1.Malgré le fait que P soit compris entre 0 et 1, le logit est un réel compris entre - et + 2.La probabilité nest pas linéaire en X

50 Les ratios de chance Ou plus généralement Plutôt que dexpliquer Y (=1 ou =0), on va tenter dexpliquer le ratio de chance (ou odds ratio)

51 Probabilités, chances et logit P(Y=1)Odds p(y=1) 1-p(y=1) Ln (odds) 0.011/990,01-4, /970,03-3, /950,05-2, /800,25-1, /700,43-0, /600,67-0, /501,000, /401,500, /302,330, /204,001, /519,02, /332,33, /199,04,60

52 La transformation logit Le précédent tableau fait correspondre une liste de probabilité entre 0 et 1 et son équivalent en termes de chance au logarithme des chances. Si la probabilité varie de 0 à 1, la chance varie de 0 à linfini. Le log de la chance varie de – à +. Remarquez que la distribution des chances et des log est symétrique.

53 La distribution logistique

54 La méthode du maximum de vraisemblance Le problème est que nous nobservons pas le ratio de chance. Encore une fois, le modèle MCO ne convient pas. Pour estimer le modèle LOGIT, on a recours à la méthode du maximum de vraisemblance. La méthode MV est une méthode destimation alternative à la méthode des moindres carrés. Elle consiste à trouver la valeur des paramètres qui maximisent la vraisemblance des données. La vraisemblance en économétrie est définie comme la probabilité jointe dobserver un échantillon, étant donné les paramètres du processus ayant généré les données.

55 La méthode du maximum de vraisemblance Supposons que nous disposons dun échantillon de n observations aléatoires. Soit f(Y) la probabilité que Y=1 ou 0. La probabilité jointe dobserver les n variables de Y est donnée par la fonction de vraisemblance : On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités dun événement qui ne peut avoir que deux occurrences: un succès et un échec. Il sagit de la distribution binomiale :

56 La fonction de vraisemblance En définitive, la fonction de vraisemblance sécrit:

57 La fonction de vraisemblance Parce quelle est difficile à manipuler, on utilise généralement le log. Après manipulation, la fonction log de la vraisemblance sécrit :

58 La méthode du maximum de vraisemblance Le problème est le suivant: étant donné la forme fonctionnelle de f(.) et les N observations, quelles valeurs des paramètres rendent lobservation de léchantillon la plus vraisemblable?

59 La maximisation de la vraisemblance Cette maximisation na pas de solution analytique et se résout grâce un algorithme ditération dit de Newton- Raphson. Les estimateurs obtenus en maximisant la vraisemblance sont efficaces. Ou encore en maximisant le log de la vraisemblance.

60 Lexemple des chances dinnover Les entreprises de biopharmaceutique : 373 (81%) ont innover et 84 (19%) ne lont pas fait. La chance dinnover est denviron 4 contre 1.En effet 373/84=4.4 Pour les entreprises de biopharmaceutique, la probabilité dinnover est quatre fois plus élevée que la probabilité de ne pas le faire.

61 Le modèle de régression logistique Application sur la base de données OLS Instruction Stata : logit logit y x 1 x 2 x 3 … x k [if] [weight] [, options] Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en cas d'hétéroscédasticité if : permet de sélectionner les observations sur lesquelles portera la régression weight : permet de pondérer les différentes observations

62 Interprétation des coefficients (1) Pour avoir la mesure de la variation de probabilité, il faut utiliser la formule du logit pour transformer le logit en probabilité

63 Interprétation des coefficients (2) Tapons un modèle sans variable explicative et seulement une constante: Tapons logit inno et nous trouvons La constante sinterprète comme le log ratio moyen. Calculons la probabilité moyenne dinnover. Tapons : dis exp(_b[_cons])/(1+exp(_b[_cons])) Nous trouvons bien la valeur observée: 81%

64 Interprétation des coefficients (3) Un signe positif signifie que la probabilité de succès augmentera avec la variable correspondante. Un signe négatif signifie que la probabilité de succès diminuera avec la variable correspondante. Une des difficultés dans linterprétation des probabilités est leur non linéarité: elles ne varient pas identiquement selon le niveau des variables indépendantes. Cest pourquoi il est fréquent de calculer la probabilité au point moyen de léchantillon.

65 Interprétation des coefficients (4) Tapons logit inno rdi size spe pharma A partir du modèle, on peut calculer la probabilité conditionnelle moyenne en utilisant les valeurs moyennes de rdi, size, spe et pharma.

66 Les effets marginaux (1) Il est souvent utile de connaître leffet marginal dune variable explicative sur la probabilité de succès dun évènement. Puisque la probabilité est une fonction non linéaire des variables explicatives, la variation de la probabilité due à un changement dune variable explicative (ou son effet marginal) ne sera pas identique selon que les autres variables sont maintenues à leur niveau moyen, ou médian, ou au premier quartile, etc. prvalue produit les probabilité prédites après un modèle logit (ou autre modèle) prvalue prvalue, x(size=10) rest(mean) renvoie pour p(Y=1) : prvalue, x(size=11) rest(mean) renvoie pour p(Y=1) : prvalue, x(size=12) rest(mean) renvoie pour p(Y=1) : prvalue, x(size=10) rest(median) renvoie pour p(Y=1) : prvalue, x(size=11) rest(median) renvoie pour p(Y=1) : prvalue, x(size=12) rest(median) renvoie pour p(Y=1) :

67 Les effets marginaux (2) La commande prchange est bien utile. Elle produit leffet marginal de chacune des variables explicatives pour la plupart des variations de valeurs désirées. prchange [varlist] [if] [in range],x(variables_and_values) rest(stat) fromto prchange prchange, fromto prchange, fromto x(size=10.5) rest(mean)

68 Qualité de lestimation Il nexiste pas de mesure comparable au R 2 de la régression linéaire. On utilise exclusivement la statistique du log de vraisemblance ( LL ), cad du log de la probabilité jointe dobserver léchantillon. Plus il y a dobservation, plus le produit des probabilité jointe tend vers 0. Autrement dit, pour un même modèle, plus il y a dobservations, plus LL tend vers - Pour une même nombre dobservations, plus le modèle est explicatif, plus LL tend vers 0. Cest en comparant deux LL que lon évalue la qualité dun ajustement, avec toujours un modèle contraint et un modèle non contraint.

69 Le McFadden Pseudo R 2 On utilise le McFadden Pseudo R 2 (1973) en première analyse pour voir la qualité de lajustement. Il sinterprète de manière analogue au R 2. Toutefois, parce quil reste généralement faible, son utilisation reste limitée. Le pseudo-R 2 dépend des maxima de vraisemblance obtenus si le modèle navait quune constante (modèle contraint) et pour le modèle complet (modèle non contraint). Il est compris entre 0 et1. Plus il est proche de 1 et mieux cest.

70 Le rapport de vraisemblance (LR test) Le ratio de vraisemblance dépend aussi des maxima de vraisemblance et suit une loi de 2. La probabilité que les variables indépendantes ne sont pas explicatives (H 0 ) est donnée par le test du 2. Le rapport de vraisemblance compare une spécification contrainte à une autre non contrainte: Ce rapport suit une distribution du 2. Une grande valeur indique que le modèle non contraint apporte une information significative à lévènement que le modèle veut expliquer.

71 Autre utilisation du LR test Comme output, STATA présente toujours le LR test, comparant le modèle spécifié avec un modèle sans variable explicative et seulement une constante. On peut réaliser ce test pour comparer deux spécifications pour justifier lajout de variables explicatives. Ceci est très utile lorsquil sagit de voir si lajout dune variable apporte de linformation. logit [modèle contraint] est store [nom1] logit [modèle non contraint] est store [nom2] lrtest nom2 nom1

72 La qualité de la prévision On peut enfin effectuer une comparaison entre les évènements prédits correctement avec ceux prédits avec erreurs. Il faut alors faire une hypothèse: quand la probabilité prédite est supérieure à 0,5, alors la prédiction est que lévènement a lieu. Sous STATA, ceci est effectuer avec estat class

73 Autre modélisation du choix binaire Le modèle Logit ne constitue quune modélisation possible, même dans le cas où la variable dépendante est une variable binaire. On utilise largement le modèle Probit comme modèle concurrentiel. Ou encore le modèle dit log-log complémentaire dans le cas des probabilité de survie, car il se prête bien à la modélisation de la fonction de hasard.

74 Autres modélisations de choix binaire Le modèle Probit Le modèle log-log complémentaire

75 Les fonctions de vraisemblance et commandes STATA Exemple logit inno rdi size spe pharma probit inno rdi size spe pharma cloglog inno rdi size spe pharma

76 Les fonctions de répartition

77 Comparaison des modèles OLSLogitProbitC log-log rd - size [4.03]***[3.63]***[3.55]***[3.24]*** ln(Actif matériel) [8.73]***[7.43]***[7.68]***[7.32]*** ln(spécialisation technologique) [1.03][0.90][0.87][0.67] Dummy Pharma [7.56]***[6.63]***[6.83]***[6.57]*** Constant [2.39]**[5.31]***[5.44]***[5.61]*** Observations457 Absolute t value in brackets (OLS) z value for other models. * 10%, ** 5%, *** 1%

78 Comparaison des effets marginaux OLSLogitProbitC log-log Intensité de recherche Actif matériel Spécialisation technologique Entreprise Pharmaceutique Pour les modèles logit, probit et cloglog, les effets marginaux ont été évalués par une variation dun point autour de la moyenne, en utilisant les valeurs moyennes des autres variables.

79 Le modèle LOGIT multinomial

80 Le modèle multinomial Envisageons maintenant le cas où la variable dépendante est multinomial. Par exemple, dans la cadre des activités dinnovation de la firme: Collabore avec université (modalité 1) Collabore avec grande firme (modalité 2) Collabore avec PME (modalité 3) Ne collabore pas (modalité 4) Ou dans le cadre de la survie des firmes: Survie (modalité 1) Banqueroute (modalité 2) Rachat (modalité 3)

81

82 Introduction au modèle multinomial Prenons le cas de la survie des firmes. La première possibilité est denvisager trois régressions logistiques indépendantes comme suit: Où 1 = survie, 2 = banqueroute, 3 = rachat. 1. Ouvrez le fichier mlogit.dta 2. Pour chaque modalité, estimez la probabilité au point moyen de léchantillon, conditionnelle à : - temps (log_time) - la taille(log labour) - lâge(entry_age) - lindicatrice spinout(spin_out) - lindicatrice cohorte(cohort_*)

83 Introduction au modèle multinomial

84 Le modèle multinomial Premièrement, la somme des probabilités conditionnelles doccurrence dévènements exclusifs doit être égale à lunité. Deuxièmement, pour k modalités différentes, nous navons besoin destimer que (k – 1) modalités. Donc

85 Le modèle multinomial Troisièmement, le modèle multinomial est un modèle destimation simultanée comparant des ratios de chance pour chaque pair de modalités. Dans le cas de trois modalités:

86 Le modèle logit multinomial Remarquons quil y a redondance dinformation dans les trois modèles précédents. En effet : Quatrièmement, lestimation dun modèle multinomial revient à estimer conjointement (k – 1) modèles logit en posant la contrainte sur les paramètres à estimer:

87 Le modèle logit multinomial Dans une modélisation logistique à k modalités, la probabilité doccurrence de la modalité j sécrit: Par convention, la modalité 0 est la modalité de base

88 Le modèle logit multinomial Notez que

89 Le modèle Logit binomial comme un cas particulier du logit multinomial Réécrivons la probabilité de lévènement Y=1 On voit bien que le logit binomial est un cas particulier du cas multinomial où seulement deux modalités sont analysées.

90 La méthode du maximum de vraisemblance Supposons que nous disposons dun échantillon de n observations aléatoires. Soit f(Y) la probabilité que Y=j. La probabilité jointe dobserver les n variables de Y est donnée par la fonction de vraisemblance : On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités dun événement qui peut avoir plusieurs modalités. Il sagit de la distribution multinomiale :

91 La fonction de vraisemblance En définitive, la fonction de vraisemblance sécrit:

92 La fonction de vraisemblance Après manipulation, la fonction log de la vraisemblance sécrit

93 Le modèle de logit multinomial Instruction Stata : mlogit mlogit y x 1 x 2 x 3 … x k [if] [weight] [, options] Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en cas d'hétéroscédasticité if : permet de sélectionner les observations sur lesquelles portera la régression weight : permet de pondérer les différentes observations

94 Le modèle de logit multinomial use mlogit.dta, clear mlogit type_exit log_time log_labour entry_age entry_spin cohort_* Dans Stata, la modalité de référence est celle qui a la plus grande fréquence empirique Bloc des description de lajustement Paramètres estimés, erreurs standards et probabilités critiques

95 Interprétation des coefficients Linterprétation des coefficients seffectue toujours en référence à la catégorie de base. La probabilité de rachat décroit-elle avec le temps ? Non!! Linterprétation correcte est: relativement à la survie, la probabilité de rachat décroit avec le temps

96 Interprétation des coefficients Linterprétation des coefficients seffectue toujours en référence à la catégorie de base. La probabilité de rachat est elle moins forte pour les « spinoffs » ? Non!! Linterprétation correcte est: relativement à la survie, La probabilité de rachat est moins forte pour les « spinoffs »

97 Interprétation des coefficients Relativement à la banqueroute, la probabilité de rachat est plus forte pour les « spinoffs » lincom [boughtout]entry_spin – [death]entry_spin

98 Croiser les références mcross fait le travail pour nous ! Attention à la nouvelle catégorie de référence !! Rachat relativement à la banqueroute Relativement à la banqueroute, la probabilité de rachat est plus forte pour les « spinoffs »

99 Croiser les références mcross fait le travail pour nous ! Et nous retrouvons notre résultat précédent

100 Lhypothèse dindépendances des états non pertinents (IIA) Le modèle repose sur lhypothèse que pour chaque paire de modalités les réalisations sont indépendantes des autres modalités. Autrement dit, les autres modalités sont non pertinentes (irrelevant). Dun point de vue statistique, cela revient à faire lhypothèse dindépendance des termes derreur entres les différentes modalités (doù le nom IIA: Independence of irrelevant alternatives) Une façon simple de tester la propriété IIA est alors destimer le modèle en retirant une modalité (pour retreindre les choix), et de comparer les nouveaux paramètres avec ceux du modèle complet Si IIA est valide, les paramètres ne changent pas significativement Si IIA nest pas valide, les paramètres changent significativement

101 Lhypothèse dindépendances des états non pertinents (IIA) H 0 : La propriété IIA est valide H 1 : La propriété IIA nest pas valide La statistique H (H car il sagit en fait dun test dHausman) suit une distribution du χ² à M degré de liberté (M étant le nombre de paramètres)

102 Application de IIA H 0 : La propriété IIA est valide H 1 : La propriété IIA nest pas valide mlogtest, hausman Variable omise

103 Application de IIA H 0 : La propriété IIA est valide H 1 : La propriété IIA nest pas valide mlogtest, hausman Donc on compare les paramètres du modèle « Banqueroute relativement à Rachat » estimé conjointement avec « survie relativement à rachat» avec les paramètres du modèle « Banqueroute relativement à Rachat » estimé sans « survie relativement à rachat»

104 Application de IIA H 0 : La propriété IIA est valide H 1 : La propriété IIA nest pas valide mlogtest, hausman La conclusion est que la modalité survie modifie significativement larbitrage rachat ou banqueroute. En fait pour une firme, le rachat peut être vu comme une modalité de rester en activité avec une perte sur la décision économique dinvestissement notamment.

105 Le LOGIT multinomial ordonné

106 Le modèle multinomial ordonné Envisageons maintenant le cas où la variable dépendante est une variable discrète, dont la valeur indique une intensité. Typiquement, dans le cadre dune enquête dopinion (genre CIS1-4), on a des questions dont la réponse est codée par une échelle de Likert : Obstacles à linnovation (échelle de 1 à 5) Intensité de collaboration (échelle de 1 à 5) Enquête de marketing (Napprécie pas (1) – Apprécie (7)) Note détudiants Test dopinion Etc.

107 La structure ordonnée Ces variables décrivent des échelles verticales – quantitatives, si bien quune façon de modéliser le problème est de considérer des intervalles dans lesquels la variable latente y* peut se trouver où α j sont des bornes inconnues à estimer, définissant la frontière des intervalles.

108 La structure ordonnée On pose ensuite lhypothèse que la variable latente (non observée) y* est une combinaison linéaire des variables explicatives : où u i admet une fonction de répartition F(.). Les probabilités associées aux réalisations de y (y y*) sont alors liées à la fonction de répartition de F(.). Regardons la probabilité que y = 1 :

109 La structure ordonnée Regardons la probabilité que y = 2 : Donc dans lensemble, nous avons:

110 Probabilité dans le modèle ordonné y=3y=2y=1y=k uiui

111 La fonction de vraisemblance En définitive, la fonction de vraisemblance sécrit:

112 Dans le cas où u i suit une fonction logistique, la fonction log de la vraisemblance sécrit : La fonction de vraisemblance

113 Le logit multinomial ordonnée Instruction Stata : ologit ologit y x 1 x 2 x 3 … x k [if] [weight] [, options] Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en cas d'hétéroscédasticité if : permet de sélectionner les observations sur lesquelles portera la régression weight : permet de pondérer les différentes observations

114 Le modèle de logit multinomial use est_var_qual.dta, clear ologit innovativeness size rdi spe biotech Qualité de lajustement Paramètres estimés Points seuils

115 Interprétation des coefficients Un signe positif signifie une relation positive entre la variable explicative et le rang (ou lordre) Une des difficultés dans linterprétation est le rôle des variables de seuil. Notre modèle est : Quelle est la probabilité que Y = 1 : P( = 1) ? Quelle est la probabilité que le score soit inférieur au premier seuil ?

116 Interprétation des coefficients Quelle est la probabilité que Y = 2 : P( Y = 2) ?

117 Obtenir les probabilité prédites prvalue fait le travail pour nous !

118 Les modèles de comptage Partie 1. Le modèle de Poisson

119

120 Les modèles de comptage Envisageons maintenant le cas où la variable dépendante est une variable discrète positive qui décrit un nombre dévènement. Typiquement, dans le cadre de lanalyse de linnovation, on dénombre des innovations, de demande de brevets, des inventions. On pourrait utiliser les MCO mais les MCO peuvent produire des prédictions négatives. Pour les cas où les recensement sont importants (nombre de brevets par pays, et non par firme), alors les MCO peuvent être utilisés. On pourrait utiliser le modèle multinomial ordonné pour le faible dénombrement. Généralement on utilise les modèle de comptage, dont la variable à expliquer suit une loi de Poisson.

121 Le modèle de Poisson Soit Y variable aléatoire de comptage, la probabilité donnée par la distribution de Poisson que Y soit égale à un entier y i est : Pour introduire les variables explicatives dans le modèle, on conditionne λ i en imposant la forme log-linéaire comme suit:

122 La distribution de Poisson

123 La fonction de vraisemblance sécrit : La fonction de vraisemblance

124 Le modèle de Poisson Instruction Stata : poisson poisson y x 1 x 2 x 3 … x k [if] [weight] [, options] Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en cas d'hétéroscédasticité if : permet de sélectionner les observations sur lesquelles portera la régression weight : permet de pondérer les différentes observations

125 Le modèle de Poisson use est_var_qual.dta, clear poisson poisson PAT rdi size spe biotech Bloc des paramètres estimés Bloc des description de lajustement

126 Linterprétation des coefficients Si les variables sont entrées en logarithme, on peut interpréter les coefficients comme des élasticités : Laugmentation de 1% de la taille de lentreprise est associée à une augmentation de 0.51% du nombre espéré de brevets

127 Linterprétation des coefficients Si les variables sont entrées en logarithme, on peut interpréter les coefficients comme des élasticités : Laugmentation de 1% de linvestissement en R&D est associée à une augmentation de 0.79% du nombre espéré de brevets

128 Linterprétation des coefficients Si la variable explicatives nest pas une transformé logarithmique, linterprétation change Laugmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.74% du nombre espéré de brevets

129 Linterprétation des coefficients Pour les variables muettes, linterprétation est légèrement différentes Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1% aux autres entreprises.

130 Linterprétation des coefficients Toutes les variables sont extrêmement significatives … mais hélas …

131 Les modèles de comptage Partie 2. Le modèle négatif binomial

132 Le modèle négatif binomial Généralement, le modèle de Poisson est invalidé par la présence dune surdispersion des données qui violent lhypothèse dégalité des deux premiers moments de la distribution: la moyenne et la variance. Le modèle négatif binomial pallie à ce problème en ajoutant à la forme log-linéaire un terme dhétérogénéité non observée:

133 Le modèle négatif binomial La densité de y i (la probabilité) est obtenue en prenant lespérance de lexpression par rapport à la densité de u i : En supposant que u i suit une loi Gamma de moyenne 1, la densité de y i devient :

134 La fonction de vraisemblance Où alpha est le paramètre de surdispersion

135 Le modèle négatif binomial Instruction Stata : nbreg nbreg y x 1 x 2 x 3 … x k [if] [weight] [, options] Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en cas d'hétéroscédasticité if : permet de sélectionner les observations sur lesquelles portera la régression weight : permet de pondérer les différentes observations

136 Le modèle de Poisson use est_var_qual.dta, clear nbreg poisson PAT rdi size spe biotech Qualité de lajustement Paramètres estimés Paramètre de surdispersion Test de surdispersion

137 Linterprétation des coefficients Si les variables sont entrées en logarithme, on pouvons toujours interpréter les coefficients comme des élasticités : Laugmentation de 1% de la taille de lentreprise est associée à une augmentation de 0.66% du nombre espéré de brevets

138 Linterprétation des coefficients Si les variables sont entrées en logarithme, on pouvons toujours interpréter les coefficients comme des élasticités : Laugmentation de 1% de la taille des dépenses de R&D est associée à une augmentation de 0.86% du nombre espéré de brevets

139 Linterprétation des coefficients Si la variable explicatives nest pas une transformé logarithmique, linterprétation change: Laugmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.84% du nombre espéré de brevets

140 Linterprétation des coefficients Et pour les variables muettes : Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1,56% aux autres entreprises.

141 Le test de surdispersion On utilise le test LR qui compare le modèle négatif binomial avec le modèle de Poisson Le résultat du test (H0: Alpha=0) rejette lhypothèse de nullité de alpha. Il y a de la surdispersion dans les données. Il faut donc choisir le modèle binomial négatif.

142 Des erreurs standard plus grandes Des valeurs z plus petites

143 Extensions

144 Estimateurs MV Tous les modèles présentés peuvent être étendus à la prise en compte de lhétérogénéité non observée Effets fixes Effets aléatoires Le modèle dHeckman Biais de sélection Deux équations, dont la première estime la probabilité dêtre observé Les modèles de survie En temps discret: log-log complémentaire, logit En temps continu


Télécharger ppt "Les variables qualitatives Lionel Nesta Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation dÉconométrie avec Stata."

Présentations similaires


Annonces Google