Exploiter les Discontinuités pour Bien Évaluer Eric Mvukiyehe, Columbia University This presentation is based on work done by Erich Battistin, Jean-Louis Arcand, Nandini Krishnan and Florence Kondylis. It also relies on some adaptation from from Jennifer Hill’s slides.
Introduction (1) Contexte En général Nous souhaitons établir l’effet causal d’une intervention Une assignation aléatoire n’est pas faisable On ne peut pas exploiter le processus de sélection pour définir un groupe de comparaison En général Individus, ménages, villages, ou autres entités sont exposés ou non au traitement La sélection d’individus dans le groupe de traitement empêche la comparaison traités/non-traités Exemple: Les individus qui souhaitent participer dans un programme de micro-finance et ceux qui ne le souhaitent pas
Introduction (2) Quand l’assignation aléatoire n’est pas faisable, comment exploiter le mode de mise en œuvre d’un programme afin d’évaluer son impact? Proposition: La méthode « quasiment expérimentale » Stratégie d’identification par la Discontinuité de la Régression (Regression Discontinuity Design, RDD)
La stratégie d’identification par la Discontinuité de la Régression (RDD) RDD est un cousin proche de la méthode expérimentale Beaucoup plus proche que le reste des méthodes non- expérimentales RDD se base sur la compréhension du processus de sélection Il nous faut établir une règle de sélection bureaucratique/officielle et claire Un score quantifiable et simple L’assignation des unités au traitement se fait, de manière discontinue, sur base d’un seuil établi au préalable dans ce score. Cad, les unités qui obtiennent un score en dessous du seuil sont assigne a une condition et ceux qui scorent au dessus du seuil sont assigne a une autre condition. La stratégie RDD consiste a comparer les unités qui sont juste en dessous du seuil et celles qui scorent juste au dessus du seuil
RDD: Mise en application concrète (1) Réinsertion économique des anciens combattants: Supposons que vous voulez allouer les bénéfices aux individus les plus vulnérables: Hypothèse: Le niveau de vulnérabilité affect la capacité des individus a s’intégrer économiquement (ex; un bon emploi ou avoir un bon revenu) On peut utiliser l’âge comme un critère de vulnérabilité (en terme de état de santé , compétences, intelligence, expérience etc.) pour établir l’éligibilité. Par exemple, toute personne qui a 21 ans ou moins reçoit les bénéfices et toute personne qui a 21 ans ou plus n’en reçoit pas. Observation: Cette politique implique que: Les individus d’âge 20 ans, 11 mois et 29 jours peuvent recevoir les bénéfices Les individus d’âge 21 ans, 0 mois et 1 jour ne peuvent pas recevoir les bénéfices Mais peut-on réellement penser qu’une différence d’âge de quelques jours pourrait affecter le niveau de vulnérabilité en terme de état de sante, compétences etc.?) Les individus nés avec quelques jours d’écart (c.a.d, situés de part et d’autre du seuil) sont traités différemment par ce critère Cette différence est entièrement attribuable à un seuil arbitraire
RDD: Mise en application concrète (2) En théorie, l’octroi des bénéfices aux individus vulnérables peut faciliter la réintégration économique. Pour identifier l’impact des cette assistance sur la réintégration économique (ex, type d’emploi, revenu) on peut comparer: Groupe de Traitement: individus d’âge 20 ans et 11 mois Groupe de Contrôle: individus qui viennent d’avoir 21 ans Autour du seuil, on peut pratiquement imaginer que les individus ont été assignés au traitement de façon aléatoire On peut dès lors estimer l’impact causal des bénéfices sur la réintégration des individus situés au voisinage du seuil
RDD: no effect Adapted from Jenifer Hill’s slides
RDD: effect Adapted from Jenifer Hill’s slides
RDD: Analyse Généralement l’analyse se fait en régressant the résultats (observed outcomes) sur le critère d’assignation au traitement L’effet de traitement causera un déplacement de la ligne de régression qui lie le critère de sélection aux résultats vers le haut ou vers le bas Ce déplacement doit se faire exactement au niveau du seuil. C’est pourquoi on appelle ce technique “régression discontinue.” Note: Généralement l’analyse se limite aux observations qui sont dans le voisinage du seuil. Extrapoler au-delà de cette région requiert qu’on assume la création d’un contrefactuel pour chaque unité sur base d’extrapolation du modèle.
RDD: Analyze Adapted from Jenifer Hill’s slides
Logique de la RDD Assignation au traitement est faite sur la base d’un score continu, ou d’un classement Exemples: Ventes, âge, note d’examen, index de pauvreté, etc. One ne peut pas utiliser les critères qui ne sont pas continue (par exemple comme sexe ou appartenance ethnique) Les participants potentiels sont classés en fonction du score Le seuil (point de discontinuité) qui définit l’éligibilité est Clairement établi Déterminé au préalable L’assignation sur la base d’un seuil est souvent liée à une décision de type administratif Participation doit être limitée dû a des contraintes budgétaires Transparence de la sélection est essentielle
Exemple: Subvention Partielle (1) Gouvernment propose une subvention partielle pour PMEs (formelles) Éligibilité déterminée sur la base des ventes de l’année écoulée: Ventes < €5,000: Entreprise reçoit l’offre de subvention Ventes >= €5,000: Entreprise ne reçoit pas l’offre Si le chiffre de ventes est mesuré avant l’annonce du plan de subvention In n’est pas possible de “manipuler” le chiffre de ventes Exemple: Chiffre de l’année écoulée déjà établi et enregistré Facile à mesurer et à faire respecter
Subtilités de la méthode 2 types de discontinuités Nette (“sharp”) Floue (“Fuzzy”) Retour a l’exemple…
Exemple: Discontinuité Floue Subvention Partielle Que faire si les entreprises ventes < €5,000 ne réclament pas toutes la subvention? Raisons: Pas toutes au courant, peu d’information Pas toutes intéressées (subvention partielle) Ces 2 raisons introduisent un biais de sélection (les entreprises qui réclament la subvention sont différentes à plusieurs niveaux) Cependant: La proportion d’entreprises qui réclament varie de façon discontinue autour du seuil d’éligibilité De zéro à moins de 100% C’est ce que l’on appelle une discontinuité floue (“Fuzzy” RDD)
Taux de Participation: Assignation Nette vs. Floue (Sharp vs. Fuzzy) 100% Variations au-dessus du seuil 75% 0% 0%
Discontinuité Nette vs. Floue (1) Cas Idéal: Discontinuité Nette Discontinuité détermine de façon précise l’exposition au traitement Ex.: Seules les individus de 21 ans et plus boivent de l’alcool, et ils en boivent tous (!!!) Ex.: Toutes les entreprises au chiffre < €5,000 réclament la subvention; les autres ne la reçoivent jamais Ex.: régime de taxation
Discontinuité Nette vs. Floue (2) Discontinuité Floue Taux de participation au programme change de façon discontinue au niveau du seuil d’éligibilité, mais pas à 100% Certains individus de moins de 21 ans consomment de l’alcool et/ou certains individus de plus de 21 ans n’en boivent pas Certaines entreprises au chiffre < €5,000 ne réclame pas la subvention La règle d’éligibilité est respectée, mais l’ensemble du groupe de traitement ne s’y conforme pas
Validité Interne Idée Générale Si le seuil d’éligibilité est arbitraire, les individus situés immédiatement à gauche et à droite du seuil sont, par construction, extrêmement similaires Différences de résultats peuvent être directement attribués au programme Hypothèse Principale In ne se passe rien d’autre: en l’absence du programme, nous n’observerions pas de discontinuité de résultat autour du seuil en question Pourrait ne pas être vérifiée si Alcool: Ceinture de sécurité cesse d’être obligatoire à 21 ans Subvention: Un taux de taxation réduit est en place visant les entreprises au chiffre < €5,000 Bike policy note: In the previous graph, alcohol and drug-related deaths were lumped with “injuries”.
Diagnostique: Profile de résultats avant et après l’intervention Forme différente We are looking for this kind of trend in the outcome variable.
Validité Externe Cette méthode produit-elle des résultats généralisables? Groupe Contrefactuel pour la RDD Individus exclus du groupe de traitement “de justesse” Exemples: Individus qui ont mois de 21 ans mais plus de 20 ans et 10 Entreprises au chiffre de ventes supérieur à €5,000 mais inférieur à €5,500 La mesure d’impact ne s’applique qu’aux individus / ménages / villages situés au voisinage du seuil d’éligibilité. Et donc on doit avoirs suffisamment d’observations dans cette région. Extrapoler au-delà de cette région requiert davantage d’hypothèses, souvent peu testables Une discontinuité floue exacerbe ce problème de mesure locale
La mise en oeuvre d’une RDD Avantages majeurs Transparence Illustration graphique simple, intuitive Désavantages majeurs Demande beaucoup d’observations autour du seuil d’éligibilité Les observations situées plus loin du seuil doivent porter un poids plus faible Pourquoi? Seuls les individus proches du seuil se trouvent ,par chance, de part et d’autre du seuil Si on pense aux entreprises qui ont un chiffre de €5,000 et celles qui rapportent €500 Ou bien un jeune de 21 ans comparé à un de 16 ans
Analyse graphique
Conclusions RDD se prête à l’évaluation prospective lorsque la randomisation n’est pas faisable Stratégie applicable à tout programme qui se base sur un critère d’éligibilité (politique sur la base Possibilité d’exploiter plusieurs seuils pour améliorer la validité externe Menu de subventions qui visent différentes tailles d’entreprises
Merci