Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security Team Raul Sanchez de la Sierra Columbia University Harvard Academy Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal
Points clés L’échantillonnage: tirage d’un échantillon Evaluation: comparer deux echantillons Grands echantillons: plus de precision Petits échantillons: risque de fausses conclusions Solution: Calculs de puissance
Evaluation d‘impact
Je n’ai pas detecte l’impact ! http://www.povertyactionlab.org/ Capitaine, desole Je n’ai pas detecte l’impact ! 4
Inference sur la population etudiee Echantillonnage Population étudiée Inference sur la population etudiee Samples are used to estimate average outcomes in a population How to measure average outcomes among the population in the treatment group? (Step 1) Census of all units in population of the treatment Would be very precise But would cost too much Need to draw a sample to estimate the average nutrition status Take a sample of beneficiaries to estimate average outcomes among all beneficiaries in the population With a small sample, estimate of average outcome will be imprecise (sampling error) Need to determine a large enough sample to give sufficiently precise estimate of the ‘true’ average outcome in the population (treatment group). Echantillon
Comment sélectionner un échantillon ? Dans la pratique Population à l’étude Tous les enfants de 0 à 24 mois en RDC? Base d’échantillonnage : La liste des unités de la population à l’étude Procédure d’échantillonnage Echantillonnage probabiliste: exemple échantillon aléatoire Echantillonnage de convenance: selectionner les plus faciles
Quel role de l’echantillon dans une Evaluation? Et si on tirait un échantillon de deux groupes différents ? Participants au programme Non-participants Tirer un échantillon aléatoire à partir de deux groupes ne les rend pas comparables. L’échantillonnage aléatoire ne suffit pas pour une Evaluation d’Impact
: Impact of a medicine Impact d’un medicament contre le poids Ne prend pas le medicament Ce medicament augmente-t-il le poids? Here are 4 basic terms we want you to understand in a little more depth Prend le medicament
Impact d’une intervention Ce qui s’est vraiment passe Ce qui se serait passe Monde reel Monde imaginaire Traitee Pas traitee Contrefactuelle
Randomisation Echantillon 1: Traitement Echantillon 2: Temoin
Selection par convenance ONG Revenu moyen 1000 500 1457 947
Selection aleatoire ONG Revenu moyen 1000 500 1257 1242
Evaluation d’Impact Impact du programme: différence entre groupe de traitement et celui du groupe de contrôle. Comment en estimer l’impact ? Etape 1 : Mesurer les résultats du groupe de traitement Etape 2 : Mesurer les résultats du groupe témoin Etape 3 : Estimer la différence des résultats entre les deux groupes How to measure average outcomes among the population in the treatment group? (Step 1) Census of all units in population of the treatment Would be very precise But would cost too much Need to draw a sample to estimate the average nutrition status Take a sample of beneficiaries to estimate average outcomes among all beneficiaries in the population With a small sample, estimate of average outcome will be imprecise (sampling error) Need to determine a large enough sample to give sufficiently precise estimate of the ‘true’ average outcome in the population (treatment group).
La randomisation requiert un nombre suffisant d’unites Randomisation ne suffit pas Dans quel cas une randomisation génère-t-elle des groupes comparables ? Témoin For presentation (with animation effects) Témoin La randomisation requiert un nombre suffisant d’unites
Les échantillons plus grands sont plus précis Plus nos observations sont nombreuses, Plus notre “outil de mesure” sera précis Samples are used to estimate average outcomes among a population You do not want to spend all your budget purchasing the letters, but you want to make sure that if/when you guess, you guess right: you want to have some confidence when you guess. So you want enough information
Echantillonage et randomisation Taille de l’echantillon Randomisation
Petits echantillons: risques Petit echantillon: Des vrais impacts risquent de ne pas être détectés “Erreur de type 2” Des faux impacts risquent d’etre conclus: “Erreur de type 1” Evaluation d’impact puissante: si le risque de non détection de l’impact réel du programme est faible. Sample size: Will spend bulk of the presentation on this topic In particular: (a) why it is so important to think about this and (b) how do we determine what is an appropriate sample size. Why is it important to be able to measure even small differences? Example (1): Nutrition Program Nutrition Treatment very similar (≈) to Nutrition Control Then we conclude that our program has “no” effects for 2 reasons: i.e. Treatment Outcomes and Control are not statistically different Because our estimates of program impacts are not precise (Bad Inference ) Because indeed our program had no effect (Good Inference ) Unless we have “enough” observations we would not be able to decide with confidence between option (1) & (2) Example (2): Nutrition supplementation programs are effective only when coupled w/ good parenting practices because of budget concerns, treatment and control have 25 obs. each. By chance, households in the treatment tend to have better parenting practices. Nutrition Treatment (statistically) Larger to Nutrition Contro We, conclude that our program has an effect As a result policy makers might conclude that the program is worth rolling out, reducing the budget for other programs However the difference depends only on the difference in parenting practices (Bad Inference - imprecise measuring device)
Quelle taille pour l’echantillon? Combien de personnes/installations/unités? Benefices: fiabilite Couts: argent Solution: Calculs de puissance
Comment choisir la taille de l’échantillon ? Réponse: c’est complique … and link the intuitive and statistical treatment of this topic: Und Just showing you this formula so that you know it exists. Today I will discuss the main elements of this formula that you need to be aware of since they affect: What exactly we can learn from an impact evaluation How much it will cost
Lecons a retenir Taille de l’echantillon selon: Nous ne connaissons pas à l’avance l’impact: Taille de l’echantillon selon: Impact attendu du programme ? - Variance de l’indicateur de résultat ? + Presence de grappes? + Sample size: Will spend bulk of the presentation on this topic b/c this is one of the most important things to consider when planning an IE. In particular: (a) why it is so important to think about this and (b) how do we determine what is an appropriate sample size.
1er ingédient: Impact du programme Plus l’impact attendu sera faible … plus l’outil utilisé pour le détecter devra être précis Plus l’échantillon devra être grand When doing IE, we need to choose the smallest difference (between treatment and control groups) that we wish to detect/measure
Détecter des différences moindres est plus difficile Plus l’échantillon est grand plus l’outil de mesure est précis plus il est facile de détecter des effets plus petits An intuitive way to explain why it’s harder to distinguish between groups that are very similar: Who is taller? Very easy to tell things apart when the difference is large.
2ème Ingrédient: Variance de l’indicateur de Résultat Grande variance Petite variance
2ème Ingrédient: Variance de l’indicateur de Résultat Comment la variance de l’indicateur de résultat affecte-t-elle notre capacité à détecter un impact ?
2ème Elément: Variance des indicateurs de Résultats Dans quel cas l’impact est-il plus difficile à identifier ? Petite variance Grande variance Graphs from JPAL Executive Education course. Low standard deviation: We can definitely tell these two groups apart. Medium standard deviation: It’s a little harder to tell them apart High standard deviation: Can we say anything here? A given sample size may allow detecting impacts on one outcome but not another At a given sample size, harder to detect impact on an outcome that is more variable Always ask your sampling specialist for sensitivity analysis
3éme Ingrédient: Grappes Le programme génère-t-il des grappes? A quel niveau les résultats sont-ils mesurés ? A quel niveau le programme est-il mis en œuvre ? Exemple: beaucoup de menages, mais comparables?
3éme Ingrédient: Grappes Le programme génère-t-il des grappes? A quel niveau les résultats sont-ils mesurés ? A quel niveau le programme est-il mis en œuvre ? Exemple: beaucoup de menages, mais comparables? Enjeux : Corrélation intra-classe Implication : il vaut mieux ajouter 1 observation d’une nouvelle grappe (village), plutôt qu’1 observation d’une grappe existante
Calculs de puissance Autres facteurs Multiples questions d’évaluation Taux de participation aux programmes Qualité des données Paramètres statistiques Méthode d’évaluation d’impact Sample size: Will spend bulk of the presentation on this topic b/c this is one of the most important things to consider when planning an IE. In particular: (a) why it is so important to think about this and (b) how do we determine what is an appropriate sample size.
Questions nombreuses: echantillon large Deux questions d’évaluation d’impact : Le programme de nutrition a-t-il un impact ? Devrait-il être complété par une campagne d’information ? Evaluation d’impact autour de plusieurs groupes : Un échantillon plus grand est nécessaire Nutrition Pas nutrition Pas information I II Information III IV Four further issues that affect sample size.
Questions nombreuses: echantillon large Deux questions d’évaluation d’impact : Le programme de nutrition a-t-il un impact ? L’impact est-il le même pour les filles que pour les garçons? Il faut ajuster les calculs de puissance pour s’assurer que la taille de l’échantillon pour chaque sous-groupe est suffisante. Un échantillon plus grand est nécessaire Nutrition Pas nutrition Garcons I II Filles III IV Four further issues that affect sample size.
Taux de participation faible: echantillon large Et si tous les ménages ne participaient pas au programme quand on le leur offre? Il faudra élargir l’échantillon pour compenser le faible taux de participation Four further issues that affect sample size.
Participation totale Are you a hyperbolic discounter?
Participation faible Are you a hyperbolic discounter?
Qualite des donnees faible: echantillon large Qualité des données Des données de mauvaise qualité contiennent plus d’erreur Des différences moindres seront plus difficiles à détecter Mauvaise qualite Bonne qualite Four further issues that affect sample size.
Autres critères statistiques Autres criteres Autres critères statistiques Niveau de confiance Niveau de puissance acceptable Un plus grand niveau de confiance et une puissance plus élevée nécessitent un plus grand échantillon Four further issues that affect sample size.
Echantillon doit etre plus grand Eléments : Implication Petits impacts Echantillon doit etre plus grand Populations variees Presence de grappes Forte precision desiree Sous groupes Faible taux de participation Donnees de mauvaise qualite Récapitulatif Sample size: Will spend bulk of the presentation on this topic In particular: (a) why it is so important to think about this and (b) how do we determine what is an appropriate sample size.
Points clés L’échantillonnage: tirage d’un échantillon Evaluation: comparer deux echantillons Grands echantillons: plus de precision Petits échantillons: risque de fausses conclusions Solution: Calculs de puissance