Oumoul Ba Tall et Jim Rugh

Oumoul Ba Tall et Jim Rugh
Pour une approche Holistique et en Situation Réelle de l’Evaluation d’Impact Concevoir des Evaluations sous contraintes de Budget, Temps, Données et Politiques Atelier Professionnel de pré-conférence de l’AfrEA, Accra, 10 janvier 2012 avec nos appréciations à la Foundation Rockefeller Facilité par Oumoul Ba Tall et Jim Rugh Note: Cette présentation PowerPoint et le résumé du chapitre du livre sont disponibles sur: RealWorld Evaluation - Steps 1, 2 & 3

Un mot de remerciements à notre sponsor: La Fondation Rockefeller
Cet atelier est l’une des 12 sessions de la conférence de l’AfrEA qui bénéficient de l’appui financier de la Foundation Rockefeller. Elles font partie d’un paquet de subventions destinées à encourager des actions de promotion de la capacité d’évaluation du développement, de génération de connaissance en évaluation, ainsi que les approches innovatives, les nouvelles méthodes et nouveaux outils d’évaluation.

Introduction à L’Evaluation d’Impact (citant le Guide du NONIE)
“Dans le développement international, l’évaluation d’impact concerne principalement les résultats finaux d’une intervention (programme, projet, décisions politiques, réformes) sur le bien-être des communautés, des ménages et des individus.” [p. 3] “Aucune méthode n’est meilleure en soi pour adresser la diversité de questions et d’aspects qui peuvent relever des évaluations d’impact. Toutefois, certaines méthodes ont des avantages comparatifs sur d’autres dans l’analyse d’une question ou d’un objectif particuliers, du fait de la spécifité de la question ou de l’objectif. Des méthodes et perspectives particulières se complétent pour procurer “une image” plus complète de l’impact.” [p. xxii] RealWorld Evaluation - Steps 1, 2 & 3

Les méthodes quantitatives d’évaluation d’impact cherchent à résoudre les trois problémes suivants, qui sont interconnectés : L’établissement d’un coutrefactuel: Que se serait-il passé sans l’intervention(s)? L’élimination des effets de la sélection, menant vers les différences entre le groupe d’intervention (traitement) et le groupe de contrôle. Une solution au probléme des non-observables: l’omission d’une ou de plusieurs variables non-observées, induisant des estimations biaisées. [p. 23] RealWorld Evaluation - Steps 1, 2 & 3

“La meilleure façon d’éviter les effets de la sélection est la sélection au hasard des groupes d’intervention et de contrôle avant le démarrage de l’expérimentation. Dans un Contrôle Aléatoire d’Essai (CAE) bien conçu et mis en oeuvre, une comparaison simple de la moyenne des Résultats dans les 2 groupes peut résoudre le probléme de l’attribution, et produire des estimations précises de l’impact de l’intervention sur une variable à l’étude. La seule différence entre les deux groupes aura été l’intervention, du fait de la démarche suivie.” [p.24] RealWorld Evaluation - Steps 1, 2 & 3

OK, cela est suffisant pour une introduction initiale à la théorie de l’Evaluation d’Impact. A présent, considérons certaines implications lorsque nous essayons de mener des Evaluations d’Impact en SituationRéelle. RealWorld Evaluation - Steps 1, 2 & 3

L’Evaluation d’Impact Appliquée à cet Atelier
Vous qui êtes dans cette salle avez choisi de participer à cet atelier. Appelons le sujet que nous allons discuter ici l’Intervention. Nous assumons que vous êtes suffisamment qualifiés pour prendre ce cours. Nous proposons ceci: faire un pré-test pour déterminer votre compréhension du sujet. Ensuite, sélectionner de façon aléatoire 50% d’entre vous, qui seront considérés notre groupe de contrôle. Nous vous demanderons de quitter la salle et vous occuper à autre chose durant le reste de la journée. Ensuite vous revenez à 16H30 pour prendre le test de fin, en même temps que les autres qui sont restés et ont participé au reste de l’atelier (notre groupe d’intervention). Ainsi nous aurons un contrefactuel qui nous servira pour mesurer tout impact mesurable de ce que nous aurons enseigné durant l’atelier. RealWorld Evaluation - Steps 1, 2 & 3

OK, juste pour rire, à titre d’illustration! RealWorld Evaluation - Steps 1, 2 & 3

Pour quelles raisons essayer d’utiliser une méthode d’Epérimentation à Sélection Aléatoire (ESA) pour évaluer l’impact de cet atelier pourrait ne pas être une bonne idée? … RealWorld Evaluation - Steps 1, 2 & 3

Objectifs de l’Atelier
1. Les bases de l’approche Evaluation en SituationRéelle (ESR) pour répondre aux questions et contraintes de l’évaluateur telles que: évaluer à la fin d’un projet en l’absence de Référence ou de Groupe de comparaison; ou le budget est inadéquat, le temps insuffisant; ou face à des pressions politiques ou des attentes sur la manière de conduire l’évaluation ou encore sur les conclusions de celle-ci. RealWorld Evaluation - Steps 1, 2 & 3

Objectifs de l’Atelier
Définir ce que l’évaluation d’impact devrait être; Identifier et évaluer différents modèles d’évaluation qui pourraient être utilisés dans un contexte d'évaluation particulier; Les moyens de reconstruire les données de base lorsque l’évaluation démarre bien alors que le projet est bien avancé ou terminé; Comment rendre compte de ce qui serait arrivé sans les interventions du projet: contrefactuels alternatifs RealWorld Evaluation - Steps 1, 2 & 3

Objectifs de l’atelier
Note: dans cet atelier, l’accent est mis sur les évaluation d’impact au niveau projet. Bien entendu, il existe d’autres catégories d’évaluation, en fonction des objectifs, de l’étendue, de l’objet évalué, de la nature (ou type) d’évaluation. Certaines des méthodes que nous allons évoquer peuvent être appliquées à ces catégories mais nos examples seront basées sur l’évaluation d’impact des projets, et dans le contexte des pays en développement en général. RealWorld Evaluation - Steps 1, 2 & 3

Programme de l’Atelier
1. Introduction [10 minutes] 2. L’approche ESR en bref [30 minutes] 3. Les participants se présentent et échangent leurs expériences de situations et contraintes d’ESR, en petits groupes. [30 minutes] 4. Bréve revue des méthodologies, modéles logiques, outils et techniques de l’Evaluation d’Impact enSituationRéelle, avec l’accent sur l’évaluation d’impact [75 minutes] --- petite pause [20 minutes]--- 5. Que faire en l’absence de Situation de Référence: Reconstruire une Situation de Référence [30 minutes] 6. Exercice en petits groupes Partie I: lire l’étude de cas et comencer la discussion [45 minutes] -- déjeuner [60 minutes] --- 7. Comment concevoir ce qui aurait été en l’absence de projet: l’alternative au contrefactuel [30 minutes] 8. Discussion pleinière: Réalités pratiques dans l’application des approches ESR: Défis et Stratégies [30 minutes] 9. Exercices en petits groupes, Partie II: 'Clients’ et ‘consultants’ re-négotient les TDRs de l’évaluation de l’étude de cas [60 minutes] 10. Feedback de l’exercice [20 minutes] 11. Discussions en vrac, évaluation de l’atelier [40 minutes] (fin prévue à 17h00 )

Vue d’ensemble de l’Approche ESR
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 2 Vue d’ensemble de l’Approche ESR

Scénarios d’Évaluation en SituationRéelle
Scénario 1: L’équipe d’évaluation n’entre en scène que vers la fin du projet Pour des raisons politiques, techniques ou budgétaires : Il n’a pas eu de plan d’évaluation du projet Il n’y a pas eu d’enquête initiale (étude de base) Les personnes chargées de la mise en œuvre n’ont pas collecté de données convenables sur les participants au projet au début ou en cours Il est difficile de collecter des données sur des groupes de contrôle comparables

Scénarios d’Évaluation en SituationRéelle
Scénario 2: L’équipe d’évaluation entre en scène au début du projet mais, pour des raisons budgétaires, politiques ou méthodologiques: L’enquête initiale était une évaluation des besoins, pas une étude de base comparable à l’évaluation finale Il n’a pas été possible de collecter des données de base sur le groupe témoin

Appel à la Réalité – Défis de la SituationRéelle en Evaluation
Trop souvent, l’évaluation n’entre pas en ligne de compte à la conception du projet – on n’y pense qu’à la fin Pas de données de base, du moins comparables à l’évaluation Pas de groupe de contrôle/témoin en place ou possible Temps et ressources limités pour l’évaluation Attentes spécifiques des clients quant à ce qu’ils espèrent ressortir de l’évaluation Mauvaise compréhension de l’évaluation, méfiance chez beaucoup de parties prenantes; beaucoup la voient comme une menace (n’aiment pas être jugés)

Evaluation en SituationRéelle: Buts visés par le Contrôle Qualité
Parvenir à une évaluation la plus rigoureuse possible compte tenu des limites imposées par le contexte Identifier les faiblesses méthodologiques du modèle d’évaluation et y remédier Négocier avec les clients des solutions tenant compte de la rigueur souhaitée et des ressources disponibles Reconnaître dans la présentation des constatations les faiblesses méthodologiques et leur effet sur la généralisation à des populations plus vastes

Le Besoin comblé par l’Evaluation en SituationRéelle
Du fait de ce type de contraintes, beaucoup des principes de base gouvernant la conception des évaluations d’impact (conception semblable pour les pré-tests et les post-tests, groupe témoin, conception et mise à l’essai d’instruments, échantillonnage aléatoire, contrôle des biais attribuables à l’évaluateur, documentation détaillée de la méthodologie d’évaluation, etc.) sont souvent ignorés.

L’Approche de l’Evaluation en SituationRéelle
Une approche intégrée pour garantir des normes acceptables de rigueur méthodologique face aux contraintes de budget, temps, d’argent, de données et de situation politique en SituationRéelle. cf le livre “RealWorld Evaluation” ou bien le “Condensed Summary” pour plus de détail

Evaluat° en Situation Réelle
2 EDITION RealWorld Evaluation Bamberger Rugh Mabry Evaluat° en Situation Réelle Working Under Budget, Time, Data, and Political Constraints EDITION RealWorld Evaluation This book addresses the challenges of conducting program evaluations in real-world contexts where evaluators and their clients face budget and time constraints and where critical data may be missing. The book is organized around a seven-step model developed by the authors, which has been tested and refined in workshops and in practice. Vignettes and case studies—representing evaluations from a variety of geographic regions and sectors—demonstrate adaptive possibilities for small projects with budgets of a few thousand dollars to large-scale, long-term evaluations of complex programs. The text incorporates quantitative, qualitative, and mixed-method designs and this Second Edition reflects important developments in the field over the last five years. New to the Second Edition: Adds two new chapters on organizing and managing evaluations, including how to strengthen capacity and promote the institutionalization of evaluation systems Includes a new chapter on the evaluation of complex development interventions, with a number of promising new approaches presented Incorporates new material, including on ethical standards, debates over the “best” evaluation designs and how to assess their validity, and the importance of understanding settings Expands the discussion of program theory, incorporating theory of change, contextual and process analysis, multi-level logic models, using competing theories, and trajectory analysis Provides case studies of each of the 19 evaluation designs, showing how they have been applied in the field “This book represents a significant achievement. The authors have succeeded in creating a book that can be used in a wide variety of locations and by a large community of evaluation practitioners.” —Michael D. Niles, Missouri Western State University “This book is exceptional and unique in the way that it combines foundational knowledge from social sciences with theory and methods that are specific to evaluation.” —Gary Miron, Western Michigan University “The book represents a very good and timely contribution worth having on an evaluator’s shelf, especially if you work in the international development arena.” —Thomaz Chianca, independent evaluation consultant, Rio de Janeiro, Brazil Michael Bamberger Jim Rugh Linda Mabry 2 EDITIO N

L’Approche de l’Evaluation en SituationRéelle
Mise au point pour aider les praticiens de l’évaluation et les clients Gestionnaires, organismes de financement et consultants externes Une approche encore en évolution (nous continuons à apprendre d’ateliers comme le vôtre) Conçue à l’origine pour les pays en développement, mais applicable aussi aux pays industrialisés.

Difficultés spécifiques à l’Evaluation dans les pays en développement
Absence de données secondaires nécessaires Ressources locales en évaluation restreintes Budgets d’évaluation limités Contraintes institutionnelles et politiques Culture d’évaluation absente (noter le rôle de palliatif des réseaux d’évaluation) Les évaluations conçues en priorité par et pour la coopération internationale, reflètent rarement les priorités locales et nationales

Attentes en matière d’évaluations « rigoureuses »
En dépit de ces difficultés, il y a une demande grandissante pour des évaluations méthodologiquement rigoureuses pour déterminer les impacts, la durabilité et la « replicabilité » des projets et programmes de développement. (à développer plus tard)

La plupart des instruments d’ESR ne sont pas nouveaux – seule l’approche intégrée l’est
La plupart des outils de collecte et d’analyse des données dans l’Evaluation en SituationRéelle sont connus des évaluateurs. Ce qui est nouveau c’est l’approche intégratée qui combine un large éventail d’instruments adaptés pour produire des évaluations de la meilleure qualité possible face aux contraintes de la SituationRéelle.

Qu’est-ce qui spécial dans l’approche ESR?
Il existe une série d’étapes, chacune ayant une liste de contrôles pour identifier les contraintes et déterminer les moyens d’action Ces étapes sont listées sur la diapo suivante suivies d’un organigramme plus détaillé …

Les étapes de l’Approche de l’Evaluation en SituationRéelle
Étape 1 : Planifier l’évaluation et en cerner le champ Étape 2 : Composer avec les contraintes budgétaires Étape 3 : Composer avec les contraintes temporelles Étape 4 : Composer avec les contraintes en termes des données disponibles Étape 5 : Composer avec les contraintes politiques Étape 6 : Identifier les forces et les faiblesses du modèle d’évaluation Étape 7: Aider les clients dans l’utilisation de l’évaluation

28 L’Approche de l’Évaluation en SituationRéelle
1e étape : Planifier l’évaluation et en cerner le champ A. Cerner les besoins du client en matière d’information et comprendre le contexte politique B. Définir le modèle de la théorie de programme C. Identifier les contraintes (temps, argent, contexte politique) dont il faudra tenir compte dans l’ESR D. Sélectionner l’approche qui répond le mieux aux besoins des clients compte tenu des contraintes pour l’ESR 2e étape : Composer avec les contraintes budgétaires A. Modifier le modèle d’éval. B. Rationaliser les besoins pour les données C. Chercher des données secondaires fiables D.Réviser le plan d’échantillonnage E. Trouver des méthodes abordables pour collecter les données 3e étape : Composer avec les contraintes temporelles Tous les outils de l’étape 2 plus F. Commissionner des études préliminaires G. Embaucher plus de personnes ressource H. Réviser le format des documents de projet pour inclure des données essentielles pour l’analyse d’impact I. Utiliser la technologie moderne pour la collecte et l’analyse des données 4e étape : Composer avec les contraintes en termes de données A. Reconstruire les données de base B. Recréer des groupes de contrôle C. Travailler avec des groupes de contrôle non équivalents D. Collecter des données sur les sujets délicats ou auprès des groupes difficiles à atteindre 5e étape : Composer avec les influences politiques A. Répondre aux pressions des organismes de financement en ce qui concerne la conception de l’évaluation B. Tenir compte des préférences méthodologiques des parties concernées C. Reconnaître l’influence des paradigmes de recherche professionnels 6ème étape : Renforcer le modèle d’évaluation et la validité des conclusions A. Identifier les obstacles à la validité des modèles d’évaluation quasi expérimentaux B. Déterminer dans quelle mesure les modèles qualitatifs conviennent C. Utiliser une liste de contrôle intégrée pour les modèles multi-méthodes 7ème étape : Aider les clients à faire usage de l’évaluation A. Utilisation B. Application C. Orientation D. Action 28

Nous n’aurons pas le temps de couvrir toutes ces étapes aujourdhui
Nous allons nous concentrer sur: L’Etendue de l’évaluation La Concecption de l’Evaluation Les modéles logiques La Reconstruction des situations de référence L’Alternative au countrefactuel L’Evaluation d’Impact Réaliste, Holistique La Négotiation des TDRs RealWorld Evaluation - Steps 1, 2 & 3

Planifier l’évaluation et en cerner le champ
Comprendre les besoins du client en matière d’information Définir le modèle de la théorie de programme Identifier, de façon préliminaire, les contraintes dont il faudra tenir compte dans l’Évaluation en SituationRéelle RealWorld Evaluation - Steps 1, 2 & 3

Comprendre les besoins du client en matière d’information
Questions typiques pour lesquelles les clients souhaitent une réponse : Le projet atteint-il ses objectifs? Est-ce que tous les secteurs de la population cible bénéficient? Les résultats obtenus sont-ils durables? Quels sont les facteurs contextuels qui déterminent la mesure de la réussite ou de l’échec? RealWorld Evaluation - Steps 1, 2 & 3

Comprendre les besoins du client en matière d’information
Une bonne compréhension des besoins d’information du client peut souvent aider à limiter les types d’information collectés et le niveau de détail et de rigueur nécessaire Mais cette bonne compréhension peut aussi augmenter la quantité d’information requise RealWorld Evaluation - Steps 1, 2 & 3

Autres questions à adresser en préparant des TDRs d’évaluation
Qui a demandé l’évaluation? (Qui sont les acteurs clefs)? Quelles sont les questions clefs? S’agira-t-il d’une évaluation dévelopmentale, formative, ou sommative? Est-il prévu une prochaine phase, la conception d’autres projets sur base de cette évaluation? 33 RealWorld Evaluation - Steps 1, 2 & 3

Quelles décisions seront prises en réponse aux conclusions de l’évaluation? Quel est le niveau de rigueur adéquat? Quelle est l’étendue / l’échelle de l’évaluation / l’objet (chose sur laquelle porte) à évaluer? Quel est le temps utile / disponible? Quels sont les besoins financiers / les disponibilités? 34 RealWorld Evaluation - Steps 1, 2 & 3

L’évaluation se basera-t-elle sur des méthodes quantitatives ou qualitatives? Les méthodes participatives seront-elles utilisées? Peut-il y avoir une enquête des ménages / est-ce nécessaire? Qui devra être interrogé? Qui devra être impliqué dans la planification / la conduite de l’évaluation? Quels médias préférables pour communiquer les conclusions aux différents? 35 RealWorld Evaluation - Steps 1, 2 & 3

Modèle d’évaluation (recherche) ?
Ressources disponibles ? Temps disponible ? Questions principales ? Compétences disponibles ? Quoi évaluer (evaluand ) ? Qualitative ? Participative ? Quantitative ? Champ / Etendue ? Extractive ? Niveau de rigueur qui convient ? Une évaluation POUR qui ? Tout cela aide, ou crée encore plus de confusion? Qui a dit que les évaluations (comme la vie) seraient faciles?!! 36

Avant de retourner aux étapes de la SituationRéelle, regardons de prés les niveaux de rigueur, et à quoi peut ressembler un plan d’évaluation qui couvre la vie du projet 37 RealWorld Evaluation - Steps 1, 2 & 3

Différent niveaux de rigueur
dépend de la source de preuve; du niveau de confiance; de l’utilisation de l’information Objectif, grande précision – mais requiert plus de temps et de ressources Rapide & bon marché – mais subjectif, peu solide Niveau 5: Un projet de recherche avancée est entrepris pour conduire une analyse en profondeur de la situation; P= +/- 1% livre publié! Niveau 4: Echantillon représentatif de la population cible utilisant les bonnes méthodes d’échantillonnage et de collecte de données; P= +/- 5% décideur lit tout le rapport Niveau 3: Une enquête rapide est réalisée sur un échantillon acceptable de; P= +/- 10% décideur lit le résumé de 10 pages du rapport Niveau 2: Un sélection relativement bonne de personnes diverses est interrogée sur son appréciation du projet; P= +/- 25% décideur lit au moins le résumé exécutif du rapport Some are now calling this the “Rugh rigor scale.” Its purpose is simply to get us to think in terms of levels of rigor appropriate for the degree of precision required. Remember, the highest level of rigor is neither feasible nor necessary in most RealWorld Evaluation situations. At the low end decisions are based on “efficient” (quick and cheap) sources of information. Unfortunately these typically are based on rather subjective, sloppy sources. At the high end are systems that provide much more objective, precise information; but they take more time and resources to collect and process. Note that levels of rigor apply to qualitative as well as quantitative methods -- how well the evidence/data is collected and analyzed, in addition to sample design and size. They also call for triangulation, using a diversity of methods. What’s important is to determine what level of informational precision is required to inform a particular set of decisions, and thus what level of rigor is appropriate for collecting it. If the consequences of a decision are not significant, it would probably not be justified to spend a whole lot of time and resources collecting the information. On the other hand, if the decision will affect the lives of thousands of people and involve hundreds of thousands of dollars, it had better be based on very reliable information. Niveau 1: On demande à quelques personnes leur avis sur le projet; P= +/- 40% décision prise en quelques minutes Niveau 0: les impressions du décideur basées sur des anecdotes ou rumeurs entendues au cours de bréves rencontres (discussions de couloirs), généralement des intuitions; Niveau de confiance +/- 50%; Décision prise en quelques secondes 38 RealWorld Evaluation - Steps 1, 2 & 3

REALISER UNE EVALUATION EST COMME POSER UNE CANALISATION
Sélection Aléatoire d’Echantillon Fiabilité & Validité des indicateurs Qualité de la Collecte de données Qualité du Questionnaire Profondeur de l’Analyse Rapports & Utilisation Consider the various elements involved in conducting a survey. When we consider rigor we need to consider the level of rigor involved in all of those elements. LA QUALITE DE L’INFORMATION PRODUITE PAR UNE EVALUATION DEPEND DU DEGRE DE RIGUEUR DE TOUTES LES COMPOSANTES

Sélection Aléatoire d’Echantillon Fiabilité & Validité des indicateurs
Qualité de la Collecte de données Qualité du Questionnaire Profondeur de l’Analyse Rapports & Utilisation The quality of information/data obtained from a survey or other evaluation method depends on all of the components. The “flow” or quality will be limited to the “constraints” or level of rigor of the weakest component. NIVEAU DU “FLUX” (QUALITY) DE L’INFORMATION IS LIMITE A LA PLUS FAIBLE COMPOSANTE DU “CANAL” DE L’ENQUETE

Même degré de rigueur Determiner les degrés de précision appropriés
pour les éléments d’un plan d’évaluation couvrant la Vie-du-projet Rigueur Elevée Rigueur faible 2 3 4 Même degré de rigueur Evaluation Finale Enquête de base Evaluation mi-parcours Etude Spéciale Analyse des Besoins Here we look a way to lay out plans for evaluation events during the life of a project, considering what level of rigor will be required for each. The initial diagnostic assessment should be rigorous enough to reveal what issues need to be addressed in the target community, but one should not spend a disproportionate amount of the budget on it. The baseline, as we will soon see, should be done with the same methodology and level of rigor as will be expected for the final evaluation. During the life of the project there may be other evaluation events, such as annual self-evaluations, a mid-term evaluation, or a special study to examine some aspect not considered earlier (e.g. gender equity). The appropriate level of rigor (and budget) for each of these needs to be determined, relative to other evaluation events. It is commonly agreed that the final evaluation should be quite rigorous and precise, to assess what was achieved by the project. However, if the baseline (the measure of how things were before the project started) was not done in a comparable way, it is difficult to prove what difference the project made. Auto-évaluation annuelle Temps au cours du cycle de vie du project 41 RealWorld Evaluation - Steps 1, 2 & 3

TEMPS POUR DISCUSSION EN PETITS GROUPES
Session 3 TEMPS POUR DISCUSSION EN PETITS GROUPES 42

Comment avez-vous réagi?
Présentez-vous Quelles contraintes analogues avez-vous affronté dans votre pratique d’évaluation? Comment avez-vous réagi? 43

SCHEMAS D’EVALUATION Session 4.a.
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 4.a. SCHEMAS D’EVALUATION RealWorld Evaluation - Steps 1, 2 & 3

En quoi consiste alors une “évaluation d’impact rigoureuse”?
Une relation directe cause-effet liant un extrant (ou un nombre réduit d’extrants) à un résultat qui peut être mesuré à la fin du projet de recherche?  une attribution assez claire. … OU … Des changements dans les indicateurs de haut-niveau mesurant l’amélioration persistante de la qualité de vie des individus, ex. les OMDs (Objectifs du Millénnaire pour le Dévelopment)?  Plus significatif mais beaucoup plus difficile pour établir l’attribution directe. RealWorld Evaluation - Steps 1, 2 & 3

En quoi consiste alors une “évaluation d’impact rigoureuse”?
OECD-DAC (2002: 24) définit l’impact comme “Effets à long terme, positifs et négatifs, primaires et secondaires, induits par une action de développement, directement ou non, intentionnellement ou non. Ces effets peuvent être économiques, socioculturels, environementaux, technologiques ou autre”. L’attribution directe est-elle mentionnée ou induite? Qu’en est-il de l’utilisation de contrefactuels ou de Contrôles Aléatoires d’Essai (CAE)? RealWorld Evaluation - Steps 1, 2 & 3

Quelques objectifs de l’évaluation de programme
Formative: apprentisage et amélioration y compris l’identification précoce de problémes éventuels Génération de Connaissance: identifier les relations et les principes génériques de l’éfficacité. Redevabilité: démontrer que les ressources sont utilisées de façon efficiente pour atteindre les résultats souhaités Jugement Sommatif: déterminer la valeur et le devenir du programme Evaluation développementale: adaptation en contexte complexe, émergent et dynamique -- Michael Quinn Patton, Utilization-Focused Evaluation, 4th edition, pages RealWorld Evaluation - Steps 1, 2 & 3

Determiner un modéle d’évaluation qui convient (et qui est réaliste)
A partir de l’objectif principal d’une évaluation, de la compréhension des besoins d’information du client, du dégré de rigueur requis, et ce qui est faisable du fait des contraintes, l’évaluateur et le client peuvent déterminer le modéle d’évaluation adapté aux circonstances. RealWorld Evaluation - Steps 1, 2 & 3

Quelques considérations relatives à la conception de l'évaluation
1: Quand l’évaluation se passe (référence, mi-parcours, fin) 2. Revue de différents modéles (expérimental, quasi-expérimental, autre) 3: Degré de rigueur 4: Méthodes qualitatives & quantitatives 5: Une vision du schéma d’évaluation qui couvre la Vie-du-project. RealWorld Evaluation - Steps 1, 2 & 3

Introduction aux différents modèles d’évaluation
Pour illustrer la nécessité d’un modèle d’évaluation chronologique et longitudinal quasi expérimental Participants au projet Échelle des grands indicateurs d’impact Here’s a very short course on Evaluation (research) Design. Let’s assume a project’s Final Goal has a quantifiable indicator. (Think of an example. The yield of a main food crop might be one.) Higher is better. Evaluation Design #1: Only end-of-project evaluation. Indicator appears to be high, but it begs the question: compared to what? Evaluation Design #2: Pre-test + post-test (baseline + evaluation). Now we see that the indicator went from low to high. Impressive. Did the project have impact? A good evaluator would ask if the change is attributable to the project’s interventions or could it be due to general trends? Evaluation Design #3: Post-test with control (comparison). In this scenario a “comparable” community was found and the indicator measured there during the evaluation. But the evaluator wonders if we purposely chose a poor comparison group. Evaluation Design #4: Quasi-Experimental Design. Pretty convincing that the project’s participants did better than the comparison group. But it only involves two photographs before and two after. Evaluation Design #5: Longitudinal monitoring (at least small sample of proxy indicator). Gives a more detailed view of trends. (E.g. yields vary with the seasonal weather.) Looks good, but evaluator asks about sustainability. Evaluation Design #6: Quasi-Experimental Longitudinal Design with Ex-Post Evaluation some time after project completion. Now we see that the CARE participants were spoiled (by some form of subsidy) and in the long-run the “comparison” community did better. Groupe témoin Étude de base Évaluation en fin de projet Évaluation post projet 50

… un à la fois en commençant par les plus rigoureux .
D’accord, on s’arrête un instant pour identifier chacun des grands types de modèles d’évaluation (recherche)… … un à la fois en commençant par les plus rigoureux . 51 RealWorld Evaluation - Steps 1, 2 & 3

First of all: the key to the traditional symbols:
X = Intervention (traitement), c’e.-à-d. ce que le projet fait dans la collectivité O = Observation (c’e.-à-d. état des lieux, évaluation à mi-parcours, évaluation en fin de projet) P (ligne du haut) : participants au Projet C (ligne du bas) : groupe Témoin (Contrôle) Note: les 7 méthodes d’ESR sont exposées en page 8 de la revue du livre RealWorld Evaluation 52 RealWorld Evaluation - Steps 1, 2 & 3

Modèle 1 : Longitudinal quasi expérimental
P1 X P2 X P3 P4 C C2 C3 C4 Participants au projet Groupe témoin Étude de base Évaluation à mi-parcours Évaluation en fin de projet Évaluation post-projet 53

Modèle 2 : Quasi expérimental (pré+post, avec ‘témoin’)
P1 X P2 C C2 Participants au projet Notice how much less information is available as various components of evaluation design are removed. Groupe témoin Étude de base Évaluation en fin de projet 54

Modéle #2+: Essais à Contrôle Aléatoire
P1 X P2 C C2 Participants au projet Sujets de récherche assignés aléatoirement au projet ou au groupe controle. Even if there is an initial random selection of who should participate in the project and who should be held as “control” (the essential yet controversial element of Randomized Control Trials), notice how much information is missing without longitudinal data and ex-post evaluation. Groupe controle Etude de base Evaluation en fin de projet 55 RealWorld Evaluation - Steps 1, 2 & 3

Modèle 3 : Longitudinal tronqué
X P1 X P2 C1 C2 Participants au projet Groupe témoin Évaluation à mi-parcours Évaluation en fin de projet 56

Modèle 4 : Pré+post projet, comparaison post seulement
P X P2 C Participants au projet Groupe témoin Étude de base Évaluation en fin de projet 57

Modèle 5 : post-test avec groupe de projet et groupe témoin
X P C Participants au projet Groupe témoin Évaluation en fin de projet

Modèle 6 : pré+post projet, pas de comparaison
P X P2 Participants au projet Étude de base Évaluation en fin de projet 59

Design #7: post test avec juste les participants au projet
X P Participants au projet Besoin de remplir les données manquantes utilisant d’autres moyens : Quels changements ont eu lieu au cours de la vie du projet? Que se serait-il passé sans le projet (countrefactuel)? Dans quelle mesure ce changement est pérenne? Status of high-level outcome indicator only measured at end of project, only of project beneficiaries. Obviously the weakest evaluation design – yet by far the most common scenario in the real world (at least in international development projects). Even if the indicator in question is measured very precisely (e.g. with a very rigorous survey, or exhaustive qualitative methods) there was no direct measurement of what change occurred during the life of the project, nor any form of counterfactual. Very important to use complementary methods to obtain other information. end of project evaluation 60 RealWorld Evaluation - Steps 1, 2 & 3

Cf. Table 2.2 en page 8 de la Revue Condensée du RWE
Design T1 (baseline) X (intervention) T2 (midterm) (intervention, cont.) T3 (endline) T4 (ex-post) 1 P1 C1 P2 C2 P3 C3 P4 C4 2 3 4 5 6 7 This table summarizes these 7 evaluation designs.

MODELES LOGIQUES Session 4.b.
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 4.b. MODELES LOGIQUES RealWorld Evaluation - Steps 1, 2 & 3

Définir le modéle de la théorie de programme
Tous les programmes sont fondés sur un ensemble d’hypothèses quant aux façons dont les interventions du projet devraient mener aux effets directs souhaités Ceci est parfois énoncé clairement dans les documents de projet Dans d’autres cas, ces hypothèses sont implicites et l’évaluateur doit aider les parties concernées à définir les hypothèses au moyen d’un modèle logique. RealWorld Evaluation - Steps 1, 2 & 3

Définir le modéle de la théorie de programme
Définir et tester les hypothèses clefs est un élément essentiel (mais souvent ignoré) des modèles de théorie de programmes Le modèle suivant est pour évaluer les impacts du microcrédit en termes d’augmentation de l’autonomie sociale et économique des femmes RealWorld Evaluation - Steps 1, 2 & 3

Hypothéses essentielles de la Chaine Logique dans un Programme de Micro-Crédit Exclusivement-Genre
Pérennité Les changements structurels méneront aux impacts à long terme. Impacts à moyen et long terme L’autonomie économique et sociale des femmes a augmenté. Le bien-être social et économique des femmes et de leur famille va s’améliorer. Effets directs à court terme Si les femmes obtiennent des prêts, elles se lanceront dans d’autres activités génératrices de revenus Les femmes pourront contrôler l’usage des prêts et rembourseront. Extrants Si le crédit leur est accessible, les femmes voudront le solliciter et l’obtenir, ainsi que l’Assistance Technique. Typically project designers begin with their planned activities and outputs, then predict what outcomes and impact will come about due to those project interventions. RealWorld Evaluation - Steps 1, 2 & 3

Example de menace à la validité interne: le modéle causal supposé
Augmente le revenu des femmes Les femmes adhérent à la banque du village, Recoivent les prêts, Apprennent les compétences et acquiérent la confiance en soi CE QUI ……… Augmente le contrôle des femmes sur Les ressources du ménage CE QUI …

Un modéle causal alternatif
Le revenu des femmes et leur contrôle des Resources du ménage Ont augmenté du fait de La combinaison de L’alphabétisation, la confiance en soi et des prêts Les femmes qui ont pris Les cours d’alphabétisation sont plus susceptibles de joindre la banque du village Leur alphabétisation et confiance en soi en font des entrepreneurs plus efficaces Certaines femmes ont déjà pris des cours d’alphabétisation qui ont augmenté leur confiance en soi et Leur compétence au travail

PROBLEME Conséquences Conséquences Conséquences CAUSE PRIMAIRE 1
Cause secondaire 2.1 Cause secondaire 2.3 Cause secondaire 2.2 Ideally project design should begin by key stakeholders (including intended beneficiaries) going through a process of identifying the main problem they want to address – the change they want to bring about. Then identifying primary causes of that problem, secondary causes, tertiary causes (here illustrated with three at each level, though there could be fewer or more). There can, of course, be higher-level consequences; but the project should identify a major problem it will address that can reasonably be expected to be achieved during the project’s lifetime. Cause tertiaire 2.2.1 Cause tertiaire 2.2.2 Cause tertiaire 2.2.3

IMPACT SOUHAITE Consequences Consequences Consequences EFFET 1 EFFET 2
EXTRANT 2.1 EXTRANT 2.3 EXTRANT 2.2 The problem tree is then converted to a “Solution Tree” with the high-level change (in human conditions) identified as the desired Impact Goal, Outcome Objectives needed to achieve that Impact, project Outputs needed to achieve each Outcome Objective, etc. At the lower level are the actual interventions the project intends to undertake (e.g. training). Note that good design practice begins at the top, then works down. Intervention 2.2.1 Intervention 2.2.2 Intervention 2.2.3

Reduction de la pauvreté
Femmes Autonomisées Opportunités économiques des femmes Femmes en position de leaders Jeunes femmes éduquées Politiques d’éducation améliorées Enrollment des femmes augmente Curriculae améliorés We will illustrate this form of logic model with an education project – more specifically one that is focused on building schools. (Typically beginning at the bottom.) The designers need to recognize that more than classrooms are needed in order to achieve the outcome of increased enrollment of girls. And there need to be even other external assumptions fulfilled if higher outcomes and impact are to be achieved, such as girls completing quality education, leading to their long-term empowerment, and even (a higher desired consequence) that this will all lead to a reduction of poverty in these households and communities. Parents persuadés d’envoyer les filles à l’école Systéme scolaire recrute et paie les enseignants Ecoles construites

But du Programme: Jeunes femmes éduquées
Pour avoir une synergie et atteindre l’impact tous ces besoins doivent avoir une réponse d’une même population cible. But du Programme: Jeunes femmes éduquées Projet de plaidoyer: politiques d’éducation améliorées mises en oeuvre Projet de formation des enseignants : meilleure qualité des curriculae Projet de Construction: plus de classes construites Here is an illustration of what a Program looks like: Two or more projects working in the same area, addressing the needs and rights of the same target population, collaborate together to provide the synergy needed to achieve higher level (program) impact. As in this example, each project has a Outcome Objective at a level that can be achieved and measured during the life of the project. Though our own agency may choose to directly implement one or more of the projects, it may be more appropriate to assist one or more partners to implement complementary projects. If one assumes that someone else will take care of some aspect (e.g. Government Ministry of Education improving educational policies), it is important that we monitor that assumption. For the hypothesis developed from the problem analysis (in this example) is that all three of these causes must be addressed in order for the Program Impact to be achieved (young women completing quality education.) HYPOTHESE (que d’autres le fairont) NOTRE project Le PARTNAIRE le fera But du programme au niveau de l’impact

Que faut-il pour mesurer les indicateurs à chaque niveau?
Impact : Enquête de population (situation de référence, évaluation finale) Effets: Changement de comportement des participants (peut faire l’objet d’une enquête annuelle) Extrant: Mesuré et rapporté par le personnel du projet (annuellement) The quality of each level in the cause-effect hierarchy is measured at the next higher level. Here we consider what it takes to measure indicators at each level. Inputs are commonly measured by the financial accounting system. (We’re pretty good at this form of accountability.) Activities are frequently reported by field staff. (Too frequently -- typically there is far more recorded than is really needed for management decision-making.) At least in their annual reports, project staff should document what Outputs the project achieved. There are basically two types of Effect (Outcome) measurement: A) One involves following up project participants to see how many are practicing what they were taught. B) To measure the proportion of the community practicing these techniques (behaviors) requires a population-based survey. Project impact goals commonly refer to the percentage of the target population that will be benefited. This calls for a population-based survey. That requires extra effort and resources; is not likely to be done every year, but should be done at least at baseline and final project evaluation. Program impact evaluations that assess the higher (and multi-sectoral) impact of a series of projects require even greater resources and sophistication. These should probably not be attempted at time intervals of less than 10 years. Activités: Continues (suivi des interventions) Investissements: Continues (comptes financiers)

Nous avons besoin de savoir Quel type d’évaluation est approprié pour mesurer à un niveau donné
Impact Effets Extrants Activités Investissements EVALUATION D’IMPACT EVALUATION DE PROJET SUIVI DE PERFORMANCE There has been a trend by USAID and some other donors and agencies to rely more and more on Performance Monitoring and away from regular Project Evaluation, much less occasional Impact Evaluation. This has its limitations, as illustrated on this slide. It is reasonable to expect a Performance Monitoring system to collect, aggregate and report quantitative data at the input, activities and output levels on a fairly routine basis. But to determine whether or not effects and impacts have been achieved requires more than an analysis of monitoring data -- they require a special study, a greater “stepping back” and broader, more holistic perspectives -- that’s the unique role of evaluations.

Un Modéle de Théorie de Programme (Logique)
Contexte Economique dans lequel le projet opère Context Politique dans lequel le projet opère Contexte Institutionel et operationel Caractérisqtues Socio-economiques et culturelles de la population d’intervention Conception Investissements Processus de mise en oeuvre Extrants Effets Impacts Durabilité Typically project logic models are linear. This is one illustration of a more holistic model, where key external conditions are considered, since the success of the project is obviously dependent on those conditions. And if those external conditions change (negatively or positively) during the life of the project, the project’s own plans may need to be flexible and change accordingly. Note: les cases orange font partie des Modéles de Théorie de Programme conventionnels. L’addition des cases bleues constitue le complément d’analyse recommandé

There are many creative ways to depict logic models
There are many creative ways to depict logic models. Here is one developed by the Asia Foundation for a Trafficking In People (TIP) program in Nepal. It includes three Components (sub-projects), with a variety of types of interventions. The challenge is to make it compressible enough to show the “big picture logic” of the program without becoming so complex that it becomes confusing. Another challenge is to know what aspects of a logic model like this should be tested by an evaluation.

Education Intervention Logic
Global Impacts Output Clusters Outcomes Specific Impact Intermediate Impacts Better Allocation of Educational Resources Improved Family Planning & Health Awareness Institutional Management Quality of Education Increased Affordability of Education Economic Growth Skills and Learning Enhancement Curricula & Teaching Materials Poverty Reduction Improved Participation in Society MDG 2 MDG 1 Teacher Recruitment & Training Equitable Access to Education Social Development Here is another example of a more comprehensive logic model, this one by OECE/DAC, with a multi-sectoral national set of programs aimed at having impact on the MDGs (Millennium Development Goals). Question: if you were designing an impact evaluation, what aspects of such a program would you focus on? MDG 2 Health MDG 3 Greater Income Opportunities Education Facilities Optimal Employment Source: OECE/DAC Network on Development Evaluation

Etendre la chaîne de résultats pour les programmes multi-donateurs, multi-composantes
Revenu ménages ruraux augmenté Participation Politique Accrue Performance d’Education Améliorée Santé Améliorée Impact Production Accrue Accés à l’emploi hors-ferme Scolarisation accrue Effets Intermédiaire Utilisation accrue des services de santé Extrant Crédit aux petits fermiers Services de Santé Routes Rurales Ecoles Many programs are much more complex than the simple cause-effect hierarchy depicted in typical project logframes. Although a more comprehensive picture (such as the one on this slide) is more realistic, especially at broader geographical levels where multiple agencies are involved, assessing attribution of each gets rather challenging. Ideally we can identify plausible contributions each actor makes to the achievement of higher level outcomes and ultimate impact. Intrant Donateurs (PTFs) Gouvernment Autres donateurs L’Attribution devient trés difficile! Considérer les contributions possibles pour chacun

TEMPS POUR LA PAUSE ! 78 RealWorld Evaluation - Steps 1, 2 & 3

En l’Absence de Référence (etude de base)
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 5 En l’Absence de Référence (etude de base)

Moyens de reconstituer les conditions préalables
Données secondaires Dossiers (archives) du project Recours aux souvenirs Répondants clefs

Moyens utilisés pour reconstituer la situation préalable
MARP (Méthode Accélérée de Recherche Participative) et AAP (Apprentissage et Action Participatifs) et autres approches participatives tel que les échéanciers (ou lignes temporelles), les évènements critiques pour aider à établir la chronologie des changements importants dans la communauté

Déterminer l’utilité des données secondaires
Période de référence Couverture de la population Inclusion des indicateurs requis Exhaustivité Exactitude Absence de biais

Autres enquêtes par les agences du gouvernement
Examples de données secondaires pour reconstituer la situation de référence Recensement Autres enquêtes par les agences du gouvernement Etudes spéciales des ONGs, Donneurs, Recherches universitaires Médias (journaux, radio, TV) Données externes éventuellement collectées par la structure de mise en oeuvre pour suivre les tendances

Utilisation de l’information interne du projet
Types de données Etudes de Faisabilité/plannification Documents d’Application/d’enregistrement Rapports de Supervision Données du Systéme de Gestion de l’Information Les rapports et minutes des réunions Les minutes des réunions des agences et des communautés Rapports de mise en oeuvre Documentation de suivi des activités

Apprécier la validité des documents du projet
Qui a collecté les données, à quelles fins? La collecte était destinée à conservation les archives, ou influencer les décideus politiques ou d’autres groupes? Les données de Suivi concernent les activités seules ou les changements observés? Les données éaient-elles à usage interne seulement? Pour un groupe restreint? Ou à usage public?

Examples de Recours au Souvenir
Fréquentation scolaire et durée et coût du trajet Maladie/utilisation des établissements sanitaires Revenus et Dépenses Savoir/compétences individuels et collectifs Cohésion sociale/conflits Utilisation/qualité/coût de l’eau Périodes de stress Habitudes de déplacement

Limites des Souvenirs Generallement peu fiable en cas de besoin de données quantitatives précises Biais de sélection de l’échantillon Distorsions délibérées ou non-intentionelles Peu d’études empiriques (sauf sur les dépenses) pour aider à revoir les estimations

Sources des biais dans les souvenirs
Qui fournit l’information Sous-estimation du souvenir sur les dépenses majeures Distorsion pour se conformer au comportement accepté: Intentionnel ou inconscient Romancer/Glorifier le passé Exagérer (ex.. “Nous n’avions rien avant l’arrivée de ce projet”) Facteurs contextuels: Les intervalles de temps utilisés en question Les répondants ont leur idée sur ce que leur interlocuteur cherche à savoir Implications du protocole d’interview

Améliorer la Fiabilité du Souvenir
Faire de petites études pour comparer le souvenir aux enquêtes ou à d’autres éléments d’information. S’assurer que tous les groupes pertinents ont été interrogés Triangulation Lier le souvenir à d’importants évènements de référence Eléctions Sécheresse/Inondation/tsunami/guerre/déplacement Construction de routes, écoles, etc

Répondants clefs Pas seulement les officiels et VIPs
Tout un chacun peut être informateur clef dans sa propre situation: Méres célibataires Ouvriers des usines Usagers des transports publics Travailleurs du sexe Enfants de la rue

Guides pour l’analyse des informateurs clefs
Triangulation renforce sensiblement la validité et la compréhension Inclure des informateurs ayant differentes expériences et perspectives Comprendre le rôle de chaque informateur dans la structure d’ensemble Répéter les interviews autant que nécéssaire Gestion prudente des considérations éthiques

MARP et autres techniques participatives
Les techniques de MARP et AAP sont pour la collecte de données au niveau du groupe ou de la communauté [pas au niveau individue] Peut chercher à identifier un consensus ou au contraire des perspectives différentes Risque de biais: Si seulement certains groupes de la communauté participent Si certaines personnes dominent la discussion

Résumé des limites de la reconstruction de données
Variations dans la fiabilité des souvenirs Distortion dans la mémoire Difficultés dans l’utilisation des données secondaires Données secondaires incomplètes ou non fiables Les informateurs peuvent pervertir les récits

Assez de presentations: temps vous (AGENTS de la VieRéelle
Assez de presentations: temps vous (AGENTS de la VieRéelle!) de passer l’action

Temps pour le travail en petits groupes
Temps pour le travail en petits groupes. Lisez vos études de cas et commencez les discussions.

Etudes de cas dans les petits groupes de travail
Certains d’entre vous vont jouer le role de consultants en évaluation, d’autres celui de clients qui cherchent à engager une évaluation. Convenez de ce que votre groupe propose face aux contraintes/défis indiqués. Préparez-vous à négotier les TDRs avec l’autre groupe (dans l’aprés-midi)

L’objet de cet exercise est d’acquérir une certaine ‘touche’ pratique pour appliquer ce que nous avons appris sur l’évaluation en SituationRéelle. Groupe A (consultants) L'équipe d'évaluation doit envisager comment ils vont proposer une conception de l'évaluation et un plan révisés qui réduisent le budget de 25% à 50%, tout en répondant aux besoins des deux clients (Services du logement de la Ville le bailleur de fonds international). Groupe B (clients) Les clients vont aussi examiner la proposition initiale à la lumière de ce qu'ils ont appris sur l'évaluation en SituationRéelle, et se préparer à renégocier les plans avec le groupe de consultants. A noter: il existe deux types de clients: le ministère du Logement (exécution du projet) et les bailleurs de fonds internationaux (fondation). Les groupes ont 45 minutes maintenant plus le temps de la pause déjeuner pour préparer leur cas. Les groupes de ‘Consultants’ vont ensuite rencontrer les groupes de ‘Clients’ plus tard pour négotier leurs propositions révisées dans le plan de cette évaluation. 60 minutes seront disponibles pour ces sessions de négotiation.

Déterminer les Countrefactuels
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 7 Déterminer les Countrefactuels

Attribution et countrefactuels
Comment peut-on savoir si les changements observés chez les participants au projet ou les communautés revenu, santé, attitudes, fréquentation de l’école. etc sont dues à la mise en oeuvre du projet crédit, eau, bons de transpor, construction d’écoles, etc ou à d’autres facteurs indépendants? changements dans l’économie, flux migratoires, autres programmes de dévelopment, etc

Le Countrefactuel Quel changement aurait intervenu dans la condition de la population cible examinée en l’absence de l’intervention du projet?

Où se trouve le countrefactuel?
Une étude a trouvé que le revenu moyen d’une famille a augmenté de 50% aprés 3 années de vie dans un nouveau logement alloué par un projet Est-ce cela indique que le logement est un moyen efficace d’accroître le revenu?

Comparer le projet avec deux groupes de comparaison possibles
Le groupe du projet. 50% augmentation 750 Scenario 2. 50% croissance dans le groupe de comparaison: Pas de preuve d’impact du projet 500 50% higher incomes of those involved in the project looks impressive, if others’ incomes stayed stagnant. But if the comparison group (people living in comparable communities) also enjoy higher incomes, the net impact of the project on incomes was actually zero. Scenario 1. Pas d’accroissement dans le revenu du groupe de comparaison. Preuve potentielle de l’existence d’impact du projet 250 2004 2009

Groupe de contrôle et Groupe de comparaison
Groupe de contrôle = assignation aléatoire de la population au groupe du projet et au groupe hors-projet Groupe de comparison = procédure différente pour la sélection des groupes du projet et hors-projet; les 2 groupes restent toutefois similaires pour tout sauf l’exposition au projet (traitement, intervention)

Contrôles Aléatoires d'Essais
IE Designs: Experimental Designs Contrôles Aléatoires d'Essais Les individus, communautés, écoles etc. éligibles sont assignés aléatoirement soit: au groupe du projet group (qui reçoit les services) Ou au groupe de contrôle (qui n’a pas accés aux services du projet)

Une illustration graphique du countrefactuel ‘ideal’ basé sur l’avant-project et l’assignation aléatoire Intervention Sujets assignés au hasard soit au… IMPACT Impact Primary Outcome Groupe Traité Groupe de Contrôle Counterfactual Trend line Time

Il existe d’autres méthodes pour déterminer le countrefactuel
Des données secondaires fiables qui indiquent les tendances pertinentes dans la population Des données longitudinales de suivi (si couvrent la population non ciblée par le projet) Les méthodes qualitative pour collecter l’avis des informants, participants, voisins, etc.

Moyens de reconstruire les groupes de comparaison
Comparer le jugement des communautés Dans un projet à intégration par phases aux services du projet, les bénéficiaires de phases ultérieures peuvent servir de groupe de comparaison “pipeline” comparison groups Contrôles internes lorsque différents sujets reçoivent différentes combinaisons et niveaux de services.

Utiliser le score de propension et d’autres outils pour renforcer les groupes de comparaison
Appariement sur le score de propension pour réduire le biais de recrutement Les études d’évaluation Rapide permettent de comparer les charactéristiques des projets et groupes de comparaison en utilisant : L’Observation Les informateurs clefs Des groupes Foci (Focus groups) Des données secondaires Des photos aériennes ou données des SIG / GIS

Considérations dans la reconstruction des groupes de comparaison
Il est difficile de répliquer (clôner) des zones de projet souvent choisies à dessein En cas de differences entre les groupes du projet et de comparaison groups – difficile de déterminer si les effets observés sont dues au project au aux différences initiales Absence de donnée de qualité pour chosir le groupe comparaison Contamination (les bonnes idées s’exportent!) Les méthodes économétriques ne peuvent pas éliminer complétement les différences initiales entre groupes [non-observables]

Quelles a été votre expérience dans l’identification de données countrefactuelles?

Défis et Stratégies Session 8
Evaluation en SituationRéelle Concevoir des évaluations en tenant compte des contraintes associées au budget, aux délais, à la disponibilité des données et à la situation politique Session 8 Défis et Stratégies

Qu’il est merveilleux et divers le monde dans lequel nous vivons!
Nous avons surement besoin d’une diversity d’approches en évaluation!

Discutons des défis pour réaliser des évaluations d’impact dans le monde réel.

Some recent developments in impact evaluation in development
J-PAL is best understood as a network of affiliated researchers … united by their use of the randomized trial methodology… 2003 2006 2009 2008 Impact Evaluation for Improving Development – 3ie and AfrEA conference in Cairo March 2009 2010 In recent years there has been an increasing emphasis on impact evaluation in public policy and development. In public policy there has been a focus on evidence-based policy and practice, drawing on approaches developed for evidence-based medicine. In development there have been calls for more rigorous impact evaluation. In both areas there have been debates about what constitutes ‘rigorous evidence’ and ‘scientific approaches’ to impact evaluation. Some people and organizations have argued exclusively for increased use of specific research designs – in particular Randomized Controlled Trials (RCTs). Others have argued that these designs are not always appropriate or feasible, and that we need other approaches to doing more systematic, rigorous and useful impact evaluation.

Pourquoi ou Pourquoi pas?
Alors, est-ce à dire que l’allocation aléatoire (CAE/RCTs) constiuent la Régle d’Or et devrait être utilisé dans la plupart voire la totalité des évaluations d’impcat de programmes? Oui ou Non? Pourquoi ou Pourquoi pas? Si Oui, dans quelles ciconstances utiliser ces méhodes? Si non, dans quelles circonstances seraient-elles plus indiquées?

Source: Westley et al (2006) and Stacey (2007), cité in Patton 2008;
Differentes visions sont nécéssaires pour des situations différentes en SituationRéelle Simple Compliqué Complexe Suivre une recette Envoyer une roquette à la lune Eudquer un enfant Les Recettes sont testés pour assurer une répétition facile Envoyer une roquette à la lune accroît l’assurance que le prochain sera aussi un succés Eduquer une enfants procure de l’expérience mais n’est pas une garantie de succés pour le prochain Les meilleures recettes donnent de bons résultats à chaque fois Il ya un grand degré de certitude du résultat Incertitude quant au résultat Source: Westley et al (2006) and Stacey (2007), cité in Patton 2008; également présenté par Patricia Rodgers à la conference sur l’evaluation d’impact au Caire en 09.

Adapted from Patricia Rogers, RMIT University
Politique basée sur l’Evidence pour des interevntion simples (ou des aspects simples): quand les essais aléatoires peuvent être utiles Question à poser pour la Politique  Qu’est-ce qui marche? A quoi ressemblent les interventions  Intervention distincte, standard Modéle Logique  Comment les interventions fonctionnent  Relation cause  effet simple, directe Même chose partout dans une large mesure Processus nécéssaire à l’émergence de l’ émegence de l’évidence uptake  Transfert de Connaissance Adapted from Patricia Rogers, RMIT University

Quand l’évaluation rigoureuse des indicateurs d’impact de haut-niveau n’est pas nécéssaire?)
Les programmes compliqués, complex, avec de multiple interventions et une variété d’actors Projets réalisés en contexte de turbulence (ex. conflits, désastre naturel) Projets ayant des modéls logiques à différentes strates, des relations cause-effet peu claires, des “énoncés de vision“ de trés haut niveau (comme c’est souvent le cas en SituationRéelle ou dans les projets de développement de la coopération internationale) RealWorld Evaluation - Steps 1, 2 & 3

Quand les évaluations rigoureuses des indicateurs “impact” de hau-niveau pourraient nepas être nécessaires? Les évaluateurs pourraient considérer l’approche suivante: si la corrélation entre les effets intemédiaires (outcomes) et l’impact de plus haut niveau ont été établis de façon adéquate par la recherche ou des évaluation antérieures, alors on pourait se limiter à évaluer les indicateurs de résultat intérmédiaire, pour autant qu’il soit possible de prouver que le contexte (conditions internes et externes) est suffisament similaire au context dans lequel de telles corrélarions ont été testées. RealWorld Evaluation - Steps 1, 2 & 3

Examples de corrélations cause-effect correlations généralement acceptées
Vacciner les jeunes enfants utilisant les protocoles et vaccins connus aux âges prescrites entraîne la réduction de maladies infantiles (moyens de vérification comprennent examiner les diagrammes de santé des enfants, pas seulement la quantité de vaccins distribués aux cliniques.) Autres exemples … ?

Les transferts de Cash Conditionnels
Mais regardons les examples d’interventions qui ont fait l’objet de “test rigoureux” usant les essais aléatoires Les transferts de Cash Conditionnels L’utilisation de l’aide visuelle dans les écoles du Kenya Déparatisage des enfants (comme si cela était tout ce qu’il y avait à faire pour les rendre aptés à recevoir une bonne éducation) À noter que de genre de recherche se base sur la quête de Points d’argent – des solutions simples, à coûts réduits pour des problémes complexes.

Quoted by Patricia Rogers, RMIT University
“Une réponse approximative à la bonne question, est souvent vague, est bien meilleure qu’une réponse exacte à la mauvaise question, qui peut toujours être précisée”.“ J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp Quoted by Patricia Rogers, RMIT University

“Un expert est quelqu’un qui connaît de plus en plus sur de moins en moins jusqu’au moment où il connaîtra absolument tout sur rien du tout.”* *Quoted by a friend; also available at

Est-ce cela ce que nous appelons “Méthode scientifique”?
Il existe bien plus sur l’impact, la rigeur et “la méthode scientifique” que les seuls Essais Aléatoires. Les évaluations d’impacts sérieuses requiérent une approche plus holistique.

Un modèle plus comprehensive
Consequences Consequences Consequences IMPACT SOUHAITE E EFFET 1 OUTCOME 2 EFFET 3 Un modèle plus comprehensive OUTPUT 2.1 OUTPUT 2.3 OUTPUT 2.2 Unfortunately, too often simplistic RCTs only conduct research on one intervention, and judge its “impact” by attributable change in a fairly near-term outcome, without adequate consideration of other causal chains. A more comprehensive design should factor in an adequate number of causal streams to determine not only which but what combination of interventions by one agency or others, or necessary pre-conditions need to be in place to achieve higher level impact. Contrôles Aléatoires d’Essai Intervention 2.2.1 Intervention 2.2.2 Intervention 2.2.3

Il peut y avoir des problémes de validité avec les CAEs
Validité Interne Problémes de quality – mauvaise mesure, faible respect de l’aléatoire, pouvoir statistique faible, effets différentiels ignorés, comparaisons inappropriée, pêche à la signification statistique, attrition différentielle entre groupes de traitement et de contrôle, des fuites dans le traitement, une influence non planifiée, faible qualité de la mise en oeuvre non identifiée. Autres considérations – erreurs dans l’aléatoire, contamination d’autres sources, need d’un paquet causel compley, random error, contamination from other sources, need for a complete causal package, défaut d’aveuglement. Validité Externe Efficacité dans la pratique en situation réelle, transférabilité à de nouvelles to situations Patricia Rogers, RMIT University

Utilisée limitée des modéles rigoureuses d’évaluation
En SituationRéelle (au moins dans les programmes de développement international) nous estimons que: Moins de 5%-10% des évaluations d’impact de projets utilisent une méthode expériementale ou quai-expérimentale solide moins de 5% d’entre elles se font au moyens de contrôles aléatoires (la méthode expérimentale ‘pure’), ce qui est peu significatif,

Dans le contexte réel de la coopération international au développement, quels modés d’évaluation sont effectivement utilisés? Conclsions de méta-evaluations portant sur 336 rapports d’évaluation d’une ONG Internationale Post-test seuls 59% Avant-et-Aprés 25% Avec-et-Sans 15% Autre contrefactual 1% Data summarized from four bi-annual meta-evaluations of evaluation reports from CARE projects in many countries. Colleagues familiar with other agencies report proportions of evaluations with no pre-test + post-test, nor counterfactual, are typically higher than the percentages reported here.

Des évaluations d’impact rigoureuses devraient inclure (sans être limité à):
Une large consultation et l’implication d’une diversité de parties prenantes, L’articulation d’un modéle logique compréhensif, qui prévoit les influences extérieures pertinentes, Un accord sur le “niveau d’impact” souhaitable, en termes d’objetifs et d’indicateurs, Adapter les shémas d’évaluation, tout comme la collecte de données et l’analyse méthodologique pour répondre aux questions posées, …

5) Un suivi et la documentation adéquate du processus au travers de la vie du projet objet de l’évaluation, 6) l’utilisation d’une combinaison adéquate de méthodes pour trianguler l’évidence qui est en cours de collecte, 7) Être suffisamment flexible pour intégrer un contexte évolutif, …

8) l’utilisation d’une variété de moyens pour déterminer le contrefactuel, 9) l’estimation de la pérénnité probable des changements en observation, 10) La communication des conclusions à differents publics de façon utile, 11) etc. …

Ce qu’il faut retenir est que la liste de ce qui est requis pour une évaluation d’impact ‘rigoureuse’ va bien au delà du hasard dans la sélection des groupes de traitement et de ‘controle’.

Chercher à réaliser une évaluation d’impact d’un programme au moyen d’un seul outil pré-déterminé est un signe de myopie, ce qui est dommage. D’un autre côté, prescrire aux donateurs et aux responsables des agences de coopération qu’il existe une seule méthode de prédilection pour mener toutes les évaluations d’impact peut avoir et a eu des conséquences fâcheuses pour tous ceux qui sont impliqués dans la conception, la réalisation et l’évaluation des programmes internationaux de dévelopment.

Nous devons être prudents en utilisant l’“Etalon d’Or”
de ne pas porter atteinte à la “Régle d’Or”: “Ne juge pas ce en quoi tu ne souhaites pas être jugé!” En d’autres termes: “Evaluez autrui comme tu voudrais les voir t’évaluer.”

Attention: Trop souvent ce qui est appelé Evaluation d’Impact est basé sur une paradigme du genre “nous t’examinerons et te jugerons’”. Et au moment d’évaluer nos propres programmes, nous préférons une approche plus holistique.

Pour utiliser le language du CAD/OCDE, assurons-nous que nos évaluations se font en référence à ces critères: PERTINENCE: dans quelle mesure l’activité finacée par l’aide est-t-elle en phase avec les priorités et les politiques du groupe cible, bénéficiaire et du donateur. EFFICACITE: Dans quelle mesure l’activité objet du financement de l’aide atteint ses objectifs. EFFICIENCE: L’Efficience mesure les extrants – qualitatifs et quantitatifs – en relation avec les intrants. IMPACT: Les changements positifs et négatifs produits par une intervention de développement, directement ou indirectement, intentionnellement ou non intentionnellement. DURABILITE: s’intéresse à mesurer si les bénéfices d’une activité sont susceptibles/en de perdurer à l’issue de la période du financement. Les projets ont besoin d’une durabilité financière et environnementale à la fois.

La questions suivante définit la ligne de conduite:
Est-ce que nos programmes contribuent de façon plausible à un impact positif sur la qualité de vie des bénéficiaires que nous avons défini? Ne les oublions pas!

Merci! 139

D’autres questions? 140

Temps pour les équipes de consultation de rencontrer les clients pour négocier la révision des TDRs du projet de logements. 141

En conclusion: Les évaluators doivent être préparés à:
Entrer dans le cycle du projet à une étape plus tardive; Travailler sous la contrainte de budget et la restriction de temps; Ne pas disposer de données de référence comparable; De travailler sans un groupe de comparaison; Travailler avec un nombre limité de chercheurs en évaluation bien qualifiés; Reconcilier une diversité de paradigmes d’évaluation, de besoins d’information, et de parties prenntes.

Principaux messages de l’Atelier
Les Evaluateurs doivent être préparés pour les défis de l’évaluation en SituationRéelle. Il existe une expérience trés riche pour s’en inspirer Un boite d’outils de techniques d’évaluation en “SituationRéelle” est accessible (cf. Ne jamais invoquer les contraintes de temps et de budget comme excuse à une approche d’évaluation qui ne se défend pas. Une liste de contrôle sur des situations de “menace à la validité” vous aidera à identifier honnêtement les faiblesses potentielles dans vos choix conceptuels et l’analyse.

Nous espérons que ces idées vous seront utiles dans votre quête et pratique de l’Evaluation en SituationRéelle!

Oumoul Ba Tall et Jim Rugh

Présentations similaires

Présentation au sujet: "Oumoul Ba Tall et Jim Rugh"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Oumoul Ba Tall et Jim Rugh

Présentations similaires

Présentation au sujet: "Oumoul Ba Tall et Jim Rugh"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back