ENP 7137 Module 10 Professeur Filip Palda. Introduction Objectif : comprendre la méthode de Heckman pour corriger les biais de sélection. Avec le logiciel.

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
STATISTIQUE INFERENTIELLE L ’ESTIMATION
La régression logistique: fondements et conditions d’application
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
1 Séminaire de travail « Indicateur de croissance en France et/ou en zone euro : méthodologie et évaluation » 14 juin 2006 Indicator Models of Real GDP.
Vérification des données
Programmes de calculs en 3ème
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Septième étape : travailler avec des graphes probabilistes
Les liens entre les variables et les tests d’hypothèse
Algorithmique et Programmation
La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Systèmes d’équations du premier degré à deux variables
Méthodes de prévision (STT-3220)
Méthodes de prévision (STT-3220)
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
Prévisions météorologiques, projections climatiques : que peut- on prévoir et avec quelle fiabilité ? Exercice 2: estimation de la prévisibilité dans le.
La corrélation et la régression
La régression logistique
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.
La régression multiple
Essais Des Machines à CC
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
La régression simple Michel Tenenhaus
Programmation linéaire en nombres entiers
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
STATISTIQUES DESCRIPTIVES
Probabilités et Statistiques Année 2010/2011
TNS et Analyse Spectrale
UNITE: Résolution des équations du second degré
3 COURS DE thermodynamique (Module En 21) 13/04/2017
Recherche de motifs par projections aléatoires
Outils d’analyse: la méthode des moindres carrées
Concepts fondamentaux: statistiques et distributions
Rappels Variables nominales :
E. Le mécanisme de réaction
L’erreur standard et les principes fondamentaux du test de t
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
Chapitre 4 Variables aléatoires discrètes
Concepts préliminaires sur les études de recherche Population: le groupe entier de personnes ou d'objets sur lequel un chercheur veut apprendre quelque.
ENP 7137 Module 8 Professeur Filip Palda.  GENEL88.SAV Dans la banque de données GENEL88.SAV, chaque candidat aux élections de 1988 et les caractéristiques.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Tout comprendre au Taux de Croissance Annuel Moyen (TCAM)
ENP 7137 Module 4 Professeur Filip Palda. Objectifs : De façon générale, les études ne sont pas randomisées. La «solution» est de créer un groupe ayant.
Sommaire des deux processus aléatoires Il faut distinguer soigneusement entre l'échantillonnage aléatoire et l'affectation aléatoire. Ceux sont des techniques.
ENP 7137 Module X Professeur Filip Palda. Immigration et emploi.
Des expériences comparatives à répartition aléatoire (autrement dit des études expérimentales aléatoires)
Distribution à deux variables
Corrélation et causalité
Probabilités et statistique MQT-1102
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ENP 7137 Module 3 Professeur Filip Palda. Différence entre moyennes On ne peut pas simplement calculer la différence et conclure qu’elle existe si on.
STT-3220; Méthodes de prévision 1 Exemple: Test d’une dépendance d’ordre un Supposons que l’on a observé une série chronologique de taille n = 100. La.
MES STRATÉGIES DE LECTURE
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
LE CHOIX DE LA FORMULE  Reprise du cours du 09 au 12 décembre (GR 1 à 5, même si redites) o Question : vitesse moyenne du cycliste A sur l’ensemble de.
Transcription de la présentation:

ENP 7137 Module 10 Professeur Filip Palda

Introduction Objectif : comprendre la méthode de Heckman pour corriger les biais de sélection. Avec le logiciel R, on crée des groupes semblables en utilisant un algorithme de jumelage. Avec la méthode H, on utilise la régression pour pondérer les personnes qui ont une grande tendance à participer. On leur donne un faible poids et ainsi on « filtre » les cas biaisés. Méthodes non expérimentales pour corriger les biais de sélection. Le problème avec les méthodes non expérimentales, c’est le manque de contrôle. Autrement dit, le fait de ne pas prendre en considération tous les facteurs qui peuvent affecter le résultat est un problème.

2 méthodes non expérimentales : 1) La régression 2) Les quasi-expériences Chaque méthode est aussi bonne que l’aléation pourvu qu’on ait pris en compte toutes les variables indépendantes pertinentes. Dans les années 1970, un chercheur portant le nom de James Heckman a inventé une méthode non expérimentale pour corriger les biais de sélection: ERROR CORRECTION METHOD

Le défi est de trouver une manière de pondérer les résultats (ex.: réintégration des travailleurs au marché du travail) de telle manière que ceux qui avaient une forte tendance à participer reçoivent une pondération plus faible de leur résultat. Exemple : une personne qui voit son salaire augmenter de 10K$ après le programme. Si cette personne a participé volontairement, il est probable que l’augmentation de 10K$ ne soit pas entièrement due au programme gouvernemental, mais aussi à sa motivation. On veut «nettoyer» ou «corriger» le 10K$. On veut le réduire proportionnellement à la motivation de la personne. Plus la personne est motivée, plus on réduit le 10K$.

Ceci se fait en calculant la probabilité que cette personne participe au programme et en pondérant son salaire de manière inversement proportionnelle à sa probabilité de participation. Forte probabilité  faible pondération. Cette pondération pourrait corriger les biais de sélection. La pondération est un substitut pour connaître la motivation des individus. La tendance à participer constitue la probabilité qu’une personne participe au programme. Si la probabilité est forte, on déduit une forte motivation et on attribue au résultat de cette personne un faible poids. Ceci «désinfecte» le résultat des effets de motivation et ce qui reste est l’effet du programme.

Méthode de Heckman  Aussi connue comme «méthode à 2 étapes».  Une régression de participation. P = 1 si la personne participe et P = 0 dans le cas contraire. X1, X2 sont des variables qui déterminent en partie (une autre partie est déterminée par des forces aléatoires) la participation. P = a0 + a1X1 + a2X2 + erreur a0 + a1X1+ a2X2 est la partie prévisible de la participation (probabilité).

 Avec les coefficients et les X, on calcule l’erreur (dans SPSS, ils sont connus sous le terme RESIDUALS) et on transforme l’erreur:

Ceci est l’erreur standardisée. DANS SPSS C’EST ZRE_1. La moyenne de v est = 0 et son écart type est = 1. Avec v, construire un «inverse Mill’s ratio» f(v) est la fonction de fréquence de v. F(v) est la densité cumulative de v.

Deuxième étape 2) Une régression de résultats. Variable dépendante R (résultat). Exemple du salaire après le programme: R = b0+ b1X1 + b3Z1 + b4IMR + b5P P = a0 + a1X1 + a2X2 + erreur Le coefficient de P est notre objectif et devrait être non biaisé si on a bien formulé la première régression. Notez que X2 n’est pas présent dans la régression. Ceci est nécessaire car il nous faut des informations supplémentaires à celles présentes dans la régression des résultats afin d’apporter les corrections (dans mes mots : pondération) nécessaires pour éliminer le biais de sélection.

Participation dans la banque de données recidivism.sav : variable REHAB. 1 si la personne a décidé de participer et 0 sinon. Exemple : REHAB = a0 + a1X1 + a2X2 + erreur

Il faut formuler une équation de participation au programme.

REHAB = a 0 + a 1 AGE + a 2 AGE2 + a 3 ED Equation de participation. REHAB ÉQUIVALENT A P Coefficients(a) Model Unstandardized Coefficients Standardized Coefficients t Sig. BStd. Error Beta 1 (Constant),460,189 2,442,015 Age in years -,005,013-,096-,437,663 AGE2 1,205E- 05,000,013,061,952 Level of education -,004,018-,007-,232,817 a Dependent Variable: Rehabilitated

 Pour calculer IMR, on fait appel à la fonction PDF.NORMAL dans SPSS. Cette fonction donne la fréquence relative de n’importe quel V. f(V) f = PDF.NORMAL(ZRE_1,mean,stdv) SPSS nous demande de fournir 3 chiffres ZRE_ 1 est notre variable V

Mean = 0, stdv =1. F = CDF.NORMAL(ZRE _1, mean = 0, stdv = 1) Ceci est la densité cumulative normale.

Régression des résultats ARREST2 = f(AGE, ED, EMPLOYED, GENDER, MARITAL, REHAB, IMR) Et notez qu’on a omis AGE2. Et comparez avec la régression sans IMR ARREST2 = f(AGE, ED, EMPLOYED, GENDER, MARITAL, REHAB,)

a Dependent Variable: Second arrest

Commentaires sur la méthode Problèmes : si l’étape 1 n’est pas bien formulée (si l’on ne contrôle pas tous les facteurs qui peuvent affecter la participation), les prévisions de participation seront biaisées, les IMR seront biaisés et on ne peut plus dire que la correction des erreurs a un sens évident. Il se peut qu’on corrige trop le biais et qu’on cache ainsi dans la 2e étape certains des effets réels du programme gouvernemental. Commentaire : le nombre de termes carrés dans la 1re équation (et non dans la 2e) paraît arbitraire. En pratique, Heckman propose l’inclusion de termes carrés, cubes et logarithmiques sans grande explication malgré le fait que cela semble fonctionner. On trouve dans un grand nombre d’études non contrôlées que la conclusion que le programme est efficace disparaît chaque fois qu’on utilise la méthode de Heckman. Peut-on dire que la méthode est supérieure en pratique ? Théoriquement, elle est sans faute, mais sa propre application dépend de la capacité de bien formuler (contrôle) l’équation de participation. Pour vérifier l’utilité pratique de la méthode de Heckman, les chercheurs commencent avec une vraie expérience aléée. Ainsi ils connaissent le vrai résultat. Ils se débarrassent des informations sur le groupe contrôle des non-participants et le remplace par un groupe de non-participants non contrôlés (différent du groupe expérimental). Ils appliquent la méthode Heckman à ce nouvel échantillon et ils trouvent que les résultats sont semblables aux vrais résultats mais très différents de ceux utilisant des régressions non- Heckman. Critique : les chercheurs connaissaient les vrais résultats et peut-être les ont-ils utilisé comme guide pour formuler une bonne équation de participation. Mais quand les vrais résultats sont inconnus, on se retrouve dans une situation où il faut formuler l’équation de participation au pif.

Quand on ne veut pas créer des groupes semblables par des méthodes quasi-expérimentales, on utilise la méthode Heckman. L’idée est de trouver la tendance de chaque personne à participer et d’utiliser ceci pour pondérer les résultats des participants et des non-participants. L’aléation fait en sorte que votre probabilité de vous trouver dans E ou C soit de 50%. Alors si on trouve des personnes avec une prob (E > 50%), on pondère leurs résultats vers le bas. Si une personne possède une prob (E<50%), on pondère le résultat vers le haut. Ceci enlève l’effet des déviations de participation de 50% de la différence finale calculée entre E et C. Le reste est une application de plusieurs étapes (2 étapes). Il faut être conscient de la critique de cette méthode : elle est potentiellement tout aussi arbitraire que n’importe quelle application de régression.

Devoir  Utilisez la banque de données WORKPROG.SAV 1.Faites une régression avec REVDIFF (incaft-incbef) comme variable dépendante et identifiez l’effet du programme. 2.Faites une correction par la méthode Heckman pour produire des résultats non biaisés. Comparez le résultat avec celui de la question 1. 3.Commentez les faiblesses potentielles de vos résultats à la question 2. 4.Expliquez votre choix de variables dans les 2 étapes du processus de Heckman. Expliquez pourquoi vos résultats changent entre l’équation de salaire formulée à la question 1 et celle à la question 2.