La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 A new version of the CALMAR calibration adjustment program.

Présentations similaires


Présentation au sujet: "1 A new version of the CALMAR calibration adjustment program."— Transcription de la présentation:

1 1 A new version of the CALMAR calibration adjustment program

2 2 The CALMAR2 macros

3 3 I.1. Background CALMAR = CALibration on MARgins CALMAR 1 = SAS macro program, written in at Frances INSEE by Sautory Scope : implementing calibration methods developped by Deville & Särndal (JASA, 1992) CALMAR 2 = SAS macro, written in 2000 at Frances INSEE Scope : implementing generalized calibration method for handling total non-response (Deville, 1998)

4 4 I.2. Whats new in CALMAR 2 Simultaneous calibration with 2 or 3 levels Total non- response adjustment using generalized calibration Handling collinearities between auxiliary variables A 5th distance function : generalized hyperbolic sine Interactive screens to enter parameters, thanks to CALMAR2_GUIDE

5 5 Simultaneous calibration

6 6 Informations are collected at several levels of observation : households + every households member or : firms + every establishment of the firms i.e. cluster sampling survey, including questions about the clusters households + some of their members (Kish individuals) i.e. two-stages sampling, including questions about the primary units (P.U.) households + every households member + Kish units + auxiliary information available at every level II.1. The method

7 7 How performing calibration ? Independent calibration at every level of observation Simultaneous calibration (or "integrated") : - same weights for all members of a household - consistency between statistics obtained from varied data files Simultaneous calibration method A single calibration is performed at the P.U. level, after having computed the calibration variables totals defined at the secondary levels for each P.U. (Sautory, 1996)

8 8 II.2. An example households ( s M sample) all the members of the selected households ( s I sample) one member (Kish individual) in each selected household m, chosen by simple random sampling among the eligible members of the household ( s K sample) Weight of the household m : Weight of the member i of the household m : Weight of the Kish-individual of the household m :

9 9 = auxiliary variables vector for each household m in = vector of the known auxiliary variables totals in the households population = auxiliary variables vector for each individual (m,i) in s I = vector of the known totals in the individuals population = auxiliary variables vector for the Kish- individual in = vector of the known totals in the Kish-units population Auxiliary information

10 10 For each household m we compute : the totals of the individual variables : the estimated totals of the Kish- individual variables : Vector of the calibration variables for the household m : Vector of the totals : (X, Z, V) Calibration equations :

11 11 weights = weight of the household m in = weight of the individual (m,i) of the household m in = weight of the Kish-individual of the household m in The 3 samples are correctly calibrated on totals X, Z et V :

12 12 The user must provide the entry tables for the various levels (sample data files and calibration variables totals files) : the program performs all the required operations necessary to reduce the process to a single calibration, and creates the varied calibrated weights files. Calmar 2 performs such simultaneous calibrations.

13 13 An example of simultaneous calibration

14 14 The survey Sampling design : two stages sampling –primary units = households, selected by stratified sampling with S.R.S. in the stratum –secondary units (Kish-units) = one member per selected household, withdrawn by S.R.S. among more than 14 years old members Questionary –variables of interest are measured on Kish-units –questions about the habitation and the whole family –questions about each member of the household (age, sex, profession) Calibration variables (x k ) –Households : household size + head of household professional group + strata (~ agglomeration size) –All individuals : sex + age group –Kish individuals : sex + age group Population totals (X) come from the sampling frame

15 15 The program

16 16 %CALMAR2 (datamen=base.echant_menages, marmen=base.marge_men, poids=poids1, ident=ident, dataind=base.echant_indiv, marind=base.marge_ind, ident2=id, datakish=base.echant_kish, markish=base.marge_kish, poidkish=nbelig, m=1, datapoi=poidsmen, datapoi2=poidsind, datapoi3=poidskish, poidsfin=w3, labelpoi=calage 3 niveaux, poidskishfin=w3k, labelpoikish=poids kish total, edition=3)

17 17 The output

18 18 ********************************** *** PARAMÈTRES DE LA MACRO *** ********************************** TABLE(S) EN ENTRÉE : TABLE DE DONNÉES DE NIVEAU 1 DATAMEN = BASE.ECHANT_MENAGES IDENTIFIANT DU NIVEAU 1 IDENT = IDENT TABLE DE DONNÉES DE NIVEAU 2 DATAIND = BASE.ECHANT_INDIV IDENTIFIANT DU NIVEAU 2 IDENT2 = ID TABLE DES INDIVIDUS KISH DATAKISH = BASE.ECHANT_KISH PONDÉRATION INITIALE POIDS = POIDS1 FACTEUR D'ÉCHELLE ECHELLE = 1 PONDÉRATION QK PONDQK = __UN PONDÉRATION KISH POIDKISH = NBELIG TABLE(S) DES MARGES : DE NIVEAU 1 MARMEN = BASE.MARGE_MEN DE NIVEAU 2 MARIND = BASE.MARGE_IND DE NIVEAU KISH MARKISH = BASE.MARGE_KISH MARGES EN POURCENTAGES PCT = NON EFFECTIF DANS LA POPULATION : DES ÉLÉMENTS DE NIVEAU 1 POPMEN = DES ÉLÉMENTS DE NIVEAU 2 POPIND = DES ÉLÉMENTS KISH POPKISH =

19 19 MÉTHODE UTILISÉE M = 1 BORNE INFÉRIEURE LO = BORNE SUPÉRIEURE UP = COEFFICIENT DU SINUS HYPERBOLIQUE ALPHA = 1 SEUIL D'ARRÊT SEUIL = NOMBRE MAXIMUM D'ITÉRATIONS MAXITER = 15 TRAITEMENT DES COLINÉARITÉS COLIN = NON TABLE(S) CONTENANT LA POND. FINALE DE NIVEAU 1 DATAPOI = POIDSMEN DE NIVEAU 2 DATAPOI2 = POIDSIND DE NIVEAU KISH DATAPOI3 = POIDSKISH MISE À JOUR DE(S) TABLE(S) DATAPOI(2)(3) MISAJOUR = OUI PONDÉRATION FINALE POIDSFIN = W3 LABEL DE LA PONDÉRATION FINALE LABELPOI = CALAGE 3 NIVEAUX PONDÉRATION FINALE DES UNITES KISH POIDSKISHFIN = W3K LABEL DE LA PONDÉRATION KISH LABELPOIKISH = POIDS KISH TOTAL CONTENU DE(S) TABLE(S) DATAPOI(2)(3) CONTPOI = OUI ÉDITION DES RÉSULTATS EDITION = 3 ÉDITION DES POIDS EDITPOI = NON STATISTIQUES SUR LES POIDS STAT = OUI CONTRÔLES CONT = OUI TABLE CONTENANT LES OBS. ÉLIMINÉES OBSELI = NON NOTES SAS NOTES = NON

20 20 COMPARAISON ENTRE LES MARGES TIRÉES DE L'ÉCHANTILLON (PONDÉRATION INITIALE) ET LES MARGES DANS LA POPULATION (MARGES DU CALAGE) MARGE MARGE POURCENTAGE POURCENTAGE VARIABLE MODALITÉ ÉCHANTILLON POPULATION ÉCHANTILLON POPULATION NBIND PCSPR STRATE

21 21 MARGE MARGE POURCENTAGE POURCENTAGE VARIABLE MODALITÉ ÉCHANTILLON POPULATION ÉCHANTILLON POPULATION AGE ans ans ans ? ans SEXE AGEK A A A SEXEK

22 22 MÉTHODE : LINÉAIRE PREMIER TABLEAU RÉCAPITULATIF DE L'ALGORITHME LA VALEUR DU CRITÈRE D'ARRÊT ET LE NOMBRE DE POIDS NÉGATIFS APRÈS CHAQUE ITÉRATION CRITÈRE POIDS ITÉRATION D'ARRÊT NÉGATIFS

23 23 MÉTHODE : LINÉAIRE DEUXIÈME TABLEAU RÉCAPITULATIF DE L'ALGORITHME LES COEFFICIENTS DU VECTEUR LAMBDA DE MULTIPLICATEURS DE LAGRANGE APRÈS CHAQUE ITÉRATION VARIABLE MODALITÉ LAMBDA1 LAMBDA2 NBIND NBIND NBIND NBIND NBIND NBIND PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR 8..

24 24 VARIABLE MODALITÉ LAMBDA1 LAMBDA2 STRATE STRATE STRATE STRATE STRATE 4.. AGE ans AGE ans AGE ans AGE 60- ? ans SEXE SEXE 2.. AGEK A AGEK A AGEK A SEXEK SEXEK 2..

25 25 MARGE MARGE POURCENTAGE POURCENTAGE VARIABLE MODALITÉ ÉCHANTILLON POPULATION ÉCHANTILLON POPULATION NBIND PCSPR STRATE COMPARAISON ENTRE LES MARGES FINALES DANS L'ÉCHANTILLON (AVEC LA PONDÉRATION FINALE) ET LES MARGES DANS LA POPULATION (MARGES DU CALAGE)

26 26 MARGE MARGE POURCENTAGE POURCENTAGE VARIABLE MODALITÉ ÉCHANTILLON POPULATION ÉCHANTILLON POPULATION AGE ans ans ans ? ans SEXE AGEK A A A SEXEK

27 27 STATISTIQUES SUR LES RAPPORTS DE POIDS (= PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) ET SUR LES PONDÉRATIONS FINALES The UNIVARIATE Procedure Variable: _F_ (RAPPORT DE POIDS) Basic Statistical Measures Quantiles (Definition 5) Location Variability Quantile Estimate Mean Std Deviation % Max Median Variance % Mode Range % Interquartile Range % % Q % Median % Q % % % % Min Extreme Observations Lowest Highest Value IDENT Obs Value IDENT Obs

28 28 STATISTIQUES SUR LES RAPPORTS DE POIDS (= PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) ET SUR LES PONDÉRATIONS FINALES The UNIVARIATE Procedure Variable: _F_ (RAPPORT DE POIDS) Histogram # Boxplot 2.05+* 1 *.* 1 *.* 3 0.** 5 0.*** 7 0.********* 26 |.********* 27 |.******************** ************************************* 110 | + |.******************************************* 128 *-----* 0.85+******************* *********** 33 |.****** 17 |.*** 8 0.** 5 0.* 3 0.* 2 0.* 2 *.* 1 * * 1 * * may represent up to 3 counts

29 29 STATISTIQUES SUR LES RAPPORTS DE POIDS (= PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) ET SUR LES PONDÉRATIONS FINALES The UNIVARIATE Procedure Variable: __WFIN (PONDÉRATION FINALE) Basic Statistical Measures Quantiles (Definition 5) Location Variability Quantile Estimate Mean Std Deviation % Max Median Variance % Mode Range % Interquartile Range % % Q % Median % Q % % % % Min Extreme Observations Lowest Highest Value IDENT Obs Value IDENT Obs

30 30 STATISTIQUES SUR LES RAPPORTS DE POIDS (= PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) ET SUR LES PONDÉRATIONS FINALES The UNIVARIATE Procedure Variable: __WFIN (PONDÉRATION FINALE) Histogram # Boxplot 29+* 3 0.* 1 0.** 4 0.*** 8 0.**** 11 |.********* 25 |.************** 41 |.*********** 32 | 13+*********************** ********************** 64 *--+--*.********************************************* ****************************** 88 |.***** 14 |.** 4 |.* 3 |. -3+* * may represent up to 3 counts

31 31 MÉTHODE : LINÉAIRE RAPPORTS DE POIDS MOYENS (PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) POUR CHAQUE VALEUR DES VARIABLES NOMBRE D'OBSERVATIONS RAPPORT VARIABLE MODALITE DE NIVEAU 1 DE POIDS NBIND NBIND NBIND NBIND NBIND NBIND PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR PCSPR STRATE STRATE STRATE STRATE STRATE ENSEMBLE

32 32 MÉTHODE : LINÉAIRE RAPPORTS DE POIDS MOYENS (PONDÉRATIONS FINALES / PONDÉRATIONS INITIALES) POUR CHAQUE VALEUR DES VARIABLES NOMBRE D'OBSERVATIONS RAPPORT VARIABLE MODALITE DE NIVEAU 2 DE POIDS AGE an AGE an AGE an AGE 60- ? an SEXE SEXE ENSEMBLE NOMBRE D'INDIVIDUS RAPPORT VARIABLE MODALITE KISH DE POIDS AGEK A AGEK A AGEK A SEXEK SEXEK ENSEMBLE

33 33 MÉTHODE : LINÉAIRE CONTENU DE LA TABLE poidsmen CONTENANT LA NOUVELLE PONDÉRATION w3 The CONTENTS Procedure # Variable Type Len Pos Label 1 IDENT Char w3 Num 8 0 calage 3 niveaux CONTENU DE LA TABLE poidsind CONTENANT LA NOUVELLE PONDÉRATION w3 # Variable Type Len Pos Label 2 IDENT Char id Char w3 Num 8 0 calage 3 niveaux CONTENU DE LA TABLE poidskish CONTENANT LA NOUVELLE PONDÉRATION w3 # Variable Type Len Pos Label 2 ID Char IDENT Char w3 Num 8 0 calage 3 niveaux 4 w3k Num 8 8 poids kish total

34 34 ********************* *** BILAN *** ********************* * * DATE : 24 AOUT 2005 HEURE : 11:12 * * ************************************* * TABLE EN ENTRÉE : BASE.ECHANT_MENAGES * ************************************* * * NOMBRE D'OBSERVATIONS DANS LA TABLE EN ENTRÉE : 500 * NOMBRE D'OBSERVATIONS ÉLIMINÉES : 0 * NOMBRE D'OBSERVATIONS CONSERVÉES : 500 * * VARIABLE DE PONDÉRATION : POIDS1 * * NOMBRE DE VARIABLES CATÉGORIELLES : 3 * LISTE DES VARIABLES CATÉGORIELLES ET DE LEURS NOMBRES DE MODALITÉS : nbind (6) pcspr (8) strate (5) * * SOMME DES POIDS INITIAUX : 5801 * TAILLE DE LA POPULATION : 5801 * * *********************************** * TABLE EN ENTRÉE : BASE.ECHANT_INDIV * *********************************** * * NOMBRE D'OBSERVATIONS DANS LA TABLE EN ENTRÉE : 1288 * NOMBRE D'OBSERVATIONS ÉLIMINÉES : 0 * NOMBRE D'OBSERVATIONS CONSERVÉES : 1288 * * NOMBRE DE VARIABLES CATÉGORIELLES : 2 * LISTE DES VARIABLES CATÉGORIELLES ET DE LEURS NOMBRES DE MODALITÉS : * age (4) sexe (2) * SOMME DES POIDS INITIAUX : * TAILLE DE LA POPULATION : *

35 35 * *********************************** * TABLE EN ENTRÉE : BASE.ECHANT_KISH * *********************************** * * NOMBRE D'OBSERVATIONS DANS LA TABLE EN ENTRÉE : 500 * NOMBRE D'OBSERVATIONS ÉLIMINÉES : 0 * NOMBRE D'OBSERVATIONS CONSERVÉES : 500 * * VARIABLE DE PONDÉRATION CONDITIONNELLE : NBELIG * NOMBRE MAXIMUM D'UNITES SECONDAIRES PAR UP : 1 * * NOMBRE DE VARIABLES CATÉGORIELLES : 2 * LISTE DES VARIABLES CATÉGORIELLES ET DE LEURS NOMBRES DE MODALITÉS : agek (3) sexek (2) * * SOMME DES POIDS INITIAUX : * TAILLE DE LA POPULATION : * * MÉTHODE UTILISÉE : LINÉAIRE * LE CALAGE A ÉTÉ RÉALISÉ EN 2 ITÉRATIONS * IL Y A 1 POIDS NÉGATIFS * LES POIDS ONT ÉTÉ STOCKÉS DANS LA VARIABLE W3 DE LA TABLE POIDSMEN * ET DE LA TABLE POIDSIND * ET DE LA TABLE POIDSKISH * LES POIDS DES UNITES KISH ONT ÉTÉ STOCKÉS DANS LA VARIABLE W3K * DE LA TABLE POIDSKISH

36 36 Handling total non-response with generalized calibration

37 37 III.1. Generalized calibration Calibration functions : where : vector of p adjustment parameters Calibration equations : Solving for

38 38 = parameter estimates of the instrumental regression of on with as instrumental variables, weighted by Basic result

39 39 Precision = residual of the regression of Y on X in U with the instrumental variables Z Note : the instruments are equal to

40 40 III.2. Calibration in case of total non-response Calibration after adjustment for non-response 1.a. Adjustment for non-response Response probabilities (conditionnally to s) : is estimated referring to a response model and an estimation method Expansion estimator :

41 41 Examples Uniform response model : Homogeneous response groups : Generalized linear model : vector of explanatory non-response variables Note : for estimating, must be known both for respondents AND NON-RESPONDENTS

42 42 1.b. Calibration We start from corrected weights Conventional calibration :

43 43 Direct conventional calibration is equivalent to with a uniform non-response model. Comparison between and (Dupont, 1993) Lets suppose : - N.R. is corrected by a GLM, in which H is one of the usual calibration functions F : - non-response variables are included into calibration set of variables. Then : and are " similar "

44 44 and are identical when : (b). N.R. is corrected by HRG model based on a categorical variable X. The sample is calibrated on the number of units in U for each X level = = formal post-stratification on U

45 45 Direct generalized calibration (E) Interpretation Response model : (E) can be written :

46 46 So, if the were known : (E) = generalized calibration equation, with : F is defined as and such as

47 47 Precision uses the residuals in the population uses the residuals of the instrumental regression in r, weighted by the : estimator for if response probabilities were known

48 Response probabilities are unknown "estimate" and the residuals : i.e. instrumental regression weighted by final weights Note : looks like = estimated variance 1st phase (sample s selection) = estimated variance 2nd phase (respondents r "selection")

49 49 allows non–response correction even when explanatory variables are only known for respondents Handles the particular situation in which non-response explanatory variables are variables of interest (non ignorable response mechanism ) reduces the bias produced by non–response thanks to variables, and reduces the variance thanks to variables Properties of the method This method is performed in Calmar 2.

50 50 An example of generalized calibration

51 51 The survey Sampling frame : population census (1990) Sampling design : cluster sampling –clusters = households –secondary units = all members of selected households Response model –H.R.G. –response variables = household size (alone or not) + head of household profession (6 levels) + strata (~ agglomeration size) Calibration variables (x k ) –Households : the same as before (in the sampling frame) –Individuals : sex + age group (in the sampling frame) –Simultaneous calibration with two levels Instrumental variables (z k ) –Response variables as they are measured in the survey, that is in 1996

52 52 The population totals data Constraint : the x k and z k vectors must have same dimension Primary units (households) var n R mar1 mar2 mar3 mar4 mar5 mar6 strate seul cs strate seul cs Secondary units (individuals) var n R mar1 mar2 mar3 mar4 sexe age sexe_bis age_bis

53 53 %calmar2_guide

54 54

55 55

56 56

57 57

58 58

59 59

60 60

61 61

62 62

63 63

64 64

65 65

66 66

67 67

68 68 Merci de votre attention !


Télécharger ppt "1 A new version of the CALMAR calibration adjustment program."

Présentations similaires


Annonces Google