La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CALIBRATION, PAST, PRESENT and FUTURE? Jean-Claude DEVILLE Ecole Nationale de la Statistique et de lAnalyse de lInformation/crest/Laboratoire de Statistique.

Présentations similaires


Présentation au sujet: "CALIBRATION, PAST, PRESENT and FUTURE? Jean-Claude DEVILLE Ecole Nationale de la Statistique et de lAnalyse de lInformation/crest/Laboratoire de Statistique."— Transcription de la présentation:

1 CALIBRATION, PAST, PRESENT and FUTURE? Jean-Claude DEVILLE Ecole Nationale de la Statistique et de lAnalyse de lInformation/crest/Laboratoire de Statistique dEnquête, Campus de Ker-Lann, 2 rue Blaise Pascal – BRUZ -

2 0-Standard calibration principle Calibration equations : x k : p-vector of auxiliary variables X : total of the x k d k : design weights We are seeking for new weights w k is a p-vector and the F k are regular functions of ONE variable verifying :

3 Standard calibration principle where the e k are the residuals of the regression with weights q k The modified estimator is approximately unbiased and its variance is given by the residual trick Their classical form comes from the fact that thy are deduced by minimizing a distance function between the old and the new weights.

4 1 Generalized calibration The usual case is thegeneralized linear where we use only one function F monotonic, regular, verifying F(0)=1. We start from functions F k and we seek for weights having the form: where Define with Therefore we have : The simplest case (linear) is obtained with F k (u) = z k is then a variable with p componants known on the sample.

5 The calibrated weights have the expression: The calibration equations are: We then get with Results are as in Deville-Särndal(1992) : - convergence and negligable bias. -All the estimators having the same z k have the same asymptotic variance. -It can be evaluated from the linear case, where we have:

6 Generalized calibration This is exactly the instrumental regression (Fuller (1987)) using the z k as instruments. The variance of the estimator is computed by the residual trick using the residuals of this regression. Variance estimation follows the same lines. The "instruments" z k have to be known ONLY on the sample: they are NOT an external auxiliary information. Generalized calibration is one of the novelties included in CALMAR II (Sautory,Le Guennec(2003))

7 2-CALIBRATION FOR DEALING WITH NON-RESPONSE A parametric model for response probabilities is defined by: In practice a generalized linear model: The calibration estimating equations are:

8 Non-response

9 non-response REMARK: it possible to include in the response model variables which are NOT observed for the non-respondant. In particular they may also be variable of interest. This give interesting perspectives for non-ignorable non-response.

10 A GOOD EXAMPLE/EXERCISE

11 Les corrections destinées à compenser les effets de la non réponse demandent une connaissance très précise des facteurs qui la causent. En particulier, si ce que lon veut mesurer influe directement sur la probabilité de réponse, on est amené à prendre des risques avec les données. Voici un petit exemple fictif : un groupe détudiants est interrogé sur sa consommation de drogue. Les résultats de lenquête sont les suivants : OUINONNON REPONSE ENSEMBLE Garçons Filles ENSEMBLE Naïvement on dirait que le pourcentage de consommateurs est estimé par 60/(240+60)=25%. Cette estimation est faite sous lhypothèse que les non-répondants ont le même comportement que les répondants. Mais on remarque que le taux de réponse des filles est plus important que celui des garçons. Pour corriger cela, on calcule le taux de consommateurs chez les filles, soit 1/9, et chez les garçons soit 3/9, et on conclut que la population étudiante observée est consommatrice à 2/9=22,2%. Si maintenant on pense que cest le fait de consommer qui induit la non-réponse, le modèle a deux paramètres p oui et p non, respectivement probabilité de répondre des consommateurs et des non-consommateurs. On trouve que ces probabilités valent respectivement 0,2 et 0,8. Le nombre estimé de consommateurs est donc de 200 chez les garçons et 100 chez les filles et lestimation du pourcentage global est de 50% !

12 CALIBRATION ON IMPRECISE DATA Linformation auxiliaire X est maintenant supposée incertaine (autres enquêtes, destimations dexperts). X et estiment sans biais le même vecteur X 0,les variances de ces deux quantités étant connues ou estimées de façon fiable. Cette estimation peut être comprise comme une estimation par la régression raccourcie (ridge): chercher un estimateur linéaire de Y de la forme laissant lestimation sans biais. Si X est indépendant de le vecteur optimisant est évidemment: B =((Var( ) + Var(X)) -1 Cov( ) Une approximation commode de cette quantité, exacte en cas de sondage aléatoire simple, est ce qui donne les poids :

13 Autrement dit la régression est du genre ridge et on peut montrer que la variance de lestimateur vaut On lestime par celle de lestimateur GREG augmentée dun terme connu. Il est intéressant de noter que cet estimateur reçoit aussi une interprétation en termes de calage. Si on lapplique aux x k, on obtient en effet : soit lestimateur (quasi)optimal formé par combinaison linéaire de X et. On peut donc dire que lestimateur est calé sur et en déduire une autre expression des poids et de la variance en fonction de au lieu de X. Des idées analogues peuvent être développées dans le cadre du calage généralisé (avec non réponse).

14 CALAGE ET ECHANTILLONNAGE INDIRECT Léchantillonnage indirect (ou Méthode généralisée du partage des poids, Lavallée(2002)) consiste à échantillonner dans une population U A liée à une population U B quelle permet dattraper. Elle conduit à des estimateurs sans biais de variance connue et estimable pour les variables de U B. On peut aussi, grâce au calage généralisé, renforcer lestimateur naturel en le calant simultanément sur des totaux auxiliaires connus de variables de U A et de U B. Lessentiel des résultats se trouve dans Lavallée(2002), chapitre 7. Le calage sur des informations relatives à plusieurs unités statistiques emboîtées (ménages et individus par exemple) est un cas particulier de cette approche

15 CALAGE SUR DES FONCTONS DE REPARTITION Ren(2000), Breidt et Opsomer (2000), Goga(2002,2005) Le calage sur la fonction de répartition dune variable auxiliaire continue nest autre quune variante de la poststratification à laide de tranches de cette variable. La question est de choisir un estimateur de lespérance de y k conditionnelle à x k (à condition de donner un sens à cette notion dans le cadre des populations finies). Lestimateur du total des y k est alors Cest toujours un estimateur linéaire (pondéré), et, idéalement, sa variance est voisine de celle de. Le calage sur plusieurs fonctions de répartition na pas donné lieu à publication. Cest une extension de la technique du raking-ratio analogue à lextension de la poststratification décrite ci-dessus.

16 CALAGE INVERSE ET DONNEES ABERRANTES (Ren et Chambers (2003)) On commence par définir un estimateur robuste du total Y. On cherche ensuite à modifier les valeurs aberrantes vraies, par des valeurs plus normales telles que La contribution au total robuste des valeurs aberrantes est connue et vaut Lobjectif est donc dimputer des valeurs,telles que De plus, on recherche des valeurs imputées proches des valeurs vraies. En posant, pour, avec et, on retrouve un problème de calage où est solution de Si, par exemple, F est linéaire on trouve :

17 3-ESTIMATION OF A NON-LINEAR FUNCTIONAL BY CALIBRATION ON A SET OF FUNCTIONNALS (hypercalibration?)

18 hypercalibration

19 hypercalibration:example

20 hypercalibration: variance and variance estimation

21 hypercalibration:weighted estimator

22 Hypercalibration:weighted estimator 2 is the solution of As where We get the linearized variable: As the linearized of is : t k – B s k where B is the regression of t on s using z as instument. In the case of totals, we get the previous results.

23 Hypercalibration:example of weighted estimator 2 An example : T=Y/X (ratio) is to be estimated, and s k =y k /x k is observed on the sample and available on the frame. One can build a weighted estimator with the calibration function: (sample s<) (sample s>) The calibration equation is : And finally: Instruments!

24 Exportation towards classical statistics Empirical Likelihood? Seems to be nothing else than classical calibration using Kulback-Leibler distance centered at the model instead of the true value.Already present in my paper of 92. The likelihood argument was cut in th final version to make it short and to avoid pedantry.See for instance papers by Changbao Wu or JNK Rao. Calibration principe: its what I called hypercalibration. Applicable to classical statistics in problems like estimating a median knowing the mean of the distribution. In parametric statistics, estimation by maximum likelihood using the known true value of an auxiliary parameter(eg log-normal law) is a particular case of the principe. Variance estimation seems to be tackled by balanced bootstrap, a technique in progress which poses some intricate questions of balancing a sample WITH replacement!


Télécharger ppt "CALIBRATION, PAST, PRESENT and FUTURE? Jean-Claude DEVILLE Ecole Nationale de la Statistique et de lAnalyse de lInformation/crest/Laboratoire de Statistique."

Présentations similaires


Annonces Google