La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier.

Présentations similaires


Présentation au sujet: "1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier."— Transcription de la présentation:

1 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.) Estimations régionales par Statistique Canada Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)

2 2 Projet : ÉR-RDAPS (Évaluation régionale dans le cadre de la R et D axée sur les produits statistiques) Équipe : Avi Singh (chef de projet) François Verret Claude Nadeau Pin Yuan Remerciements : Fonds global de financement de la recherche, Dir. de la méth, Div. de la statis. du travail, GTIMT du FMMT

3 3 Aperçu 1. ÉR : Introduction 2. ÉR : Description visuelle 3. BUPF : Description 4. Application du BUPF à lEnquête sur la population active (EPA) 5. Démonstration du BUPF (échantillons dinstantanés décran) 6. Mot de la fin et travaux à venir

4 4 1. ÉR : Introduction Les évaluations directes des petites régions (ou domaines) ne sont pas fiables; p. ex., pour les provinces, les estimations annuelles tirées de lEPA concernant les gestionnaires du secteur de la fabrication et des services publics (code de profession à trois caractères A39) ne sont pas fiables. Dans ce cas, les provinces pourraient être considérées comme de petites régions. Besoins de données : Estimations provinciales de lemploi par code de profession à trois caractères

5 5 Tableau 1 – Total mensuel des personnes employées (A39) (Moyenne annuelle tirée de lEPA de 2003) Prov. Taille de la population Taille de léchantillon Estimation directe É-TCV en % TNL ,4 ÎPE ,5 NE ,0 NB ,1 Qc ,7 ONT ,5 MAN ,3 SASK ,3 ALB ,4 CB ,2 Canada ,6

6 6 1. ÉR : Introduction …suite Besoin de plus déchantillons pour obtenir des estimations plus fiables Solution de remplacement rentable – utiliser un modèle comme le modèle commun de la moyenne; p.ex., la proportion de personnes employées dans la catégorie A39 est commune à toutes les provinces La qualité des estimations dépend de la validité du modèle.

7 7 1. ÉR : Introduction …suite Le modèle fournit une estimation indirecte (ou synthétique) au niveau de la région. Pour le modèle commun de la moyenne, multipliez le total national par la proportion de la population provinciale pour obtenir lestimation indirecte, p. ex. pour TNL 1,7 % fois = 1 582

8 8 Tableau 2 Estimations directes et indirectes ( selon un modèle très simplifié ) concernant les A39 (Moyenne annuelle tirée de lEPA de 2003) Prov. Portion de la population Taille de léchan- tillon Estima- tion directe ÉR Estima- tion indirecte Taille de léchan- tillon TNL1,7 % ÎPE0,4 % NE3,0 % NB2,4 % Qc24,1 % ONT.38,8 % MAN.3,5 % SASK.3,0 % ALB9,8 % BC13.3% Canada100,0 %

9 9 1. ÉR : Introduction …suite La combinaison de deux estimations (directes et indirectes) peut fournir une estimation raisonnable ayant une précision adéquate selon le niveau destimation appliqué à la petite région. Lestimation directe nest pas précise, mais elle nest pas gauchie, tandis que lestimation indirecte est habituellement précise, mais peut être gauchie.

10 10 1. ÉR : Introduction …suite LÉR combine les estimations directes et indirectes de façon optimale : ÉR pour une région d = (facteur de retrait pour d) x (estimation directe pour d) + (1- facteur de retrait pour d) x (estimation indirecte pour d) Si le facteur de retrait est de 10 %, alors on utilise 10 % de lestimation directe et 90 % de lestimation indirecte pour lÉR. Sil est de 50 %, alors les deux estimations, directe et indirecte, contribuent de façon égale à lÉR.

11 11 1. ÉR : Introduction …suite La taille relative du facteur de retrait dépend de la variabilité de lerreur de modélisation (dans lestimation indirecte) et de celle de lerreur déchantillonnage (dans lestimation directe). Pour lÉR, la taille déchantillon efficace est supérieure à celle que lon utilise pour lestimation directe.

12 12 1 : ÉR : Introduction (Exigences de la modélisation) Aux fins de la modélisation, on a besoin destimations directes provenant dautres petites régions (appelées données indirectes), c.-à-d. pour obtenir une estimation pour la région dintérêt. Pour une modélisation adéquate, on a besoin de suffisamment de petites régions. On subdivise les provinces en sous-régions provinciales : En régions économiques (RE) ou RE selon lâge et le sexe plutôt que par province, bien que le niveau dintérêt soit celui de la province.

13 13 1 : ÉR : Introduction (Exigences de la modélisation) Il est avantageux davoir une source dinformation auxiliaire (administrative / recensement); pour toutes les régions, on a besoin de totaux réels pour la population au niveau destimation de la région. Lutilisation dune source auxiliaire peut améliorer la modélisation faite à laide de données indirectes.

14 14 1. ÉR : Introduction (Exigences de la modélisation…suite) Exemples dinformation auxiliaire pour lapplication de lEPA Sources administratives Nombre de demandes de prestations dassurance-emploi au niveau de la région Nombre de personnes ayant un revenu demploi Projections démographiques fondées sur le recensement de la population Dénombrements par sous-population

15 15 1. ÉR : Introduction (Exigences de la modélisation) Le facteur de prédiction du modèle, qui est basé sur des données indirectes et des données auxiliaires, fournit une estimation indirecte pour la région dintérêt. Le modèle peut être aussi simple que le modèle commun de la moyenne, qui nutilise aucune donnée auxiliaire ou qui ne peut pas être avancé.

16 16 1. ÉR : Introduction (Exigences de la modélisation) Toutes les estimations indirectes sont gauchies, mais le gauchissement peut être faible si le modèle est bon. La combinaison destimations directes avec des estimations indirectes produit des estimations plus précises que les seules estimations directes ou indirectes. Létalonnage (lorsque la somme de toutes les estimations pour les petites régions comprises dans un sous-groupe de régions est égale à lestimation directe du sous-groupe) aide à réduire le gauchissement du modèle.

17 17 1.ÉR : Introduction (Préoccupations des utilisateurs) Les besoins de données détaillées au niveau de la région peuvent varier dun utilisateur à lautre. Cependant, on ne peut pas aller jusquà un niveau très bas pour deux raisons : la précision des ÉR ne sera peut-être pas suffisante, et on ne disposera peut-être pas de données auxiliaires. Les préoccupations au sujet du gauchissement sont dues à lutilisation destimations indirectes servant à emprunter de linformation; les modèles ne sont peut-être ne pas être parfaits, mais un modèle choisi avec soin peut être utile. La méthodologie de lÉR fait appel à un compromis entre le gauchissement et la précision.

18 18 1.ÉR : Introduction (Préoccupations des utilisateurs…suite) On peut procéder périodiquement à une validation externe de lÉR à laide du recensement. Il y a aussi la validation par la connaissance de la région locale. Préoccupations liées à la confidentialité (ceci ne pose peut-être pas de problème, parce que plus la région est petite, plus lerreur dans lÉR est grande; protection intégrée).

19 19 2. ÉR : Description visuelle Cependant, avec le modèle ÉR habituel, le total global nest pas préservé! ProvinceRE selon lâge et le sexe Avant lÉR (niveau de la région selon lâge et le sexe) Apres lÉR (niveau de la région selon lâge et le sexe) Après lÉR (niveau prov.) TNL ÎPE … ALB. CB CanadaBon!Bon? Pour lemploi dans A39

20 20 2. ÉR : Description visuelle...suite Létalonnage garantit que le total demeure le même après la modélisation. ProvinceRE par âge et sexeAvant lÉR (niveau de la région selon lâge et le sexe) Après lÉR (niveau de la région selon lâge et le sexe) Après lÉR (niveau prov.) TNL ÎPE … ALB. CB CanadaBon! Pour lemploi dans A39

21 21 3. BUPF : Description lmi.org lmi.org Le produit dÉR de STC est basé sur lidentification des besoins des clients (p. ex. : sur latelier sur lÉR de fév. 2005, voir lmi.org pour le compte rendu)www.flmm- lmi.org Caractéristiques principales Système logiciel à base de menus La conception de léchantillonnage est entièrement prise en considération Auto-étalonnage servant à la protection contre les pannes du modèle Regroupement de régions servant à inclure celles qui font lobjet daucune ou de peu dobservations dans le processus de modélisation Diagnostic approfondi du modèle et évaluation des estimations Les logiciels existants (tels que SAS PROC MIXED, MLwiN, WinBUGS) ne sont pas satisfaisants

22 22 3. BUPF 1.0 : Description Partie I : Préparation des données Partie II : Préparation de la modélisation Partie III : Sélection et diagnostic du modèle Partie IV : Estimation et évaluation régionales Partie V : Tableau récapitulatif

23 23 4. Application de BUPF à lEPA Les résultats empiriques présentés ici ne sont pas encore finaux. Le produit comprend deux composantes principales Composante de modélisation (pour accroître la taille déchantillon efficace) Composante destimation (combiner les estimations directes et indirectes)

24 24 4. Application de BUPF à lEPA…suite Modèle : Estimation directe pour la région d = Valeur réelle + erreur déchantillonnage Valeur réelle = facteur de prédiction + erreur du modèle Facteur de prédiction = x 1 β 1 + x 2 β 2 +…; donne des estimations indirectes ou synthétiques. Variables X considérées : nombre de revenus signalés, n bre de prestataires dAE, dénombrements selon lâge-sexe, etc., toutes ces variables au niveau des petites régions

25 25 Tableau 3 Nombre total de personnes employées (A39) selon les estimations directes, indirectes et lÉR (Moyenne annuelle tirée de lEPA de 2003 ) Prov. Estimations directesÉREstimations Indirectes ÉR - Dir Dir. Estima- tion CV Estima- tion CV du mod. RRMSE du mod. Estima- tion CV du mod. RRMSE du mod. TN6700, , ,229-0,136 ÎPE2330, , ,179-0,111 NE1 5320, , ,177-0,075 NB1 2750, , ,168-0,128 Qc , , ,081-0,012 ONT , , ,0810,045 MAN , , ,129-0,223 SASK , , ,164-0,100 ALB , , ,134-0,048 CB8 6760, , ,1290,004 Cana- da , , ,0730,000

26 26 5. Démonstration du produit dÉR de STC Démonstration du produit BUPF 1.0

27 27 Partie I : Préparation des données

28 28 Partie I : Préparation des données

29 29 Partie II : Préparation de la modélisation

30 30 Partie II : Préparation de la modélisation

31 31 Partie III : Sélection et diagnostic du modèle

32 32 Partie III : Sélection et diagnostic du modèle

33 33 Partie IV : Estimation et évaluation régionales

34 34 Partie IV : Estimation et évaluation régionales

35 35 6. Mot de la fin et travaux à venir Le produit BUPF offre plusieurs caractéristiques uniques pour lÉR, notamment lauto-étalonnage, le regroupement de domaines pour les domaines non échantillonnés et un diagnostic approfondi. Linterface graphique (GUI) pour le produit est aussi utile quune liste de vérification systématique ou un analyste virtuel pour une production efficace; elle est également utile pour la formation et la démonstration du produit.

36 36 6. Mot de la fin et travaux à venir Terminer la version bêta du modèle BUPF 1.0; la version actuelle est seulement en alpha ou un prototype et ne convient pas à la production. Planifier une étude de validation grâce aux Recensement de 2006.

37 37 Pour plus dinformation, prière de communiquer avec Thank you…Merci

38 38 Annexe

39 39 3. BUPF 1.0 : Description Partie I : Préparation des données M1 : Spécification des données M2 : Spécification des tâches La définition des domaines servant à la modélisation des petites régions (domaines de MPR) est très importantes Les estimations directes, dénombrements de population et données auxiliaires doivent être disponibles à ce niveau Le nombre de domaine de MPR devrait être suffisamment élevé pour une modélisation appropriée Ici, les domaines MPR = RE(73) selon lâge(4) et selon le sexe(2)

40 40 3. BUPF 1.0 : Description Partie II : Préparation de la modélisation M3 : Contraintes de létalonnage & modèle de base Lauto-étalonnage est important pour se protéger contre les pannes du modèle, car ce dernier nest pas parfait Option : Sans la C.-B., ensemble de la C.-B., régions de la C.-B. M4 : Regroupement de domaines Solution de rechange améliorée par rapport au fait de laisser à lextérieur du modèle les domaines de MPR dont la taille déchantillon est petite. M5 : Lissage de la variance

41 41 3. BUPF 1.0 : Description Partie III : Sélection et diagnostic du modèle M6 : Sélection du modèle Procédures standard de sélection ascendante et descendante M7 : Composante variance Nécessaire pour trouver le facteur de retrait approprié pour passer des estimations indirectes aux estimations directes M8 : Séquence dinnovation Permet de diagnostiquer le modèle à laide de tests derreur standard pour données indépendantes et à distribution identique N(0,1) M9 : Diagnostic du modèle Représentations graphiques résiduelles, diagrammes quantile- quantile, valeur moyenne quadratique, test du khi carré pour la détermination de la surdispersion et de la pertinence du modèle…

42 42 3. BUPF 1.0 : Description Partie IV : Estimation et évaluation régionales M10 : Estimation régionale M11 : Évaluation des estimations Vérifier les différences relatives entre les estimations directes et lÉR Autres mesures

43 43 3. BUPF 1.0 : Description Partie V : Tableau récapitulatif M12 : Résumé général Conception de léchantillonnage et sources de données (Partie I) Diagnostic des données dentrée (Partie II) Diagnostic de la modélisation (Partie III) Diagnostic des données de sortie (Partie IV)


Télécharger ppt "1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier."

Présentations similaires


Annonces Google