Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 3 novembre 2015 Introduction à la base de données
2 1.Microdonnées vs données agrégées 2.Interface de recherche Odesi 3.Téléchargement de fichiers via Nesstar 4.Création de tableaux en ligne
3 Microdonnées Statistiques ou données agrégées Données brutes issues: - d’enquêtes, de sondages, de données administratives, de recensements (échantillon) Nécessitent un traitement statistique et logiciel d’analyse (SPSS, Stata, SAS) Fichier public anonymisé – FMGD: traitement statistique pour assurer confidentialité OU Fichier maître Importance de la documentation Accès: OdesiOdesi ICPSRICPSR … Issues de microdonnées Traitement statistique > vue des données structurée selon: géographie, temps, attributs de l’unité d’observation Présentées de façon à pouvoir être interprétées (tableaux, histogrammes,…) Formats divers: excel, html, beyond 20/20… Accès: Site StatCan Site StatCan Cansim IVT Crepuq ISQ/BDSO CIQSS
Exemple d’un fichier de microdonnées (recensement 2006) Fichier de données brutes:.dat Série de chiffres désignant l’information recueillie au cours d’une enquête + un fichier de syntaxe (SPSS, SAS, STATA) + un fichier de syntaxe (SPSS, SAS, STATA) Fichier composé de lignes de chiffres représentant les valeurs des variables (ou modalités) pour chaque unité d’observation (ou cas: individu, ménage…)
Exemple d’un fichier de microdonnées > SPSS (recensement 2006)
Exemples tableaux de données agrégées Télécharger Beyond 20/20 Télécharger Beyond 20/20
7 Odesi Système composé d’une interface web pour la recherche de métadonnées, reliée à l’application Nesstar pour l’analyse en ligne et le téléchargement des fichiers de microdonnées. Nesstar Site web odesi.ca
8 NESSTAR CORA Statistique Canada European Social Survey Centre de données socio-politiques UK Data service University of Wisconsin Application pour la recherche, l'analyse et la diffusion de données et métadonnées statistiques (Norwegian Social Science Data Services)
9 LES COLLECTIONS DISPONIBLES Fichiers de microdonnées de Statistique Canada (FMGD); Tableaux de données agrégées de Statistique Canada (Excel, Beyond 20/20); Sondages d’opinion publique : Canadian Gallup Polls, Listening to Canadians (Communications Canada), Voice of the People (Leger Marketing), Portraits of Canada (Centre for Research and Information on Canada),... Exception : collection Ipsos Reid; Autres fichiers de données canadiennes : Canadian Millenium Scholarship Foundation, Canadian Policy Research Network, Institute for Social Research, Canada Health Monitor,...; Métadonnées des sondages du Canadian Opinion Research Archive (téléchargement externe via CORA); Métadonnées des fichiers de microdonnées de l’ICPSR (téléchargement externe via ICPSR).
10 Guide UdeM: odesi-udem-2015.pdf? odesi-udem-2015.pdf? Tutoriels vidéo UOttawa: Guide Odesi (anglais) GUIDES D’UTILISATION
11 Trouver des données du dernier recensement sur les caractéristiques socio- démographiques des femmes immigrantes anglophones au Québec Citoyenneté immigration Canada EXERCICES
12 IMPORTANCE DE LA DOCUMENTATION Lignes directrices pour l'arrondissement Lignes directrices pour la pondération Lignes directrices pour l'analyse Lignes directrices pour la diffusion
13 LIGNES DIRECTRICES: PONDÉRATION « Les utilisateurs doivent s’assurer de ne pas diffuser des estimations non pondérés ni de faire des analyses fondées sur des données non pondérées du fichier parce que les résultats non pondérés ne sont pas représentatifs de la population mais de l’échantillon. » Tableau: activer la variable de pondération
14 LIGNES DIRECTRICES: ARRONDISSEMENT « La diffusion d’estimations non arrondies risque d’induire en erreur, car ces estimations pourraient donner l’impression d’être plus précises qu’elles ne le sont en réalité. » « Pour toutes les variables quantitatives, on arrondit les données suivant une base 100, 1000 ou » « Il convient de souligner que tous les calculs doivent être faits à partir d’éléments non arrondis, puis arrondis au moyen de la technique d’arrondissement classique. Selon la méthode d’arrondissement classique, si le premier ou le seul chiffre à supprimer est compris entre 0 et 4, le dernier chiffre retenu ne change pas. Si le premier ou le seul chiffre à supprimer est compris entre 5 et 9, on augmente d’une unité (1) la valeur du dernier chiffre retenu. Par exemple, selon la technique d’arrondissement classique à la centaine près, une estimation de serait arrondie à , et une estimation de , à Le chiffre 1,78 % serait arrondi à 1,8 %. »
15 L’utilisateur doit déterminer le nombre d’enregistrements du FMGD qui ont fourni les données entrant dans le calcul de l’estimation. Ce nombre devrait être d’au moins 15 dans le cas des personnes ou des ménages. Si le nombre d’enregistrements contribuant à l’estimation pondérée est inférieur, celle-ci ne doit généralement pas être diffusée, peu importe son coefficient de variation. Exemple: Enquête sociale généraleEnquête sociale générale « L’utilisateur doit déterminer le nombre d’enregistrements sur le FMGD qui ont fourni les données entrant dans le calcul d’une estimation. Ce nombre devrait être d’au moins 15 dans le cas des personnes ou des ménages. Si le nombre d’enregistrements contribuant à l’établissement de l’estimation pondérée est de moins de 15, celle-ci ne doit généralement pas être diffusée, quelle que soit la valeur de son coefficient de variation approximatif. Si l’estimation est malgré tout diffusée, elle doit l’être avec beaucoup de prudence et le nombre insuffisant d’enregistrements sur lesquels elle est fondée doit être indiqué clairement. » LIGNES DIRECTRICES: TAILLE MINIMALE DE L’ÉCHANTILLON
16 Le fait de travailler à partir d’un échantillon et non de la population implique de l’erreur d’échantillonnage. Cette erreur peut être estimée lorsque nous avons un échantillon probabiliste. La mesure de variation utilisée est l’erreur-type. Il faut cependant relativiser cette erreur, ce à quoi sert le coefficient de variation (exprimé en %) Exemple: tableau de l’ISQtableau de l’ISQ « Tableaux de la variance approximative » ex: ESG p.28ESG p.28 LIGNES DIRECTRICES: ERREUR D’ÉCHANTILLONAGE
17 « Comme le fichier de microdonnées est un échantillon « d’unités» parmi les répondants de l’ENM, on ne peut s’attendre à ce qu’il y ait une concordance parfaite entre les estimations établies à partir du fichier et les résultats basés sur toute la population. La différence observée est attribuable à deux types d’erreurs: les erreurs d’échantillonnage et les erreurs non dues à l’échantillonnage » « L’erreur d’échantillonnage est l’erreur attribuable au fait que seul un échantillon de la population est utilisé pour produire des estimations. Différents échantillons auraient donné différentes estimations. Ces différences sont représentées par la variabilité d’échantillonnage. » Estimation de la variabilité d’échantillonnage « Une mesure fréquemment utilisée pour déterminer le degré de variabilité d’échantillonnage est le «coefficient de variation» (C.V.). Celui-ci est tout simplement le rapport entre l’erreur-type d’une estimation et l’estimation elle- même ou, autrement dit, l’erreur-type exprimée en pourcentage de l’estimation visée. » LIGNES DIRECTRICES: ERREUR D’ÉCHANTILLONAGE
18 VALEURS MANQUANTES Vérifier la déclaration des valeurs possibles des données manquantes , , …