Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 3 novembre 2015 Introduction à la base de données.

Slides:



Advertisements
Présentations similaires
Comprendre les nouvelles estimations de chômage
Advertisements

Base de sondage et Plan de sondage Pres. 5
Initiative ontarienne en matière de documentation des données, de service dextraction et dinfrastructure Le mardi 31 mai 2011 Séance de formation de base.
CYCLE DE VIE D’UNE ENQUÊTE
Vue densemble de de Statistique Canada Gaëtan Drolet Section de lIDD Montréal 30 avril 2004 Atelier de Formation IDD Vue densemble de de Statistique Canada.
CREPUQ - Atelier sur les données numériques 1 Les données numériques : atelier d'information (et de démystification) - L'entrevue de référence dans le.
CREPUQ - Atelier sur les données numériques 1 Les données numériques : atelier d'information (et de démystification) - Le rôle des données numériques Québec,
Crepuq- Atelier sur les données numériques La documentation sur les données Une définition –les données sur les données –informations sur l enquête –informations.
Le Continuum daccès pour les produits de Statistique Canada par Sage Cram Le 30 avril 2004 Atelier de Formation IDD Université de Montréal.
1 Contexte de la formation en région Formation des formateurs février 2010 Université de Montréal Montréal,QC Gaëtan Drolet Section de l'IDD Statistique.
DE LA COMPREHENSION A LA MESURE (1) : LAPPROCHE QUANTITATIVE ET LES TECHNIQUES DENQUETE.
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Agence Nationale de la Statistique et de la Démographie Direction du Management de lInformation Statistique Confidentialité et anonymisation des microdonnées.
POLITIQUES ET PROCEDURES DARCHIVAGE DES DONNEES AU BURUNDI.
Collecte de données F. Kohler.
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
DEME - La méthode d’enquête – introduction
1 Introduction : Quelles méthodes & techniques de collectes de données ? => Construction méthodologique à partir dinstruments empruntés à divers domaines.
La loi normale et l’estimation de paramètres
Traitement de données socio-économiques et techniques d’analyse :
Avoir accès aux statistiques en santé en utilisant les ressources de la Bibliothèque Champlain (506)
Régression linéaire simple
1.1.3 La démarche scientifique
Comprendre la variation dans les données: Notions de base
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Le forage de données ou data mining
Contrôle de la qualité à la réception
La régression multiple
Échantillonnage (STT-2000) Section 2 Aspects spéciaux de léchantillonnage et de lestimation. Version: 7 septembre 2003.
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 8 octobre 2014 Introduction à la recherche de statistiques et données d’enquêtes.
Master 1 – Sciences du Langage –
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 1 Séance du 10 janvier 2014 Benoît Laplante, professeur.
Echantillonage pour une Evaluation d’Impact
JEAN-MARC FONTAN SOC-1101 COURS 3
De grandes choses en perspective : Un avant-goût du Recensement de mai 2006 Atelier IDD du Québec (Montréal) Lucie Gauthier // Francine Lampron.
GEG 1702 Ressources de la Bibliothèque Bibliothèque Morisset, Centre GSG 2013, University of Ottawa.
Concepts fondamentaux: statistiques et distributions
Les Politiques de la santé au Canada: Survol des ressources en statistiques Katrine Mallan et Kim Frail Bibliothèque Saint-Jean Automne 2006.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE LA COMMUNAUTÉ.
Enquête- cadre sur la pêche artisanale maritime au/en (BENIN) Durée de la présentation : 15 minutes ATELIER REGIONAL DE VALIDATION DES DONNEES ISSUES DES.
Caroline Patenaude Bibliothécaire Bibliothèque des lettres et sciences humaines 7 mai Dataverse.
Échantillonnage aléatoire simple
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION DE RICHELIEU Direction de santé.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-GEORGES-DE-CLARENCEVILLE.
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Atelier Régional de renforcement des capacités en matière de collecte et d’utilisation des données sur les migrations pour le développement Système d’Information.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-ALEXANDRE.
Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 12 novembre 2015 Introduction à la recherche de statistiques et données.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-RÉMI.
Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES
ECHANTILLONAGE ET ESTIMATION
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-PATRICE-DE-SHERRINGTON.
Mesures de description des valeurs des variables
Introduction aux statistiques Intervalles de confiance
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-CHRYSOSTOME.
Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 8 mars 2016 Introduction à la recherche de statistiques et données d’enquêtes.
Jean-Michel FLOCH INSEE DAR 19 mai 2011 Territoires urbains: que peut dire le recensement ?
Bienvenue au cours MAT-350 Probabilités et statistiques.
Aperçu des ressources pour accéder à la collection de l’IDD Chantal Ripp June 14 La gamme de produits de l’IDD.
NESSTAR Initiative de démocratisation des données (IDD) Statistique Canada Statistics Canadaavril 2016.
Initiation à la recherche de statistiques
Introduction à la recherche
Transcription de la présentation:

Caroline Patenaude Bibliothécaire BIBLIOTHÈQUE DES LETTRES ET SCIENCES HUMAINES 3 novembre 2015 Introduction à la base de données

2 1.Microdonnées vs données agrégées 2.Interface de recherche Odesi 3.Téléchargement de fichiers via Nesstar 4.Création de tableaux en ligne

3 Microdonnées Statistiques ou données agrégées Données brutes issues: - d’enquêtes, de sondages, de données administratives, de recensements (échantillon) Nécessitent un traitement statistique et logiciel d’analyse (SPSS, Stata, SAS) Fichier public anonymisé – FMGD: traitement statistique pour assurer confidentialité OU Fichier maître Importance de la documentation Accès: OdesiOdesi ICPSRICPSR … Issues de microdonnées Traitement statistique > vue des données structurée selon: géographie, temps, attributs de l’unité d’observation Présentées de façon à pouvoir être interprétées (tableaux, histogrammes,…) Formats divers: excel, html, beyond 20/20… Accès: Site StatCan Site StatCan Cansim IVT Crepuq ISQ/BDSO CIQSS

Exemple d’un fichier de microdonnées (recensement 2006) Fichier de données brutes:.dat Série de chiffres désignant l’information recueillie au cours d’une enquête + un fichier de syntaxe (SPSS, SAS, STATA) + un fichier de syntaxe (SPSS, SAS, STATA) Fichier composé de lignes de chiffres représentant les valeurs des variables (ou modalités) pour chaque unité d’observation (ou cas: individu, ménage…)

Exemple d’un fichier de microdonnées > SPSS (recensement 2006)

Exemples tableaux de données agrégées Télécharger Beyond 20/20 Télécharger Beyond 20/20

7 Odesi Système composé d’une interface web pour la recherche de métadonnées, reliée à l’application Nesstar pour l’analyse en ligne et le téléchargement des fichiers de microdonnées. Nesstar Site web odesi.ca

8 NESSTAR CORA Statistique Canada European Social Survey Centre de données socio-politiques UK Data service University of Wisconsin Application pour la recherche, l'analyse et la diffusion de données et métadonnées statistiques (Norwegian Social Science Data Services)

9 LES COLLECTIONS DISPONIBLES Fichiers de microdonnées de Statistique Canada (FMGD); Tableaux de données agrégées de Statistique Canada (Excel, Beyond 20/20); Sondages d’opinion publique : Canadian Gallup Polls, Listening to Canadians (Communications Canada), Voice of the People (Leger Marketing), Portraits of Canada (Centre for Research and Information on Canada),... Exception : collection Ipsos Reid; Autres fichiers de données canadiennes : Canadian Millenium Scholarship Foundation, Canadian Policy Research Network, Institute for Social Research, Canada Health Monitor,...; Métadonnées des sondages du Canadian Opinion Research Archive (téléchargement externe via CORA); Métadonnées des fichiers de microdonnées de l’ICPSR (téléchargement externe via ICPSR).

10 Guide UdeM: odesi-udem-2015.pdf? odesi-udem-2015.pdf? Tutoriels vidéo UOttawa: Guide Odesi (anglais) GUIDES D’UTILISATION

11 Trouver des données du dernier recensement sur les caractéristiques socio- démographiques des femmes immigrantes anglophones au Québec Citoyenneté immigration Canada EXERCICES

12 IMPORTANCE DE LA DOCUMENTATION Lignes directrices pour l'arrondissement Lignes directrices pour la pondération Lignes directrices pour l'analyse Lignes directrices pour la diffusion

13 LIGNES DIRECTRICES: PONDÉRATION « Les utilisateurs doivent s’assurer de ne pas diffuser des estimations non pondérés ni de faire des analyses fondées sur des données non pondérées du fichier parce que les résultats non pondérés ne sont pas représentatifs de la population mais de l’échantillon. » Tableau: activer la variable de pondération

14 LIGNES DIRECTRICES: ARRONDISSEMENT « La diffusion d’estimations non arrondies risque d’induire en erreur, car ces estimations pourraient donner l’impression d’être plus précises qu’elles ne le sont en réalité. » « Pour toutes les variables quantitatives, on arrondit les données suivant une base 100, 1000 ou » « Il convient de souligner que tous les calculs doivent être faits à partir d’éléments non arrondis, puis arrondis au moyen de la technique d’arrondissement classique. Selon la méthode d’arrondissement classique, si le premier ou le seul chiffre à supprimer est compris entre 0 et 4, le dernier chiffre retenu ne change pas. Si le premier ou le seul chiffre à supprimer est compris entre 5 et 9, on augmente d’une unité (1) la valeur du dernier chiffre retenu. Par exemple, selon la technique d’arrondissement classique à la centaine près, une estimation de serait arrondie à , et une estimation de , à Le chiffre 1,78 % serait arrondi à 1,8 %. »

15 L’utilisateur doit déterminer le nombre d’enregistrements du FMGD qui ont fourni les données entrant dans le calcul de l’estimation. Ce nombre devrait être d’au moins 15 dans le cas des personnes ou des ménages. Si le nombre d’enregistrements contribuant à l’estimation pondérée est inférieur, celle-ci ne doit généralement pas être diffusée, peu importe son coefficient de variation. Exemple: Enquête sociale généraleEnquête sociale générale « L’utilisateur doit déterminer le nombre d’enregistrements sur le FMGD qui ont fourni les données entrant dans le calcul d’une estimation. Ce nombre devrait être d’au moins 15 dans le cas des personnes ou des ménages. Si le nombre d’enregistrements contribuant à l’établissement de l’estimation pondérée est de moins de 15, celle-ci ne doit généralement pas être diffusée, quelle que soit la valeur de son coefficient de variation approximatif. Si l’estimation est malgré tout diffusée, elle doit l’être avec beaucoup de prudence et le nombre insuffisant d’enregistrements sur lesquels elle est fondée doit être indiqué clairement. » LIGNES DIRECTRICES: TAILLE MINIMALE DE L’ÉCHANTILLON

16 Le fait de travailler à partir d’un échantillon et non de la population implique de l’erreur d’échantillonnage. Cette erreur peut être estimée lorsque nous avons un échantillon probabiliste. La mesure de variation utilisée est l’erreur-type. Il faut cependant relativiser cette erreur, ce à quoi sert le coefficient de variation (exprimé en %) Exemple: tableau de l’ISQtableau de l’ISQ « Tableaux de la variance approximative » ex: ESG p.28ESG p.28 LIGNES DIRECTRICES: ERREUR D’ÉCHANTILLONAGE

17 « Comme le fichier de microdonnées est un échantillon « d’unités» parmi les répondants de l’ENM, on ne peut s’attendre à ce qu’il y ait une concordance parfaite entre les estimations établies à partir du fichier et les résultats basés sur toute la population. La différence observée est attribuable à deux types d’erreurs: les erreurs d’échantillonnage et les erreurs non dues à l’échantillonnage » « L’erreur d’échantillonnage est l’erreur attribuable au fait que seul un échantillon de la population est utilisé pour produire des estimations. Différents échantillons auraient donné différentes estimations. Ces différences sont représentées par la variabilité d’échantillonnage. » Estimation de la variabilité d’échantillonnage « Une mesure fréquemment utilisée pour déterminer le degré de variabilité d’échantillonnage est le «coefficient de variation» (C.V.). Celui-ci est tout simplement le rapport entre l’erreur-type d’une estimation et l’estimation elle- même ou, autrement dit, l’erreur-type exprimée en pourcentage de l’estimation visée. » LIGNES DIRECTRICES: ERREUR D’ÉCHANTILLONAGE

18 VALEURS MANQUANTES Vérifier la déclaration des valeurs possibles des données manquantes , , …