La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Camp d'entraînement de l'IDD UQAM, février 2009 1 www.uqar.ca Les services de l’IDD : principes de base Cadre de réflexion au sujet des données et des.

Présentations similaires


Présentation au sujet: "Camp d'entraînement de l'IDD UQAM, février 2009 1 www.uqar.ca Les services de l’IDD : principes de base Cadre de réflexion au sujet des données et des."— Transcription de la présentation:

1 Camp d'entraînement de l'IDD UQAM, février 2009 1 www.uqar.ca Les services de l’IDD : principes de base Cadre de réflexion au sujet des données et des statistiques Richard Boily Université du Québec à Rimouski Formation de base à l’IDD UQAM, février 2009

2 Camp d'entraînement de l'IDD UQAM, février 2009 2 Remerciements DLI Orientation Concepts : A Framework for Thinking about Data and Statistics Chuck Humphrey University of Alberta Merci à Chuck de m ’ avoir autoris é à traduire et à adapter sa pr é sentation !

3 Camp d'entraînement de l'IDD UQAM, février 2009 3 Aperçu Données et statistiques : de quoi s’agit-il ? Quelques concepts clés au sujet des données et des statistiques Qui dit « statistiques » dit « définitions » Modèle de l’information numérique L’IDD et les produits de données normalisés Tableaux électroniques et bases de données Données agrégées Microdonnées à grande diffusion Données spatiales Continuité de l’accès Niveaux de service

4 Camp d'entraînement de l'IDD UQAM, février 2009 4 De quoi s’agit-il ? Le type très productif mais … inutile ! Voici une copie de mon livre blanc. Il s’agit d’une analyse statistique de corrélation entre les sauvegardes de disques et l’absentéisme des employés. Je ne sais pas comment produire des statistiques mais ça n’a pas d’importance car je n’ai pas trouvé de données ! Texte traduit

5 Camp d'entraînement de l'IDD UQAM, février 2009 5 Information numérique Statistiques –Représentent des faits et des valeurs numériques. –Sont créées à partir de données – déjà traitées. –Peuvent être présentées telles quelles, ou presque. Données –Font partie de fichiers numériques créés et organisés pour être analysés et traités. –Exigent un traitement. –Ne peuvent être présentées telles quelles.

6 Camp d'entraînement de l'IDD UQAM, février 2009 6 Statistiques Géographie Région Temps Périodes Attributs de l’Unité d’observation Fumeurs Scolarité Âge Sexe

7 Camp d'entraînement de l'IDD UQAM, février 2009 7 Définition de quelques concepts clés Les statistiques reposent sur quelques concepts clés sous-jacents. Pour interpréter ces concepts, il est utile (voire nécessaire) d’en connaître la définition. Quel sens Statistique Canada donne-t-il à la «géographie»?géographie Statistique Canada utilise le concept d’emplacement sur le plan géographique. –«L’emplacement désigne le lieu physique où se déroule l’activité d’une unité statistique pour laquelle des données sont recueillies.»

8 Camp d'entraînement de l'IDD UQAM, février 2009 8 Le concept d’unité d’observation Le concept d’emplacement se rapporte aux «unités statistiques». Celles-ci représentent les unités d’observation pour lesquelles des données sont recueillies afin de les décrire ou de les résumer.unités statistiques Les unités statistiques utilisées pour les enquêtes-entreprises comprennent l’entreprise, la compagnie, l’établissement et l’emplacement. Les unités statistiques utilisées pour les enquêtes sociales comprennent la famille de recensement, la famille économique et le ménage. –«Il existe deux principales sources de statistiques sociales : les fichiers administratifs, qui renferment généralement des renseignements extraits des dossiers des particuliers, et les recensements et enquêtes où l’unité d’observation est le ménage et les personnes à l’intérieur du ménage.»

9 Camp d'entraînement de l'IDD UQAM, février 2009 9 Le concept d’univers L’univers se rapporte aux caractéristiques de l’unité d’observation auprès de laquelle des données sont recueillies. Ce concept est étroitement lié au plan d’échantillonnage utilisé dans la sélection des membres de l’unité d’observation. L’univers comprend tous les membres de l’unité d’observation tandis que l’échantillon ne comprend que les membres auprès desquels des données sont recueillies. Statistique Canada utilise l’expression «population cible» pour décrire l’univers de chaque enquête.population cible

10 Camp d'entraînement de l'IDD UQAM, février 2009 10 Le concept de pondération de l’échantillon Sauf pour quelques bases de données administratives, Statistique Canada utilise des méthodes d’échantillonnage probabilistes pour la sélection des membres de l’unité d’observation à partir de l’univers de celle-ci. En règle générale, la probabilité qu’un membre de l’unité d’observation soit sélectionné varie. Aussi, Statistique Canada détermine la pondération de l’échantillon, intégrée au fichier de données, afin de corriger le plan d’échantillonnage et de fournir des prévisions démographiques.

11 Camp d'entraînement de l'IDD UQAM, février 2009 11 Unité d’observation et univers Considérés ensemble, l’unité d’observation et l’univers décrivent les objets à partir desquels des données sont recueillies et à l’égard desquels des généralisations et des descriptions sont effectuées au moyen de présentations statistiques. Tous les tableaux statistiques portent sur une unité d’observation particulière. Comme cela n’est pas toujours explicite dans les titres des tableaux, il appartient à chacun d’interpréter cette information à partir du tableau. Lorsque les tableaux sont bien conçus, l’unité d’observation devrait en ressortir. Examinons les caractéristiques d’un tableau bien construit.

12 Camp d'entraînement de l'IDD UQAM, février 2009 12 Titre Producteur NotesDate Univers Variables Frais moyen de scolarité Discipline Année académique Province Unité de mesure statistique Dollars

13 Camp d'entraînement de l'IDD UQAM, février 2009 13 Qui dit «statistiques» dit «définitions» Nous avons fait une enquête auprès de l’industrie pour voir comment vos salaires se comparent à la moyenne. Nous n’avons pas trouvé les chiffres que nous espérions, alors nous avons « élargi » la définition de « notre industrie ». Je suis tellement heureux d’être dans l’industrie de la « haute technologie », des travailleurs du textile, des ados et des personnes décédées! Je me sens trop payé! Texte traduit

14 Camp d'entraînement de l'IDD UQAM, février 2009 14 Qui dit «statistiques» dit «définitions» Chaque caractéristique ou variable mesurée ou enregistrée au sujet de l’unité d’observation doit être clairement définie. Voir le site Web de Statistique Canada, à « Définitions, sources de données et méthodes » pour connaître les définitions de quelques-uns des concepts et variables les plus couramment utilisés.Définitions, sources de données et méthodes Le Dictionnaire du recensement est une importante source de définitions des concepts et variables utilisés lors de chaque recensement.Dictionnaire du recensement

15 Camp d'entraînement de l'IDD UQAM, février 2009 15 Les définitions vont de pair avec les classifications Les définitions relatives aux concepts et aux variables sont fondées sur des systèmes de classification pour l’attribution de catégories ou de valeurs aux caractéristiques des concepts. Par exemple, dans le présent tableau, la « région » fait référence au Canada et aux dix provinces.

16 Camp d'entraînement de l'IDD UQAM, février 2009 16 Les définitions vont de pair avec les classifications Certaines classifications sont basées sur des normes, alors que d’autres s’appuient sur les conventions ou la pratique. Mentionnons, par exemple les classifications géographiques normalisées. classifications géographiques normalisées

17 Camp d'entraînement de l'IDD UQAM, février 2009 17 Les classifications supposent des catégories Catégories Sexe Total Hommes Femmes Périodes 1994-1995 1996-1997

18 Camp d'entraînement de l'IDD UQAM, février 2009 18 Définitions et métadonnées Les définitions et l’information décrivant l’unité d’observation, l’univers, la méthode d’échantillonnage, les concepts et les variables sont essentielles à la compréhension des données ainsi qu’à l’interprétation des statistiques obtenues à partir d’elles. Auparavant, nous nous reportions aux livres de codes, aux guides des utilisateurs et aux dictionnaires de données pour la documentation des données. Maintenant, nous parlons de « métadonnées », un concept élargi pour couvrir la documentation tout au long du cycle de vie d’une enquête. La norme 3.0 de la Data Documentation Initiative est utilisée pour organiser cette information.

19 Camp d'entraînement de l'IDD UQAM, février 2009 19

20 Camp d'entraînement de l'IDD UQAM, février 2009 20 Unité d’observation et données L’unité d’observation constitue également une caractéristique structurelle importante des fichiers de données. Un enregistrement dans un fichier de données représente l’information relative à un membre de l’unité d’observation.

21 Camp d'entraînement de l'IDD UQAM, février 2009 21 Les données

22 Camp d'entraînement de l'IDD UQAM, février 2009 22 Les statistiques sont porteuses d’histoires L’Enquête nationale sur la santé de la population, mentionnée dans l’exemple précédent, portait sur plus de 80 000 répondants de l’échantillon 1996- 1997, et l’Enquête sur la santé dans les collectivités canadiennes de 2005 couvrait plus de 130 000 dossiers. Comment relater l’histoire de tous ces répondants? Nous résumons ces expériences de vie au moyen de statistiques.

23 Camp d'entraînement de l'IDD UQAM, février 2009 23 En résumé Les statistiques découlent de données d’observation, ou de données expérimentales ou simulées. Un tableau permet de présenter des statistiques et de résumer des données, ou d’en donner un aperçu. Un tableau est structuré en fonction des éléments caractérisant l’unité d’observation, entre autres sur les plans géographique et temporel. Les statistiques sont liées à des définitions et à des systèmes de classification. Les statistiques donnent une portée commune ou générale à des histoires individuelles.

24 Camp d'entraînement de l'IDD UQAM, février 2009 24 Modèle de l’information numérique Information numérique StatistiquesDonnées OfficiellesNon-officielles Publications (imprimées et électroniques ) Tableaux électroniques Bases de données Données agrégées Microdonnées

25 Camp d'entraînement de l'IDD UQAM, février 2009 25 Où l’IDD s’insère-t-elle dans ce modèle ? Information numérique StatistiquesDonnées OfficiellesNon-officielles Publications (imprimées et électroniques ) Tableaux électroniques Bases de données Données agrégées Microdonnées

26 Camp d'entraînement de l'IDD UQAM, février 2009 26 L’IDD et les produits de données normalisés Licence de l'IDD, article 1 : « Dans le cadre de l’Initiative de démocratisation des données (IDD), Statistique Canada donnera à mon établissement d’enseignement accès, en temps opportun, conformément à mon abonnement, à des produits de données normalisés de Statistique Canada tels que les fichiers de microdonnées à grande diffusion (ensembles de données non reconnaissables renfermant des caractéristiques ayant trait aux unités visées par une enquête), des fichiers et des bases de données normalisés (comportant des données agrégées définies et déterminées par Statistique Canada) ainsi que des fichiers géographiques, dans les formats électroniques disponibles. » Les produits de données normalisés ou normalisés correspondaient avant à tous les produits offerts dans le Catalogue en ligne de Statistique Canada fait maintenant référence à des « produits électroniques normalisés », qui comprennent également des publications et des tableaux électroniques, dont certains sont gratuits.Catalogue en ligne

27 Camp d'entraînement de l'IDD UQAM, février 2009 27 Politique de diffusion En 2004, Statistique Canada a introduit une politique en vertu de laquelle tous les produits électroniques normalisés doivent être offerts au moyen du Programme des services de dépôt (PSD) ou de l’IDD. Ainsi, les bibliothèques du réseau universitaire adhérant à la fois au PSD et à l’IDD devraient avoir accès à tous les produits électroniques normalisés. Produits électroniques normalisés Publications (imprimées et électroniques ) Tableaux électroniques Bases de données Données agrégées Microdonnées

28 Camp d'entraînement de l'IDD UQAM, février 2009 28 Qu’est-ce qu’un produit normalisé ? La prochaine section contient des définitions des tableaux électroniques, des bases de données, des données agrégées et des microdonnées à grande diffusion, et présente des exemples de chacun de ces produits. Tableaux électroniques : présentés dans un format permettant une diffusion électronique (p. ex., Beyond 2020 ou Excel), ces tableaux offrent un moyen de communiquer les résultats statistiques d’une analyse de données et de considérer les données sous l’angle formé par diverses variables choisies relativement à l’unité d’observation, entre autres géographiques et temporelles.

29 Camp d'entraînement de l'IDD UQAM, février 2009 29 Exemples de tableaux électroniques offerts par l’IDD Centre canadien de la statistique juridique (tableaux Beyond 20/20)statistique juridique –Tableaux uniquement produits en format Beyond 20/20; aucune microdonnée à grande diffusion Enquêtes sur les dépenses des ménages –Tableaux Excel et fichier de microdonnées à grande diffusion

30 Camp d'entraînement de l'IDD UQAM, février 2009 30 Bases de données et données agrégées Les bases de données consistent en des structures de fichiers utilisées pour le stockage de données agrégées, qu’il est possible d’extraire comme telles ou de consulter sous la forme de tableaux électroniques. CANSIM (importante base de données liée à des séries chronologiques), par exemple, peut être utilisée sous une forme ou l’autre. Les données agrégées représentent des statistiques organisées dans une structure de données, et conservées dans une base de données ou un fichier de données. Ces fichiers peuvent servir à alimenter un logiciel d’analyse statistique.

31 Camp d'entraînement de l'IDD UQAM, février 2009 31 Bases de données et données agrégées La structure de données d’un fichier agrégé est déterminée par les totalisations, elles-mêmes organisées en fonction d’un ou plusieurs facteurs parmi les suivants : le temps, la géographie ou des caractéristiques sociales.

32 Camp d'entraînement de l'IDD UQAM, février 2009 32 Séries chronologiques de données agrégées Séries chronologiques : chaque ligne du fichier de données correspond aux totalisations relatives à une période particulière. Par exemple, un fichier contenant des statistiques annuelles de 1976 à 2005 comporterait 30 lignes, soit une pour chaque année.

33 Camp d'entraînement de l'IDD UQAM, février 2009 33 Données agrégées géoréférencées Données géoréférencées : chaque ligne du fichier de données représente une unité spatiale dans laquelle des statistiques sommaires ont été totalisées. Un code géographique est attribué à l’unité spatiale à laquelle est associée chaque ligne de données. À l’aide de Beyond 2020, des totalisations du Recensement et des séries de profils peuvent être produites et utilisées avec un logiciel de SIG. Aussi, l’IDD donne accès à des fichiers des limites géographiques du Recensement, au moyen des codes de la Classification géographique type. Le Fichier de conversion des codes postaux (FCCP) permet de localiser les codes postaux à l’intérieur des aires de recensement.

34 Camp d'entraînement de l'IDD UQAM, février 2009 34

35 Camp d'entraînement de l'IDD UQAM, février 2009 35 Données agrégées géoréférencées Les « statistiques des petites régions » représentent une catégorie particulière de données agrégées. Ces fichiers de données contiennent des statistiques relatives à de petites régions géographiques, habituellement obtenues à partir d’un recensement de la population ou des entreprises, ou d’une base de données administrative, comportant suffisamment de dossiers pour produire des données sommaires précises au sujet de petites régions.

36 Camp d'entraînement de l'IDD UQAM, février 2009 36 Données agrégées de recoupement Les données agrégées, où chaque ligne d’un fichier correspond aux caractéristiques de l’unité d’observation, sont aussi dites « tableaux de recoupement ». Ces données sont souvent analysées en l’absence de microdonnées à grande diffusion. Par exemple, il n’existe pas de microdonnées à grande diffusion pour les statistiques de l’état civil. Aussi, les données de recoupement obtenues pour l’âge et le sexe, par cause de décès, représentent une importante source d’information pour les chercheurs.

37 Camp d'entraînement de l'IDD UQAM, février 2009 37 Données agrégées de recoupement

38 Camp d'entraînement de l'IDD UQAM, février 2009 38 Microdonnées Les microdonnées sont des données brutes organisées dans un fichier où les lignes représentent une unité d’observation et où l’information figurant sur les lignes correspond aux valeurs des variables. Il existe différents types de fichiers de microdonnées : les fichiers principaux, les fichiers communs, les fichiers à grande diffusion et les fichiers synthétiques.

39 Camp d'entraînement de l'IDD UQAM, février 2009 39 Microdonnées confidentielles Fichiers principaux : ces fichiers contiennent tous les détails saisis au sujet de chaque dossier composant l’unité d’observation. Ces détails sont suffisamment précis pour permettre une identification facile des répondants. C’est la raison pour laquelle on les traite de façon confidentielle. Le milieu de la recherche a accès aux fichiers principaux de données sociales de Statistique Canada par l’intermédiaire du Réseau canadien des centres de données de recherche.

40 Camp d'entraînement de l'IDD UQAM, février 2009 40 Microdonnées confidentielles Fichiers communs : il s’agit de fichiers confidentiels pour lesquels les participants ont signé une formulaire de consentement permettant à Statistique Canada d’autoriser l’accès à leur information à des fins de recherche. Un fichier partagé est un sous-ensemble des dossiers d’un fichier principal. L’accès aux fichiers communs peut être accordé à des ministères particuliers, évitant ainsi à leurs chercheurs de travailler dans un Centre de données de recherche.

41 Camp d'entraînement de l'IDD UQAM, février 2009 41 Microdonnées à grande diffusion Ces microdonnées sont traitées de façon à réduire le risque de divulgation ou d’identification d’un participant à une enquête. Les données d’origine du fichier principal sont révisées avant la création du fichier de microdonnées à grande diffusion. Les fichiers de microdonnées à grande diffusion ne sont accessibles que pour certaines enquêtes sociales examinées par le Comité de la sélection des données, un comité interne de Statistique Canada. –Il n’existe pas de fichiers de microdonnées à grande diffusion pour les enquêtes-entreprises.

42 Camp d'entraînement de l'IDD UQAM, février 2009 42 Microdonnées à grande diffusion Étapes suivies pour l’anonymisation des microdonnées: –Retirer tous les renseignements sur les identificateurs personnels (noms, adresses, etc.); –N’inclure que les niveaux géographiques supérieurs; –Réunir l’information détaillée sous la forme de catégories générales plus petites; –Fixer un plafond à la plage supérieure des valeurs des variables avec de rares dossiers; –Supprimer les valeurs d’une variable; ou –Supprimer des dossiers entiers.

43 Camp d'entraînement de l'IDD UQAM, février 2009 43 Microdonnées à grande diffusion Presque tous les fichiers de microdonnées à grande diffusion sont produits à partir d’échantillons transversaux, c’est-à-dire des échantillons dont les données ont été recueillies auprès de répondants une fois seulement. Il est difficile de conserver le caractère anonyme et de garder toute information utile des échantillons longitudinaux, dont les données sont recueillies auprès des mêmes répondants deux fois ou plus.

44 Camp d'entraînement de l'IDD UQAM, février 2009 44 Microdonnées synthétiques Afin de fournir au milieu de la recherche une version des microdonnées qui se rapproche de celle du fichier principal, mais sans faire état de dossiers réels, certaines divisions auteures sondent l’option offerte par les fichiers de microdonnées synthétiques. En théorie, ces fichiers produisent des résultats près des données réelles contenues dans le fichier principal, mais sans le risque de divulgation. Il ne faut pas confondre les fichiers synthétiques avec les fichiers « fictifs », qui, à la place de données, ne comportent que la structure des variables pour permettre une mise à l’essai de la syntaxe.

45 Camp d'entraînement de l'IDD UQAM, février 2009 45 Données spatiales Statistique Canada produit des fichiers de données spatiales pour chacun des différents niveaux géographiques pour lesquels des résultats du Recensement sont diffusés. Ces fichiers se présentent sous la forme de fichiers des limites, numériques ou cartographiques. –Les fichiers de limites numériques représentent la totalité du territoire géographique, y compris les masses d’eau. –Les fichiers de limites cartographiques illustrent les régions géographiques en suivant les rives de la masse continentale et en incluant les principales îles. Ces fichiers ne sont accessibles que sur le site FTP de l’IDD.

46 Camp d'entraînement de l'IDD UQAM, février 2009 46 Continuité de l’accès S’il est important de connaître les divers produits offerts par Statistique Canada, il faut aussi s’attarder à la façon d’accéder à cette information. Le modèle suivant décrit les différents mécanismes de diffusion par lesquels Statistique Canada offre un accès à ses produits.

47 Camp d'entraînement de l'IDD UQAM, février 2009 47 Continuité de l’accès Considérons les différents mécanismes de diffusion à l’intérieur d’un processus continu, prévoyant différents niveaux d’accès. La continuité de l’accès est tributaire de quatre éléments : –Les coûts, monétaires et non monétaires, qui varient entre nuls et très élevés; –Les restrictions ou les conditions, qui varient entre inexistantes et très exigeantes; et –Le type d’information, dont la nature même varie, entre les statistiques et les données.

48 Camp d'entraînement de l'IDD UQAM, février 2009 48 Continuité de l’accès Coûts monétaires Coûts non monétaires Conditions Contenu NulsÉlevés NulsÉlevés AucunesRestreintes StatistiquesDonnées Tableaux électroniques Publications électroniques Bases de données Données agrégées Fichiers de microdonnées à grande diffusion Microdonnées confidentielles

49 Camp d'entraînement de l'IDD UQAM, février 2009 49 Continuité d’accès à Statistique Canada Statistiques gratuites, sans restriction d’accès Données coûteuses, d’accès restreint

50 Camp d'entraînement de l'IDD UQAM, février 2009 50 Niveaux de service touchant les données Il existe plusieurs modèles de gestion des services locaux pour appuyer l’IDD. Il est utile de considérer ces modèles sous l’angle des niveaux de service pour cerner ceux qui conviennent à votre établissement, en fonction de ses ressources et de ses priorités.

51 Camp d'entraînement de l'IDD UQAM, février 2009 51 Niveaux de service touchant les données A.Extraire des données sur demande et les transmettre directement à l’usager. On peut cataloguer ou non les titres offerts par l’IDD. B.S’inscrire à un service d’extraction des données (ODESI, EQUINOX, etc.) et offrir les données comme toutes autres ressources électroniques. On peut cataloguer ou non les titres. C.Intégrer les données aux autres services d’accès en ligne, et ajouter l’IDD aux ressources électroniques, à son catalogue et à son site Web. D.Offrir des services de référence pour aider les clients à trouver les données. E.Ajouter des services de consultation des données (aide à la manipulation et au formatage) aux services d’accès et de référence offerts.

52 Camp d'entraînement de l'IDD UQAM, février 2009 52 www.uqar.ca Merci de votre attention !


Télécharger ppt "Camp d'entraînement de l'IDD UQAM, février 2009 1 www.uqar.ca Les services de l’IDD : principes de base Cadre de réflexion au sujet des données et des."

Présentations similaires


Annonces Google