Construction d’un outil de recueil pour une enquête CLOTILDE LATARCHE Module Santé Publique IFCS
Plan du cours 1- Protocole 2- Recueil de l’information Les étapes d’une enquête les étapes d’un enquête 1- Protocole 2- Recueil de l’information Objectif = données de qualité 3- Préparation des données Codage, Saisie, Contrôles 4- Analyse statistique 5- Présentation des résultats
Recueil de l’information
Le protocole Document écrit qui comporte Description du problème étudié (bibliographie….), le(s) objectif(s) de l ’étude, le cadre de l ’étude La population (échantillon) Les moyens disponibles et les délais prévus Les autorisations / informations : patient, médecins,CPP, CNIL Le questionnaire ou bordereau ou CRF
Objectif du recueil de données Qualité des données = qualité des résultats Doit permettre les analyses Obtenir 1 fichier « propre » lisible par le logiciel d’analyse Tenir compte des coûts Directs Indirects (temps)
Identification Données de santé = données sensibles Protection Vie privée Confidentialité - Secret professionnel Le patient doit être informé de leur utilisation Protection Questionnaire et fichiers informatiques Anonymisation Accès Durée de conservation
Identification Données directement ou indirectement nominatives : soumis à déclaration CCTIRS + CNIL Pas de données nominatives + données de santé dans le même fichier informatique Nécessité de garder des données nominatives ? (suivi de cohorte) Séparer les données nominatives permettant le suivi / données de santé qui seront analysées Créer un numéro d’enquête pour faire le lien Liste de correspondance conservée de manière sécurisée Possible : initiales du nom et du prénom Date de naissance mois + année de naissance suffisant le plus souvent Si besoin de la date complète : le justifier (ex : néonatalogie)
Déclaration CNIL Obligatoire si données nominatives ou indirectement nominatives dans le doute demander un avis Dans le domaine de la santé : CPP ou CCTIRS Prévoir les délais de réponse Site internet (+++) cnil.fr et cctirs.fr
Information / Consentement du patient Dépend du cadre réglementaire de la recherche Information = minimum ! Il existe des dérogations au devoir d’information Doivent être justifiées Lettre d’information Intelligible !
Outils pour le recueil de données Questionnaire : papier : fiche de recueil, codage Informatisé Saisie des données : informatique tableur (Excel, …) base de données (4D, Acces,Epi-Data ….) Analyse des données : informatique Logiciel de stat (SAS, Epi-Info…) Présentation des résultats : Excel, Word, PowerPoint
Questionnaire : structure 3 parties Identification du sujet : N° observation, éventuellement n° de centre ou d ’enquêteur Inclusion : vérification des critères d’inclusion et d’exclusion du protocole Critères étudiés( cf le protocole) On ne recueille que ce que l’on a prévu d’exploiter ...
Questionnaire : forme (1) Présentation soignée +++ Consignes de recueil, explications si possible sur le questionnaire, claires Guide de remplissage Faire figurer les unités de mesure ex : poids en g ou en kg Partie réservée au codage codage dans un 2ème temps
Questionnaire : forme (2) Attention à la longueur du questionnaire si entretien ou auto-questionnaire 20-30 mn Parties logiques repères utiles pour retrouver les variables au moment de l ’exploitation et simplifier les vérifications Plusieurs pages papier : prévoir le « maintien » du questionnaire, identification des pages
Questionnaire : forme (3) Cases à cocher : disjointes intubation masque spontanée Réponse type oui/non sans ambiguïté Codage non oui 1) Aimez vous le chocolat ?
Questionnaire : forme (4) En général pas d’item mixte 1) où fumez vous ? non oui Codage Travail +Maison Maison Travail Travail Maison non oui Travail Maison
Questionnaire : forme (5) La forme guide la réponse Date de naissance Poids de naissance g Age gestationnel SA Ou SA jours +
Questionnaire : forme (6) Nombre de réponses possibles classiquement : nombre pair … à discuter ex : êtes vous content de ce cours ? Très content Content Très content Assez content Pas content Mécontent Valeur « refuge »
Les questions Formulation du libellé influence les résultats attention aux termes techniques incompréhensibles…. Fermées items prévus suggestifs mais limitent pb mémorisation exhaustifs : couvrent l’ensemble des réponses possibles (prévoir une case « autre ») pb interprétation « autre » liste peut être longue
Les questions ouvertes exploitation plus difficile, réductrice, subjective Intérêt économiser le temps d’entretien, la longueur du questionnaire, la fatigue du répondeur expliciter des réponses fermées (question complémentaire « pourquoi ? » pour vérifier la qualité de l’information (bonne compréhension du reste du questionnaire ….) information spontanée
Les questions : cas particuliers Redondance : pas toujours inutile ex : tabagisme et grossesse croisement des informations Questions « filtres » vérifier la bonne compréhension du sujet valider l ’authenticité des autres réponses ex : consommation de produits illicites chez les jeunes « noyer » la question d ’intérêt entre des questions anodines ex : consommation de tranquilisant au cours de la grossesse
Ordre des questions Dépend du type d ’enquête Respecter la logique de l ’enquêteur et de l’enquêté si enquête sur dossier médical, les questions doivent suivre la logique du dossier limiter les allers-retours dans le questionnaire (risque de valeurs manquantes, perte de temps) Enquête par interview Au début : questions simples : mise en confiance Au milieu : questions les plus difficiles ou les plus délicates A la fin : l ’attention diminue, terminer par des questions simples et « positives »
Test du questionnaire OBLIGATOIRE = pré-enquête A prévoir dans le « timing » de l ’enquête formation des enquêteurs tester sur un échantillon identique à celui de l’enquête ET dans les conditions de l’enquête compréhension, durée, « impression » des cobayes Vérifier la qualité des réponses Numéroter/dater les versions papiers (+++)
Test du questionnaire (bis) Ce qui est oublié est difficilement rattrapable ensuite Vérifiez que le questionnaire recueille les données nécessaires pour répondre aux objectifs de l ’enquête Le faire valider par un « expert » du sujet étudié Test
Les variables / Les données Format des variables pour la saisie numérique, caractère, date …. prévu à l’avance pour le masque de saisie numérique : précision 1 ou 2 chiffres après la virgule suffisent en général Quantitatives, ordinales, qualitatives particularité : échelle analogique Information +++ +
Préparation de l’information : Codage, saisie, contrôles
Codage Processus de transformation d’une information pour la rendre compatible avec un traitement bien défini ne se fait pas au moment du recueil Sauf si recueil informatique, sans texte libre libellé - code : permet vérification Recueil informatisé : saisie du code : faire apparaître libellé outils de codage soit propre à l’enquête soit déjà existante
Nomenclatures Nomenclature, thesaurus, classification, catalogue Exemples Classification Internationale des Maladies (CIM10) Classification Communes des Actes médicaux (CCAM) Professions : INSEE Codes communes, canton, département
Codes Code numérique (++) ou caractère Booléen (yes/no) économique en temps de saisie et en place « thesaurus » de l ’enquête Booléen (yes/no) prudence : valeurs manquantes Valeurs manquantes vérification codage spécifique Interprétation des questions ouvertes
Ce qui ne doit pas se faire lors du recueil Transformation de variables regroupement de variables ex : codage pathologie mise en classe Calcul sur les variables durée, âge ex :( date consultation-date naissance)/365.25 Réalisés au moment de l ’exploitation
Variables particulières (1) Identification clé : jonction de fichier ou multifichier numéro d ’identification simple ou composé Département N° hôpital N° fiche
Variables particulières (2) format des dates (attention format export / import) jj mm aaaa : précision au jour près jj mm aaaa hh mn : calcul des délais en minute possible le format date permet calcul, extraction du mois, du jour …..
Échelle analogique Recueil réglette : positionnement par le sujet, relevé par l ’enquêteur par questionnaire Q1 je souffre : Pas du tout C’est insupportable
Un exemple de logiciel de saisie : Epi-data
Epidata Gratuit, simple d’utilisation téléchargement à partir d’Internet, version en français http://www.epiconcept.fr/html/epidata.html Setup_epidata_fr.exe (1,3 Mo) Version d'installation d'EpiData 3.1 en français
Fonctions d’EpiData Conception du masque de saisie Contrôle à la saisie Saisie Exportation sous différents formats
Conception du masque Ouvrir EpiData 1-questionnaires nouveau fichier .QES Ce fichier correspond au bordereau de recueil Informations à définir Le nom de chaque variable L’intitulé en clair de chaque variable = label Le type de chaque variable
Le fichier.QES Nom de la variable Le plus simple possible Les 8 premiers caractères de la ligne Pas d’espace, pas d’accent Label de la variable À la suite du nom, sur la même ligne Éviter les accents Type de la variable À la suite du label, sur la même ligne Caractère: _ autant que nécessaire Numérique: # autant que nécessaire Date: <dd/mm/yy> Aide sur le type de variable: Menu Editer liste de choix
Exemple de fichier.QES
Création du fichier de données, contrôles à la saisie On peut paramétrer le masque à partir du fichier.QES Dans fichier options masque 2-créer fichiers de données Étape quasi instantanée : fichier.QES fichier.REC Fichier .REC = là où seront stockées les données saisies 3-contrôles Création d’un fichier.CHK à partir du fichier.REC Range (étendue): valeur min valeur max Legal (valeur autorisée): valeur1 valeur2 Jumps (saut de question): valeur_Q1>nom_Q5 Must enter (saisie obligatoire): Yes/No
Exemple de contrôle
Exemple de masque
Saisir, documenter, exporter 4-saisir des données 5-documenter Descriptif de la structure du fichier.REC Nom Libellé Type Taille Contrôles Liste les variables saisies 6-exporter les données EpiData ne permet que la saisie Pour l’exploitation statistique Vers différents formats dont SAS
Si vous êtes perdu… Aide introduction à Epidata Document pdf de 5 pages Aide contenu index Pour trouver la syntaxe des différentes commandes
Saisie des données Tableur Bases de données Qui saisit ? données peu nombreuses, « simples » relecture et correction faciles pas ou peu de contrôles de saisie Bases de données données nombreuses, multi fichiers contrôles de saisie faciles comparaison de fichiers Qui saisit ?
Masque de saisie Reproduction la plus fidèle possible du questionnaire papier à l’écran Définition du format des variables Type de saisie Eventuellement calcul de certaines variables Ordre de saisie Contrôles
Logiciels saisie Base de données relationnelle, contrôles Logiciels « libres » Série EPI INFO Attention à la version 2000, préférer la version 6 EPI DATA : dérivé de Epi Info Même logique et robustesse que la version 6 Plus convivial, fonctionnalité de mise à plat, d’export etc …. Plus complets (payants) Access 4D ….
Cas particulier : tableur Rappel une ligne par sujet une colonne par variable
Tableur : Ceci est inexploitable
Contrôles de saisie Champs obligatoire Contrôles intra champs interdit le passage à la fiche suivante et l ’enregistrement si non saisi effet pervers : on met n’importe quoi pour avancer Contrôles intra champs valeurs autorisées, minimum-maximum... Contrôles inter champs = cohérence conditionnelle : SI/ ALORS/ SINON OU IF/ THEN/ ELSE Valeur par défaut risque de diminuer l ’attention
Qualité de la saisie Limiter les erreurs de saisie qualité du questionnaire, du codage, du masque Avantages et inconvénients des contrôles Double saisie saisie des mêmes fiches papiers par deux personnes différentes puis comparaison (automatique) des 2 fichiers obtenus Saisie automatisée : lecture optique ex : certificats de santé
Le formulaire informatique Mode de remplissage « direct » Attention : modalités d’envoi Données de santé : envoi sécurisé (messageries sécurisées, webmail sécurisé ….) Pas adapté pour tout …. Principes identiques Contrôles de saisie : +++ Baisse des coûts Vérifications en cas d’erreur de saisie plus complexes Test et validation du questionnaire : idem
Résultat de la saisie Fichier standard Format d’échange : 1sujet (ou unité statistique) = 1 ligne 1 variable = 1 colonne Format d’échange : 1 variable par colonne id var2 var3 var4 var5 var6 var7 1 2 3 1 sujet par ligne* * pas toujours !
Export des fichiers Export plusieurs possibilités en général attention aux dates, caractères particuliers (ê,ù..) Excel, Epi-Info….
Vérification - début analyse Qualité : exhaustivité – qualité information Analyse univariée de toutes les variables qualitatives : % valeurs manquantes valeurs aberrantes … quantitatives : idem + formes des distributions mises en classes possibles …. Analyse bivariées recherche des erreurs, cas impossibles .. Dénombrement
Structure des fichiers Multi fichiers Mono fichier Mère identif. var2 var3….. Enfant 1 identif Enfant 2 var3…… Enfant 3 var3…... Mère CLE. var2 var3….. Enfants CLE identif num enfant var2 var3….. Choix à réfléchir …. Peut être remodifié par la suite
Manipulations de fichiers Base de données ou logiciel exploitation sous fichiers jonction de fichiers : verticale id var2 var3 var 4 1 2 3 id var2 var3 var 4 1 2 3 4 5 6 id var2 var3 var 4 4 5 6 Ajout de sujets
Manipulations de fichiers jonction de fichiers : horizontale id var2 var3 var4 1 2 3 id var5 var6 var7 1 2 3 Ajout de variables id var2 var3 var4 var5 var6 var7 1 2 3
Analyse statistique
Principes de bases en Statistiques
I. Echantillon et estimation. Intérêt de l’échantillon par rapport à la population cible Choix de l’échantillon : représentativité (tirage au sort aléatoire, randomisation, taille) Estimation des paramètres d’une population à partir des mesures faites sur l’échantillon.
II. Notion de variable Dans une étude statistique, les paramètres mesurés chez les sujets sont appelés : VARIABLES. 2 types de variables : QUALITATIVE (ex : type de pathologie, sexe…) exprime une qualité de l ’individu et est constituée de différentes modalités (ou classes) exclusives les unes des autres QUANTITATIVE (ex : taille, poids, age…) est une variable qui peut se mesurer .
1/ Variable qualitative Une variable qualitative s’exprime en classes ou en modalités (ex: la variable SEXE a 2 modalités H et F) La répartition de l’effectif total dans les classes s’exprime en % (fréquences, rapports…, ex : 60% d’hommes et 40% de femmes)
2/ Variable quantitative Appelée aussi variable continue c’est une variable qui peut se mesurer et pour laquelle on peut déterminer : Moyenne (μ), médiane Écart-type (σ), étendue (range) « μ » et « σ » sont les paramètres de la variable estimés pour la population à partir du calcul de « m » et « s » réalisé sur l’échantillon
Attention! Il est possible de « discrétiser » une variable quantitative exemple : la variable taille recueillie en cm peut être discrétiser en une variable qualitative en 3 classes : <160 cm; [160 cm à 180 cm]; et > 180 cm. MAIS il est toujours souhaitable de recueillir l’information la plus précise et de discrétiser ultérieurement si nécessaire!
IV. L’analyse statistique (1) L’analyse descriptive description de l’échantillon : pour chacune des variables: nombre de sujets fréquences de chacune des classes pour les variables Qualitatives moyenne et écart-type pour les variables Quantitatives (ou médiane et range)
IV. L’analyse statistique (2) Exemple : dans un échantillon de 200 patients description :
Présentation des résultats : Tableaux et graphiques
Présentation des résultats: tableaux Le tableau de résultat principal doit toujours être mis dans le texte: le tableau n’est mis en annexe que s’il est simplement descriptif Ne pas faire de tableau (citer les chiffres dans le texte) si vous n’avez pas beaucoup de chiffres ne doit comporter que des barres horizontales: Le tableau doit pouvoir se lire seul, sans l’aide du texte être indépendant et doit être appelé dans le texte
Présentation des résultats: tableaux Variables qualitatives : des fréquences relatives (ou absolues si effectif faible) en pourcentage avec le n total. variables quantitative des moyennes avec écart type,
Présentation des résultats: Graphiques Rarement dans un rapport écrit :des tableaux dans l’écrit et des graphiques pour la présentation orale. Le graphique doit être titré, légendé, numéroté, appelé dans le texte, non redondant et uniforme pour un même travail. Utiliser les mêmes échelles, réalistes et significatives une grande échelle gomme les différences faibles et inversement. Fonctions graphiques d’ Excel… Le graphique doit être adapté au type de variable.
Présentation des résultats: Graphiques Variables quantitatives: Courbe de distribution :en abscisse (axe horizontal) la variable à étudier et en ordonnée l’effectif. Nuage de points : en croisant deux variables pour visualiser l’étendue des données. La courbe qui relie les points est informative visuellement. Boite à moustaches: Représenter la médiane, le premier et troisième quartile, le minimum et maximum de la valeur. Représenter la moyenne +/- l ’écarts type.
Présentation des résultats: Graphiques
Présentation des résultats: Graphiques Variables qualitatives: la fréquence Diagramme en barre ou l ’histogrammes : la longueur est proportionnelle à la fréquence. Camembert : la surface est proportionnelle à la fréquence S’applique aussi aux quantitatives découpées en classes ce qui correspond à une variable qualitative ordinale.
Présentation des résultats: Graphiques
Présentation des résultats: Graphiques
Présentation des résultats: Graphiques
En pratique pour le stage… Construction d’un questionnaire Objectif quantitatif Objectif qualitatif (Pourquoi ?, comment?..) Entretien individuel Focus Group Groupe Nominal Attention, connaissance et expérience des techniques nécessaires Observation