La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN -

Présentations similaires


Présentation au sujet: "RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN -"— Transcription de la présentation:

1 RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011

2 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 2 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

3 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 3 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

4 1- Épidémiologie 4 Définition L’épidémiologie est l'étude de la répartition et des déterminants des évènements de santé. Les 3 branches de l’épidémiologie DESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie dans une population. ETIOLOGIQUE : rechercher les déterminants de cette pathologie. EVALUATIVE : mesurer l'impact d'une politique de santé publique. COMPRENDRE Ép. étiologique CONNAÎTRE Ép. descriptive EVALUER Ép. évaluative Politique SANTE PUBLIQUE Hypothèses Propositions Actions

5 1- Épidémiologie : Étiologie 5 L’étiologie L’épidémiologie étiologique (ou analytique, ou explicative) permet rechercher une relation entre exposition(s) et pathologie(s). Les enquêtes Enquête exposés / non exposés (cohorte) : comparaison de la survenue d’une pathologie dans le temps, dans des groupes de sujets, tous « sains » à T0, exposés ou non exposés à des facteurs de risque. Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité de l’exposition entre des sujets malades et des sujets « sains ». Objectif L’identification des facteurs de risque permet la mise en place de politiques de santé publique.

6 Étude des antécédents Comparaison des antécédents 1- Épidémiologie : L’enquête de cohorte 6 Etude cas-témoin Cohorte Essai randomisé prospective rétrospective Etude transversale Population T0 Exposition ? État de santé? Population T1 Exposition ? État de santé? Comparaison Patients Répartition au hasard Comparaison des issues Suivi Comparaison des résultats Étude des antécédents Suivi Groupe traité Témoin Suivi Fumeurs Non fumeurs Témoins sans cancer Patients avec cancer Conclusions

7 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 7 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

8 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 8 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

9 2.1- AGRICAN - Milieu agricole : Contexte 9 La population agricole Effets des expositions professionnelles agricoles peu renseignés France 1 million actifs (5-7% des actifs) et 500000 exploitations en France Expositions spécifiques : chimiques (pesticides, engrais, désinfectants…), physiques (ultraviolets, accidents mécaniques…), biologiques (virus animaux, moisissures…). Les pesticides La France se situe au 4ème rang mondial avec une utilisation de près de 80.000 tonnes par an et au 1er rang européen. Quelques hypothèses liens pesticide et santé : risques de cancers (hématologiques), troubles de la reproduction (infertilité, avortements, malformations) maladies neurologiques (maladie de Parkinson, troubles neurocomportementaux,…)

10 Nom EPIBIO Sujet Marqueurs d'endommagement de l'ADN associés à l’utilisation de pesticides Qui Agriculteurs QuoiEnquête de cohorte épidémio et biologique OùCalvados QuandDébuté en 1997-2000 + suivi en 2007-2010 CommentInterrogation en face à face + prélèvement urine/sang Combien800 inclus 2.1- AGRICAN - Milieu agricole : Études (1) 10 DM : - Outil de saisie (+double saisie) sur Access.

11 Nom EPI95 SujetFacteurs de risque du cancer en milieu agricole Qui Agriculteurs actifs/retraités, salariés agricole actifs QuoiEnquête de cohorte (préliminaire à AGRICAN) OùCalvados QuandDébuté en 1995 + suivi en 2010 Comment Auto-questionnaire courrier + au Suivi enquête par téléphone pour les NRep Combien6000 inclus 2.1- AGRICAN - Milieu agricole : Études (2) 11 DM : - Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer - Formulaire de gestion des contacts (Suivi) sur Access - Nouveau modèle de vidéocodage à envisager

12 Nom AGRICAN SujetFacteurs de risque du cancer en milieu agricole Qui Affiliés à la MSA (agriculteurs, salariés agricoles, tertiaire), actifs/retraités QuoiEnquête de cohorte Où 11 départements comprenant un registre du cancer (21,25,33,38,44,50,67,68,80,81,85) QuandDébuté en 2005 + 1 er suivi prévu en 2012 CommentAuto-questionnaire courrier / 8 pages Combien570000 interrogés, 180000 inclus 2.1- AGRICAN - Milieu agricole : Études (3) 12 DM : - contrôles de cohérences (pour validation manuelle) - gestion du "Vidéocodage" - croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer - calculs de mortalité et d'incidence à partir de ces croisements

13 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 13 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

14 2.2- AGRICAN - Méthode : le questionnaire 14 Activités agricoles Utilisation des pesticides Etat de santé Habitudes de vie

15 2.2- AGRICAN - Méthode : le questionnaire 15 Conception + Test Dépouillement + Numérisation + Stockage 1 er Env + Relance + N° vert Contrôles logiciel & manuels Cohérence Recodage (DM) Codage (Cim, Pro) Bulletin d’info Questionnaire Réception Envoi Vidéocodage Base de données Compte rendu aux participants

16 2.2- AGRICAN - Méthode : les données 16 SourcesDonnéesFréq. - DébutAnalyses Quest. Individu (Nais, Fam, Form) Histoire professionnelle (élevage/culture, type de tâches, traitements) Facteurs de confusion (tabac, alimentation, reproduction) Tous les 5 ans - 2005 Description répondants Facteurs de risque MSA Adresses (Inclusion, Chgt) Individu (Nais, Com) Statut Vital, Actif/Retraité + médicaments ? Inclusion - 2005 Annuel - 2009 Répondants / Non répondants Mortalité (SMR) Cas-témoins nichée RNIPP Individu (Nais, Com) Statut Vital Annuel - 2009 CépiDC Causes de décès Registres Diagnostic de cancerAnnuel - 2012Incidence Cancer (SIR)

17 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 17 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

18 30% de réponse (182 000 personnes) - 5% attendus pour une enquête postale La participation est plus importante chez les moins de 75 ans, les femmes et dans le Doubs. Tabac + faible qu’en pop générale IMC + en surpoids que pop générale 18 Homme 54%Femme 46% Âge61 ans65 ans Vie maritale78% mariés63% mariées, 28% veuves Activité55% actifs, 60% Chef Exp44% actives, 48% Chef Exp Tabagisme42% jamais, 12% actuel76% jamais, 5% actuel Santé perçue64% bonne55% bonne IMC16,2% obèses14,7% obèses 2.3- AGRICAN – Les résultats – La cohorte

19 19 HommeFemme Toutes causes de DC -27%*-25%* Tous cancers -27%*-19%* Larynx, trachée, bronches, poumons -50%*-40%* Vessie -42%-40% Œsophage -28%*+8% Mélanomes malins de la peau +1%+6% Estomac -2%+5% Cancers du « Sang » -11%+2% Sein +123%-25%* 2.3- AGRICAN – Les résultats – La mortalité * différence significative entre Agrican et la population générale Liés au tabac Tendance excès

20 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 20 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

21 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 21 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

22 Nom E3N : Etude Epidémiologique auprès de femmes de l’Education Nationale SujetEtude des facteurs de risque de cancer chez la femme Qui Femmes adhérentes à la MGEN, nées entre 1925 et 1950 QuoiCohorte prospective OùFrance, partie française de l’EPIC QuandDébuté en 1989 CommentAuto-questionnaire courrier Combien500000 femmes interrogées, 98 995 incluses 3.1- E3N – Constitution de la cohorte 22

23 3.1- E3N – Constitution de la cohorte 23 Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation,

24 L’étude pilote a commencé en 1989 : 2681 retours de questionnaires En 1990, la MGEN a envoyé à environ 500 000 personnes nées entre 1925-1950 103 089 retours, saisie de l’étiquette pour constituer une base d’adresse. Le fichier de 500 000 personnes est arrivé 18 mois après 3.1- E3N – Constitution de la cohorte 24

25 Couple E3N-MGEN sur les critères : nom, prénom, nom de jeune fille, date de naissance, commune de naissance >> gros problème de discordances entre les saisies de ces 2 bases Les analyses ne peuvent commencer en 2000 qu’après les travaux de : vérification des accords vérification des dates de naissance concordantes entre les déclarations Ainsi la cohorte fige sa population de 98995 personnes à suivre 3.1- E3N – Constitution de la cohorte 25

26 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 26 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

27 3.2- E3N – Données 27 Auto-questionnaires tous les 2, 3 ans sur : État de santé, mode de vie … Banque du matériel biologique : 25000 prélèvements sanguin 50000 kits salives Fichiers MGEN : Tous les médicaments prescrits, remboursés Causes de DC Compte-rendu anatomopathologiques de cancer Mammographies du sein Suivi de tous les contacts avec : Les participantes (questionnaires, mailings, documents médicaux…) Les médecins (une base d’environ 35000)

28 Volume important (≈ 10 caisses / jr) Ouverture Tri des questionnaires Petits mots Étiquettes d’identification à enlever éventuellement Rayés Stylo optique pour pouvoir faire les relances au plus vite Les questionnaires prêts pour numériser 3.2.1- E3N – Questionnaires 28

29 Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation, … Questionnaires spécifiques, comme les fractures, déclin cognitif, exposoleil … 3.2.1- E3N – Questionnaires 29

30 3.2.2- E3N – Questionnaires - Facteurs hormonaux 30

31 Structure des données – Gel des tables à analyser Les répertoires Les dictionnaires des variables 3.2.2- E3N – Questionnaires 31

32 Partie quantitative : 8 repas avec la fréquence de consommation de chaque d’aliment, la quantité consommée à chaque repas… Partie qualitative : type d’aliment, mode de cuisson, régime … 3.2.3- E3N – Questionnaires - Le Qr alimentaire 32

33 Corrections de la 1 ère partie du questionnaire : Transformation des lettres des photos en quantités, en prenant en compte les photos multiples, transformation des fréquences mensuelles en fréquences hebdomadaires, correction des arrondis et des valeurs aberrantes pour les quantités, création d’un compteur permettant de calculer le nombre d’aliments consommés pour chaque personne… Corrections de la 2 nde partie du questionnaire : Convertir la photo en quantité numérique, vérification des cohérences, internes aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les déclarations, décisions pour les multicochages, décomposition des aliments Calcul des apports alimentaires Quantification des aliments consommés par repas et par jour, quantification des aliments consommés par jour (sans distinction des repas, classification des aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et par femme 3.2.3- E3N – Questionnaires - Le Qr alimentaire 33

34 3.2.3- E3N – Questionnaires - Le Qr alimentaire 34

35 Fichiers trimestriels de la population de départ en 1990 : Coordonnées, statut vital Consommations médicales : médicaments, hospitalisations, actes … Médecins, établissements hospitaliers … Les macro SAS sont traitées à chaque réception de ces fichiers (importants de taille) Des macro SAS sont aussi créées pour extraire les données, par exemple : toutes les personnes qui ont consommé les médicaments traitant l’asthme (en croisant avec la base Thériaque) 3.2.4- E3N – MGEN 35

36 Toutes les notions concernant le cancer sont ajoutées dans la base de K : Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres maladies) Causes de décès Par la famille Dans les documents médicaux 3.2.5- E3N – Les cas de cancer 36

37 Comptes rendus anatomopathologiques (CRA) à récupérer : Saisir les médecins fournis dans les questionnaires Créer un couple femme-médecin Mailing au médecin 3.2.5- E3N – Les cas de cancer 37

38 3.2.5- E3N – Les cas de cancer 38 Codage des CRA reçus

39 Tableau de bord pour connaitre chaque contact avec les participantes (ACCESS) 3.2.6- E3N – Suivi des contacts 39

40 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 40 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

41 4.1- Vidéocodage 41 LAD : Lecture Automatique de Documents A partir de la numérisation et de la reconnaissance de caractères, elle permet de récupérer les informations de documents papiers sur des fichiers informatiques en limitant l’intervention humaine. C’est une Alternative à la saisie pour les grandes quantités de Qr et de variables. Logiciel : B-Wize (=ICR) développé par EMC

42 4.1- Vidéocodage 42 Préparation des documents NumérisationLecture OCR + contrôles Validation manuelle Enregistrement Fichiers Stockage

43 4.1- Vidéocodage 43 Avant : Le modèle Ancres Champs Contrôles Pendant : Le workflow (étapes de production) : Numérisation (10-20) Identification des pages et du code individu (30-40) Lecture des données par le logiciel (60) Si erreur envoi en validation manuelle (70) Transfert des données vers des fichiers (80) Après : Les bases et les images Traitements sur les données exportées Consultation des images Accès aux bases du logiciel

44 4.1- Vidéocodage – Le modèle 44 Support du modèle Propriétés de l’objet Répertoire des objets Explorateur Barre d’outils Vert = Champ Jaune = Ancre

45 4.1- Vidéocodage – La validation manuelle 45 Lecture directe de l’image Lecture des données recueillies Progression du lot Bleu ciel = champ en cours de contrôle (Bleu = champ en attente de contrôle) Vert = Champ validé Zone de saisie du champ Lecture du champ sur l’image Commentaire

46 Coût d’acquisition très élevé Lecture automatique des documents, commence à délivrer un retour sur investissement intéressant au dessus de 500 doc/jour avec comme condition une densité élevée de données pour chaque doc. Scan : rythme de 800 questionnaires de 2 feuilles par heure (soit 3 semaines pour 84 000 questionnaires de 4 pages) Correction à l’écran des informations mal reconnues par l’automate (55 qst de 4 pages / heure, soit 10 personnes- mois) Documents consultables en ligne Consultation des questionnaires : Évite de trier et ranger les questionnaires Évite d’aller chercher les questionnaires papiers Libére la place de stockage des papiers 4.1- Vidéocodage – Avantages et inconvénients 46

47 Avec l’évolution informatique : l’ancien ne peut plus être déployé sur de nouveaux environnements. Le changement de plateforme est en cours à E3N. Nous devons prendre 2 pro logiciels pour remplacer : InputAccel et Documentum. Avec la nouvelle plateforme : Transfert de tous les anciens questionnaires numérisation tous nos documents papiers : CRA de K de plus de 21 000 personnes (4 grands armoires), consentements … Nouveaux questionnaires de suivi (le premier sera fin de cette année) 4.1- Vidéocodage – Les perspectives 47

48 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 48 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques

49 4.2- Problématiques en Data Management 49 Suivi dans le temps La mise à jour non stop des données Vérification des déclarations à travers les questionnaires Structure et organisation des données : Quelle donnée choisir parmi tant ? Quelle table de donnée utiliser dans une analyse ou une autre ?

50 4.2- Problématiques en Data Management 50 Choix de logiciels adaptés Formulaires de Saisie sur Access (+ qq requêtes) (?) Vidéocodage sur Bwize (?) Requêtes / contrôles / gestion des bases / calculs sur SAS Sources externes Collecte Croisements des bases sans identifiant commun Validation des données Identification des erreurs de remplissage des répondants Recodages / contrôles de cohérence Sécurisation / pérennité / dynamisation des bases Suivi des individus Changements adresse, décès, perdus de vue Gestion de 180 000 individus Seulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyse Temps de chargement Stockage sur une base MySQL


Télécharger ppt "RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN -"

Présentations similaires


Annonces Google