Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011
Initiée au précédent CS Sollicitation D. Pontier Interviews (avril – mai 2010) Présentation CS Juin 2010 Interruption Juillet 2010 – février 2011 Historique de la réflexion
Contexte (1/5) Une transition importante avec larrivée des nouvelles techniques notamment « omiques » Genes (2010), 1, accumulation de données massives et hétérogènes changement déchelle: analyse de qq gènes -> intégralité du génome
Contexte (2/5) Cartographie des instruments de séquençage
llumina HiSeq 2000 platform allows users to generate 600 gigabases of sequence (the equivalent of 5 high quality human genomes) per one- week run of the machine. Contexte (3/5) La société Pacific Biosciences prédit que dici 2013, elle sera capable de séquencer un génome individuel en un quart dheure et pour moins de 1000 dollars.
Le séquençage haut débit ne sert pas seulement à séquencer des génomes : Epigénomes, Métagénomes, Transcriptomes… Biologie = science riche en données ! Lécologie, lagronomie, … génèrent des données connexion Ecologie fonctionnelle, écologie évolutive, écologie des communautés, Ecologie des interactions symbiotiques… Contexte (4/5)
échantillon séquenceur analyse, … Goulot détranglement Problématiques et défis : stocker, gérer, archiver, échanger les données; représenter (BDD et ontologies) et analyser Révolution culturelle pour le biologiste/lécologue Evolution très rapide des recherches Contexte (5/5)
Définir lobjet de la mission Identifier les questions et structurer en étapes Interviews: bioinformaticiens/statisticiens (chercheurs, dir. plateforme Bioinformatique régionale, ingénieurs) Exposés sur les NNNNNGS Visite Christine Gaspin, Dir. plateforme BioInformatique,Toulouse Visite centre INRA Jouy-en-Josas: Présidente du Centre, chercheurs et DU MIG, Chef du département MICA, participation à la réunion du Comité de Pilotage et dHarmonisation du Centre, DU IDES, épistémologue Méthode (1/3)
Réunions du groupe de travail Visites de Centres, Unités, interviews approfondies Groupe de travail : animation C. Gaspin et D. Pontier Méthode (2/3) Composition périmètre
Segmentation de la mission en trois étapes 1 ère étape Etat des lieux 2 ème étape Comment sont organisés le partage et la diffusion des données à lINRA, et comment les chercheurs/ingénieurs vivent cette organisation? 3 ème étape Prospective en termes dorganisation Méthode (3/3)
1 ère étape: état des lieux (1/8) Quest ce quune donnée ? Quelle est la nature et la dynamique de production des données à lINRA? Spécifiques et non spécifiques. Quels sont les lieux de production ? Quest-ce qui est en train de changer ? La question du coût danalyse Quest-ce que lon doit préserver ?
Quest-ce quune donnée ? Les données brutes Les métadonnées clé pour préserver lutilité des données à travers les années Les données finales (expertisées) 1 ère étape: état des lieux (2/8)
échantillon cellules, sang, tissu… pyrogramme … Séquenceur Programme Métadonnées - Lieu, heure - Qui - Conditions de prélèvement - … Séquence annotée Programme ! ! ! Quoi conserver et sur quelle durée ? - Programme dassemblage utilisé - … -Indice de qualité du read -… ACATCTGGCGGCTGCCCTCCCTT GTTTCCGCTGCATCCAGACTTCC TCAGGCGGTGGCTGGAGGCTGC GC ATCTGGGGCTTTAAACATACAAA GGGATTGCCAGGACCTGCGGCG GCGGCGGCGGCGGCGGGGGCT GGG CGCGGGGGCCGGACCATGAGC CGCTGAGCCGGGCAAACCCCAG GCCACCGAGCCAGCGGACCCTC GGAGC Métadonnées petits bouts de séquence séquence entière reconstituée - Identification taxonomique - … Traçabilité Métadonnées Donnée brute
Données en omique Protéomique, métabolomique, génomique, épigénomique, transcriptomique, métagénomique Données de phénotypage à haut débit, écologiques, … Y a-t-il eu un recensement des grandes bases de données dormantes et actives à lINRA ? Quels sont les grands programmes en cours et leur dynamique ? Quelle est la nature et la dynamique de production des données à lINRA ? Et demain? Quelles données ? (évolution des techniques, des problématiques…) 1 ère étape: état des lieux (4/8)
Quest-ce qui est en train de changer ? Masse de données en croissance phénoménale Données hétérogènes Y a-t-il une politique claire de documentation des conditions de récolte et de production des données? De quelle façon les labos/chercheurs… vivent laugmentation des données à traiter? 1 ère étape: état des lieux (5/8) Une mutualisation est-elle envisageable si on prend un ensemble très hétérogène de laboratoires de lINRA?
Quest-ce qui est en train de changer ? Problèmes techniques: - Capacité de calcul des ordinateurs - Stockage, archivage - Transfert des données Prévoir les infrastructures et le personnel Repenser méthodes daccès et dexploitation Impact sur les activités de recherche Le biologiste dont le travail de recherche génère cette masse de données est-il conscient de ce que cette situation implique au niveau technologique ? 1 ère étape: état des lieux (6/8) Compétitivité internationale
Quelles données partager ? Les données brutes ? Les métadonnées ? Les données expertisées ? 1 ère étape: état des lieux (7/8) La question du coût danalyse Le coût dacquisition des données diminue et le coût dexpertise des données augmente À quel niveau faut-il résoudre le problème? INRA? Collaboration inter EPST ? Mutualisation au sein de plateformes?
Volume et diversité des données problème Base données maintenance Temporalité de la donnée: stockage, archivage et support Quels sont les critères de qualification et de requalification du statut des données ? Est-ce quil y a une politique nationale de sauvegarde et darchivage des données à lINRA ? 1 ère étape: état des lieux (8/8) Quest-ce que lon doit préserver ?
Structures et organisations existantes au niveau de lINRA pour les types de données produites à lINRA Interactions aux niveaux national et européen Audit Ernst & Young (achevé?) Visites et interviews 2 ème étape : Comment sont organisés le partage et la diffusion des données à lINRA et comment les chercheurs/ingénieurs la vivent ? (1/2)
Les plateformes INRA propres et multi-organismes, labellisées, non labellisées Les réseaux… Quelles sont les spécificités et interactions entre ces niveaux dorganisation ? Comment les chercheurs les utilisent? Structures et organisations 2 ème étape : Comment sont organisés le partage et la diffusion des données à lINRA et comment les chercheurs/ingénieurs la vivent ? (2/2)
Tout le monde ne pourra pas se payer le luxe de développer sa propre structure dans son coin Il faut des bâtiments & du personnel (ingénieurs/chercheurs) Il faut former les biologistes, clarifier le rôle et la mission de chacun (bioinformaticiens, statisticiens, biologistes) Est-il judicieux de mettre tous les moyens sur 1 ou 2 gros centres ? Quelle infrastructure pour quelle(s) problématique(s) ? Bilan des réflexions intermédiaires
3 ème étape: Prospective en termes dorganisation (1/4) Quels sont les pièges à éviter ? Les données: quest-ce qui doit être gardé à lINRA (spécifique) ? Partagé avec dautres organismes? Comment favoriser les lieux dinterdisciplinarité ? Ne doit-on prendre en considération que les spécificités de lINRA ? Comment favoriser la disponibilité et le maintien de lexpertise?
Faut-il regrouper toutes les données dans un centre de données? Unique ? Plusieurs? Où? Pourquoi? 3 ème étape: Prospective en termes dorganisation (2/4) Les données: Quelles données doivent être maintenues par lINRA? Ou par une structure inter-organismes? Et pour quelle durée? : stockage, archivage et support
Quelques pièges à éviter ? Ne pas perdre une expertise capitaliser en recrutant des CDD Eviter la saturation des centres attendre 6 mois pour être pris en main… Distribution des moyens souples et remobilisables Ne pas se laisser séduire par des coûts expérimentaux bas 3 ème étape: Prospective en termes dorganisation (3/4)
Formation continue des biologistes/bio-écoinformaticiens Transfert de compétences et d'activités (via la formation) Recrutement de permanents Sélection des projets On peut jouer sur les leviers suivants en termes de fonctionnement 3 ème étape: Prospective en termes dorganisation (4/4)
Conclusion Périmètre de la mission: données « omiques » et/ou « non-omiques » ? Composition du groupe de travail Méthode et questions principales Sous-groupes ? Aspects informatiques biologiques bioinformatiques statistiques modélisation
Internes INRA: L. Bruckler, C. Christophe, O. Le Gall, F. Rodolphe, … Extérieur INRA: G. Perrière, … Membres du CS: … Conclusion Quelques membres pressentis…
1 ère étape Etat des lieux 2 ème étape Comment sont organisés le partage et la diffusion des données à lINRA? Comment les chercheurs/ingénieurs vivent cette organisation? 3 ème étape Prospective en termes dorganisation juin septembre décembre Etape 0 Méthode et questions principales Conclusion Calendrier (proposition!)