Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011.

Slides:



Advertisements
Présentations similaires
Réseau Rural de Haute-Normandie
Advertisements

Le programme PSDR Aquitaine
22 mai 2007 Clauvice Kenfack – Équipe MODEME
« Esanté Poitou-Charentes »
Europe, Relations internationales et coopération 1 Séminaire coopération territoriale européenne Réflexion et pistes de travail post.
CAPATER CAPATER Renforcement des CApacités des PArtenaires sociaux dans les bonnes pratiques pour une meilleure intelligence économique TERritoriale Centre.
Manuel Qualité, Structure et Contenus – optionnel
UNE PLATEFORME DE SERVICES DÉDIÉE AUX ESPACES RÉGIONAUX INTERNET CITOYEN.
Le Webclasseur Orientation
Le projet pluridisciplinaire à caractère professionnel
Atelier régional sur la Révision des Politiques des STI et des Statistiques Bamako, Mali Mai 2010 Thierry H. Amoussougbo Conseiller Régional, Division.
1 SEMINAIRE REGIONAL SUR LARCHIVAGE DES DONNEES DES RGPHs DES ANNEES 2010 Addis Abeba, du 20 au 23 Septembre 2011 RIRADJIM MADNODJI, Statisticien-Démographe.
Fonction Qualité Un intervention structurante Présentation Assemblée des membres 16 novembre 2011.
Recherche-Action-Formation Quelles questions se poser ? Bernadette Charlier BIE 14 juin
Mesures et évaluations de compétences
MANAGEMENT DES ORGANISATIONS
Nouvelle discipline MANAGEMENT DES ORGANISATIONS.
Analyse du système d’information
Le contexte européen pour la recherche IST Roadshow Fistera - Conférence IDATE 19 novembre 2003 Pierre Marro Unité Stratégie pour la recherche IST Commission.
La Communauté de communes 8 communes habitants 7 médiathèques et un point Lecture 9377 adhérents aux médiathèques 2.
E V O L U T I O N S O L S S P A T I A L I S A T I O N Unité de Science du Sol INRA Orléans Initiative du Département EA, à la suite du réseau Eau : organiser.
FrontCall - 4C Les Centres de Contacts Virtuels
Alimentation Agriculture Environnement Réunion SIOEA Département EA - EFPA 3 Octobre 2012 Mode de fonctionnement du CATI SIOEA Alain BENARD Patrick BERTUZZI.
La démarche « compétences »
PREMIÈRE EDITION DES UNIVERSITÉS INTERNATIONALES
Gérer linformation en tant quactif : Méthodologie pour une tenue de documents efficace.
Le Forum mondial de la banane est né en 2009 Trois commissions permanentes : Production durable et impacts environnementaux Répartition de la valeur au.
Les acteurs locaux de lobservation environnementale sur le territoire breton Les résultats de lenquête.
Evaluation des besoins en renforcement des capacitEs
3 avril 2007IFAP - Débat thématique "Conservation numérique"1 Conservation des publications électroniques et du dépôt légal Catherine Lupovici Département.
« Génome, adaptation et environnement »
Générations et coopération en équipe dans la fonction publique fédérale: le rôle des chefs déquipe Brigitte Colin SPF Personnel et Organisation 6 mai 2011.
REUNION DES COORDINATEURS DE RESEAUX 29 JANVIER 2013 MEUDON.
Travailler avec des documents patrimoniaux. Quest quun document patrimonial ? Quest quun document patrimonial ? " Traces et œuvres que les générations.
Axe Transversal Interactions Durables (ID)
Les principes fondamentaux Assemblée du réseau rural national le 1er avril 2008.
F I D A F R I Q U E Une présentation en trois parties, des réponses à des questions simples : QUEST – CE QUE FIDAFRIQUE ? Un projet initié par le FIDA.
PNA / DRAAF Bretagne CRALIM, 24 juin 2011 (lundi 20 juin :11v2)
Guide d’animation pour initialiser la démarche EdDD
Donner du sens aujourd’hui pour agir sur le futur
Un regroupement de laboratoires de recherche pour observer les usages en Bretagne. Lille, 14 juin 2005.
Pistes de réflexion sur la mise en place de partenariats inter-universitaires Les défis La définition des objectifs Les obstacles à surmonter Les facteurs.
LEGOS (laboratoire d’études en géophysique et océanographie spatiales) Pôles de données Attentes du LEGOS LEGOS (laboratoire d’études en géophysique et.
Génétique Animale Vision et attentes vis-à-vis de Bios4Biol.
StorageAcademy 21 juin 2007 StorageAcademy ® 1 StorageAcademy ITIFORUMS, 21 juin 2007 La conduite des projets d’archivage numérique Méthodes pour réussir.
Sous commission Sciences et techniques
Project group 1Thessalonique Initiative eLearning TTnet : 4 ème Conférence annuelle du réseau Pratiques de formation des enseignants et formateurs.
DOCUMENTS DE FORMATION CODEX FAO/OMS SECTION TROIS LES BASES DES ACTIVITES NATIONALES DU CODEX Module 3.2 Comment mettre au point des positions nationales.
EQUAL PACA Réunion du 16/12/02 ordre du jour –Points sur les dossiers – Présentation du programme AT –Echéances à venir : La remontée des dépenses L’architecture.
1er Forum des Pôles de Compétitivité, Table ronde Agriculture et Agrobiotech, B. Teyssendier de la Serve, 4/11/2005 Pôles de compétitivité Participation.
Spécialités Gestion et Finance Ressources humaines et communication
Restitution de l’étude préalable à la mise en œuvre du réseau rural Comité de suivi FEADER 22 novembre 2007 DRAF Bourgogne.
Journée de Présentation de la FRES Mardi 11 Décembre 2007 Salle 08 Bâtiment PPDB, Faculté des Sciences et Techniques PRÉSENTATION DE LA FÉDÉRATION DE RECHERCHE.
HAL-SHS Christine Berthaud, Agnès Magron,
1 Diffusion des bonnes pratiques de prise en compte du développement durable dans le bâtiment Questionnements du thème « Gouvernance » Laurent DELEERSNYDER.
Les solutions de travail collaboratif
1e Rencontre régionale du réseau ARPIST – thème : « Veille documentaire » 27 mai 2004 Présentation du réseau quitaine Poitou-Charentes éseau rofessionnels.
Comité technique régional Circuits Courts de commercialisation des produits agricoles 16 novembre 2009.
Comprendre les métiers et les parcours en Pays de la Loire.
Présentation Audit CTI – Février
Présentation du projet CARTO Amiante
Gestion de configuration
Indicateurs IST des EPST et des Epic
Transformation digitale Comment maîtriser les risques ?
IFTI Une innovation majeure au service de la compétitivité des entreprises et de la professionnalisation des salariés 10 juillet 2007.
TSTC développement de clientèles 1 Le système d'information mercatique (SIM)
Règlement Intérieur Université Paris Saclay Guy Wormser Laboratoire de l’Accélérateur Linéaire 12 Septembre 2014.
Conseil de Coordination du Réseau des Informaticiens (CCRI) A la demande du nouveau chargé de mission informatique, une réunion a eu lieu le 30 Janvier.
Présentation informelle de la prospective nationale sur les grilles de production Guy Wormser Directeur Institut des grilles du CNRS.
Francesca Leinardi – Journées ADBS – 22 mai 2007 Réseau d’information scientifique interdisciplinaire des documentalistes en région Rhône-Auvergne et Alpes.
Transcription de la présentation:

Groupe Gestion et Partage des Données Dominique Pontier CS INRA 16 mars 2011

Initiée au précédent CS Sollicitation D. Pontier Interviews (avril – mai 2010) Présentation CS Juin 2010 Interruption Juillet 2010 – février 2011 Historique de la réflexion

Contexte (1/5) Une transition importante avec larrivée des nouvelles techniques notamment « omiques » Genes (2010), 1, accumulation de données massives et hétérogènes changement déchelle: analyse de qq gènes -> intégralité du génome

Contexte (2/5) Cartographie des instruments de séquençage

llumina HiSeq 2000 platform allows users to generate 600 gigabases of sequence (the equivalent of 5 high quality human genomes) per one- week run of the machine. Contexte (3/5) La société Pacific Biosciences prédit que dici 2013, elle sera capable de séquencer un génome individuel en un quart dheure et pour moins de 1000 dollars.

Le séquençage haut débit ne sert pas seulement à séquencer des génomes : Epigénomes, Métagénomes, Transcriptomes… Biologie = science riche en données ! Lécologie, lagronomie, … génèrent des données connexion Ecologie fonctionnelle, écologie évolutive, écologie des communautés, Ecologie des interactions symbiotiques… Contexte (4/5)

échantillon séquenceur analyse, … Goulot détranglement Problématiques et défis : stocker, gérer, archiver, échanger les données; représenter (BDD et ontologies) et analyser Révolution culturelle pour le biologiste/lécologue Evolution très rapide des recherches Contexte (5/5)

Définir lobjet de la mission Identifier les questions et structurer en étapes Interviews: bioinformaticiens/statisticiens (chercheurs, dir. plateforme Bioinformatique régionale, ingénieurs) Exposés sur les NNNNNGS Visite Christine Gaspin, Dir. plateforme BioInformatique,Toulouse Visite centre INRA Jouy-en-Josas: Présidente du Centre, chercheurs et DU MIG, Chef du département MICA, participation à la réunion du Comité de Pilotage et dHarmonisation du Centre, DU IDES, épistémologue Méthode (1/3)

Réunions du groupe de travail Visites de Centres, Unités, interviews approfondies Groupe de travail : animation C. Gaspin et D. Pontier Méthode (2/3) Composition périmètre

Segmentation de la mission en trois étapes 1 ère étape Etat des lieux 2 ème étape Comment sont organisés le partage et la diffusion des données à lINRA, et comment les chercheurs/ingénieurs vivent cette organisation? 3 ème étape Prospective en termes dorganisation Méthode (3/3)

1 ère étape: état des lieux (1/8) Quest ce quune donnée ? Quelle est la nature et la dynamique de production des données à lINRA? Spécifiques et non spécifiques. Quels sont les lieux de production ? Quest-ce qui est en train de changer ? La question du coût danalyse Quest-ce que lon doit préserver ?

Quest-ce quune donnée ? Les données brutes Les métadonnées clé pour préserver lutilité des données à travers les années Les données finales (expertisées) 1 ère étape: état des lieux (2/8)

échantillon cellules, sang, tissu… pyrogramme … Séquenceur Programme Métadonnées - Lieu, heure - Qui - Conditions de prélèvement - … Séquence annotée Programme ! ! ! Quoi conserver et sur quelle durée ? - Programme dassemblage utilisé - … -Indice de qualité du read -… ACATCTGGCGGCTGCCCTCCCTT GTTTCCGCTGCATCCAGACTTCC TCAGGCGGTGGCTGGAGGCTGC GC ATCTGGGGCTTTAAACATACAAA GGGATTGCCAGGACCTGCGGCG GCGGCGGCGGCGGCGGGGGCT GGG CGCGGGGGCCGGACCATGAGC CGCTGAGCCGGGCAAACCCCAG GCCACCGAGCCAGCGGACCCTC GGAGC Métadonnées petits bouts de séquence séquence entière reconstituée - Identification taxonomique - … Traçabilité Métadonnées Donnée brute

Données en omique Protéomique, métabolomique, génomique, épigénomique, transcriptomique, métagénomique Données de phénotypage à haut débit, écologiques, … Y a-t-il eu un recensement des grandes bases de données dormantes et actives à lINRA ? Quels sont les grands programmes en cours et leur dynamique ? Quelle est la nature et la dynamique de production des données à lINRA ? Et demain? Quelles données ? (évolution des techniques, des problématiques…) 1 ère étape: état des lieux (4/8)

Quest-ce qui est en train de changer ? Masse de données en croissance phénoménale Données hétérogènes Y a-t-il une politique claire de documentation des conditions de récolte et de production des données? De quelle façon les labos/chercheurs… vivent laugmentation des données à traiter? 1 ère étape: état des lieux (5/8) Une mutualisation est-elle envisageable si on prend un ensemble très hétérogène de laboratoires de lINRA?

Quest-ce qui est en train de changer ? Problèmes techniques: - Capacité de calcul des ordinateurs - Stockage, archivage - Transfert des données Prévoir les infrastructures et le personnel Repenser méthodes daccès et dexploitation Impact sur les activités de recherche Le biologiste dont le travail de recherche génère cette masse de données est-il conscient de ce que cette situation implique au niveau technologique ? 1 ère étape: état des lieux (6/8) Compétitivité internationale

Quelles données partager ? Les données brutes ? Les métadonnées ? Les données expertisées ? 1 ère étape: état des lieux (7/8) La question du coût danalyse Le coût dacquisition des données diminue et le coût dexpertise des données augmente À quel niveau faut-il résoudre le problème? INRA? Collaboration inter EPST ? Mutualisation au sein de plateformes?

Volume et diversité des données problème Base données maintenance Temporalité de la donnée: stockage, archivage et support Quels sont les critères de qualification et de requalification du statut des données ? Est-ce quil y a une politique nationale de sauvegarde et darchivage des données à lINRA ? 1 ère étape: état des lieux (8/8) Quest-ce que lon doit préserver ?

Structures et organisations existantes au niveau de lINRA pour les types de données produites à lINRA Interactions aux niveaux national et européen Audit Ernst & Young (achevé?) Visites et interviews 2 ème étape : Comment sont organisés le partage et la diffusion des données à lINRA et comment les chercheurs/ingénieurs la vivent ? (1/2)

Les plateformes INRA propres et multi-organismes, labellisées, non labellisées Les réseaux… Quelles sont les spécificités et interactions entre ces niveaux dorganisation ? Comment les chercheurs les utilisent? Structures et organisations 2 ème étape : Comment sont organisés le partage et la diffusion des données à lINRA et comment les chercheurs/ingénieurs la vivent ? (2/2)

Tout le monde ne pourra pas se payer le luxe de développer sa propre structure dans son coin Il faut des bâtiments & du personnel (ingénieurs/chercheurs) Il faut former les biologistes, clarifier le rôle et la mission de chacun (bioinformaticiens, statisticiens, biologistes) Est-il judicieux de mettre tous les moyens sur 1 ou 2 gros centres ? Quelle infrastructure pour quelle(s) problématique(s) ? Bilan des réflexions intermédiaires

3 ème étape: Prospective en termes dorganisation (1/4) Quels sont les pièges à éviter ? Les données: quest-ce qui doit être gardé à lINRA (spécifique) ? Partagé avec dautres organismes? Comment favoriser les lieux dinterdisciplinarité ? Ne doit-on prendre en considération que les spécificités de lINRA ? Comment favoriser la disponibilité et le maintien de lexpertise?

Faut-il regrouper toutes les données dans un centre de données? Unique ? Plusieurs? Où? Pourquoi? 3 ème étape: Prospective en termes dorganisation (2/4) Les données: Quelles données doivent être maintenues par lINRA? Ou par une structure inter-organismes? Et pour quelle durée? : stockage, archivage et support

Quelques pièges à éviter ? Ne pas perdre une expertise capitaliser en recrutant des CDD Eviter la saturation des centres attendre 6 mois pour être pris en main… Distribution des moyens souples et remobilisables Ne pas se laisser séduire par des coûts expérimentaux bas 3 ème étape: Prospective en termes dorganisation (3/4)

Formation continue des biologistes/bio-écoinformaticiens Transfert de compétences et d'activités (via la formation) Recrutement de permanents Sélection des projets On peut jouer sur les leviers suivants en termes de fonctionnement 3 ème étape: Prospective en termes dorganisation (4/4)

Conclusion Périmètre de la mission: données « omiques » et/ou « non-omiques » ? Composition du groupe de travail Méthode et questions principales Sous-groupes ? Aspects informatiques biologiques bioinformatiques statistiques modélisation

Internes INRA: L. Bruckler, C. Christophe, O. Le Gall, F. Rodolphe, … Extérieur INRA: G. Perrière, … Membres du CS: … Conclusion Quelques membres pressentis…

1 ère étape Etat des lieux 2 ème étape Comment sont organisés le partage et la diffusion des données à lINRA? Comment les chercheurs/ingénieurs vivent cette organisation? 3 ème étape Prospective en termes dorganisation juin septembre décembre Etape 0 Méthode et questions principales Conclusion Calendrier (proposition!)