La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Plateforme de Calcul pour les Sciences du Vivant Conclusions du groupe de travail sur la biologie et la santé V. Breton, CNRS-IN2P3.

Présentations similaires


Présentation au sujet: "Plateforme de Calcul pour les Sciences du Vivant Conclusions du groupe de travail sur la biologie et la santé V. Breton, CNRS-IN2P3."— Transcription de la présentation:

1 Plateforme de Calcul pour les Sciences du Vivant http://clrwww.in2p3.fr/PCSV Conclusions du groupe de travail sur la biologie et la santé V. Breton, CNRS-IN2P3 Rapporteur du groupe de travail Crédits: J. Montagnat, S. Sansone, T. Toursel

2 Plateforme de Calcul pour les Sciences du Vivant Table des matières Présentation du groupe de travail Etat des lieux Résultats d’un sondage dans la communauté Recommandations

3 Plateforme de Calcul pour les Sciences du Vivant Les membres du groupe de travail NomInstitutRôle Christian BarillotINRIA Christophe BlanchetCNRSAnimateur - Point de contact pour la biologie Hugues Benoit-CattinUniv. C. BernardAnimateur - Point de contact pour la santé Vincent BretonCNRS-IN2P3Rapporteur François CambienINSERM Sorina CamarasuCNRS Christophe CaronUniv. Bordeaux II Antoine De DaruvarUniv. Bordeaux II Frédéric DesprezINRIAAnimateur Gaël EvenUniv. Lille Tiphaine MartinUniv. Bordeaux II Michel MasellaCEA Johan MontagnatCNRS Angel OsorioCNRS – Hôpital d’Orsay Didier RognanCNRS El Ghazali TalbiUniv. Lille Thierry TourselAFM Décrypthon

4 Plateforme de Calcul pour les Sciences du Vivant Organisation du travail Réunions: –Téléconférences: 3 Avril, 5 Mai et 27 Mai 2008 –Réunion physique à Paris le 20 Juin 2008 Site web temporaire: http://clrwww.in2p3.fr/IDG_BShttp://clrwww.in2p3.fr/IDG_BS –Partage d’informations –Analyse détaillée du sondage

5 Plateforme de Calcul pour les Sciences du Vivant Activités du groupe Préparation d’un livre blanc –Etat des lieux des besoins des communautés de recherche –Etat des lieux des activités sur la grille –Recommandations Organisation d’un sondage –Buts  analyse des besoins de la communauté  Évaluation de la perception des grilles –Sondage envoyé le 29 Avril 2008 –Plus de 400 réponses reçues  > 60 laboratoires dans 24 villes Réunion physique du 20 Juin 2008 –Discussion des résultats du sondage –Première version des recommandations

6 Plateforme de Calcul pour les Sciences du Vivant Table des matières Présentation du groupe de travail Etat des lieux Résultats d’un sondage dans la communauté Recommandations

7 Plateforme de Calcul pour les Sciences du Vivant Etat des lieux La communauté française en biologie – santé exploite aujourd’hui activement plusieurs grilles de production –Décrypthon, grille dédiée –EGEE, grille pluridisciplinaire –Grilles régionales pluridisciplinaires  Exemple: AuverGrid Mais encore très peu de vrais utilisateurs finaux –Technologie en phase d’adoption par les bioinformaticiens et les spécialistes d’imagerie médicale –Pas par les biologistes et médecins Leadership international dans l’utilisation des grilles en sciences de la vie –Rôle important dans des projets européens clefs (EGEE & EGI, EMBRACE& ELIXIR, VPH NoE, …) –Animation de l’initiative HealthGrid Besoin d’une infrastructure de grille nationale forte pour élargir la communauté d’utilisateurs et maintenir un leadership international

8 BCA 21 fev 08 – TT Programme DÉCRYPTHON Accélérer la recherche en génomique et protéomique grâce aux technologies de grid computing www.decrypthon.fr Credit: T. Toursel, AFM

9 BCA 21 fev 08 – TT Décrypthon : une collaboration autour de trois partenaires fondateurs AFM - coordination de l’appel à projets auprès de la communauté scientifique - financement des projets de recherche - responsabilité de la communication IBM - expertise du Grid Computing + Sciences de la Vie - dotation de 6 universités de supercalculateur de dernière génération (programme Shared University Research) CNRS - pilotage scientifique (département SDV) - expertise scientifique et technologique (ex-département STIC)

10 BCA 21 fev 08 – TT Décrypthon : la participation d'autres partenaires  Pilotage des ressources de la grille en optimisant : planification et exécution - utilisation du logiciel DIET développé par l’ENS (succède à United Devices) - suivi des programmes informatiques de chaque projet Installation de supercalculateurs (à base de power G5) dans les universités partenaires puissance de 500 Gflops / 473 Gflops déjà présents dans les universités Réseau National de Télécommunications pour l’Enseignement et la Recherche (RENATER) connecte l’ensemble des ressources ENS Lyon – équipe GRAAL de F. Desprez

11 BCA 21 fev 08 – TT Ce qu’apporte le Programme Décrypthon Fonctionnement en mode projet : Comité Directeur, Comité Scientifique et un Comité Ressources Mise à disposition des équipes de recherche : – d'un accompagnement des équipes dans la préparation et la réalisation des projets – d’experts en informatique et en algorithmie – de moyens de calcul très importants pour accélérer la recherche en génomique et protéomique (projets intéressants directement ou indirectement l’AFM) Une grille d’abord universitaire, avec souhait partagé de l’ouvrir aux internautes à terme - 2 questions à résoudre : l’opportunité / aux besoins scientifiques et le coût

12 BCA 21 fev 08 – TT La démarche et les orientations scientifiques La volonté de se placer dans la durée : horizon de 3 ans minimum, avec possibilité de faire «tourner» plusieurs projets en parallèle 2 projets pilote sélectionnés fin 2003 / début 2004 avec le CNRS Un appel d’offres annuel depuis 2005 – 2 à 3 projets scientifiques chaque année, d’une durée de 18 mois maximum souhaitée (6 projets en cours) – des projets qui rassemblent la communauté biologique, bioinformatique et informatique autour d’une thématique commune Des projets intégrés « modélisation des systèmes biologiques » - modélisation d’interactions protéine-protéine, protéine-ADN, protéine-ligand - comparaison de profils d’expression d’ARN - intégration et diffusion des résultats sous la forme de portail Web, base de données

13 BCA 21 fev 08 – TT Exemple de projet en cours : A. Carbone Projet coordonné par Alessandra Carbone Projet coordonné par Alessandra Carbone (Unité Inserm 511, Université Pierre et Marie Curie) : - Mise au point d’outils informatiques pour repérer à la surface des protéines des sites d'interactions avec d’autres protéines, de l'ADN ou des ligands (docking moléculaire) - Pour 1 protéine 300 zones pertinentes à tester : 16h de calcul Base de données de Ligands Proteine cible Docking Moléculaire Ligand « docké » dans le site actif d’une protéine

14 BCA 21 fev 08 – TT Projet A. Carbone suite… Les algorithmes du projet ont d’abord été testés sur la grille Décrypthon Une première phase de test du projet réalisée sur 168 protéines distinctes – utilisation de la grille PC World Community Grid coordonnée par IBM pour augmenter la puissance de calcul  validation à large échelle des différents algorithmes capables d’identifier les zones d’interaction les plus probables Une phase II en cours de mise en place (4000 protéines) Lancement des calculs le 23/01/07 Estimation du temps de calcul sur 1 CPU dédié : 14s 89 ans Durée des calculs sur WCG : 26 semaines Estimation du nombre moyen de processeurs dédiés : 16 209

15 BCA 21 fev 08 – TT Exemple de projet en cours : F. Relaix / O. Poch Projet coordonné par F. Relaix et O. Poch Projet coordonné par F. Relaix (Inserm-S 787, grp Myologie, Paris) et O. Poch (IGBMC, Illkirch) - Identifier les mécanismes moléculaires impliqués dans la formation des muscles - Analyse fonctionnelle de l’ensemble des gènes murins impliqués dans les processus d'expression des gènes

16 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 EGE08 conference, Istambul Medical image analysis on EGEE, J. Montagnat, BioGrid, June 2, 2008 16 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Etat des lieux: EGEE Size of the infrastructure today: > 250 sites in 48 countries > 70 000 CPU cores ~ 5 PB disk + tape MSS > 150 000 jobs/day > 9000 registered users The Biomed Virtual Organisation: > 100 sites in 30 countries (170 CEs, 130 SEs) ~ 17 000 CPU > 150 registered users

17 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 EGE08 conference, Istambul Medical image analysis on EGEE, J. Montagnat, BioGrid, June 2, 2008 17 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 Life sciences compared to other sciences Biomed VO share Biomed VO Number of jobs CPU time

18 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 EGE08 conference, Istambul Les laboratoires français dans les activités biomédicales d’EGEE CNRS, coordinateur des applications biomédicales depuis 2001 –FP5: DataGrid –FP6: EGEE, EGEE-II –FP7: EGEE-III, EGI Engagement fort des universités –Université Lyon I - Claude Bernard –Université Paris-XI Orsay –Université Blaise Pascal Clermont-Ferrand –Université de Nice Porteurs des principales applications et développements –GPS@ (IBCP Lyon) –GPTM3D (LRI Orsay) –Medical Data Manager et Moteur (I3S Nice) –SiMRI3D et ThIS (CREATIS Lyon) –WISDOM et GATE(LPC Clermont-Ferrand)

19 Enabling Grids for E-sciencE EGEE-II INFSO-RI-031688 EGE08 conference, Istambul 19 Healthgrid … – March 8th, 2007 – V. Breton Enabling Grids for E-sciencE INFSO-RI-508833 19 Exemple de déploiement à grande échelle: WISDOM Contribution française: 20% des ressources Over 420 CPU years in 10 weeks A record throughput of 100.000 docked compounds per hour

20 Plateforme de Calcul pour les Sciences du Vivant AuverGrid: grille pluridisciplinaire en Auvergne Environnement Modélisation moléculaire Physique des Hautes Energies –Expériences Alice, ATLAS et LHCb au LHC Recherche en informatique –Algorithmie: calculs de structure, radiosité discrète, parallélisation de simulations Monte- Carlo –Ordonnancement et placement –Sécurité Sciences du vivant –Bioinformatique, imagerie médicale, recherche de nouveaux médicaments, télémédecine, traitement du cancer AnnéePhysique des particules Sciences du vivant EnvironnementAutresTOTAL 2006Heures CPU21700297468831715153462303434657 Répartition par discipline 63%22%10%5% 2007Heures CPU324516917841642616161614025452351 %59%33%3%5%

21 Plateforme de Calcul pour les Sciences du Vivant Système d’Information Régional pour les sciences du vivant Objectif: utiliser la grille régionale AuverGrid pour mutualiser des ressources et services informatiques pour les sciences du vivant en Auvergne Trois thèses en cours –Ordonnancement et réplication de données (ENS Lyon, LPC) –conception distribuée d'oligonucléotides pour puces à ADN (LIMOS, LBP) –Réseau sentinelle cancer (ERIM, LPC) LifeGrid, Système d’Information Régional pour les sciences du vivant PRAI (2006-2008, 3,2M€) >25 projets (CNRS, INRA, INSERM, Universités, entreprises)

22 Plateforme de Calcul pour les Sciences du Vivant Table des matières Présentation du groupe de travail Etat des lieux Résultats d’un sondage dans la communauté Recommandations

23 Plateforme de Calcul pour les Sciences du Vivant Analysis of the needs of the French life sciences community Distribution thématique des réponses

24 Plateforme de Calcul pour les Sciences du Vivant Survey results (I/IV) Personal knowledge on grids None Limited Satisfactory Broad Use of grids in the laboratories None Limited Growing routinely

25 Plateforme de Calcul pour les Sciences du Vivant Survey results (II/IV) Personal need of supercomputer resources Personal need of cluster or grid resources Unknown Small Limited Significant Large 1TFlop Unknown Small Limited Significant Large 10CPUyears

26 Plateforme de Calcul pour les Sciences du Vivant Survey results (III/IV) Planning of computing needs Planning of storage needs All Biology Health Chemo- informatics All Biology Health Chemo- informatics Very stable during the year Very unstable with peaks Easy to plan weeks in advance Hard to plan Very stable during the year Very unstable with peaks Easy to plan weeks in advance Hard to plan

27 Plateforme de Calcul pour les Sciences du Vivant Survey results (IV/IV) Security on the input and output data All Biology Health Chemo- informatics No constraints Access control Encryption Anonymization User interface to grid resources Command lines Web portal dedicated interfaces

28 Plateforme de Calcul pour les Sciences du Vivant Survey: conclusions The life sciences community has homogeneous needs –Except for security, all sub-communities have very comparable answers The life sciences community needs to access both cluster grids and supercomputers –Comparable needs expressed for both infrastructures –on demand computing: significant fraction of the computing needs are difficult to plan in advance Significant adoption of grids by the research community –To be counterweighted by the targeted audience Security –90% of the applications in biology require only access control –Only 50% for health applications, the other 50% requiring medical data anonymization

29 Plateforme de Calcul pour les Sciences du Vivant Table des matières Présentation du groupe de travail Etat des lieux Résultats d’un sondage dans la communauté Recommandations

30 Plateforme de Calcul pour les Sciences du Vivant Recommandations pour une grille de production nationale 1- S’appuyer sur les forces actuelles pour étendre les services 2- Cahier des charges de l’infrastructure: stabilité, pérennité, simplicité d’accès, utilisation de standards internationaux 3- Placer des ingénieurs auprès des utilisateurs pour faciliter l’adoption et accompagner l’exploitation Besoin d’une infrastructure de grille nationale forte pour élargir la communauté d’utilisateurs et maintenir un leadership international

31 Plateforme de Calcul pour les Sciences du Vivant Recommandation 1 S’inscrire dans une démarche pluridisciplinaire –Déployer sa propre grille est trop couteux pour la communauté –Expérience positive sur les grilles pluridisciplinaires –Réseaux d’excellence nationaux pour coordonner la communauté  ReNaBi en bioinformatique  GDR STIC - Santé en informatique médicale Intégrer les ressources actuellement disponibles dans une grille de production nationale –Décrypthon, EGEE-France, grilles régionales Biologie: Installer des noeuds de grille dans les sites du réseau ReNaBi –Noeuds gérés par la communauté –Besoins: achat de machines & recrutement d’ingénieurs système Santé: hébergement des ressources dans les universités et centres de calcul –Continuation de la politique actuelle (CC-IN2P3, Décrypthon, EGEE) –Installation progressive de services de grille dans des hôpitaux

32 Plateforme de Calcul pour les Sciences du Vivant Recommendation 2 Besoins identifiés –Accès à des grilles de clusters et de supercalculateurs –Stabilité et pérennité –Interfaces utilisateurs conviviales –Accès uniformisé aux services  Une seule API, quelque soit le middleware –Sécurité des données médicales Importance des standards internationaux –Intégration des ressources nationales dans les infrastructures ou initiatives européennes  ESFRIs  Virtual Physiological Human –Quels standards ?  Open Grid Forum  Web services –Clef pour l’accès à des financements européens

33 COST brainstorm on Emerging Technologies, Brussels, 2nd June, 2008 Six ESFRI projects in biomolecular science area www.elixir-europe.org Upgrade Of European Bioinformatics Infrastructure ELIXIR www.ecrin.org Infrastructures For Clinical Trials And Biotherapy ECRIN www.biobanks.eu European Biobanking And Biomolecular Resources BBMRI www.eatris.eu/ The European Advanced Translational Research Infrastructure EATRIS www.infrafrontier.eu Infrastructure for Phenomefrontier and Archivefrontier Infrafrontier www.instruct-fp7.eu Integrated Structural Biology Infrastructure INSTRUCT BBMRI (Biobanking) INSTRUCT (Structural biology) ELIXIR Infrafrontier (Model Organisms) ECRIN (Clinical Trials)(Translational Research) EATRIS (Life Science Information) Target ID Hit Lead Lead OptPreclinicalPhase IPhase II Phase IIITarget Val ResearchDiscoveryDevelopment

34 COST brainstorm on Emerging Technologies, Brussels, 2nd June, 2008 Standards development – international collaborations Genome annotation www.geneontology.org Genome annotation www.geneontology.org Nucleotide sequence www.insdc.org Nucleotide sequence www.insdc.org Microarray and Gene Expression Data (MGED) www.mged.org Microarray and Gene Expression Data (MGED) www.mged.org Protein sequence www.uniprot.org Protein sequence www.uniprot.org HUPO- Proteomics Standards Initiative (PSI) Psidev.sf.net HUPO- Proteomics Standards Initiative (PSI) Psidev.sf.net Protein structure www.wwpdb.org Protein structure www.wwpdb.org Cheminformatics www.ebi.ac.uk/chebi Cheminformatics www.ebi.ac.uk/chebi Pathways www.reactome.org www.biopax.org Pathways www.reactome.org www.biopax.org Systems modelling standards www.sbml.org Systems modelling standards www.sbml.org Metabolomics Standards Initiative (MSI) www.metabolomicssociety.org Metabolomics Standards Initiative (MSI) www.metabolomicssociety.org Genomics Standards Consortium (GSC) gensc.org Genomics Standards Consortium (GSC) gensc.org

35 Plateforme de Calcul pour les Sciences du Vivant Recommandation 3 Clef de l’adoption de la grille dans un laboratoire: une personne sachant développer et déployer les applications scientifiques sur la grille –Observation commune Décrypthon – EGEE – grilles régionales Aujourd’hui: manque important d’expertise dans la communauté Besoin principal: ressources humaines –Ingénieurs pour accompagner les équipes de recherche –Interface entre les utilisateurs finaux et les experts grille

36 Plateforme de Calcul pour les Sciences du Vivant Conclusion Communauté française de biologie – santé déjà très active sur les grilles de production –Leadership international La communauté a besoin d’une infrastructure nationale forte pour maintenir son leadership –Volonté de s’intégrer sur une grille de production pluridisciplinaire  Intégration de ressources existantes (Décrypthon, EGEE)  Sites opérés par la communauté (RENaBi) –Cahier des charges bien défini  Stabilité, pérennité, sécurité, convivialité, accès à des grilles de clusters et de supercalculateurs, utilisation de standards Le besoin le plus urgent pour élargir la communauté d’utilisateurs: ressources humaines –Développement et déploiement d’applications –Interface utilisateur final – expert grille


Télécharger ppt "Plateforme de Calcul pour les Sciences du Vivant Conclusions du groupe de travail sur la biologie et la santé V. Breton, CNRS-IN2P3."

Présentations similaires


Annonces Google