Télécharger la présentation
Publié parPons Gauthier Modifié depuis plus de 10 années
1
Intervenant(s) : Yvan Le Bras, Olivier Collin
e-Biogenouest, vers un Environnement Virtuel de Recherche (VRE) orienté Sciences de la vie ? Intervenant(s) : Yvan Le Bras, Olivier Collin
2
E-Biogenouest Programme fédérateur Biogenouest co-financé par les Régions Bretagne et Pays de la Loire 24 mois Lancé depuis Mai 2012 Porteur : Olivier Collin (IRISA) – Animateur : Yvan Le Bras (IRISA)
3
Objectifs Une démarche E-science
4
Objectifs Test d’une initiative e-Science Schéma directeur intégrateur
Impliquer les différents acteurs de Biogenouest Intégrer les différents aspects du développement de la recherche dans le Grand Ouest et au niveau national Schéma directeur intégrateur Mise en place d’une « plateforme » e-Science Intégration de façon cohérente Résultats du projet eBiogenouest Différentes politiques (Régions, Instituts, Universités,…) Soumission aux différentes tutelles et appels d’offres
5
POURQUOI ? La Biologie (devient) une science numérique
6
Contexte « Déluge de données » Evolution technologique
NGS première vague *omics Imagerie (ex: 16 To / jour) Evolution technologique Nombre de capteurs Production par capteur Evolution des infrastructures qui deviennent mutualisées Danger : ne pas être en mesure d’analyser les données Opportunité : Plus d’information Plus de précision Plus de points de vue Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp
7
Evolution de la recherche
Data quantity Data heterogeneity Data size Technological Evolutions Uses Evolution BGI 20 Po données par an 7 centres ( cœurs) LHC 15 Po données par an (8200 processeurs, 8 Po) High Performance Computing Life sciences data= digital
8
Evolution de la recherche
Evolution de la Science : Le 4ième paradigme Empirique : description, expérimentation Théorique : modélisation, généralisation Computationnelle : simulation Exploration des données (unification de la théorie, de l’expérience et de la simulation), extraction de connaissances. Emergence des disciplines *info Bioinformatique, Chemoinformatique, Astroinformatique, etc. Il y a mille an Qq centaines d’années Qq dizaines d’années maintenant
9
Evolution de la recherche
Données digitales Capteurs Analyseurs Utilisateurs Spectromètre de masse Séquenceur IRM Microscopes électronique Sondeurs Caméra sous marine GPS Puce à ADN
10
Evolution de la recherche
Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Parler de RH et formation continue / initiale des biologistes qui inclus de plus en plus l’aspect bioinformatique et pourquoi pas info? Il faut changer les usages, redonner du temps aux scientifiques et optimiser l’utilisation des ressources. Informatique -Proposer des ressources techniques fiables et adaptées
11
Evolution des infrastructures
Livre blanc du CNRS Big Data = le 4ième pilier de la science moderne Un enjeu majeur Aspects pas bien pris en compte Sciences de la vie non présentées! … Ceci explique les demandes actuelles : …Pourtant : production annuelle de données estimé à environ 15 Po par le LHC (Grand Collisionneur de Hadrons) quand que le principal centre de séquençage situé en Chine, le BGI, génère 30Po « les avancées scientifiques et l’innovation dans de multiples domaines (dont ceux des sciences de la vie et de l’environnement en pleine explosion actuellement et sans doute rapidement celui des sciences humaines et sociales) dépendent de manière cruciale d’une politique du CNRS, et d’un renforcement des capacités des infrastructures pour le calcul et l’analyse de données » Datacenter
12
Evolution des usages Le passage au numérique nécessite de nouveaux outils et de nouveaux usages qu’il faut développer Besoin de compétences techniques souvent absentes des groupes de recherche Infrastructure : développer/adopter de nouveaux outils Optimisation des ressources (duplication de la donnée, utilisation du réseau, scripts performants,…) Collaboration scientifique (gestion de projet, échange de ressources, publication,…) Gestion et analyse de données (métadonnées, partage, workflows, DMP…) Infrastructure : développer/adopter de nouveaux usages Centralisation / mutualisation Mais Proximité (géographique et thématique) « People Paradox » L’automatisation provoque des besoins croissants en ressources humaines Gestion des ressources humaines Evolution des métiers Nouvelles compétences
13
Bascule des coûts : facteur déstabilisant
Bioinformatique Séquençage Using Clouds for Metagenomics: A Case Study Wilkening et al. IEEE cluster 2009 La mutualisation des appareillages a été réalisée (ex: Biogenouest) Il faut maintenant mutualiser les moyens humains sur le versant « TIC » et analyse des données
14
Une discipline en évolution
Mutualisation des ressources plates-formes Bascule vers le monde digital centré sur les données Besoin d’interdisciplinarité problèmes devenant des thèmes de recherche TIC Masse de données, intégration de données, etc.
15
L’approche e-science
16
e-Science e-Science = Science + TIC « Research done through distributed global collaboration enabled by the internet, using very large data collections, terascale computing resources and high performance visualization» (Sir John Taylor ) e-Science : trois volets Calcul: grille, cloud Stockage Outils collaboratifs Pas d’initiative française purement e-Science
17
Caractéristiques e-Science
Caractère distribué, pas de point central… … n’empêche pas un guichet unique! Environnement de Recherche Virtuel Portail web Données Logiciels Ressources de traitement Utilisateurs Collaboration Communauté
18
Le vre Un environnement virtuel de recherche en sciences de la vie
19
Un début de structuration e-Science?
Have an idea & create a group Invite partners Training Education record your data/metadata Write & manage a new Project The beginning of eScience in Western France!!! Manque infrastructure réseau!!!! analyse & share your data/metadata
20
Un début de structuration e-Science?
21
I have a dream… Pour les biologistes Pour le développement d’outils
perte de temps à apprendre à coder compréhension des outils, leurs paramètres, conserver l’historique des traitements appliqués aux données accéder, partager et visualiser les jeux de données avoir accès à un système de gestion de projet simplifiée… Pour le développement d’outils perte de temps pour le graphique faciliter l’utilisation des outils: Bioinfo Recherche Service temps entre développement, test et production…. Pour la gestion des infrastructures optimiser stockage, calcul et utilisation du réseau… Infrastructure pour la donnée infra de données
22
Choisissez vous-même la suite…
Résultats du sondage Echanges sur les données, l’infrastructure et l’organisation sous forme de questions / sondages Présentation de l’organisation/structuration envisagée de la future initiative e-Science
23
Echanges sur les donnees
Echangeons autour de plusieurs questions
24
Données Durée de mise à disposition des données
L'évolution technologique des appareillages scientifiques induit-elle une obsolescence des données antérieurement produites ? Oui Non Possédez vous une stratégie pour collecter et conserver vos métadonnées Votre laboratoire/équipe a-t-il implémenté un plan de gestion des données ?
25
Données Comment définissez vous vos données ?
Publiques (n'importe qui peut les consulter) Ouverte (éutilisation par tous, sans restriction technique, juridique ou financière) Sensibles (on ne préfère pas les diffuser) Confidentielles (elles ne doivent pas être diffusées) Propriétaires (leur spécification est contrôlée par une entité privée) Parmi les actions suivantes, identifiez-vous des besoins (aide, formation, développement de logicielles, ...) Mise en place d'un plan de gestion des données Sauvegarde des données Partage des données Restauration des données Sécurité pour les données sensibles Gestion des métadonnées Maintenance des formats obsolètes Numérisation de documents
26
Infrastructure Quelles ressources de calcul utilisez vous
Poste de travail Cluster de laboratoire Cluster mutualisé Cloud Grille de calcul Types de ressources Machine standard (pc portable, pc de bureau) Machine à forte capacité de mémoire (> 8 Go RAM) Machine massivement paralllèle (> 8 CPU/coeurs) Machine dédiée accès disques (rapidité d'accès ou grand espace de stockage) Machine dédiée traitement image Environnement système Windows MacOS Linux
27
Infrastructure Quels types de logiciels utilisez-vous ?
Surtout des logiciels propriétaires Surtout des logiciels open source Logiciels propriétaires et open source (~50/50) Durée de vie des logiciels utilisés courte (< 6 mois (ex: scripts à façon)) moyenne (- de 6 mois à 5 ans (ex : logiciels rapidement obsolètes)) longue ( ans (ex: logiciel de référence dans un domaine comme TMEV, CLUSTER, ...)) très longue (>10 ans (ex: logiciel basique et de référence comme BLAST, PHYLIP, EMBOSS, ...)) Pensez-vous que votre connexion réseau limite votre activité ? (transfert de données, accès à des ressources de calcul distantes) 1 = oui, tout à fait 2 = non, pas du tout
28
Organisation et intérêts
Rencontrez-vous actuellement des problèmes liés à l'organisation géographique de vos ressources ? non oui, problèmes de type politique (ouverture entre établissements de tutelles différentes, ...) oui, problèmes de type technique (bande passante, sécurité, ...) Etes vous intéressé(e) par les services suivants ? Mise à disposition de logiciels (via plateforme web par exemple) Développement de logiciels Développement de workflows Accélération des programmes (parallélisation) Développement web (site internet par exemple) Développement de bases de données Développement cloud (utiliser le cloud dans vos activités) Développement grille de calcul (utiliser les grilles de calcul dans vos activités) Service d'analyse de données
29
Organisation et intérêts
Rencontrez-vous actuellement des problèmes liés à l'organisation géographique de vos ressources ? non oui, problèmes de type politique (ouverture entre établissements de tutelles différentes, ...) oui, problèmes de type technique (bande passante, sécurité, ...) Etes vous intéressé(e) par les services suivants ? Mise à disposition de logiciels (via plateforme web par exemple) Développement de logiciels Développement de workflows Accélération des programmes (parallélisation) Développement web (site internet par exemple) Développement de bases de données Développement cloud (utiliser le cloud dans vos activités) Développement grille de calcul (utiliser les grilles de calcul dans vos activités) Service d'analyse de données Aller à la conclusion
30
organisation Une nouvelle plate-forme pour Biogenouest
31
Articulation Bretagne – Pays de la Loire
e-Biogenouest Griote Infrastructure service Structuration recherche Convergence Conclusions Importance des moyens humains mutualisés Lieu physique d’échange, nécessite proximité Infrastructure de calcul et de données Importance de l’intégration
32
Perspective : Plateforme e-Science
Datacenter X Datacenter Z Centre de calcul national Datacenter Y Communautés d’utilisateurs Mésocentre e-Science distribué VRE Grille Biogenouest Xomique Génomique, Ecologie et Environnement Un méso-centre peut être caractérisé par : Un ensemble de moyens humains, de ressources matérielles et logicielles à destination d’une ou plusieurs communautés scientifiques, issus de plusieurs entités (EPST, Universités, Industriels) en général d’une même région, doté de sources de financement propres, destiné à fournir un environnement scientifique et technique propice au calcul haute performance. C’est une structure pilotée par un comité scientifique (plus ou moins structuré) et, en principe, évaluée régulièrement. Experts Développement Accompagnement Formations Cloud
33
plate-forme e-Science : un réseau
Maillage du territoire Biogenouest Spécialisation thématique Infrastructure de données à l’échelle du territoire Proximité des plates-formes traditionnelles Mésocentre e-Science distribué Roscoff Brest Rennes Nantes Angers Plate-forme génomique PF protéomique PF métabolomique PF Imagerie Unités de recherche Universités / écoles Structures nationales … e- plate-forme virtuelle (VRE)
34
Plateforme e-Science La collaboration Coordonner centre e-Science
Discipline 1 Coordonner Intégrateurs Integrateurs centre e-Science Ingénieurs Discipline 4 Discipline 2 Discipline n Connecter Traduire
35
Plateforme e-Science Le développement Standardiser centre e-Science
Algorithmes Standardiser centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Modèles Techniques Concepts Partager Simplifier
36
Plateforme e-Science Les ressources Connecter centre e-Science Veiller
Grilles de calcul Connecter centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Cloud computing Clusters de calcul Stockage Veiller Former
37
Plateforme e-Science Aller à la conclusion Les ressources Connecter
Grilles de calcul Connecter centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Cloud computing Clusters de calcul Stockage Veiller Former
38
Conclusion
39
Infrastructure de / pour données
Gestion : curation, stockage, récupération Bénéfices : Données non « perdues » Pas de doublonnage de la recherche Qualité de la recherche grâce à la ré-analyse Accroissement de la valeur de la recherche par combinaison/intégration des données Permettre de nouvelles recherches C’est ce qui fera la différence Centre de calcul e-Science center Expérimentation Production Centre de données
40
Enjeux Avantage compétitif pour la recherche et les réponses aux appels d’offre Projets dimensionnants Se structurer pour pouvoir répondre aux appels d’offres à venir Roadmap à l’horizon 2020 Préserver les données produites par les groupes de recherche Optimiser les infrastructures ”A fundamental characteristic of our age is the rising tide of data – global, diverse, valuable and complex. In the realm of science, this is both an opportunity and a challenge.” Riding the Wave report, High-Level Group on Data
41
Merci de votre attention
Le groupe Symbiose IRISA/INRIA GenOuest-Dyliss-Genscale La plate-forme Bio-informatique GenOuest Cyril Monjeaud -Les limites d'1 communauté ne sont pas arrêtées en fonction de notions de tailles mais bien d'objectifs communs à atteindre et donc de processus et .... - Ainsi, des communautés peuvent se former à différents niveaux d'abstraction, que ce soit pour l'hypoxie du flet par exemple ou plus meta comme l'utilisation de la génomique en écologie, mais aussi avec un nombre d'action et / ou type de taches différent à accomplir, uniquement aboutir a la creation de 3 outils d'analyse et d'1 workflow utilisable par la communauté, ou faire de la veille sur un sujet particuliers..... Cette communauté peut utiliser des outils d analyse via les portails proposés et / ou proposer d'enrichir le "catalogue" d outils proposé et / ou de proposer des evolutions des logiciels et autres.... Il y a ainsi un va et vient entre communauté et outils, rien n'est fixe et vous pouvez faire evoluer les choses. On propose aujourd hui, ds le cadre de ce projet preparatoire, de tester les outils deja mis en place, en profitant de l environnement proposé par la pf genouest, de tester l'application de ces concepts e-science sur un nombre restreint de communauté ciblés, afin de posséder des infos essentielles pour un futur passage a l'echelle dans le cadre par exemple de la mise en place d un centre eScience. Pour cela, on veut des gens de Brest! L ideal serait d'avoir une communauté a un assez haut niveau meta, un peu transversale au niveau thematique et egalement regroupant des equipes de recherches distribuees sur le territoire (brest et rennes, ecologie et genomique?) et aussi une communauté bien plus ciblée et restreinte (archés extremophile). eBGO HUB (collaboration) EMME portal (data management ) Galaxy instance (data analysis) GO4Bioinformatics (education) Olivier Collin
42
Prospective “processes in which the people do the creative work and the machine does the administration” Tim Berners-Lee
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.