Intervenant(s) : Yvan Le Bras, Olivier Collin

Slides:



Advertisements
Présentations similaires
le cloud d’Orange au service du succès des start-ups innovantes
Advertisements

ESPACE NUMERIQUE DE TRAVAIL ESUP-Portail Campus Numériques et Universités Numériques en Région Montpellier – 1/10/2003.
Espaces numériques de travail 12 mars 2004 Une nouvelle approche sur les usages des T.I.C. Espace Numérique de Travail - Système dInformation Alain Mayeur.
Journée d’échange du 17 Novembre
Atelier sur les Archives Ouvertes mai 2012, Monastir, Tunisie Les Archives ouvertes et les archives institutionnelles. NEREUS : portail européen.
La politique des pôles de compétitivité
Quels éléments d'accélération des processus apportés par les TIC ? Parcours individuels et construction collective Animé par Christine Vaufrey.
UNE PLATEFORME DE SERVICES DÉDIÉE AUX ESPACES RÉGIONAUX INTERNET CITOYEN.
Ateliers d'écriture Capturer les expériences du projet Ateliers d'écriture Capturer les expériences du projet.
Atelier THATCamp Paris mai Qualité de l'information, maintien collaboratif des ontologies, infrastructure mutualisée : quel socle technologique.
Laboratoire d'InfoRmatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon.
Technologies de l'Information et de la Communication
Usages pédagogiques des Espaces Numériques de Travail Mars 2009.
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
Le Workflow et ses outils
Système de stockage réseaux NAS - SAN
THÈSE Présentée et soutenue publiquement par Jérémie VALENTIN
Un classeur numérique en Technologie
FORUM TERRITOIRES ET TIC 21 avril 2008
E-BIOGENOUEST : DÉMONSTRATIONS ET ÉCHANGES AUTOUR DES OUTILS DE LENVIRONNEMENT VIRTUEL DE RECHERCHE Intervenant(s) : Yvan Le Bras, Cyril Monjeaud, Olivier.
Préqualification OMS des Produits Médicamenteux
Un intranet documentaire : concepts, outils et avantages
« Génome, adaptation et environnement »

S3IT- Schéma stratégique des SI et des Télécommunications MEN - MR / DT Les TIC au coeur de la mise à distance de la formation professionnelle en IUFM.
LABEX NUMEV.
L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.
Urbanisation des SI Réalisé par: Kerai yassine kertiou ismail
École de bibliothéconomie et des sciences de l’information 1 Gestion de l’information électronique (GIE) Maîtrise en sciences de l’information EBSI Université.
GALAXY & LE GRAND OUEST Un groupe de travail : GUGGO Plusieurs instances : PCIM Brest (existante) ABiMS Roscoff (existante) GenOuest Rennes (existante)
Construction de chaines d'analyses automatisées (Galaxy)
Integration des pipelines d’analyse
PLATEFORME ELECTRONIQUE DES ASSOCIATIONS PROFESSIONNELLE ET DES SPL [PROJET]
Donner du sens aujourd’hui pour agir sur le futur
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Questions/Réponses Rapport de fin de formation
France Grilles: plan stratégique version du 15 Novembre 2012.
Compétences des enseignants
Nouveaux ATICE lycées et collèges extraits réunion du 9/12/2010 (Ruffec)
APPLICATIONS MÉTIER COLLABORATIONSTOCKAGEPLATE-FORMEIDENTITÉCOMMUNICATIONSPRODUCTIVITÉ SUR SITE SERVICES DE « CLOUD COMPUTING »
1 Le management de projet / II : Un enjeu particulier en amont de la gestion de projet : penser et organiser l’expertise  Enjeux et risques liés à l’articulation.
Usages & Compétences Numériques / Centre de Ressources.
Plate-forme MIRAGE Méso-Informatique Répartie pour des Applications en Géophysique et Environnement.
SI Recherche « Offre de services aux unités » Octobre 2013.
Mise en œuvre d’un portail « OpenSocial » s’appuyant sur la gestion documentaire Nuxeo-DM JRES 2011 –
acquisition des connaissances / appropriation du savoir
5 Les progiciels de gestion et les opportunités associées.
HOPITAL PUBLIC - INTERMEDICA 2002
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Avancement des équipes de rédaction INSPIRE CNIG - Groupe de liaison INSPIRE 8 septembre 2009 Marie-Louise ZAMBON - IGN.
©Conseil économique et social de Bretagne Déployer les ressources matérielles et humaines nécessaires Les trois fonctions informatiques indispensables.
Le Poste de Travail Présentation du poste de travail - Division informatique - Ousmane SOW - DI-8.
Le programme LEADER Ouest Vosgien
Yvan Le Bras, Cyril Monjeaud Plateforme Bioinformatique GenOuest GUGGO Le Groupe de travail des Utilisateurs de Galaxy dans le Grand Ouest.
Ministère de la Fonction Publique et de la Modernisation de l’Administration Rencontre mensuelle avec les responsables informatiques des départements ministériels.
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
1 Deux exemples de management (et d’organisation) de la recherche : le CNRS et l’INRIA Club EEA, Tours, 13 mai 2009.
GenoToul2007 Présentation Bilan 2007 Perspectives Plateforme bioinformatique C. Gaspin, C. Klopp, D. Laborie, J.-M. Larré, C. Noirot.
Lellouche Aaron ITIC Paris
UTILISATION DE LA PLATEFORME WEB D’ANALYSE DE DONNÉES GALAXY Yvan Le Bras Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier.
Société de l’information et régions Politique régionale 1 Les stratégies régionales pour la société de l ’information Jean-Bernard Benhaiem,
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Faciliter votre innovation pour créer de la valeur.
Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.
Dispositif Régional d’Information sur les Mutations Economiques (DRIME) Dispositif Régional d’Information sur les Mutations Economiques (DRIME) Veille.
Stratégie vers les utilisateurs G. Romier. Les utilisateurs 2 environ 750 utilisateurs « nationaux » regroupés en organisations virtuelles (VO) 89 Organisations.
Groupe de Travail Sciences Humaines et Sociales Prospective nationale sur les grilles de production Robert Vergnieux PFT3D - Archéovision Institut Ausonius.
Présentation au conseil scientifique. Une e-infrastructure dédiée au traitement des données Infrastructure distribuée, par les utilisateurs, pour les.
Risque et opportunité Elodie QUEIREL : EDF - UFPI
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules Table Ronde : Quelles orientations pour le CC ? JP2015, Autrans.
Transcription de la présentation:

Intervenant(s) : Yvan Le Bras, Olivier Collin e-Biogenouest, vers un Environnement Virtuel de Recherche (VRE) orienté Sciences de la vie ? Intervenant(s) : Yvan Le Bras, Olivier Collin

E-Biogenouest Programme fédérateur Biogenouest co-financé par les Régions Bretagne et Pays de la Loire 24 mois Lancé depuis Mai 2012 Porteur : Olivier Collin (IRISA) – Animateur : Yvan Le Bras (IRISA)

Objectifs Une démarche E-science

Objectifs Test d’une initiative e-Science Schéma directeur intégrateur Impliquer les différents acteurs de Biogenouest Intégrer les différents aspects du développement de la recherche dans le Grand Ouest et au niveau national Schéma directeur intégrateur Mise en place d’une « plateforme » e-Science Intégration de façon cohérente Résultats du projet eBiogenouest Différentes politiques (Régions, Instituts, Universités,…) Soumission aux différentes tutelles et appels d’offres

POURQUOI ? La Biologie (devient) une science numérique

Contexte « Déluge de données » Evolution technologique NGS première vague *omics Imagerie (ex: 16 To / jour) Evolution technologique Nombre de capteurs Production par capteur Evolution des infrastructures qui deviennent mutualisées Danger : ne pas être en mesure d’analyser les données Opportunité : Plus d’information Plus de précision Plus de points de vue Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp. 728-9

Evolution de la recherche Data quantity Data heterogeneity Data size http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143 Technological Evolutions Uses Evolution BGI 20 Po données par an 7 centres (20 000 cœurs) LHC 15 Po données par an (8200 processeurs, 8 Po) High Performance Computing Life sciences data= digital

Evolution de la recherche Evolution de la Science : Le 4ième paradigme Empirique : description, expérimentation Théorique : modélisation, généralisation Computationnelle : simulation Exploration des données (unification de la théorie, de l’expérience et de la simulation), extraction de connaissances. Emergence des disciplines *info Bioinformatique, Chemoinformatique, Astroinformatique, etc. Il y a mille an Qq centaines d’années Qq dizaines d’années maintenant

Evolution de la recherche Données digitales Capteurs Analyseurs Utilisateurs Spectromètre de masse Séquenceur IRM Microscopes électronique Sondeurs Caméra sous marine GPS Puce à ADN

Evolution de la recherche Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Parler de RH et formation continue / initiale des biologistes qui inclus de plus en plus l’aspect bioinformatique et pourquoi pas info? Il faut changer les usages, redonner du temps aux scientifiques et optimiser l’utilisation des ressources. Informatique -Proposer des ressources techniques fiables et adaptées

Evolution des infrastructures Livre blanc du CNRS Big Data = le 4ième pilier de la science moderne Un enjeu majeur Aspects pas bien pris en compte Sciences de la vie non présentées! … Ceci explique les demandes actuelles : …Pourtant : production annuelle de données estimé à environ 15 Po par le LHC (Grand Collisionneur de Hadrons) quand que le principal centre de séquençage situé en Chine, le BGI, génère 30Po « les avancées scientifiques et l’innovation dans de multiples domaines (dont ceux des sciences de la vie et de l’environnement en pleine explosion actuellement et sans doute rapidement celui des sciences humaines et sociales) dépendent de manière cruciale d’une politique du CNRS, et d’un renforcement des capacités des infrastructures pour le calcul et l’analyse de données » Datacenter

Evolution des usages Le passage au numérique nécessite de nouveaux outils et de nouveaux usages qu’il faut développer Besoin de compétences techniques souvent absentes des groupes de recherche Infrastructure : développer/adopter de nouveaux outils Optimisation des ressources (duplication de la donnée, utilisation du réseau, scripts performants,…) Collaboration scientifique (gestion de projet, échange de ressources, publication,…) Gestion et analyse de données (métadonnées, partage, workflows, DMP…) Infrastructure : développer/adopter de nouveaux usages Centralisation / mutualisation Mais Proximité (géographique et thématique) « People Paradox » L’automatisation provoque des besoins croissants en ressources humaines Gestion des ressources humaines Evolution des métiers Nouvelles compétences

Bascule des coûts : facteur déstabilisant Bioinformatique Séquençage Using Clouds for Metagenomics: A Case Study Wilkening et al. IEEE cluster 2009 La mutualisation des appareillages a été réalisée (ex: Biogenouest) Il faut maintenant mutualiser les moyens humains sur le versant « TIC » et analyse des données

Une discipline en évolution Mutualisation des ressources plates-formes Bascule vers le monde digital centré sur les données Besoin d’interdisciplinarité problèmes devenant des thèmes de recherche TIC Masse de données, intégration de données, etc.

L’approche e-science

e-Science e-Science = Science + TIC «  Research done through distributed global collaboration enabled by the internet, using very large data collections, terascale computing resources and high performance visualization» (Sir John Taylor - 2001) e-Science : trois volets Calcul: grille, cloud Stockage Outils collaboratifs Pas d’initiative française purement e-Science

Caractéristiques e-Science Caractère distribué, pas de point central… … n’empêche pas un guichet unique! Environnement de Recherche Virtuel Portail web Données Logiciels Ressources de traitement Utilisateurs Collaboration Communauté

Le vre Un environnement virtuel de recherche en sciences de la vie

Un début de structuration e-Science? Have an idea & create a group Invite partners Training Education record your data/metadata Write & manage a new Project The beginning of eScience in Western France!!! Manque infrastructure réseau!!!! analyse & share your data/metadata

Un début de structuration e-Science?

I have a dream… Pour les biologistes Pour le développement d’outils perte de temps à apprendre à coder compréhension des outils, leurs paramètres, conserver l’historique des traitements appliqués aux données accéder, partager et visualiser les jeux de données avoir accès à un système de gestion de projet simplifiée… Pour le développement d’outils perte de temps pour le graphique faciliter l’utilisation des outils: Bioinfo Recherche Service temps entre développement, test et production…. Pour la gestion des infrastructures optimiser stockage, calcul et utilisation du réseau… Infrastructure pour la donnée infra de données

Choisissez vous-même la suite… Résultats du sondage Echanges sur les données, l’infrastructure et l’organisation sous forme de questions / sondages Présentation de l’organisation/structuration envisagée de la future initiative e-Science

Echanges sur les donnees Echangeons autour de plusieurs questions

Données Durée de mise à disposition des données L'évolution technologique des appareillages scientifiques induit-elle une obsolescence des données antérieurement produites ? Oui Non Possédez vous une stratégie pour collecter et conserver vos métadonnées Votre laboratoire/équipe a-t-il implémenté un plan de gestion des données ?

Données Comment définissez vous vos données ? Publiques (n'importe qui peut les consulter) Ouverte (éutilisation par tous, sans restriction technique, juridique ou financière)  Sensibles (on ne préfère pas les diffuser) Confidentielles (elles ne doivent pas être diffusées) Propriétaires (leur spécification est contrôlée par une entité privée) Parmi les actions suivantes, identifiez-vous des besoins (aide, formation, développement de logicielles, ...)  Mise en place d'un plan de gestion des données Sauvegarde des données Partage des données Restauration des données Sécurité pour les données sensibles Gestion des métadonnées Maintenance des formats obsolètes Numérisation de documents

Infrastructure Quelles ressources de calcul utilisez vous Poste de travail Cluster de laboratoire Cluster mutualisé Cloud Grille de calcul  Types de ressources  Machine standard (pc portable, pc de bureau) Machine à forte capacité de mémoire (> 8 Go RAM) Machine massivement paralllèle (> 8 CPU/coeurs) Machine dédiée accès disques (rapidité d'accès ou grand espace de stockage) Machine dédiée traitement image Environnement système Windows MacOS Linux

Infrastructure Quels types de logiciels utilisez-vous ? Surtout des logiciels propriétaires Surtout des logiciels open source Logiciels propriétaires et open source (~50/50) Durée de vie des logiciels utilisés courte (< 6 mois (ex: scripts à façon)) moyenne (- de 6 mois à 5 ans (ex : logiciels rapidement obsolètes)) longue (5 - 10 ans (ex: logiciel de référence dans un domaine comme TMEV, CLUSTER, ...)) très longue (>10 ans (ex: logiciel basique et de référence comme BLAST, PHYLIP, EMBOSS, ...)) Pensez-vous que votre connexion réseau limite votre activité ? (transfert de données, accès à des ressources de calcul distantes) 1 = oui, tout à fait 2 = non, pas du tout

Organisation et intérêts Rencontrez-vous actuellement des problèmes liés à l'organisation géographique de vos ressources ? non oui, problèmes de type politique (ouverture entre établissements de tutelles différentes, ...) oui, problèmes de type technique (bande passante, sécurité, ...) Etes vous intéressé(e) par les services suivants ? Mise à disposition de logiciels (via plateforme web par exemple) Développement de logiciels Développement de workflows  Accélération des programmes (parallélisation) Développement web (site internet par exemple) Développement de bases de données Développement cloud (utiliser le cloud dans vos activités) Développement grille de calcul (utiliser les grilles de calcul dans vos activités) Service d'analyse de données

Organisation et intérêts Rencontrez-vous actuellement des problèmes liés à l'organisation géographique de vos ressources ? non oui, problèmes de type politique (ouverture entre établissements de tutelles différentes, ...) oui, problèmes de type technique (bande passante, sécurité, ...) Etes vous intéressé(e) par les services suivants ? Mise à disposition de logiciels (via plateforme web par exemple) Développement de logiciels Développement de workflows  Accélération des programmes (parallélisation) Développement web (site internet par exemple) Développement de bases de données Développement cloud (utiliser le cloud dans vos activités) Développement grille de calcul (utiliser les grilles de calcul dans vos activités) Service d'analyse de données Aller à la conclusion

organisation Une nouvelle plate-forme pour Biogenouest

Articulation Bretagne – Pays de la Loire e-Biogenouest Griote Infrastructure service Structuration recherche Convergence Conclusions Importance des moyens humains mutualisés Lieu physique d’échange, nécessite proximité Infrastructure de calcul et de données Importance de l’intégration

Perspective : Plateforme e-Science Datacenter X Datacenter Z Centre de calcul national Datacenter Y Communautés d’utilisateurs Mésocentre e-Science distribué VRE Grille Biogenouest Xomique Génomique, Ecologie et Environnement Un méso-centre peut être caractérisé par :  Un ensemble de moyens humains, de ressources matérielles et logicielles à destination d’une ou plusieurs communautés scientifiques, issus de plusieurs entités (EPST, Universités, Industriels) en général d’une même région, doté de sources de financement propres, destiné à fournir un environnement scientifique et technique propice au calcul haute performance.   C’est une structure pilotée par un comité scientifique (plus ou moins structuré) et, en principe, évaluée régulièrement. Experts Développement Accompagnement Formations Cloud

plate-forme e-Science : un réseau Maillage du territoire Biogenouest Spécialisation thématique Infrastructure de données à l’échelle du territoire Proximité des plates-formes traditionnelles Mésocentre e-Science distribué Roscoff Brest Rennes Nantes Angers Plate-forme génomique PF protéomique PF métabolomique PF Imagerie Unités de recherche Universités / écoles Structures nationales … e- plate-forme virtuelle (VRE)

Plateforme e-Science La collaboration Coordonner centre e-Science Discipline 1 Coordonner Intégrateurs Integrateurs centre e-Science Ingénieurs Discipline 4 Discipline 2 Discipline n Connecter Traduire

Plateforme e-Science Le développement Standardiser centre e-Science Algorithmes Standardiser centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Modèles Techniques Concepts Partager Simplifier

Plateforme e-Science Les ressources Connecter centre e-Science Veiller Grilles de calcul Connecter centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Cloud computing Clusters de calcul Stockage Veiller Former

Plateforme e-Science Aller à la conclusion Les ressources Connecter Grilles de calcul Connecter centre e-Science Ingénieurs 2 Ingénieurs 3 Ingénieurs n Ingénieurs 1 Cloud computing Clusters de calcul Stockage Veiller Former

Conclusion

Infrastructure de / pour données Gestion : curation, stockage, récupération Bénéfices : Données non « perdues » Pas de doublonnage de la recherche Qualité de la recherche grâce à la ré-analyse Accroissement de la valeur de la recherche par combinaison/intégration des données Permettre de nouvelles recherches C’est ce qui fera la différence Centre de calcul e-Science center Expérimentation Production Centre de données

Enjeux Avantage compétitif pour la recherche et les réponses aux appels d’offre Projets dimensionnants Se structurer pour pouvoir répondre aux appels d’offres à venir Roadmap à l’horizon 2020 Préserver les données produites par les groupes de recherche Optimiser les infrastructures ”A fundamental characteristic of our age is the rising tide of data – global, diverse, valuable and complex. In the realm of science, this is both an opportunity and a challenge.” Riding the Wave report, High-Level Group on Data

Merci de votre attention Le groupe Symbiose IRISA/INRIA GenOuest-Dyliss-Genscale La plate-forme Bio-informatique GenOuest Cyril Monjeaud -Les limites d'1 communauté ne sont pas arrêtées en fonction de notions de tailles mais bien d'objectifs communs à atteindre et donc de processus et .... - Ainsi, des communautés peuvent se former à différents niveaux d'abstraction, que ce soit pour l'hypoxie du flet par exemple ou plus meta comme l'utilisation de la génomique en écologie, mais aussi avec un nombre d'action et / ou type de taches différent à accomplir, uniquement aboutir a la creation de 3 outils d'analyse et d'1 workflow utilisable par la communauté, ou faire de la veille sur un sujet particuliers..... Cette communauté peut utiliser des outils d analyse via les portails proposés et / ou proposer d'enrichir le "catalogue" d outils proposé et / ou de proposer des evolutions des logiciels et autres....  Il y a ainsi un va et vient entre communauté et outils, rien n'est fixe et vous pouvez faire evoluer les choses. On propose aujourd hui, ds le cadre de ce projet preparatoire, de tester les outils deja mis en place, en profitant de l environnement proposé par la pf genouest, de tester l'application de ces concepts e-science sur un nombre restreint de communauté ciblés, afin de posséder des infos essentielles pour un futur passage a l'echelle dans le cadre par exemple de la mise en place d un centre eScience. Pour cela, on veut des gens de Brest! L ideal serait d'avoir une communauté a un assez haut niveau meta, un peu transversale au niveau thematique et egalement regroupant des equipes de recherches distribuees sur le territoire (brest et rennes, ecologie et genomique?) et aussi une communauté bien plus ciblée et restreinte (archés extremophile). eBGO HUB (collaboration) http://www.e-biogenouest.org/ EMME portal (data management ) http://emme.genouest.org/ Galaxy instance (data analysis) http://galaxy.genouest.org/ GO4Bioinformatics (education) http://go4bioinformatics.genouest.org/ Olivier Collin

Prospective “processes in which the people do the creative work and the machine does the administration” Tim Berners-Lee http://www.scilogs.com/eresearch/social-machines/