Construction de chaines d'analyses automatisées (Galaxy)

Slides:



Advertisements
Présentations similaires
SharePoint™ Team Services
Advertisements

Présentation des technologies SharePoint 2007
CRÉER UNE APPLICATION INTERNET RELIEE A UNE BASE DE DONNEES
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Un nouveau site web pour le consortium ESUP Portail 30 Juin 2008 Université Paris Descartes.
Copyright 2009 © Consortium ESUP-Portail ESUP-Days février 2010 Paris Les Espaces d'échanges Esup-Portail.org Paris, 5 Février 2010.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Une solution personnalisable et extensible
INTRODUCTION INTRODUCTION ERGONOMIE Tri par cartes Formulaires Interface Installation Lanceur Documentation TECHNOLOGIES XML + XSL CSS Formulaires génériques.
ISP/ASP ISP ASP Conclusion DESS Réseaux 2000/2001
Guillaume KRUMULA présente Exposés Système et Réseaux IR3 Mardi 5 Février 2008.
1 Les technologies XML Cours 1 : Les Web Services et Architectures Orientées Services Fé vrier Version 1.0 -
3D MEsh Processing Platform
Logiciel de base de données
La gestion de projet 2.0 Un changement de paradigmes
Système de stockage réseaux NAS - SAN
VI. Analyse des solutions techniques
Les outils d’intégration continue
Comparatif des différents CMS Les CMS de E-commerce.
XML-Family Web Services Description Language W.S.D.L.
CMS (Systèmes de gestion de contenu)
Sommaire Objectif de Peakup Principes de fonctionnement
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
E-BIOGENOUEST : DÉMONSTRATIONS ET ÉCHANGES AUTOUR DES OUTILS DE LENVIRONNEMENT VIRTUEL DE RECHERCHE Intervenant(s) : Yvan Le Bras, Cyril Monjeaud, Olivier.
Lycée Louis Vincent Séance 1
RUN BOOK AUTOMATION By Audit - Conseil - Ingénierie - Communication Interactive Gestion déléguée - Process Management - Helpdesk Réseau Infrastructure.
DataLab® Toute la connaissance client en quelques minutes
Développement d’un réseau social professionnel
Visio 2010 : représentez et partagez encore plus simplement vos diagrammes et données
Calculatrice Financière Android
Projet Génie Logiciel & UML, Bases de Données & Interfaces
VI. Analyse des solutions techniques
Clients riches RIA (Rich Internet Application) / RDA
Mobyle & MobyleNetBIOS – – Mobyle & MobyleNet Sébastien Carrere (présentation de Hervé Ménager) Un portail.
La souris danse Espace Régional Internet Citoyen.
Projet CONSULTING SA : GSA ( Gestion du suivi d’activités)
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Portail « Citoyens » - Approbateur Ville de Sherbrooke Formation Telus Portail Municipal Octobre 2007.
PRESENTATION DU LOGICIEL CAPTURE SYSTEM (retour d’expériences) S. BOUDON F.LARRAS Groupe des DM des CLCC - Rencontres des 6 et 7 mai 2010, Marseille.
Intervenant(s) : Yvan Le Bras, Olivier Collin
Les logiciels de gestion bibliographique
GALAXY & LE GRAND OUEST Un groupe de travail : GUGGO Plusieurs instances : PCIM Brest (existante) ABiMS Roscoff (existante) GenOuest Rennes (existante)
Integration des pipelines d’analyse
Marc Bouissou, Guillaume Torrente, EDF
GESTION DE CONTENU Content Management System.
Sébastien Médard GIP RENATER
APC Cache PHP alternatif Présenté par : MASLINE-CAMERINI Antoine.
Cours n°4M2. ESCE (S. Sidhom) Séminaire ( 6-12 Février 2007 ) Promo. M2 ESCE-Tunis 2006/07 Conception d’un système d'information sur Internet Architecture.
09/11/2006 CMS Content Management System Système de Gestion de Contenu.
Présente Conception d’un petit site Web. 2 4-nov-03© Préambule Cette présentation fait suite à celle intitulée « Imaginer, concevoir, mettre.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Soutenance ProJet Individuel
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Introduction au Génie Logiciel
Quels sont les principaux outils mis à disposition ? Comment les optimiser ? Aurélie MOREL – 08/04/2013.
Évaluez votre système de production documentaire en 7 minutes.
Initiation à la conception des systèmes d'informations
Yvan Le Bras, Cyril Monjeaud Plateforme Bioinformatique GenOuest GUGGO Le Groupe de travail des Utilisateurs de Galaxy dans le Grand Ouest.
Introduction et Généralités sur l’Algorithmique
4/13/2017 3:41 PM Intégration Visio SharePoint 2010 Application à la création de Workflows Genève -15 Avril 2010 Michel LAPLANE MVP Visio - WGroupe.
Analyse de données NGS par Galaxy
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
Cours n°4M1.ist-ie (S. Sidhom) UE 203 Promo. M1 IST-IE 2006/07 Conception d’un système d'information sur Internet Architecture trois-tiers : technologies.
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Web Services 17/01/2009.
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Définition d’un CMS Comparatif des différents CMS Les CMS Généraux.
UTILISATION DE LA PLATEFORME WEB D’ANALYSE DE DONNÉES GALAXY Yvan Le Bras Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier.
Transcription de la présentation:

Construction de chaines d'analyses automatisées (Galaxy) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex

INTRODUCTION Concepts, principes, principaux outils

Life Sciences Research evolution Data quantity Data heterogeneity Data size http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143 Technological Evolutions Uses Evolution BGI 20 Po données par an 7 centres (20 000 cœurs) LHC 15 Po données par an (8200 processeurs, 8 Po) High Performance Computing Life sciences data = digital

Evolution de la recherche Données digitales Capteurs Analyseurs Utilisateurs Spectromètre de masse Séquenceur IRM Microscopes électronique Sondeurs Caméra sous marine GPS Puce à ADN

Concepts Google : Requête « workflow + bio-informatique » Galaxy Biorigami Wokflow ou automatisation de processus Pérennisation des processus analytiques Sortir de la logique « projet » Création de processus d’analyses génériques Outil permettant d’exécuter un ensemble de processus de façon automatique Pipelines très présents en bio-info même si peu utilisés! Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens

Principes Génériques Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline Lancer des analyses sur des architectures matérielles complexes Cluster Grilles de calculs Cloud Formalisation du processus d’analyse Enchaînement de boîtes

Exemples d’outils Faciles à prendre en main mais moins flexibles Galaxy Mobyle Taverna Knime BioMOBY … Difficiles à prendre en main mais plus flexibles Ergatis Pegasys WildFire Kepler

Principes extrait de « Accelerating the scientific exploration process with scientific workflows« Ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi:10.1088/1742-6596/46/1/065 

Workflow pour la Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Informatique -Proposer des ressources techniques fiables et adaptées

Galaxy by GenOuest Retours d’expérience

Galaxy Faciliter l’intégration d’outils Pas de développement « graphique » Création d’un descripteur Liaison avec le logiciel ou le script Supporte de nombreux langages dont Bash, Python, Perl, R, … Faciliter l’analyse par des non-bio-informaticiens Pas besoin de connaitre des langages de programmation Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils Faciliter le partage jeux de données, historiques, visualisations, workflows, pages, … Optimisation des ressources informatiques

Galaxy Orientation principalement NGS mais flexible! Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … La fonctionnalité de workflow : La cerise sur le gâteau! Galaxy = Environnement complet Analyse, Visualisation, Workflows, Partage, … Vision simplifiée mais efficace Prise en main intuitive Rapidité et simplicité Outil essentiel dans le cadre du 4ième paradigme Accessibilité Reproductibilité Transparence Optimisation

Galaxy Workflows et… workflows Coût de développement variable Création en 10 minute. Un workflow = 1 outil! Projet de collaboration sur x années Portée variable nombre d’utilisateurs nombre de communautés utilisatrices

Worklow in Galaxy Fonctionnement

Des données au workflow : L’historique Notion d’historique Notion de workflow Provenance des données Suivi des traitements Conversion vers un workflow

Créer un workflow

Galaxy by GenOuest Avantages, limites et verrous identifiés

Avantages Gestion de l’édition Visualisation Mécanisme d’intégration

Avantages Gestion des composants Liens entre composants Ajout, modification, suppression facilité Ajout/suppression de composants

Avantages Gestion des métadonnées Exploitation au niveau des composants Type de données d’entrée et sortie Annotation de l’outil

Avantages Gestion des actions Modification des actions d’un composant Renommer la sortie Changer le format de donnée Assigner des colonnes Notification par email Sorties d’outils = sorties de workflow? Si oui, le préciser Si non, les sorties seront cachées

Avantages Gestion de l’accessibilité Reproductibilité

Avantages Gestion de l’accessibilité Partage, échange, publication

Avantages Gestion de l’accessibilité Partage, échange, publication

Avantages Gestion d’exécution Dans Galaxy

Avantages Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster

Avantages Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API

Avantages Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API Cloud

Avantages Administration

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils Simplifié… donc Difficulté à gérer les entrées et sorties multiples Modifications lors du lancement possibles mais limitées

Limites et verrous Quelques difficultés La parallélisation Pistes : Utilisation de l’API et du cloud…

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes Mais nécessite De s’occuper de l’administration complète la présence des outils (liens vides souvent) Perte des avantages du système Notre vision Pas ou peu fait pour une utilisation locale Privilégier le cloud

Références Galaxy Biorigami MyExperiment Solutions logicielles Page d’accueil wiki : http://wiki.galaxyproject.org/FrontPage Vidéos : http://wiki.galaxyproject.org/Learn Workflows publics : https://usegalaxy.org/workflow/list_published J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, 2010. Biorigami Galaxy : un workflow pour l’analyse bioinformatique 12/2011 http://www.biorigami.com/?p=1480 Workflows : http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218 MyExperiment Find, use and share scientific workflows : http://www.myexperiment.org/ Solutions logicielles KNIME : http://www.knime.org/ BioKepler : http://www.biokepler.org/ Taverna : http://www.taverna.org.uk/ Solutions en ligne de commande Makeflow: http://www3.nd.edu/~ccl/software/makeflow/ …..