La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Construction de chaines d'analyses automatisées (Galaxy)

Présentations similaires


Présentation au sujet: "Construction de chaines d'analyses automatisées (Galaxy)"— Transcription de la présentation:

1 Construction de chaines d'analyses automatisées (Galaxy)
Yvan Le Bras Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, Rennes Cedex

2 INTRODUCTION Concepts, principes, principaux outils

3 Life Sciences Research evolution
Data quantity Data heterogeneity Data size Technological Evolutions Uses Evolution BGI 20 Po données par an 7 centres ( cœurs) LHC 15 Po données par an (8200 processeurs, 8 Po) High Performance Computing Life sciences data = digital

4 Evolution de la recherche
Données digitales Capteurs Analyseurs Utilisateurs Spectromètre de masse Séquenceur IRM Microscopes électronique Sondeurs Caméra sous marine GPS Puce à ADN

5 Concepts Google : Requête « workflow + bio-informatique »
Galaxy Biorigami Wokflow ou automatisation de processus Pérennisation des processus analytiques Sortir de la logique « projet » Création de processus d’analyses génériques Outil permettant d’exécuter un ensemble de processus de façon automatique Pipelines très présents en bio-info même si peu utilisés! Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens

6 Principes Génériques Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline Lancer des analyses sur des architectures matérielles complexes Cluster Grilles de calculs Cloud Formalisation du processus d’analyse Enchaînement de boîtes

7 Exemples d’outils Faciles à prendre en main mais moins flexibles
Galaxy Mobyle Taverna Knime BioMOBY Difficiles à prendre en main mais plus flexibles Ergatis Pegasys WildFire Kepler

8 Principes extrait de « Accelerating the scientific exploration process with scientific workflows« Ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi: / /46/1/065 

9 Workflow pour la Biologie
-Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Informatique -Proposer des ressources techniques fiables et adaptées

10 Galaxy by GenOuest Retours d’expérience

11 Galaxy Faciliter l’intégration d’outils
Pas de développement « graphique » Création d’un descripteur Liaison avec le logiciel ou le script Supporte de nombreux langages dont Bash, Python, Perl, R, … Faciliter l’analyse par des non-bio-informaticiens Pas besoin de connaitre des langages de programmation Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils Faciliter le partage jeux de données, historiques, visualisations, workflows, pages, … Optimisation des ressources informatiques

12 Galaxy Orientation principalement NGS
mais flexible! Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … La fonctionnalité de workflow : La cerise sur le gâteau! Galaxy = Environnement complet Analyse, Visualisation, Workflows, Partage, … Vision simplifiée mais efficace Prise en main intuitive Rapidité et simplicité Outil essentiel dans le cadre du 4ième paradigme Accessibilité Reproductibilité Transparence Optimisation

13 Galaxy Workflows et… workflows Coût de développement variable
Création en 10 minute. Un workflow = 1 outil! Projet de collaboration sur x années Portée variable nombre d’utilisateurs nombre de communautés utilisatrices

14 Worklow in Galaxy Fonctionnement

15 Des données au workflow : L’historique
Notion d’historique Notion de workflow Provenance des données Suivi des traitements Conversion vers un workflow

16 Créer un workflow

17 Galaxy by GenOuest Avantages, limites et verrous identifiés

18 Avantages Gestion de l’édition Visualisation Mécanisme d’intégration

19 Avantages Gestion des composants Liens entre composants
Ajout, modification, suppression facilité Ajout/suppression de composants

20 Avantages Gestion des métadonnées
Exploitation au niveau des composants Type de données d’entrée et sortie Annotation de l’outil

21 Avantages Gestion des actions Modification des actions d’un composant
Renommer la sortie Changer le format de donnée Assigner des colonnes Notification par Sorties d’outils = sorties de workflow? Si oui, le préciser Si non, les sorties seront cachées

22 Avantages Gestion de l’accessibilité Reproductibilité

23 Avantages Gestion de l’accessibilité Partage, échange, publication

24 Avantages Gestion de l’accessibilité Partage, échange, publication

25 Avantages Gestion d’exécution Dans Galaxy

26 Avantages Gestion d’exécution Dans Galaxy
Gestion des jobs sur un cluster

27 Avantages Gestion d’exécution Dans Galaxy
Gestion des jobs sur un cluster À distance : API

28 Avantages Gestion d’exécution Dans Galaxy
Gestion des jobs sur un cluster À distance : API Cloud

29 Avantages Administration

30 Limites et verrous Quelques difficultés Version des outils

31 Limites et verrous Quelques difficultés Version des outils

32 Limites et verrous Quelques difficultés Version des outils
Simplifié… donc Difficulté à gérer les entrées et sorties multiples Modifications lors du lancement possibles mais limitées

33 Limites et verrous Quelques difficultés La parallélisation
Pistes : Utilisation de l’API et du cloud…

34 Solutions proposées Local, en ligne ou via le cloud
Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes

35 Solutions proposées Local, en ligne ou via le cloud
Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes Mais nécessite De s’occuper de l’administration complète la présence des outils (liens vides souvent) Perte des avantages du système Notre vision Pas ou peu fait pour une utilisation locale Privilégier le cloud

36 Références Galaxy Biorigami MyExperiment Solutions logicielles
Page d’accueil wiki : Vidéos : Workflows publics : J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, 2010. Biorigami Galaxy : un workflow pour l’analyse bioinformatique 12/2011 Workflows : MyExperiment Find, use and share scientific workflows : Solutions logicielles KNIME : BioKepler : Taverna : Solutions en ligne de commande Makeflow: …..


Télécharger ppt "Construction de chaines d'analyses automatisées (Galaxy)"

Présentations similaires


Annonces Google