Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parViviane Fortin Modifié depuis plus de 9 années
1
UTILISATION DE LA PLATEFORME WEB D’ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex
2
INTRODUCTION Concepts, principes, principaux outils
3
Life Sciences Research evolution http://en.genomics.cn/navigation/show_navigation.ac tion?navigation.id=143 Technological Evolutions Uses Evolution High Performance Computing Data quantity Data size Data heterogeneity Life sciences data = digital
4
Evolution de la recherche Données digitales CapteursAnalyseursUtilisateurs Séquenceur Caméra sous marine Microscopes électronique Puce à ADN Spectromètre de masse IRM Sondeurs GPS
5
GALAXY Concepts, Principe, Présentation
6
Concepts Portail web d’analyse de données initialement orienté NGS Interface « user friendly » pour utiliser des outils bio- informatiques pas toujours « user friendly » Utilisation de formulaires xml pour recréer les lignes de commandes Intégration d’outils en différents langage (Python, Perl, Bash, R, Ruby, …) Utilisation « explicite » pour un non informaticien Faciliter la réanalyse Optimiser les ressources de traitements (calcul, stockage et réseaux Outil équivalent : Mobyle (ex : http://mobyle.genouest.org/)http://mobyle.genouest.org/
7
Concepts Faciliter l’intégration d’outils Pas de développement « graphique » Création d’un descripteur Liaison avec le logiciel ou le script Supporte de nombreux langages dont Bash, Python, Perl, R, … Faciliter l’analyse par des non-bio-informaticiens Pas besoin de connaitre des langages de programmation Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils Faciliter le partage jeux de données, historiques, visualisations, workflows, pages, … Optimisation des ressources informatiques
8
Concepts Orientation principalement NGS mais flexible! Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … La fonctionnalité de workflow : La cerise sur le gâteau! Galaxy = Environnement complet Analyse, Visualisation, Workflows, Partage, … Vision simplifiée mais efficace Prise en main intuitive Rapidité et simplicité Outil essentiel dans le cadre du 4 ième paradigme Accessibilité Reproductibilité Transparence Optimisation
9
Principe -cluster -poste de travail -cloud … Ressources de calcul Logiciels bio- informatiques Ressources de stockage -Blast -Bowtie -Velvet … -cluster -poste de travail -cloud … Banques de données biologiques -Génomes -Protéines -structures … 1 2 3 4 5 6 1-Récupération de la donnée 2-Recherche et utilisation d’un outil 3-besoin de données externes? 4-envoi de l’analyse sur calculateur 5-récupération des résultats 6-Enregistrement des données générées
10
Présentation Panneau d’ outils Historique Espace d’affichage des informations Formulaire d’un Outil, donnée, historiques sauvegardés, … Barre de menu Analyse / workflow / Shared data / visualisation
11
Présentation : Mode analyse Get Data Upload File
12
Présentation : Mode analyse 1er jeu de données de l’historique
13
Présentation : Mode analyse 1er jeu de données de l’historique
14
Présentation : Mode analyse Contenu du fichier Prévisualisation
15
Présentation : Mode analyse Formulaire de l’outil Outil Cut columns from a table Jeu de données d’entrée Paramètres de l’outil
16
Présentation : Mode analyse Exécution de l’outil Nouveau jeu de données en création
17
Présentation : Mode analyse Remplissage de l’historique Visualisation du nouveau jeu de données en création
18
LA VISUALISATION
19
Présentation : Mode visualisation Trackster : orienté NGS et génomique Visualisation d’un jeu de donnée par piste, ici 8, en fonction des positions génomiques
20
Présentation : Mode visualisation Phyloviz : Arbres phylogénétique Visualisation d’un jeu de donnée par visualisation
21
LES WORKFLOWS Concepts, principes, principaux outils
22
Concepts Google : Requête « workflow + bio-informatique » Galaxy Biorigami Wokflow ou automatisation de processus Pérennisation des processus analytiques Sortir de la logique « projet » Création de processus d’analyses génériques Outil permettant d’exécuter un ensemble de processus de façon automatique Pipelines très présents en bio-info même si peu utilisés! Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens
23
Principes Génériques Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline Lancer des analyses sur des architectures matérielles complexes Cluster Grilles de calculs Cloud Formalisation du processus d’analyse Enchaînement de boîtes
24
Exemples d’outils Faciles à prendre en main mais moins flexibles Galaxy Mobyle Taverna Knime BioMOBY … Difficiles à prendre en main mais plus flexibles Ergatis Pegasys WildFire Kepler …
25
Principes extrait de « Accelerating the scientific exploration process with scientific workflows«Accelerating the scientific exploration process with scientific workflows Ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi:10.1088/1742-6596/46/1/065 doi:10.1088/1742-6596/46/1/065
26
Workflow pour la Biologie Bio-informatique Biologie Informatique -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse -Proposer des ressources techniques fiables et adaptées
27
WORKLOW IN GALAXY Fonctionnement
28
Galaxy Workflows et… workflows Coût de développement variable Création en 10 minute. Un workflow = 1 outil! Projet de collaboration sur x années Portée variable nombre d’utilisateurs nombre de communautés utilisatrices
29
Des données au workflow : L’historique Provenance des donnéesSuivi des traitements Conversion vers un workflow Notion d’historiqueNotion de workflow
30
Créer un workflow
31
GALAXY BY GENOUEST Avantages, limites et verrous identifiés
32
Avantages génériques Gestion des ressources Mécanisme d’intégration
33
Avantages génériques Gestion des métadonnées Exploitation au niveau des composants Type de données d’entrée et sortie Annotation de l’outil
34
Avantages génériques Gestion de l’accessibilité Reproductibilité
35
Avantages génériques Gestion de l’accessibilité Partage, échange, publication
36
Avantages génériques Gestion de l’accessibilité Partage, échange, publication
37
Avantages génériques Gestion d’exécution Dans Galaxy
38
Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster
39
Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API Cloud
40
Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API
41
Avantages : Worflows Gestion de l’édition Visualisation Mécanisme d’intégration
42
Avantages : Worflows Gestion des composants Liens entre composants Ajout, modification, suppression facilité Ajout/suppression de composants
43
Avantages : Worflows Gestion des actions Modification des actions d’un composant Renommer la sortie Changer le format de donnée Assigner des colonnes Notification par email Sorties d’outils = sorties de workflow? Si oui, le préciser Si non, les sorties seront cachées
44
Avantages Administration
45
Limites et verrous Quelques difficultés Version des outils
46
Limites et verrous Quelques difficultés Version des outils
47
Limites et verrous Quelques difficultés Version des outils Simplifié… donc Difficulté à gérer les entrées et sorties multiples Modifications lors du lancement possibles mais limitées
48
Limites et verrous Quelques difficultés La parallélisation Pistes : Utilisation de l’API et du cloud…
49
Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes
50
Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes Mais nécessite De s’occuper de l’administration complète la présence des outils (liens vides souvent) Perte des avantages du système Notre vision Pas ou peu fait pour une utilisation locale Privilégier le cloud
51
Références Galaxy Page d’accueil wiki : http://wiki.galaxyproject.org/FrontPagehttp://wiki.galaxyproject.org/FrontPage Vidéos : http://wiki.galaxyproject.org/Learnhttp://wiki.galaxyproject.org/Learn Workflows publics : https://usegalaxy.org/workflow/list_publishedhttps://usegalaxy.org/workflow/list_published J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, 2010. Biorigami Galaxy : un workflow pour l’analyse bioinformatique 12/2011 http://www.biorigami.com/?p=1480http://www.biorigami.com/?p=1480 Workflows : http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218 MyExperiment Find, use and share scientific workflows : http://www.myexperiment.org/http://www.myexperiment.org/ Solutions logicielles KNIME : http://www.knime.org/http://www.knime.org/ BioKepler : http://www.biokepler.org/http://www.biokepler.org/ Taverna : http://www.taverna.org.uk/http://www.taverna.org.uk/ Solutions en ligne de commande Makeflow: http://www3.nd.edu/~ccl/software/makeflow/http://www3.nd.edu/~ccl/software/makeflow/ …..
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.