La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

2017/10/6 Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into.

Présentations similaires


Présentation au sujet: "2017/10/6 Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into."— Transcription de la présentation:

1 2017/10/6 Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench. Then, Galaxy is used to hide the complexity of the infrastructure and to allow creation, execution and sharing of workflows. To access to Galaxy, you need to have an LDAP Genotoul login and password. **** L'objectif de la plateforme Galaxy est de rendre les logiciels de bioinformatique sous Linux accessibles aux biologistes. Pour cela, Galaxy permet de masquer la complexité de l'infrastructure et permet la création, le partage et l'exécution de chaînes de traitement. L'interface web de Galaxy est conviviale et permet la création et la supervision de workflows. Cet outil est aussi bien destiné aux biologistes et qu'aux développeurs. Pour vous connecter à la plateforme Galaxy, il vous sera nécessaire de vous authentifier avec votre login et votre mot passe LDAP Genotoul. 1

2 2017/10/6 Galaxy Training days Public : Personnes souhaitant traiter des données (bio)informatiques sans connaissances spécifiques en informatique (sans avoir à connaître Linux et la ligne de commande). Liste des sessions disponibles :

3 2017/10/6 Vos traitements bioinformatiques avec GALAXY Philippe Bardou – Sarah Maman – Sabrina Legoueix-Rodriguez Avril 2016

4 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. Vidéo disponible sur « sig-learning » 4

5 Galaxy Project Equipe “Galaxy project” :
2017/10/6 Galaxy Project Equipe “Galaxy project” : Le Center for Comparative Genomics and Bioinformatics - Penn State, Des départements “Biology” et “Mathematics and Computer Science” de l’Université d’Emory. Une communauté active autour de cet outil. Anton Nekrutenko Penn State Nate Coraor Penn State James Taylor Emory 5

6 Instance intégrée dans une communauté
2017/10/6 Instance intégrée dans une communauté Groupe de travail Galaxy IFB Documentation collaborative (wiki) Formations (mise en commun agenda PF) Architecture Intégration d’outils (Tool Shed) Un groupe de travail national a été créé l’an dernier autour de qqs instances françaises de Galaxy. Le principal objectif de ce groupe de travail est de fédérer des actions collectives autour de cet interface web : conférences, partage des connaissances. Le site web « galaxy ifb » détaille ces objectifs et liste les évènements organisés par le groupe : formations, réunions. Ce groupe de travail soutenu par l’IFB (Institu Français de Bioinformatique). 6

7 Une « Galaxy » parmi tant d’autres
2017/10/6 Une « Galaxy » parmi tant d’autres Serveur public ( ): Gratuit & “open source”, Quota limité, petits jeux de données, Impossible d’ajouter des banques, génomes, outils. Données non protégées. Une communauté nationnale et internationnale très active : Listes de diffusion (US, FR) Wiki Twitter "Galaxy tour de France" L’instance locale Sigenae de Galaxy : Maintenue par Sigenae. Intégration possible de nouveaux outils / scripts / génomes … → Présentation des particuliarités de l’instance Sigenae. 7

8 Galaxy « la bioinformatique pour tous »
2017/10/6 Inutile de savoir : Lancer une ligne de commande, un script Programmer en perl, python, shell … Inutile de s’inquiéter pour son disque dur: Jobs lancés sur un cluster de calculs. Pas d’archivage de fichiers sur votre PC. Inutile d’attendre la fin d’un traitement: Possibilité de lancer plusieurs jobs en parallèle Partir prendre un café, fermer votre navigateur, puis voir les résultats le lendemain. Vous pouvez : Lancer des traitements depuis votre navigateur, Dupliquer des traitements, Partager des analyses complètes, et ceci de manière très intuitive ! 8

9 Contexte d’utilisation dans un laboratoire
2017/10/6 Contexte d’utilisation dans un laboratoire Complémentaire au « cahier de laboratoire » → Retrouver les données, les outils, les références pour la publication …. Manipuler facilement et rapidement les informations de votre fichier. Utiliser des outils bioinformatiques. Construction de chaînes de traitement. Intégration de vos propres outils. → Galaxy devient VOTRE BOITE A OUTILS. 9

10 Gestionnaire de tâches
2017/10/6 Comment fonctionne Galaxy ? Galaxy est installée sur une machine virtuelle qui envoie les calculs à un cluster. Utilisateur de Galaxy Envoie de données Récupération des résultats Envoie des jobs Serveur Web Galaxy Gère la file d'attente Gestionnaire de tâches Exécute Cluster de calculs 10

11 Comment ouvrir un compte sur Genotoul ?
2017/10/6 Comment ouvrir un compte sur Genotoul ? 1 – Ouvrir un compte sur Genotoul : Formulaire de demande de compte: (Menu / Help/ Create an account ) 2 – Accéder à Galaxy à l’aide du login/mot de passe obtenus : Plateforme Galaxy permet de traiter des fichiers bioinformatiques ET INFORMATIQUES (pour lancer des lignes de commande linux).

12 3 2 1 4 Interface simplifiée Interface divisée en 4 parties :
2017/10/6 Interface simplifiée Interface divisée en 4 parties : 1 - Liste des outils disponibles. 2 - Visualisation de l’outil utilisé, historique, dataset ou workflow. 3 - Historique ou workflow détaillé. 4 - Menu . 1 3 4 2 Votre écran est divisé en trois parties : 1- A gauche : vous trouverez la liste des outils linux et bioinformatiques disponibles pour le traitement de vos fichiers et de vos données. 2 - A droite, l'ensemble des fichiers de données que vous utilisez ainsi que les outils que vous avez sélectionné. Cette colonne se nomme "historique" car elle liste les fichiers et les outils utilisés. Chaque historique peut être nommé par vos soins et est, automatiquement, archivé. 3 - Au centre, selon le menu sélectionné en haut de l'écran, s'affichent les datasets, les workflow, les historiques ... ****  Your screen is divided into three parts: 1 - Left: There is a list of Linux and bioinformatics tools available to process your files and data On the right, all your datasets and tools used to process these datasets are listed here. This colum is called "historic". Each history can be nammed and is automatically archived In the center, above you will find Galaxy menu and below, Galaxy interface displays datasets, workflows, histories ... 12

13 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics Plateforme 13

14 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 14

15 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 15

16 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 16

17 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 17

18 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 18

19 Votre analyse en quelques clics
2017/10/6 Votre analyse en quelques clics 19

20 Le vocabulaire spécifique à Galaxy
2017/10/6 Le vocabulaire spécifique à Galaxy Un DATASET est un fichier de données (fichiers d’entrée, fichiers résultats) : Donnée(s) 1 Dataset Votre HISTORIQUE est un « répertoire » qui « liste » l’ensemble de vos fichiers de données (fichiers d’entrée, fichier résultat) utilisés ou générés par un TOOL : Dataset 1 Dataset 3 Dataset 2 Historique 1 Historique 2 Historique 3 Votre WORKFLOW est un ensemble : fichiers, outils, traitements. Tool 20

21 Principaux onglets ANALYSE DATA : Page d’accueil de Galaxy.
2017/10/6 Principaux onglets ANALYSE DATA : Page d’accueil de Galaxy. WORFLOW : Liste des workflows . SHARED DATA : Liste des datasets, historiques et workflows partagés. VISUALIZATION : Outil de visualisation de vos fichiers résultats. USER : Accès à vos historiques et datasets sauvegardés. Depuis la barre du menu principal en haut de votre écran, vous avez accès aux onglets suivants : Analyse Data : pour accéder à la première page de Galaxy. Cette page est divisée en trois zones (a gauche, les outils, au centre les paramétrages, et à droite l’historique des fichiers de données et des traitements). Workflow : Liste de l’ensemble de vos workflows et, éventuellement, de ceux que vous partagez avec d’autres utilisateurs de Galaxy. Shared data : Liste des fichiers de données que vous avez téléchargés dans votre interface Galaxy ainsi que les historiques, les workflows et les graphiques de visualisation de vos résultats que vous avez éventuellement partagés avec d’autres utilisateurs de Galaxy. Visualisation : Il s’agit d’un outil de visualisation, comme IGV, mais spécifique à Galaxy. Cette outil vous permet de visualiser vos fichiers résultats. Help : Il s’agit d’un ensemble de liens vers les pages Internet du projet Galaxy. A ne pas confondre avec l’administration de l’outil Galaxy au sein de l’INRA. Ces liens donnent accès à : un support, un wiki, des vidéos tutoriels ainsi que le texte à copier pour citer Galaxy dans vos publications. User : cet onglet vous identifie (login et nom public) et vous permet d’accéder à vos historiques et fichiers de données sauvegardés. Les onglets les plus couramment utilisés, tout au moins lors de vos premiers pas dans l’usage de l’interface Galaxy, sont « Analyse Data » et « User / Saved Histories ». ***** 21

22 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. 22

23 Deux méthodes de téléchargement de vos données privées
2017/10/6 Deux méthodes de téléchargement de vos données privées Solution 1 (recommandée si vos fichiers sont sur Genotoul) : « Upload local file from filesystem path ». Solution 2 : « Upload file from your computer, with a copy on server ». L’espace disque utilisé n’est pas celui de votre PC. Vos traitements ne sont pas limités par la capacité de votre PC. Dans un premier temps, vous importez vos fichiers de données grâce à l’interface « Analyse Data / Get Data». Puis vos fichiers de données téléchargés sont automatiquement archivés dans « User / Saved Datasets ». ***** First of all, you have to import your data files thanks to "Data Analysis / Get Data" tool. Then your data files downloaded are automatically archived in "User / Saved Datasets". 23

24 2017/10/6 Présentation de NG6 NG6 (Next Generation Sequencing Information System) : Environnement de stockage et de mise à disposition des données issues des nouvelles technologies de séquençage. Organisé autour des notions de projet et de run, permet un accès sécurisé aux données brutes, aux statistiques de traitements ainsi qu'aux assemblages et annotations produites. Galaxy permet de traiter des fichiers bioinformatiques ET INFORMATIQUES (pour lancer des lignes de commande linux).

25 Téléchargement de données publiques
2017/10/6 Téléchargement de données publiques Données UCSC, Ensembl, BIOMART : Pour accéder à UCSC : menu « Analyze Data », puis « Get Data » / « UCSC Main table browser ». Pour télécharger des fichiers de données, sélectionner vos paramètres, puis cliquer sur « Get output », puis sélectionner les données dont vous avez besoin et téléchargez les avec « Send query to Galaxy ». Le fichier choisi est automatiquement importé dans vos datasets Galaxy. ***** To access UCSC: menu "Analyze Data", then "Get Data" / "UCSC Main table browser". To download data files : select your settings, click on "Get output", select the data you need and download them with "Send query to Galaxy." The selected file is automatically imported into your Galaxy history. 25

26 2017/10/6 Exercice 1 : Connexion à Galaxy, exploration de l’interface, téléchargement de datasets 26

27 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. 27

28 Gestion de vos historiques
2017/10/6 Gestion de vos historiques Conserver toutes les étapes de vos analyses. Partager vos analyses. A chaque (re)run d’un outil, un nouveau dataset est créé. Les données ne sont pas écrasées. Répéter, autant de fois que nécessaire, une analyse en modifiant vos paramètres pour explorer les différences de résultats. 28

29 Historiques sauvegardés, publiés et partagés
2017/10/6 Historiques sauvegardés, publiés et partagés Vos historiques sont automatiquement sauvegardés. Pour partager ou publier un historique : User / Saved histories / Cliquer sur le nom de l’historique / Share ou Publish Vos historiques publiés sont accessibles à l’ensemble des utilisateurs loggés sur Galaxy (Shared Data / Published Histories). Les historiques partagés sont accessibles uniquement à un utilisateur spécifique (Hitory / Option / Histories Shared With Me). 29

30 Comment lancer un job sans ligne de commande ?
2017/10/6 Comment lancer un job sans ligne de commande ? 1 – Télécharger vos données : 2 – Choisir un outil dans « Tools » : Puis vous faites appel aux différents outils utiles au sein de cette interface « Analyse Data ». L’ensemble des étapes sont enregistrées dans un historique qui est automatiquement archivé dans « User / Saved Histories » et que vous pouvez ensuite, si besoin, partager dans « Shared Data / Published Histories ». **** Then you select relevant tool in "Data Analysis", on the left side of Galaxy interface. All steps are automatically recorded in a history which is also automatically archived in "User / Saved Histories" and then, you can, if necessary, share your history and/or dataset thanks to "Shared Data / Published Histories." 3 – Lancer le job en cliquant sur « Executer ». L’execution du job en cours est visible dans votre historique. Fini les lignes de commande ! 30

31 Comment suivre l’execution de mes jobs
2017/10/6 Comment suivre l’execution de mes jobs Etat 1 – GRIS : Votre job est en file d’attente. Etat 2 – JAUNE : Votre job est en cours d’execution Etat 3 – VERT : Votre job est fini. Bug - ROUGE : Votre job est planté ! 31

32 Mail à sigeane-support
2017/10/6 Mail à sigeane-support Bug - ROUGE : Votre job est planté ! Voici les informations à transmettre par mail à : Le contenu (copier/coller) du bug ou/et (i)/stderr Un share de votre historique. Vous pouvez aussi créer un ticket sous Redmine. 32

33 Liste des historiques et exécution de mes jobs
2017/10/6 Liste des historiques et exécution de mes jobs Analyse en cours Analyse en attente Analyse en erreur Analyse OK Rapidement, beaucoup de données sont générées → D’où l’importance de bien renommer ses historiques / datasets / workflows pour les trier et les organiser au mieux. 33

34 Compléments d’informations sur vos jobs
2017/10/6 Compléments d’informations sur vos jobs (*) Outils Sigenae Accès à plus d’options de l’outil Affichage de la ligne de commande et des étapes de traitement 34

35 2017/10/6 Créer un workflow Depuis une page blanche, vous pouvez concevoir un workflow. Aide : les résultats produits sont typés, il n’est donc pas possible de brancher un dataset sur un mauvais tool ! Pour lancer plusieurs jobs en même temps, vous pouvez enregistrer un workflow à partir d’un historique donné (History panel / click Options → Extract Workflow). **** To run multiple jobs simultaneously, you can save a workflow from a given historical (History panel / click Options → Extract Workflow). 35

36 Trop de datasets dans votre workflow ?
2017/10/6 Trop de datasets dans votre workflow ? Si tout est coché, alors tout se passe comme si rien est coché. Si le dataset n'est pas coché, alors qu'au moins un autre est coché, alors le dataset non coché ne sera pas visible dans l'historique. Sauf si l'utilisateur choisi d'afficher les fichiers cachés, alors, dans cette config uniquement, il pourra le voir. Si un 2ieme (ou plus) dataset est coché , alors il sera visible dans l'historique après analyse. 36

37 Exporter votre historique en workflow.
2017/10/6 Exporter votre historique en workflow. Depuis votre fenêtre « History » , vous pouvez extraire un workflow. 37

38 Exécution d’un workflow
2017/10/6 Exécution d’un workflow Cliquer sur le menu « Workflow » pour lister vos workflows : Vous pouvez ensuite, depuis le menu « Options », soit : Editer votre workflow pour le commenter et/ou le modifier. Run workflow pour lancer simultanément vos jobs. Le menu « Workflow » vous permet de lister l’ensemble des workflows disponibles. Un clic droit sur le nom d’un workflow permet de l’éditer ou de lancer le workflow sélectionné. **** The menu 'Workflow' allows you to list all available workflows. Right click on the name of a workflow can edit or run it. 38

39 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. 39

40 Les tools Galaxy Menu évolutif et organisé par thématique
2017/10/6 Les tools Galaxy Menu évolutif et organisé par thématique Ajout d’outils sur demande : Tool Shed Wrapper à façon (scripts maison, outils bioinfos) -> Envoyer vos demandes à : 40

41 Outils de traitement de fichiers
2017/10/6 Outils de traitement de fichiers Ces outils sont nombreux et constituent une bonne alternative à la ligne de commande. Voici les principaux outils « non bioinfo » proposés : Join (ex : fichiers lourds), Substract and Group Text Manipulation Filter and sort Convert Formats 41

42 Outils bioinformatiques
2017/10/6 Outils bioinformatiques Mapper un FASTQ sur une référence avec BWA. Visualiser la qualité des données avec FASTQC Report. Visualiser un génome avec UCSC . Dans Galaxy, l’outil « NGS:Mapping → Mapwith BWA for Illumina »  permet d’indexer et d’aligner les séquences. Les deux étapes d’indexation et d’alignement ne sont pas séparées. L’indexation des séquences de référence peut prendre une demi-journée, il est donc préférable d’utiliser un fichier de référence déjà indexé. Pour cela, si vous ne trouvez pas un génome de référence dans le menu déroulant, veuillez demander à l’administrateur de Galaxy si un built-in index de référence indexé est disponible et si, par conséquent, il peut être ajouté à la liste. **** In Galaxy, tool "NGS: Mapping → ​​Map with BWA for Illumina“ tool allows you to index and align sequences. The two-step indexing and alignment are not separated. Index a reference sequences can take half a day, so it is best to use a reference file already indexed. Therefore, if you can not find a reference genome from the dropdown menu, please ask the administrator to Galaxy if a built-in index indexed reference is available and, therefore, it can be added to the list. 42

43 Utilisation d’outils de traitements (bio-)informatiques.
2017/10/6 Exercice 2 & 3 : Utilisation d’outils de traitements (bio-)informatiques. Création et partage d’historiques et de workflows. 43

44 Comment gérer son compte ?
2017/10/6 Comment gérer son compte ? Suppression des datasets, historiques et workflows inutiles. Suppression temporaire ≠ Suppression permanente (purge) Organiser son espace de travail pour maîtriser son quota. 44

45 Revoir les historiques temporairement supprimés
2017/10/6 Revoir les historiques temporairement supprimés 45

46 Comment citer Galaxy dans vos publications ?
2017/10/6 Comment citer Galaxy dans vos publications ? Pour vos publications, citer: Les outils utilisés (nom, version). Le workflow généré. Les références Sigenae et « Galaxy project ». 46

47 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. 47

48 Statistiques d’utilisation de Galaxy international
2017/10/6 Statistiques d’utilisation de Galaxy international Statistiques du Galaxy Project Une communauté internationale vivante. Une communauté française grandissante. Belle augmentation des citations Galaxy dans les publications Statistiques de l’instance Galaxy Sigenae / BioInfo Genotoul 23 réponses sur ~40 utilisateurs Historique mensuel des visites ~40 utilisateurs Les 10 plus gros utilisateurs (hors tests Sigenae) utilisent Galaxy dans le cadre de leur projet. Utilisez-vous l’instance Sigenae de Galaxy ? 65% des utilsateurs Galaxy ayant répondus à l’enquête utilisent l’instance Sigenae L’instance Sigenae est intégrée au groupe de travail Galaxy IFB France

49 Présentation de la plateforme Galaxy. Premiers pas dans l’instance.
2017/10/6 Présentation de la plateforme Galaxy. Premiers pas dans l’instance. Notions d’outils, d’historique et de workflow. Lancement de traitements bioinformatiques. Quelques statistiques. Auto-formations disponibles en ligne. 49

50 FAQ et formation en ligne
2017/10/6 FAQ et formation en ligne Une FAQ et le lien vers « sig-learning » sont disponibles depuis la page d’accueil. Vos supports sont disponibles depuis : 50

51 Votre accès à sig-learning
2017/10/6 Votre accès à sig-learning Taper l’adresse de « sig-learning » : Ou directement depuis Galaxy 1 2 Authentification Onglet « Trainings » pour accéder à vos e-formations : 3

52 Comment s’inscrire à des e-formations ?
2017/10/6 Comment s’inscrire à des e-formations ? Il vous est possible de vous inscrire directement en ligne à une formation : « Trainings » « Trainings management » puis « Subscribe to training » : L’inscription s’effectue via une recherche de la formation par mots clés. Voici donc la liste des formations :

53 Organisation type d’une formation
2017/10/6 Organisation type d’une formation

54 Merci pour votre écoute
2017/10/6 Merci pour votre écoute Questionnaire

55 2017/10/6 Remerciements


Télécharger ppt "2017/10/6 Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into."

Présentations similaires


Annonces Google