UTILISATION DE LA PLATEFORME WEB D’ANALYSE DE DONNÉES GALAXY Yvan Le Bras Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

SOLUTION DE VIDEOSURVEILLANCE SUR ip
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Microsoft Office Groove Le contexte Une utilisation des postes de travail en très grande évolution chez les professionnels. Des lieux de travail.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
INTRODUCTION INTRODUCTION ERGONOMIE Tri par cartes Formulaires Interface Installation Lanceur Documentation TECHNOLOGIES XML + XSL CSS Formulaires génériques.
Gestionnaires de contenu en ligne TER BN1 Mario Di Miceli, Maxime Lamure, Damien Mandrioli, Romain Raugi.
Guillaume KRUMULA présente Exposés Système et Réseaux IR3 Mardi 5 Février 2008.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
Galaxy objectives are : First, making bioinfo Linux tools accessible to biogists. Then, it is possible to add Linux tools by developpers into Galaxy workbench.
1 Les technologies XML Cours 1 : Les Web Services et Architectures Orientées Services Fé vrier Version 1.0 -
Logiciel de base de données
Le Workflow et ses outils
Systèmes d’exploitation
La gestion de projet 2.0 Un changement de paradigmes
Système de stockage réseaux NAS - SAN
Cursus des formations informatique Programme
VI. Analyse des solutions techniques
Les outils d’intégration continue
Chapitre 4 : la gestion électronique des documents
XML-Family Web Services Description Language W.S.D.L.
Sommaire Objectif de Peakup Principes de fonctionnement
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Gérard Gasganias Ingénieur Avant-Vente Microsoft France
E-BIOGENOUEST : DÉMONSTRATIONS ET ÉCHANGES AUTOUR DES OUTILS DE LENVIRONNEMENT VIRTUEL DE RECHERCHE Intervenant(s) : Yvan Le Bras, Cyril Monjeaud, Olivier.
Lycée Louis Vincent Séance 1
RUN BOOK AUTOMATION By Audit - Conseil - Ingénierie - Communication Interactive Gestion déléguée - Process Management - Helpdesk Réseau Infrastructure.
Lutilisation de la Cloudwatt-box Emmanuel Keller, CTO OpenSearchServer.
Crystal Reports COPYRIGHT © 2007 BUSINESS OBJECTS SA. TOUS DROITS RÉSERVÉS. DIAPOSITIVE 2 Informatique - Déclaration de positionnement Crystal Reports.
© Nuance Communications, Inc. Tous droits réservés. Page 1 OmniPage Ultimate mai 2013.
Visio 2010 : représentez et partagez encore plus simplement vos diagrammes et données
Calculatrice Financière Android
VI. Analyse des solutions techniques
Mobyle & MobyleNetBIOS – – Mobyle & MobyleNet Sébastien Carrere (présentation de Hervé Ménager) Un portail.
Projet de Master première année 2007 / 2008
La souris danse Espace Régional Internet Citoyen.
Projet CONSULTING SA : GSA ( Gestion du suivi d’activités)
Solvent eXtraction Database - INTERNET -
Intervenant(s) : Yvan Le Bras, Olivier Collin
Construction de chaines d'analyses automatisées (Galaxy)
Integration des pipelines d’analyse
SOLUTION DE VIDEOSURVEILLANCE SUR IP
Quels sont les principaux outils mis à disposition ? Comment les optimiser ? Aurélie MOREL – 08/04/2013.
© all-in-web janvier 2014.
17 fevrier 2010 – MobyleNet – Un poisson pilote dans l'océan des web- services BioMoby Sébastien Carrere INRA-CNRS Laboratoire.
Initiation à la conception des systèmes d'informations
Visio 2010 Plein les yeux 9 février 2010 Frédéric Bojman – Microsoft
© WYNIWYG / Communication, reproduction interdite sauf autorisation.
4/13/2017 3:41 PM Intégration Visio SharePoint 2010 Application à la création de Workflows Genève -15 Avril 2010 Michel LAPLANE MVP Visio - WGroupe.
Analyse de données NGS par Galaxy
Présentation ESTRABOX
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Interprétation de données d’analyses protéomiques sur une grille de calcul : Utilisation d’algorithmes libres pour l’identification MS/MS. Christine CARAPITO.
Les Systèmes de Gestion de Contenu (CMS) Allirand Maud Chabord Grégoire Massart Anne-Sophie 24 novembre 2006.
Définition d’un CMS Comparatif des différents CMS Les CMS Généraux.
La gestion des bases de données
CPI/BTS 2 Programmation Web Les sites dynamiques Prog Web CPI/BTS2 – M. Dravet – 02/10/2003 Dernière modification: 02/10/2003.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Dreamweaver MX Jauneau Marie Claude-Antoine Zarate.
DREAMWEAVER SEANCE 1 Axel JACQUET GM05 – Julien VAN MOORLEGHEM GM05 A2008 Écriture interactive & multimédia Présentation Dreamweaver 8.
Introduction au HTML Qu’est ce que le HTML ?
Installation du PGI – CEGID
SOLUTION DE VIDEOSURVEILLANCE SUR IP. Premier serveur de vidéosurveillance en réseau, CamTrace possède une architecture innovante qui permet d’isoler.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Cloud et Petites entreprises. Stockage de données.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
1 Master Data Management au SANDRE. ADD 27/11/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Présentation de HelloDoc Mail
Transcription de la présentation:

UTILISATION DE LA PLATEFORME WEB D’ANALYSE DE DONNÉES GALAXY Yvan Le Bras Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, Rennes Cedex

INTRODUCTION Concepts, principes, principaux outils

Life Sciences Research evolution tion?navigation.id=143 Technological Evolutions Uses Evolution High Performance Computing Data quantity Data size Data heterogeneity  Life sciences data = digital

Evolution de la recherche Données digitales CapteursAnalyseursUtilisateurs Séquenceur Caméra sous marine Microscopes électronique Puce à ADN Spectromètre de masse IRM Sondeurs GPS

GALAXY Concepts, Principe, Présentation

Concepts Portail web d’analyse de données initialement orienté NGS Interface « user friendly » pour utiliser des outils bio- informatiques pas toujours « user friendly » Utilisation de formulaires xml pour recréer les lignes de commandes Intégration d’outils en différents langage (Python, Perl, Bash, R, Ruby, …) Utilisation « explicite » pour un non informaticien Faciliter la réanalyse Optimiser les ressources de traitements (calcul, stockage et réseaux Outil équivalent : Mobyle (ex :

Concepts Faciliter l’intégration d’outils Pas de développement « graphique » Création d’un descripteur Liaison avec le logiciel ou le script Supporte de nombreux langages dont Bash, Python, Perl, R, … Faciliter l’analyse par des non-bio-informaticiens Pas besoin de connaitre des langages de programmation Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils Faciliter le partage jeux de données, historiques, visualisations, workflows, pages, … Optimisation des ressources informatiques

Concepts Orientation principalement NGS mais flexible! Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … La fonctionnalité de workflow : La cerise sur le gâteau! Galaxy = Environnement complet Analyse, Visualisation, Workflows, Partage, … Vision simplifiée mais efficace Prise en main intuitive Rapidité et simplicité Outil essentiel dans le cadre du 4 ième paradigme Accessibilité Reproductibilité Transparence Optimisation

Principe -cluster -poste de travail -cloud … Ressources de calcul Logiciels bio- informatiques Ressources de stockage -Blast -Bowtie -Velvet … -cluster -poste de travail -cloud … Banques de données biologiques -Génomes -Protéines -structures … Récupération de la donnée 2-Recherche et utilisation d’un outil 3-besoin de données externes? 4-envoi de l’analyse sur calculateur 5-récupération des résultats 6-Enregistrement des données générées

Présentation Panneau d’ outils Historique Espace d’affichage des informations Formulaire d’un Outil, donnée, historiques sauvegardés, … Barre de menu Analyse / workflow / Shared data / visualisation

Présentation : Mode analyse Get Data Upload File

Présentation : Mode analyse 1er jeu de données de l’historique

Présentation : Mode analyse 1er jeu de données de l’historique

Présentation : Mode analyse Contenu du fichier Prévisualisation

Présentation : Mode analyse Formulaire de l’outil Outil Cut columns from a table Jeu de données d’entrée Paramètres de l’outil

Présentation : Mode analyse Exécution de l’outil Nouveau jeu de données en création

Présentation : Mode analyse Remplissage de l’historique Visualisation du nouveau jeu de données en création

LA VISUALISATION

Présentation : Mode visualisation Trackster : orienté NGS et génomique Visualisation d’un jeu de donnée par piste, ici 8, en fonction des positions génomiques

Présentation : Mode visualisation Phyloviz : Arbres phylogénétique Visualisation d’un jeu de donnée par visualisation

LES WORKFLOWS Concepts, principes, principaux outils

Concepts Google : Requête « workflow + bio-informatique » Galaxy Biorigami Wokflow ou automatisation de processus Pérennisation des processus analytiques Sortir de la logique « projet » Création de processus d’analyses génériques Outil permettant d’exécuter un ensemble de processus de façon automatique Pipelines très présents en bio-info même si peu utilisés! Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens

Principes Génériques Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline Lancer des analyses sur des architectures matérielles complexes Cluster Grilles de calculs Cloud Formalisation du processus d’analyse Enchaînement de boîtes

Exemples d’outils Faciles à prendre en main mais moins flexibles Galaxy Mobyle Taverna Knime BioMOBY … Difficiles à prendre en main mais plus flexibles Ergatis Pegasys WildFire Kepler …

Principes extrait de « Accelerating the scientific exploration process with scientific workflows«Accelerating the scientific exploration process with scientific workflows Ilkay Altintas et al 2006 J. Phys.: Conf. Ser doi: / /46/1/065 doi: / /46/1/065

Workflow pour la Biologie Bio-informatique Biologie Informatique -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse -Proposer des ressources techniques fiables et adaptées

WORKLOW IN GALAXY Fonctionnement

Galaxy Workflows et… workflows Coût de développement variable Création en 10 minute. Un workflow = 1 outil! Projet de collaboration sur x années Portée variable nombre d’utilisateurs nombre de communautés utilisatrices

Des données au workflow : L’historique Provenance des donnéesSuivi des traitements Conversion vers un workflow Notion d’historiqueNotion de workflow

Créer un workflow

GALAXY BY GENOUEST Avantages, limites et verrous identifiés

Avantages génériques Gestion des ressources Mécanisme d’intégration

Avantages génériques Gestion des métadonnées Exploitation au niveau des composants Type de données d’entrée et sortie Annotation de l’outil

Avantages génériques Gestion de l’accessibilité Reproductibilité

Avantages génériques Gestion de l’accessibilité Partage, échange, publication

Avantages génériques Gestion de l’accessibilité Partage, échange, publication

Avantages génériques Gestion d’exécution Dans Galaxy

Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster

Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API Cloud

Avantages génériques Gestion d’exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API

Avantages : Worflows Gestion de l’édition Visualisation Mécanisme d’intégration

Avantages : Worflows Gestion des composants Liens entre composants Ajout, modification, suppression facilité Ajout/suppression de composants

Avantages : Worflows Gestion des actions Modification des actions d’un composant Renommer la sortie Changer le format de donnée Assigner des colonnes Notification par Sorties d’outils = sorties de workflow? Si oui, le préciser Si non, les sorties seront cachées

Avantages Administration

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils Simplifié… donc Difficulté à gérer les entrées et sorties multiples Modifications lors du lancement possibles mais limitées

Limites et verrous Quelques difficultés La parallélisation Pistes : Utilisation de l’API et du cloud…

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes Mais nécessite De s’occuper de l’administration complète la présence des outils (liens vides souvent) Perte des avantages du système Notre vision Pas ou peu fait pour une utilisation locale Privilégier le cloud

Références Galaxy Page d’accueil wiki : Vidéos : Workflows publics : J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, Biorigami Galaxy : un workflow pour l’analyse bioinformatique 12/ Workflows : MyExperiment Find, use and share scientific workflows : Solutions logicielles KNIME : BioKepler : Taverna : Solutions en ligne de commande Makeflow: …..