myGrid: Une Vision globale

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

MySQL Base de données.
[Nom du présentateur] [Titre/position/statut du présentateur] Webinaire pour [nom du groupe] [Nom de l'institution] [Date]
Les Web Services Schéma Directeur des Espaces numériques de Travail
Sociologie de linnovation Cas GDF-Suez. Présentation de la société GDF-Suez collaborateurs Chiffre daffaires 2008 :83,1 milliards deuros Coté
Nos Partenaires Rencontres ASP.NET : Développement Rapide dApplications Web.
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Les Web Services Schéma Directeur des Espaces numériques de Travail
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
Connecter des données métier à Office SharePoint Server 2007 via le Business Data Catalog.
Une solution personnalisable et extensible
Internet.
Julien HERON.
Guillaume KRUMULA présente Exposés Système et Réseaux IR3 Mardi 5 Février 2008.
Bienvenue dans le programme de formation rapide à NSIS Date : 20 novembre 2003 Intervenant : Julien VICTOR Interlocuteurs : Ingénieurs 2000 Informatique.
Exposé de Système - Informatique et Réseau
TRANSFER Alger – Serveur Web Nicolas Larrousse Septembre Petit historique du Worl Wide Web Notion dHypertexte Extension à internet par Tim Berners.
1 Les technologies XML Cours 1 : Les Web Services et Architectures Orientées Services Fé vrier Version 1.0 -
B. Del-FabbroCFSE05LIFC p.1 Data Tree Manager : Un service de gestion des données persistantes pour le calcul ASP sur la grille Bruno DEL-FABBRO LIFC Besançon,
simulateur de réseau de machines UML connectées par WiFi mode ad-hoc
Framework Avancement au Plan Principales avancées pour les parties Ligand, Sites Actifs et Docking Processus dinstallation de.
Le Workflow et ses outils
Les outils d’intégration continue
Gestion du cycle de vie des applications Lotus Notes Ady Makombo Directeur Teamstudio France
THERESIEN Didier SEBASTIEN 15 septembre 2005
Etude des Technologies du Web services
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
XML-Family Web Services Description Language W.S.D.L.
Module 1 : Préparation de l'administration d'un serveur
Annotations sémantiques pour le domaine des biopuces
Intégration ActiveXML - Xyleme
GT Modèles Formels pour l'Interaction
Module 4 : Maintenance des pilotes de périphériques
Vers un développement ouvert Alexandre Poitras – Développeur indépendant WebÉducation – 24 janvier 2008.
Mobyle & MobyleNetBIOS – – Mobyle & MobyleNet Sébastien Carrere (présentation de Hervé Ménager) Un portail.
BIOS – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Bases de données phénotypique et ontologie
‘‘Open Data base Connectivity‘‘
LES CLIENTS WEB RICHES Tuteur : Olivier CARON LEFEBVRE Benoit
Integration des pipelines d’analyse
Guillaume TORRENTE Marc BOUISSOU Recherche & Développement
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Le web service
Mastère Professionnel Systèmes de Communication et Réseaux
17 fevrier 2010 – MobyleNet – Un poisson pilote dans l'océan des web- services BioMoby Sébastien Carrere INRA-CNRS Laboratoire.
Initiation à la conception des systèmes d'informations
S'initier au HTML et aux feuilles de style CSS Cours 5.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Présentation février 2002 Relations Visiblement Meilleures.
Banques de données en bio-informatique
Cours MIAGE « Architectures Orientées Services »Henry Boccon-GibodCours MIAGE « Architectures Orientées Services »Henry Boccon-Gibod 1 Architectures Orientées.
Initiation au JavaScript
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Web Services 17/01/2009.
MobyleNet – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Chapitre 17 Sauvegardes.
Les solutions de travail collaboratif
La gestion des bases de données
Création d’applications distribuées.NET Ziriad Saibi Relation technique éditeurs de logiciels Microsoft France.
INTRODUCTION AUX BASES DE DONNEES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
CHMI 4206 Bioinformatique appliquée
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Chapitre 12 Surveillance des ressources et des performances Module S41.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Transcription de la présentation:

myGrid: Une Vision globale Franck Tanoh http://www.mygrid.org.uk Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10

myGrid Le projet myGrid a un ensemble de composants destinés à soutenir la réalisation d’expériences in silico en biologie. Taverna workbench = Un système de gestion de workflows Feta = découverte des services web myExperiment = collaboration + réutilisation des workflows open source

Partenaires Première étape du projet fiancée par l’EPSRC NOW – OMII uk node

OMII-UK Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.

Motivations EMBL database growth NAR 2007 – 968 base de données Well over 200 from there. 139 different database for biopathways alone. Lincoln Stein describes it a as a bionation – like italy in the 19th Century.

Problèmes Tout est distribuées: Ressources hétérogènes Données Ressources Scientifiques Ressources hétérogènes Très peu de standards formats d’entrée et de sortie représentation annotation des données L’intégration des données, l’interopérabilité des ressources très difficile.

Intégration des données bioinformatiques Couper-coller 12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa

Intégration des données bioinformatiques Couper-coller Avantages: Technologie très simple Analyse des résultats pendant l’intégration Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs Impossible d’appliquer cette technologie au génome/protéome/métabolome

Intégration des données bioinformatiques Pipeline programmation Avantages Reproductible Automatique Rapide, fiable, efficace Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de données !!!

Meilleurs solutions ?? Un système qui: Permet d’automatiser l’intégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des expériences scientifiques Nécessite peu ou pas de compétences en programmation Fonctionne à partir d’un ordinateur de bureau/portable

La solution myGrid Technologie basée sur: myGrid permit d’automatiser l’exécution d'expériences in silico sur des ressources distribuées à partir d’un simple ordinateur de bureau. Technologie basée sur: Services web Workflows Web sémantique myGrid a partir de ses composant permet d’automatiser l’execution d’experience in silico…..

Services web Avantages: Interopérabilité entre divers logiciels Un Service Web est un programme informatique permettant la communication et l'échange de données entre applications et systèmes hétérogènes dans des environnements distribués (Wikipedia). Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter) Most people familiar with doing a blast online – this is more like submitting a blast job online

Workflows Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressources Passent d'un participant à un autre. sequence DNA GenScan Service web Blast Un système de workflow définit, crée et gère l'exécution de tels processus. Avantages: Automatisation Capture les processus de façon explicite Ennui! L’ordinateurs ne s’ennui pas /distrait/faim/impatients! Économise du temps et des efforts répétés Facile à partager, expliquer, réutiliser Le Scientifiques se consacre a d'autres travaux Décrivez ce que vous voulez faire Pas besoin d’êtres programmeur

Moteur de workflows Différents langages, accès, domaines

Taverna Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et l’édition de workflows. Un système d'exécution des workflows sur des données fournies par l’utilisateur Un système de visualisation des résultats (3d, html…) Le tout en un logiciel exécutable à partir de votre ordinateur 15

Taverna Workflow Workbench http://taverna.sf.net 16

Taverna >45000 téléchargements International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007

Taverna Par défaut, Taverna interopère avec: SOAP services web Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java) Pour ceux qui ne peuvent pas se passer de programmer …. beanshell 18

Taverna dans la recherche Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données microarray Analyse d’images médicales Simulation cardiaque Etude des Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données Pic1: (graves’disease) La maladie de Basedow ou Graves-Basedow, est une thyroïdite, une maladie auto-immune de la thyroïde provoquant une hyperthyroïdie accompagnée de signes cliniques spécifiques. Il s'agit de sa forme la plus fréquente. Elle doit son nom à Carl von Basedow. La maladie de Basedow peut toucher tout le monde, mais plus généralement les femmes entre 20 et 50 ans. Le tabac multiplie par dix le risque de sa survenance et augmente les risques de complications. Pic2: Syndrome de Williams Maladie génétique: une malformation cardiaque, une déficience intellectuelle et des traits faciaux caractéristiques. Causes: Microdélétion hémizygote de 1 500 000 paires de base du locus q11.23 du chromosome 7 retrouvé dans 95 % des cas. Cette microdélétion vient indifféremment du chromosome paternel et maternel. Cette microdélétion entraîne jusqu’à la suppression de plus de 17 gènes Pic3: la trypanosomiase chez les bovins …

Steve Kemp Andy Brass Paul Fisher La trypanosomiase chez les bovins Steve Kemp Andy Brass La Trypanosomiase chez les bovins Paul Fisher http://www.genomics.liv.ac.uk/tryps/trypsindex.html

Trypanosomiase chez les bovins Une forme de la maladie du sommeil chez les bovins connue sous le nom n’gana causée par Trypanosoma brucei. Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est pas le cas des bovins Anglais. Quelles sont les causes des différences? Quelles sont les causes des différences entre les souches sensibles et résistantes?

Trypanosomiase chez les bovins Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs ) Ressources utilisees: donnees microarray, information des sequences genomiques pathway databases

Etude de la Trypanosomiase A – Trouver les gènes dans les régions QTL B – Annotation des gènes avec des bases de données externes C – Faire correspondre KEGG ids et gène ids D – Récupérer les données microarray E – pour chaque KEGG gène retrouver sa voie métabolique F – obtenir la description de chaque voie métabolique G – obtenir l’annotation de chaque KEGG gène Taverna workflow diagram of QTL to pathway

Résultats Identification du gène (Daxx) qui semblerait jouer un rôle dans la résistance à la trypanosomiase. Au préalable, l’analyse manuelle des même données n’a pas réussi à identifier ce gène comme un candidat. Confirmed by the biologists

Succès du workflow? Chaque donnée est systématiquement analysée Pas besoin de filtrer les données ou émettre des hypothèses en vu de réduire le volume de données. Enregistrement de la ‘provenance’ des données Volume de données réduit a l’issue de l’expérience

Gestion des erreurs La plupart des services web n’appartiennent pas à myGrid . Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager l’utilisation des services fournis par de grands organismes come EMBL, NCBI, DDBJ … Informer l’utilisateur lorsqu'un service ne fonctionne pas Ré-exécuter les services Remplacement des services Certain par example developper par des Etudiant PhD.

Découverte des services web Plus de 24 000 services web (seekda 03/08) Difficile de trouver un service particulier? Majorité des services sans descriptions WSDL: input0:string, Output0:string Nom des services fonction des services. e.g serachsimple, seqret Same problem as finding the web resources – say something about WSDL and the inadequacies of this On ne peut donc pas uniquement ‘Google’ les services web

La solution myGrid Découverte des services en fonction de leurs: Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées Annotation Sémantique: Annotation manuelle ou automatique des services web à partir de vocabulaires contrôlés (ontologies). Find a service based on what it does (or was meant to do), and what it consumes as inputs and produces as outputs, and what it uses, or because it matches (somehow) something I have already

Annotation des services web Within myGrid a suite of ontologies have been developed. These ontologies not only model the knowledge of the domain but also provide the necessary mod- elling elements for describing bioinformatics resources (databases, tools) and the services that provide access to them. Figure 3.2 shows the suite of myGrid domain ontologies [95]: ² The upper level ontology is a foundation for all other ontologies; it provides the high-level categories that can be commonly found in a life-sciences on- tology, such as Structure and Substance. ² The Informatics ontology captures basic informatics concepts such as data, database, metadata and so forth. ² The Bioinformatics Ontology builds on the Informatics ontology which has a rather generic view and introduces bioinformatics speci¯c resource descrip- tions such as the SWISS-PROT database, BLAST Application or EMBOSS Tool suite ² The Molecular Biology ontology describes molecular biology concepts, data of which is largely subject to processing and integration within the myGrid domain. Examples of concepts in this ontology are protein, nucleic acid or DNA sequence. ² The Publishing Ontology provides the concepts to be used to describe sci- enti¯c literature, which is important source of biological knowledge in the domain. Examples include article, abstract, citation, reference. ² The Organization Ontology provides concepts to describe organizations and the instances of those concepts such as European Bioinformatics Institute. ² The Task Ontology provides a classi¯cation of tasks that can be performed by a bioinformatics service in myGrid's domain. Examples include retriev- ing, aligning, global aligning, local aligning. Ontologie bioinformatique WSDL Marquer chaque description avec des termes dans l’ontologie.

Annotation des services web Plus de 600 services dans le catalogue de myGrid . Annotation faite par des experts en bioinformatique. En démontrant l‘importance de l’annotation dans l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.

Feta découverte sémantique Feta, composant de myGrid interroge le catalogue des services web . Exemple de questions: Trouve-moi tous les services qui effectuent un alignement des séquences et acceptent pour input des séquences de protéines avec le format FASTA

Interface utilisateur de Feta

Provenance et Origine Comment gérer de telles donnes? Workflows peuvent générer beaucoup d’informations: Données Métadonnées origine de l’expérience Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues Comment gérer de telles donnes?

Le Logbook de myGrid qui, quoi, ou, quand, pourquoi?, comment? Smart Tea qui, quoi, ou, quand, pourquoi?, comment? Contexte Interprétation Reproductibilité Vérification Crédibilité Figures from smarttea and biomoby BioMOBY Bonnes pratiques scientifiques

Interface utilisateur du Logbook

myExperiment

Motivations Workflows = nouvelles rock and roll Workflow: geodise, Taverna, Triana, Kepler “L'ère” des Services web en bioinformatiques

Motivations Recyclage, Réutilisation, Réorientation des workflows

Motivations Communauté scientifique distribuée et sous équipée 39

myExperiment est… Réseau social pour le scientifique Utilise les techniques familier: Shopping, la création de réseaux sociaux, les jeux Un reseau social. Un environnement de publication Une plate-forme pour executer les workflows. Démarré mars 2007. Réseau social pour le scientifique

myExperiment Demo http://www.myexperiment.org

Notice here that myExperiment has more than 600 users

La communauté de myGrid myGrid adopte par differentes communautes: Chimie informatique Astronomie Informatique medicale

myGrid: nouvelle direction Taverna2 ou T2 Moteur workflow (enactor) totalement réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des données Taverna sur le grid Glisser-déposer (Drag and drop )

T2: un avant-goût Les erreurs sont également des données

T2: un avant-goût

T2: un avant-goût Data Manager: plusieurs gestionnaires de données Mémoire Fichiers Disque dur Serveurs T1: impossible de gerer les donnees de qq MBs stock tout dans la mémoire

T2: un avant-goût Taverna 1.7… Contient un plugin pour T2 Plusieurs mise à jour à suivre courant 2008 http://taverna.sourceforge.net/download Nouvelle palette de services ‘Drag and drop’

Biocatalogue Un catalogue de services web

Une vision globale de myGrid Client Applications Workflow Warehouse myExperiment Web portal Taverna Workbench GUI Provenance Ontology Service Ontology Provenance Warehouse Feta Information Services Taverna Workflow Enactor Logbook Provenance Management Service Catalogue Middleware (Web Services, Grid Services)

http://www.mygrid.org.uk 54