La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

myGrid: Une Vision globale

Présentations similaires


Présentation au sujet: "myGrid: Une Vision globale"— Transcription de la présentation:

1 myGrid: Une Vision globale
Franck Tanoh Rencontre autour de la plate-forme bioinformatiques Rennes,

2 myGrid Le projet myGrid a un ensemble de composants destinés
à soutenir la réalisation d’expériences in silico en biologie. Taverna workbench = Un système de gestion de workflows Feta = découverte des services web myExperiment = collaboration + réutilisation des workflows open source

3 Partenaires Première étape du projet fiancée par l’EPSRC
NOW – OMII uk node

4 OMII-UK Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.

5 Motivations EMBL database growth NAR 2007 – 968 base de données
Well over 200 from there. 139 different database for biopathways alone. Lincoln Stein describes it a as a bionation – like italy in the 19th Century.

6 Problèmes Tout est distribuées: Ressources hétérogènes
Données Ressources Scientifiques Ressources hétérogènes Très peu de standards formats d’entrée et de sortie représentation annotation des données L’intégration des données, l’interopérabilité des ressources très difficile.

7 Intégration des données bioinformatiques
Couper-coller 12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa

8 Intégration des données bioinformatiques
Couper-coller Avantages: Technologie très simple Analyse des résultats pendant l’intégration Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs Impossible d’appliquer cette technologie au génome/protéome/métabolome

9 Intégration des données bioinformatiques
Pipeline programmation Avantages Reproductible Automatique Rapide, fiable, efficace Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de données !!!

10 Meilleurs solutions ?? Un système qui:
Permet d’automatiser l’intégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des expériences scientifiques Nécessite peu ou pas de compétences en programmation Fonctionne à partir d’un ordinateur de bureau/portable

11 La solution myGrid Technologie basée sur:
myGrid permit d’automatiser l’exécution d'expériences in silico sur des ressources distribuées à partir d’un simple ordinateur de bureau. Technologie basée sur: Services web Workflows Web sémantique myGrid a partir de ses composant permet d’automatiser l’execution d’experience in silico…..

12 Services web Avantages: Interopérabilité entre divers logiciels
Un Service Web est un programme informatique permettant la communication et l'échange de données entre applications et systèmes hétérogènes dans des environnements distribués (Wikipedia). Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter) Most people familiar with doing a blast online – this is more like submitting a blast job online

13 Workflows Workflow = chaîne de traitement
Automatisation d'un processus au cours duquel des ressources Passent d'un participant à un autre. sequence DNA GenScan Service web Blast Un système de workflow définit, crée et gère l'exécution de tels processus. Avantages: Automatisation Capture les processus de façon explicite Ennui! L’ordinateurs ne s’ennui pas /distrait/faim/impatients! Économise du temps et des efforts répétés Facile à partager, expliquer, réutiliser Le Scientifiques se consacre a d'autres travaux Décrivez ce que vous voulez faire Pas besoin d’êtres programmeur

14 Moteur de workflows Différents langages, accès, domaines

15 Taverna Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et l’édition de workflows. Un système d'exécution des workflows sur des données fournies par l’utilisateur Un système de visualisation des résultats (3d, html…) Le tout en un logiciel exécutable à partir de votre ordinateur 15

16 Taverna Workflow Workbench
16

17 Taverna >45000 téléchargements
International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007

18 Taverna Par défaut, Taverna interopère avec: SOAP services web
Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java) Pour ceux qui ne peuvent pas se passer de programmer …. beanshell 18

19 Taverna dans la recherche
Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données microarray Analyse d’images médicales Simulation cardiaque Etude des Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données Pic1: (graves’disease) La maladie de Basedow ou Graves-Basedow, est une thyroïdite, une maladie auto-immune de la thyroïde provoquant une hyperthyroïdie accompagnée de signes cliniques spécifiques. Il s'agit de sa forme la plus fréquente. Elle doit son nom à Carl von Basedow. La maladie de Basedow peut toucher tout le monde, mais plus généralement les femmes entre 20 et 50 ans. Le tabac multiplie par dix le risque de sa survenance et augmente les risques de complications. Pic2: Syndrome de Williams Maladie génétique: une malformation cardiaque, une déficience intellectuelle et des traits faciaux caractéristiques. Causes: Microdélétion hémizygote de 1 500 000 paires de base du locus q11.23 du chromosome 7 retrouvé dans 95 % des cas. Cette microdélétion vient indifféremment du chromosome paternel et maternel. Cette microdélétion entraîne jusqu’à la suppression de plus de 17 gènes Pic3: la trypanosomiase chez les bovins …

20 Steve Kemp Andy Brass Paul Fisher
La trypanosomiase chez les bovins Steve Kemp Andy Brass La Trypanosomiase chez les bovins Paul Fisher

21 Trypanosomiase chez les bovins
Une forme de la maladie du sommeil chez les bovins connue sous le nom n’gana causée par Trypanosoma brucei. Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est pas le cas des bovins Anglais. Quelles sont les causes des différences? Quelles sont les causes des différences entre les souches sensibles et résistantes?

22 Trypanosomiase chez les bovins
Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs ) Ressources utilisees: donnees microarray, information des sequences genomiques pathway databases

23 Etude de la Trypanosomiase
A – Trouver les gènes dans les régions QTL B – Annotation des gènes avec des bases de données externes C – Faire correspondre KEGG ids et gène ids D – Récupérer les données microarray E – pour chaque KEGG gène retrouver sa voie métabolique F – obtenir la description de chaque voie métabolique G – obtenir l’annotation de chaque KEGG gène Taverna workflow diagram of QTL to pathway

24 Résultats Identification du gène (Daxx) qui semblerait jouer un rôle
dans la résistance à la trypanosomiase. Au préalable, l’analyse manuelle des même données n’a pas réussi à identifier ce gène comme un candidat. Confirmed by the biologists

25 Succès du workflow? Chaque donnée est systématiquement analysée
Pas besoin de filtrer les données ou émettre des hypothèses en vu de réduire le volume de données. Enregistrement de la ‘provenance’ des données Volume de données réduit a l’issue de l’expérience

26 Gestion des erreurs La plupart des services web n’appartiennent pas à myGrid . Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager l’utilisation des services fournis par de grands organismes come EMBL, NCBI, DDBJ … Informer l’utilisateur lorsqu'un service ne fonctionne pas Ré-exécuter les services Remplacement des services Certain par example developper par des Etudiant PhD.

27 Découverte des services web
Plus de services web (seekda 03/08) Difficile de trouver un service particulier? Majorité des services sans descriptions WSDL: input0:string, Output0:string Nom des services fonction des services. e.g serachsimple, seqret Same problem as finding the web resources – say something about WSDL and the inadequacies of this On ne peut donc pas uniquement ‘Google’ les services web

28 La solution myGrid Découverte des services en fonction de leurs:
Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées Annotation Sémantique: Annotation manuelle ou automatique des services web à partir de vocabulaires contrôlés (ontologies). Find a service based on what it does (or was meant to do), and what it consumes as inputs and produces as outputs, and what it uses, or because it matches (somehow) something I have already

29 Annotation des services web
Within myGrid a suite of ontologies have been developed. These ontologies not only model the knowledge of the domain but also provide the necessary mod- elling elements for describing bioinformatics resources (databases, tools) and the services that provide access to them. Figure 3.2 shows the suite of myGrid domain ontologies [95]: ² The upper level ontology is a foundation for all other ontologies; it provides the high-level categories that can be commonly found in a life-sciences on- tology, such as Structure and Substance. ² The Informatics ontology captures basic informatics concepts such as data, database, metadata and so forth. ² The Bioinformatics Ontology builds on the Informatics ontology which has a rather generic view and introduces bioinformatics speci¯c resource descrip- tions such as the SWISS-PROT database, BLAST Application or EMBOSS Tool suite ² The Molecular Biology ontology describes molecular biology concepts, data of which is largely subject to processing and integration within the myGrid domain. Examples of concepts in this ontology are protein, nucleic acid or DNA sequence. ² The Publishing Ontology provides the concepts to be used to describe sci- enti¯c literature, which is important source of biological knowledge in the domain. Examples include article, abstract, citation, reference. ² The Organization Ontology provides concepts to describe organizations and the instances of those concepts such as European Bioinformatics Institute. ² The Task Ontology provides a classi¯cation of tasks that can be performed by a bioinformatics service in myGrid's domain. Examples include retriev- ing, aligning, global aligning, local aligning. Ontologie bioinformatique WSDL Marquer chaque description avec des termes dans l’ontologie.

30 Annotation des services web
Plus de 600 services dans le catalogue de myGrid . Annotation faite par des experts en bioinformatique. En démontrant l‘importance de l’annotation dans l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.

31 Feta découverte sémantique
Feta, composant de myGrid interroge le catalogue des services web . Exemple de questions: Trouve-moi tous les services qui effectuent un alignement des séquences et acceptent pour input des séquences de protéines avec le format FASTA

32 Interface utilisateur de Feta

33 Provenance et Origine Comment gérer de telles donnes?
Workflows peuvent générer beaucoup d’informations: Données Métadonnées origine de l’expérience Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues Comment gérer de telles donnes?

34 Le Logbook de myGrid qui, quoi, ou, quand, pourquoi?, comment?
Smart Tea qui, quoi, ou, quand, pourquoi?, comment? Contexte Interprétation Reproductibilité Vérification Crédibilité Figures from smarttea and biomoby BioMOBY Bonnes pratiques scientifiques

35 Interface utilisateur du Logbook

36 myExperiment

37 Motivations Workflows = nouvelles rock and roll
Workflow: geodise, Taverna, Triana, Kepler “L'ère” des Services web en bioinformatiques

38 Motivations Recyclage, Réutilisation, Réorientation des workflows

39 Motivations Communauté scientifique distribuée et sous équipée 39

40 myExperiment est… Réseau social pour le scientifique
Utilise les techniques familier: Shopping, la création de réseaux sociaux, les jeux Un reseau social. Un environnement de publication Une plate-forme pour executer les workflows. Démarré mars 2007. Réseau social pour le scientifique

41 myExperiment Demo

42 Notice here that myExperiment has more than 600 users

43

44

45

46 La communauté de myGrid
myGrid adopte par differentes communautes: Chimie informatique Astronomie Informatique medicale

47 myGrid: nouvelle direction
Taverna2 ou T2 Moteur workflow (enactor) totalement réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des données Taverna sur le grid Glisser-déposer (Drag and drop )

48 T2: un avant-goût Les erreurs sont également des données

49 T2: un avant-goût

50 T2: un avant-goût Data Manager: plusieurs gestionnaires de données
Mémoire Fichiers Disque dur Serveurs T1: impossible de gerer les donnees de qq MBs stock tout dans la mémoire

51 T2: un avant-goût Taverna 1.7… Contient un plugin pour T2
Plusieurs mise à jour à suivre courant 2008 Nouvelle palette de services ‘Drag and drop’

52 Biocatalogue Un catalogue de services web

53 Une vision globale de myGrid
Client Applications Workflow Warehouse myExperiment Web portal Taverna Workbench GUI Provenance Ontology Service Ontology Provenance Warehouse Feta Information Services Taverna Workflow Enactor Logbook Provenance Management Service Catalogue Middleware (Web Services, Grid Services)

54 54

55


Télécharger ppt "myGrid: Une Vision globale"

Présentations similaires


Annonces Google