La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh

Présentations similaires


Présentation au sujet: "My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh"— Transcription de la présentation:

1 my Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, Franck Tanoh

2 my Grid Le projet my Grid a un ensemble de composants destinés à soutenir la réalisation dexpériences in silico en biologie. Taverna workbench = Un système de gestion de workflows Feta = découverte des services web myExperiment = collaboration + réutilisation des workflows open source

3 Partenaires Première étape du projet fiancée par lEPSRC

4 Soutenir la communauté e-Science aux Royaumes Unis et ses collaborateurs internationaux. OMII-UK

5 Motivations NAR 2007 – 968 base de données EMBL database growth

6 Problèmes Tout est distribuées: Données Ressources Scientifiques Ressources hétérogènes Très peu de standards formats dentrée et de sortie représentation annotation des données Lintégration des données, linteropérabilité des ressources très difficile.

7 Intégration des données bioinformatiques acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa Couper-coller

8 Avantages: Technologie très simple Analyse des résultats pendant lintégration Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs Impossible dappliquer cette technologie au génome/protéome/métabolome Intégration des données bioinformatiques

9 Pipeline programmation Avantages Reproductible Automatique Rapide, fiable, efficace Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de données !!! Intégration des données bioinformatiques

10 Meilleurs solutions ?? Un système qui: Permet dautomatiser lintégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des expériences scientifiques Nécessite peu ou pas de compétences en programmation Fonctionne à partir dun ordinateur de bureau/portable

11 La solution my Grid my Grid permit dautomatiser l exécution d'expériences in silico sur des ressources distribuées à partir dun simple ordinateur de bureau. Technologie basée sur: Services web Workflows Web sémantique

12 Services web Un Service Web est un programme informatique permettant la communication et l'échange de données entre applications et systèmes hétérogènes dans des environnements distribués (Wikipedia). Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter)

13 Workflows Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressources Passent d'un participant à un autre. sequence DNA GenScan Service web Blast Service web Décrivez ce que vous voulez faire Pas besoin dêtres programmeur

14 Moteur de workflows Différents langages, accès, domaines

15 Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et lédition de workflows. Un système d'exécution des workflows sur des données fournies par lutilisateur Un système de visualisation des résultats (3d, html…) Taverna Le tout en un logiciel exécutable à partir de votre ordinateur

16

17 >45000 téléchargements International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007 Taverna

18 Par défaut, Taverna interopère avec: SOAP services web Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java) Taverna

19 Taverna dans la recherche Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données microarray Analyse dimages médicales Simulation cardiaque Etude des Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données

20 Andy Brass Steve Kemp Paul Fisher La trypanosomiase chez les bovins

21 Trypanosomiase chez les bovins Une forme de la maladie du sommeil chez les bovins connue sous le nom ngana causée par Trypanosoma brucei. Les bovins en Afrique (Kenya) résistent a cette forme, ce qui nest pas le cas des bovins Anglais. Quelles sont les causes des différences ?

22 Trypanosomiase chez les bovins Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs )

23 A – Trouver les gènes dans les régions QTL B – Annotation des gènes avec des bases de données externes C – Faire correspondre KEGG ids et gène ids D – Récupérer les données microarray E – pour chaque KEGG gène retrouver sa voie métabolique F – obtenir la description de chaque voie métabolique G – obtenir lannotation de chaque KEGG gène Etude de la Trypanosomiase

24 Résultats Identification du g è ne (Daxx) qui semblerait jouer un rôle dans la r é sistance à la trypanosomiase. Au pr é alable, l analyse manuelle des même donn é es n a pas r é ussi à identifier ce g è ne comme un candidat.

25 Succès du workflow? Chaque donnée est systématiquement analysée Pas besoin de filtrer les données ou émettre des hypothèses en vu de réduire le volume de données. Enregistrement de la provenance des données Volume de données réduit a lissue de lexpérience

26 Gestion des erreurs La plupart des services web nappartiennent pas à my Grid. Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager lutilisation des services fournis par de grands organismes come EMBL, NCBI, DDBJ … Informer lutilisateur lorsqu'un service ne fonctionne pas Ré-exécuter les services Remplacement des services

27 Découverte des services web Plus de services web (seekda 03/08) Difficile de trouver un service particulier? Majorité des services sans descriptions WSDL: input0:string, Output0:string Nom des services fonction des services. e.g serachsimple, seqret On ne peut donc pas uniquement Google les services web

28 La solution my Grid Découverte des services en fonction de leurs: Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées Annotation Sémantique: Annotation manuelle ou automatique des services web à partir de vocabulaires contrôlés (ontologies).

29 Annotation des services web Ontologie bioinformatique WSDL Marquer chaque description avec des termes dans lontologie.

30 Plus de 600 services dans le catalogue de my Grid. Annotation faite par des experts en bioinformatique. En démontrant limportance de lannotation dans lutilisation des services, my Grid vise à encourager les développeurs de services à fournir les annotations à l'avenir. Annotation des services web

31 Feta découverte sémantique Feta, composant de my Grid interroge le catalogue des services web. Exemple de questions: Trouve-moi tous les services qui effectuent un alignement des séquences et acceptent pour input des séquences de protéines avec le format FASTA

32 Interface utilisateur de Feta

33 Provenance et Origine Workflows peuvent générer beaucoup dinformations: Données Métadonnées origine de lexpérience Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues Comment gérer de telles donnes?

34 Le Logbook de my Grid qui, quoi, ou, quand, pourquoi?, comment? Contexte Interprétation Reproductibilité Vérification Crédibilité Smart Tea BioMOBY Bonnes pratiques scientifiques

35 Interface utilisateur du Logbook

36 myExperiment

37 Motivations Workflows = nouvelles rock and roll L'ère des Services web en bioinformatiques

38 Motivations Recyclage, Réutilisation, Réorientation des workflows

39 Motivations Communauté scientifique distribuée et sous équipée

40 myExperiment est… Réseau social pour le scientifique

41 Demo myExperiment

42

43

44

45

46 La communauté de my Grid

47 Taverna2 ou T2 Moteur workflow (enactor) totalement réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des données Taverna sur le grid Glisser-déposer (Drag and drop ) my Grid: nouvelle direction

48 T2: un avant-goût Les erreurs sont également des données

49 T2: un avant-goût

50 Data Manager: plusieurs gestionnaires de données Mémoire Fichiers Disque dur Serveurs

51 Taverna 1.7… Contient un plugin pour T2 Plusieurs mise à jour à suivre courant T2: un avant-goût

52 Biocatalogue Un catalogue de services web

53 Workflow Warehouse Service Catalogue Provenance Warehouse Client Applications Service Ontology Provenance Ontology Une vision globale de myGrid myExperiment Web portal TavernaWorkbenchGUI FetaInformationServices LogbookProvenanceManagement TavernaWorkflowEnactor Middleware (Web Services, Grid Services)

54 Please see for most up to date listhttp://www.mygrid.org.uk/wiki/Mygrid/Acknowledgements

55


Télécharger ppt "My Grid: Une Vision globale Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10 Franck Tanoh"

Présentations similaires


Annonces Google