La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie.

Présentations similaires


Présentation au sujet: "PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie."— Transcription de la présentation:

1 PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie et Biologie Evolutive (BBE) CNRS UMR Lyon Réunion Datagrid France IN2P3 - Centre de calcul Lyon, 12 Février 2003

2 T. SILVESTRE, GiGn 15 Janvier 2003 Un peu d étymologie... F Phylogenèse : [...] du grec phulon « race, tribu » et genèse, histoire évolutive des espèces, des lignées, et des groupes d organismes * Définition du « Petit Robert », édition Juin 2000 F La phylogénétique est donc la phylogenèse réalisée à partir des gènes (séquences nucléiques ou protéiques) F Les résultats sont souvent représentés par des arbres (sous formes parenthésées ou graphique)

3 T. SILVESTRE, GiGn 15 Janvier 2003 Exemples d arbres phylogenétique (Xenopus,(Gallus,(((Rattus,Mus),Bos),Homo)))

4 T. SILVESTRE, GiGn 15 Janvier 2003 A quoi sert la phylogenétique ? u reconstruire l « arbre de la vie » u aide à la découverte de fonction de nouveaux gènes u identification de souches bactériennes ou virales u traçabilité des aliments ( viandes, poissons…)

5 T. SILVESTRE, GiGn 15 Janvier 2003 Calcul d arbre phylogenétique CLUSTAL W (1.74) multiple sequence alignment Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Gallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Bos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Mus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Rattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * *

6 T. SILVESTRE, GiGn 15 Janvier 2003 PhyloJava PhyloJava est une application qui permet le calcul darbres phylogenétiques à partir de fichiers dalignements de séquences (protéiques ou nucléiques). PhyloJava est constituée par 3 éléments : 1. un client qui permet de visualiser et d éditer les alignements et les arbres phylogenétiques. 2. un serveur de méthodes phylogenétique qui exécute les calculs rapides. 3. une interface à la grille de calcul DATAGRID (UI : User Interface) permettant de soumettre des calculs plus lourds.

7 T. SILVESTRE, GiGn 15 Janvier 2003 Méthodes de calcul u Il existe 3 familles de méthodes : * basées sur des distances (NJ,BIONJ) => O(n 3 ) * maximum de parsimonie (DNAPars) * maximum de vraisemblance (FastDNAml) => O(p n ) n : num. of seq. u Les méthodes basées sur le maximum de vraisemblance sont les plus exactes mais les plus longues à exécuter. u Difficile d évaluer la « robustesse » de larbre par un « bootstrap » qui nécessite le recalcul de plusieurs centaines darbres.

8 T. SILVESTRE, GiGn 15 Janvier 2003 Tests de fiabilités des topologies : le « Bootstrap »

9 T. SILVESTRE, GiGn 15 Janvier 2003 Pourquoi utiliser la grille DATAGRID ? u permet de lancer de longs calculs de vraisemblances sans « saturer » les machines des laboratoires. * disponibilité des ressources de calcul de la grille. u accélérer le « bootstrap » en parallélisant le calcul des arbres artificiels. * une valeur de bootstrap de 1000 => 1000 jobs sur la grille

10 T. SILVESTRE, GiGn 15 Janvier 2003 Cahier des charges de l application (1) u édition d arbres et d alignement de séquences => choix d une application plutôt qu un portail Web. u muti-plateformes => développement en JAVA. u une architecture client-serveur permet au client d afficher automatiquement les nouvelles méthodes implémentées sur le serveur. u réactivité => possibilité de choisir d exécuter les jobs rapides sur le serveur PhyloJava et les plus longs sur la grille. u possibilité d interroger l état des calculs en cours u avertissement de la fin d un calcul par mail à l utilisateur.

11 T. SILVESTRE, GiGn 15 Janvier 2003 u PhyloJava devrait être disponible au printemps 2003 sous formes de paquetages téléchargeables à partir du site web de DATAGRID. u Possibilité de télécharger individuellement : * le client => peut choisir de se connecter sur le server PhyloJava et utiliser des ressources de la grille à partir de l UI du BBE. * le serveur => pour implémenter les méthodes de son choix. * l UI de DATAGRID => pour accéder à la grille : peut être installée sur le serveur ou sur un ordinateur distant. Ce paquetage contiendra les scripts dinterfaçage entre l UI et le serveur. Cahier des charges de l application (2)

12 T. SILVESTRE, GiGn 15 Janvier 2003 Architecture globale User DATAGRID UICGI ssh agent Inputfile Biomserv (SUN, Solaris) Pcgrid1 (Linux, RedHat 7.2) grid-proxy outputtrees mail cert Client PhyloJava Serveur PhyloJava Grille de calcul

13 T. SILVESTRE, GiGn 15 Janvier 2003 Choix des méthodes

14 T. SILVESTRE, GiGn 15 Janvier 2003 Sélection des paramètres

15 T. SILVESTRE, GiGn 15 Janvier 2003 Statut des calculs en cours

16 T. SILVESTRE, GiGn 15 Janvier 2003 Edition darbres

17 T. SILVESTRE, GiGn 15 Janvier 2003 Tests préliminaires u l algorithme fastDNAml (méthode de maximum de vraissemblance) a été testé sur la grille : * fichier dalignement nucléique de 22 séquences et 4697 sites. * valeurs de bootstrap de 2, 20 et 50. * version middleware DATAGRID : edg * ordinateur utilisé pour la comparaison : SUN UltraEnterprise 450 (900Mhz).

18 T. SILVESTRE, GiGn 15 Janvier 2003 Résultats(1)

19 T. SILVESTRE, GiGn 15 Janvier 2003 Résultats(2) u pas de gain significatif de la grille par rapport à un ordinateur unique pour de faibles valeurs de bootstrap. u résultats encourageants pour des nombres de bootstrap de 50 => accélération des calculs par un facteur de 5. u des tests à plus grandes échelles doivent être lancés avec des valeurs de bootstrap de 1000.

20 T. SILVESTRE, GiGn 15 Janvier 2003 Perspectives u PhyloJava est une application qui permettra dutiliser les ressources de la grille de façon transparente pour les biologistes. u installation facile => paquetage Java pour le client. u Limitations : lorsqu un élément dun calcul est bloqué, cest tout l ensemble des résultats qui est retardé. * possibilité de détecter lorsqu une opération prends plus de temps que la normale et la relancer. * possibilité de stopper un calcul et récupérer un résultats intermédiaire sans perdre le bénéfice du calcul qui a déjà été fait…


Télécharger ppt "PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie."

Présentations similaires


Annonces Google