PhyloJava : une application de phylogénie sur la grille DATAGRID

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Active Directory Windows 2003 Server
Module 5 : Implémentation de l'impression
Serveur jeu Le serveur fait partie d'un logiciel de jeu en ligne multi joueur en architecture client serveur. Il répond à des demandes.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Microsoft Office Groove Le contexte Une utilisation des postes de travail en très grande évolution chez les professionnels. Des lieux de travail.
Implémentation de la gestion de réseau dans Windows 2000 et plus
Sujet BL1 : Simulateur de comportement réactif Bernard Clément Barelli Nicolas Maitrehut Loïc Ould Sidina Mahi Encadrant : Mr Michel Buffa.
Yannick LEGRÉ - DataGrid France - Lyon 31 janvier 2001 Tests de Globus Lancement des algorithmes dArtémis à travers la grille... WP 6 / WP 10.
Rappel des objectifs du WP10
WP10 Vincent BRETON – DataGRID France – Statut du WP10.
TOOLKIT INSTALLATION Disponible pour i686 uniquement sur marianne. ( Version unique pour.
User Support Sophie Nicoud DataGrid France – CPPM 22/09/02.
Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév
Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.
simulateur de réseau de machines UML connectées par WiFi mode ad-hoc
Framework Avancement au Plan Principales avancées pour les parties Ligand, Sites Actifs et Docking Processus dinstallation de.
NFE 107 : Urbanisation et architecture des systèmes d'information
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
Les bases de données biologiques au LBBE
VI. Analyse des solutions techniques
Active Directory Windows 2003 Server
SECURITE DU SYSTEME D’INFORMATION (SSI)
Module 1 : Préparation de l'administration d'un serveur
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.
Sommaire Objectif de Peakup Principes de fonctionnement
Le protocole FTP.
Citrix® Presentation Server 4.0 : Administration
BitDefender Enterprise Manager. BitDefender Enterprise Manager – protection centralisée pour votre réseau Principales fonctions Fonctions spéciales (WMI)
Phylogenetik Conception, développement et tests d’un logiciel en java
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Présentation 1. Consumer/Soho Small BusinessMidsize Business CorporateEnterprise Windows Home Server 1-4 employés 1-4 PCs 1-4 employés 1-4 PCs 5-49 employés.
VI. Analyse des solutions techniques
Courbes de Bézier.
Présentation du mémoire
Module 8 : Maintenance des logiciels à l'aide des services SUS
Module 2 : Préparation de l'analyse des performances du serveur
Solvent eXtraction Database - INTERNET -
Ipchains TP 1 TP 2 TP 3 Installer un serveur web sur votre poste,
Module 5 : Configuration et gestion des systèmes de fichiers
Outil de gestion des cartes grises
JavaScript.
Expose sur « logiciel teamviewer »
Citrix ® Presentation Server 4.0 : Administration Module 11 : Activation de l'accès Web aux ressources publiées.
Formation Bio-informatique IRD
ETL - Pentaho Data Integration
INFORMATION SUR 01 OFFICINE Version 6. 3
CAZIER Kévin JACOB Sébastien Réalisée dans le cadre du Projet Pluridisciplinaire Encadré par Mme Martine COQUET Responsable de l’entreprise.
Séminaire (6-12 Février 2007) Promo. M2 ESCE-Tunis 2006/07
1Auteur : Oleg LODYGENSKY XtremWeb-HEP Atelier Opérations France Grille Lyon – Villeurbanne 13 et 14 octobre.
Visualisation d’un entrepôt de données Pré soutenance technique
Cours MIAGE « Architectures Orientées Services »Henry Boccon-GibodCours MIAGE « Architectures Orientées Services »Henry Boccon-Gibod 1 Architectures Orientées.
En route vers le déploiement . . .
ANNEE SCOLAIRE 2005 / FONCTIONNEMENT DU RESEAU DU COLLEGE Tous les ordinateurs du collèges, portables et fixes sont dans un réseau. Cela signifie.
Introduction aux outils de supervision
Base de données biogéographiques sur Internet
La base de spectres BeSS Une collaboration amateurs/professionnels Ecole d’astrophysique du CNRS La Rochelle – mai 2006 François Cochard.
Développement et maintenance sur le projet RefPack
Recherche heuristique dans les bases de données L’algorithme BLAST
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Présentation Notre intention est créer un système qui compense en temps réel les délais et l’atténuation du son, correspondant à la distance entre la.
Visual Information Solutions IDL 7.0 Pour une utilisation optimale d’IDL.
131, rue de Créqui, Lyon 6ème « L’organisation est une machine à maximiser les forces humaines» - Peter Drucker (économiste )
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.
Mercredi 1er juin 2016 La biologie au centre de calcul Pascal Calvat Centre de calcul.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive.
Transcription de la présentation:

PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie et Biologie Evolutive (BBE) CNRS UMR 5558 - Lyon Réunion Datagrid France IN2P3 - Centre de calcul Lyon, 12 Février 2003

Un peu d ’ étymologie... Phylogenèse : [...] du grec phulon « race, tribu » et genèse, histoire évolutive des espèces, des lignées, et des groupes d ’organismes Définition du « Petit Robert », édition Juin 2000 La phylogénétique est donc la phylogenèse réalisée à partir des gènes (séquences nucléiques ou protéiques) Les résultats sont souvent représentés par des arbres (sous formes parenthésées ou graphique)

Exemples d ’arbres phylogenétique (Xenopus,(Gallus,(((Rattus,Mus),Bos),Homo)))

A quoi sert la phylogenétique ? reconstruire l ’ « arbre de la vie » aide à la découverte de fonction de nouveaux gènes identification de souches bactériennes ou virales traçabilité des aliments ( viandes, poissons…)

Calcul d ’ arbre phylogenétique CLUSTAL W (1.74) multiple sequence alignment Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA Gallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG Bos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG Homo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Mus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG Rattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * * 

PhyloJava PhyloJava est une application qui permet le calcul d’arbres phylogenétiques à partir de fichiers d’alignements de séquences (protéiques ou nucléiques). PhyloJava est constituée par 3 éléments : un client qui permet de visualiser et d’ éditer les alignements et les arbres phylogenétiques. un serveur de méthodes phylogenétique qui exécute les calculs “rapides”. une interface à la grille de calcul DATAGRID (UI : User Interface) permettant de soumettre des calculs plus “lourds”.

Méthodes de calcul Il existe 3 familles de méthodes : basées sur des distances (NJ,BIONJ) => O(n3) maximum de parsimonie (DNAPars) maximum de vraisemblance (FastDNAml) => O(pn) n : num. of seq. Les méthodes basées sur le maximum de vraisemblance sont les plus exactes mais les plus longues à exécuter. Difficile d’ évaluer la « robustesse » de l’arbre par un « bootstrap » qui nécessite le recalcul de plusieurs centaines d’arbres.

Tests de fiabilités des topologies : le « Bootstrap »

Pourquoi utiliser la grille DATAGRID ? permet de lancer de longs calculs de vraisemblances sans « saturer » les machines des laboratoires. disponibilité des ressources de calcul de la grille. accélérer le « bootstrap » en parallélisant le calcul des arbres artificiels. une valeur de bootstrap de 1000 => 1000 jobs sur la grille

Cahier des charges de l ’application (1) édition d ’ arbres et d’ alignement de séquences => choix d ’une application plutôt qu ’un portail Web. muti-plateformes => développement en JAVA. une architecture client-serveur permet au client d’ afficher automatiquement les nouvelles méthodes implémentées sur le serveur. réactivité => possibilité de choisir d ’ exécuter les jobs rapides sur le serveur PhyloJava et les plus longs sur la grille. possibilité d’ interroger l’ état des calculs en cours avertissement de la fin d’ un calcul par mail à l’ utilisateur.

Cahier des charges de l ’application (2) PhyloJava devrait être disponible au printemps 2003 sous formes de paquetages téléchargeables à partir du site web de DATAGRID. Possibilité de télécharger individuellement : le client => peut choisir de se connecter sur le server PhyloJava et utiliser des ressources de la grille à partir de l’ UI du BBE. le serveur => pour implémenter les méthodes de son choix. l’ UI de DATAGRID => pour accéder à la grille : peut être installée sur le serveur ou sur un ordinateur distant. Ce paquetage contiendra les scripts d’interfaçage entre l’ UI et le serveur.

Architecture globale DATAGRID CGI UI Client PhyloJava Serveur Grille de calcul mail User DATAGRID ssh agent grid-proxy cert CGI Inputfile UI trees output Biomserv (SUN, Solaris) Pcgrid1 (Linux, RedHat 7.2)

Choix des méthodes

Sélection des paramètres

Statut des calculs en cours

Edition d’arbres

Tests préliminaires l’ algorithme fastDNAml (méthode de maximum de vraissemblance) a été testé sur la grille : fichier d’alignement nucléique de 22 séquences et 4697 sites. valeurs de bootstrap de 2, 20 et 50. version middleware DATAGRID : edg 1.2.2 ordinateur utilisé pour la comparaison : SUN UltraEnterprise 450 (900Mhz).

Résultats(1)

Résultats(2) pas de gain significatif de la grille par rapport à un ordinateur unique pour de faibles valeurs de bootstrap. résultats encourageants pour des nombres de bootstrap de 50 => accélération des calculs par un facteur de 5. des tests à plus grandes échelles doivent être lancés avec des valeurs de bootstrap de 1000.

Perspectives PhyloJava est une application qui permettra d’utiliser les ressources de la grille de façon transparente pour les biologistes. installation facile => paquetage Java pour le client. Limitations : lorsqu’ un élément d’un calcul est bloqué, c’est tout l’ ensemble des résultats qui est retardé. possibilité de détecter lorsqu’ une opération prends plus de temps que la normale et la relancer. possibilité de stopper un calcul et récupérer un résultats intermédiaire sans perdre le bénéfice du calcul qui a déjà été fait…