La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Présentations similaires


Présentation au sujet: "Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -"— Transcription de la présentation:

1 Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA - Traitement de données et Informatique Distribuée en Rhône-Alpes.

2 Contexte biologique Bases de données dédiées à la phylogénomique HOVERGEN ( vertébrés), HOGENOM( génome complets), etc. Principe : pour chaque base de données: Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul dalignement et darbre phylogénétique pour chaque famille Généralisation Création dune base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases Calcul de similarité sur toutes les séquences de protéine : BLAST de 8,000,000 x 8,000,000 séquences

3 Technologie grille et services associés RAGRID (Grille Rhône-Alpes) 7000 coeurs (cpu) 7000 coeurs (cpu) 300 To de stockage 300 To de stockage 5 Noeuds 5 Noeuds LAPP (Annecy) LAPP (Annecy) LPSC (Grenoble) LPSC (Grenoble) IPNL (Lyon) IPNL (Lyon) IBCP (Lyon) IBCP (Lyon) CC-IN2P3 ( Lyon) CC-IN2P3 ( Lyon)

4 Technologie grille et services associés RAGRID (Grille Rhône-Alpes) Middleware: Middleware: Job management : gLite, LRMS Job management : gLite, LRMS Stockage : iRODS, SRM Stockage : iRODS, SRM Utilisateur : JSAGA implemtantation SAGA Utilisateur : JSAGA implemtantation SAGAvo.rhone-alpes.idgrilles.fr

5 Ressources SE/SRM CE/WN SE/SRM CE/WN

6 UI SE/SRM WN SE/SRM Control et Load balancing WMS SE/SRM WN

7 UI SE/SRM WN SE/SRM Stokage distribuée et catalogue global de Données LFC SE/SRM WN Job

8 UI WN Optimisation de calcul Serveur MyProxy WN Job

9 Client WN Gestion et stokage centralisé avec IRODS IRODS cluster WN Job

10 8 millions de séquences à blaster: Stratégie Programme BLAST 2.2.17 options standards Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA 30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire

11 Tache unitaire : blast dun fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences. Une tache unitaire représente un temps de calcul assez court. Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches 8 millions de séquences à blaster: Stratégie

12 1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération dune nouvelle liste de fichier à traiter 4 - Retour au point 1 8 millions de séquences à blaster: Stratégie

13 Stratégie 1 100 200 300 400 1 100 200 300 400 1 100 200 300 400 première production 1 100 200 300 400 deuxième production

14 Stratégie Déroulement dun job numéro N: Récupération de différents outils via lcg-cp: outils iRODS outils pour lestimation du temps de calcul outils pour la gestion des proxy Renouvellement du proxy Lancement de lapplication: Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle: Traite le fichier i, copie le résultat via iRODS Tant que 95% du temps maximum nest pas atteint, passe au fichier suivant Post traitement: envoi de mail, copie des logs via iRODS

15 Résultats (en cours) 1 200 jobs paramétriques 1 200 jobs paramétriques 5 280 millions dheures S12K 5 280 millions dheures S12K jobs de 20h jobs de 20h Calcul en 1 semaine au lieu de 8 ans Calcul en 1 semaine au lieu de 8 ans


Télécharger ppt "Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -"

Présentations similaires


Annonces Google