Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA - Traitement de données et Informatique Distribuée en Rhône-Alpes.
Contexte biologique Bases de données dédiées à la phylogénomique HOVERGEN ( vertébrés), HOGENOM( génome complets), etc. Principe : pour chaque base de données: Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul dalignement et darbre phylogénétique pour chaque famille Généralisation Création dune base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases Calcul de similarité sur toutes les séquences de protéine : BLAST de 8,000,000 x 8,000,000 séquences
Technologie grille et services associés RAGRID (Grille Rhône-Alpes) 7000 coeurs (cpu) 7000 coeurs (cpu) 300 To de stockage 300 To de stockage 5 Noeuds 5 Noeuds LAPP (Annecy) LAPP (Annecy) LPSC (Grenoble) LPSC (Grenoble) IPNL (Lyon) IPNL (Lyon) IBCP (Lyon) IBCP (Lyon) CC-IN2P3 ( Lyon) CC-IN2P3 ( Lyon)
Technologie grille et services associés RAGRID (Grille Rhône-Alpes) Middleware: Middleware: Job management : gLite, LRMS Job management : gLite, LRMS Stockage : iRODS, SRM Stockage : iRODS, SRM Utilisateur : JSAGA implemtantation SAGA Utilisateur : JSAGA implemtantation SAGAvo.rhone-alpes.idgrilles.fr
Ressources SE/SRM CE/WN SE/SRM CE/WN
UI SE/SRM WN SE/SRM Control et Load balancing WMS SE/SRM WN
UI SE/SRM WN SE/SRM Stokage distribuée et catalogue global de Données LFC SE/SRM WN Job
UI WN Optimisation de calcul Serveur MyProxy WN Job
Client WN Gestion et stokage centralisé avec IRODS IRODS cluster WN Job
8 millions de séquences à blaster: Stratégie Programme BLAST options standards Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA 30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire
Tache unitaire : blast dun fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences. Une tache unitaire représente un temps de calcul assez court. Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches 8 millions de séquences à blaster: Stratégie
1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x Une fois tous les jobs terminés, génération dune nouvelle liste de fichier à traiter 4 - Retour au point 1 8 millions de séquences à blaster: Stratégie
Stratégie première production deuxième production
Stratégie Déroulement dun job numéro N: Récupération de différents outils via lcg-cp: outils iRODS outils pour lestimation du temps de calcul outils pour la gestion des proxy Renouvellement du proxy Lancement de lapplication: Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle: Traite le fichier i, copie le résultat via iRODS Tant que 95% du temps maximum nest pas atteint, passe au fichier suivant Post traitement: envoi de mail, copie des logs via iRODS
Résultats (en cours) jobs paramétriques jobs paramétriques millions dheures S12K millions dheures S12K jobs de 20h jobs de 20h Calcul en 1 semaine au lieu de 8 ans Calcul en 1 semaine au lieu de 8 ans