Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parNicodème Soulier Modifié depuis plus de 10 années
1
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA - Traitement de données et Informatique Distribuée en Rhône-Alpes.
2
Contexte biologique Bases de données dédiées à la phylogénomique HOVERGEN ( vertébrés), HOGENOM( génome complets), etc. Principe : pour chaque base de données: Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul dalignement et darbre phylogénétique pour chaque famille Généralisation Création dune base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases Calcul de similarité sur toutes les séquences de protéine : BLAST de 8,000,000 x 8,000,000 séquences
3
Technologie grille et services associés RAGRID (Grille Rhône-Alpes) 7000 coeurs (cpu) 7000 coeurs (cpu) 300 To de stockage 300 To de stockage 5 Noeuds 5 Noeuds LAPP (Annecy) LAPP (Annecy) LPSC (Grenoble) LPSC (Grenoble) IPNL (Lyon) IPNL (Lyon) IBCP (Lyon) IBCP (Lyon) CC-IN2P3 ( Lyon) CC-IN2P3 ( Lyon)
4
Technologie grille et services associés RAGRID (Grille Rhône-Alpes) Middleware: Middleware: Job management : gLite, LRMS Job management : gLite, LRMS Stockage : iRODS, SRM Stockage : iRODS, SRM Utilisateur : JSAGA implemtantation SAGA Utilisateur : JSAGA implemtantation SAGAvo.rhone-alpes.idgrilles.fr
5
Ressources SE/SRM CE/WN SE/SRM CE/WN
6
UI SE/SRM WN SE/SRM Control et Load balancing WMS SE/SRM WN
7
UI SE/SRM WN SE/SRM Stokage distribuée et catalogue global de Données LFC SE/SRM WN Job
8
UI WN Optimisation de calcul Serveur MyProxy WN Job
9
Client WN Gestion et stokage centralisé avec IRODS IRODS cluster WN Job
10
8 millions de séquences à blaster: Stratégie Programme BLAST 2.2.17 options standards Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA 30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire
11
Tache unitaire : blast dun fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences. Une tache unitaire représente un temps de calcul assez court. Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches 8 millions de séquences à blaster: Stratégie
12
1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération dune nouvelle liste de fichier à traiter 4 - Retour au point 1 8 millions de séquences à blaster: Stratégie
13
Stratégie 1 100 200 300 400 1 100 200 300 400 1 100 200 300 400 première production 1 100 200 300 400 deuxième production
14
Stratégie Déroulement dun job numéro N: Récupération de différents outils via lcg-cp: outils iRODS outils pour lestimation du temps de calcul outils pour la gestion des proxy Renouvellement du proxy Lancement de lapplication: Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle: Traite le fichier i, copie le résultat via iRODS Tant que 95% du temps maximum nest pas atteint, passe au fichier suivant Post traitement: envoi de mail, copie des logs via iRODS
15
Résultats (en cours) 1 200 jobs paramétriques 1 200 jobs paramétriques 5 280 millions dheures S12K 5 280 millions dheures S12K jobs de 20h jobs de 20h Calcul en 1 semaine au lieu de 8 ans Calcul en 1 semaine au lieu de 8 ans
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.