Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Slides:

Advertisements

Présentations similaires

Active Directory Windows 2003 Server

Advertisements

Module 5 : Implémentation de l'impression

BAC Professionnel Technicien d’Usinage

DIFFUSION DES DONNEES SOCIO-DEMOGRAPHIQUES AU BURUNDI

Fête de la Science 2011 Le LHC et ses expériences des géants pour sonder le coeur de la matière Bienvenue au Laboratoire De Physique Subatomique et de.

Mise en œuvre de l’informatique décisionnelle

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Yannick LEGRÉ - DataGrid France - Lyon 31 janvier 2001 Tests de Globus Lancement des algorithmes dArtémis à travers la grille... WP 6 / WP 10.

BLAST parallélisé avec une banque de protéines Comparaison avec BLAST sur n machines du protéome de la levure (fichier dentrée de 5 Mo, divisé en n fichiers)

PhyloJava : une application de phylogénie sur la grille DATAGRID

Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév

Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.

Autorisations Utilisation eCATT

Les bases de données biologiques au LBBE

Présentation application GRBL France Telecom

Calculs intensifs pour l étude de l’évolution

Active Directory Windows 2003 Server

Le centre de calcul de l'IN2P3 : une architecture pour le calcul intensif et le stockage de masse Pascal Calvat.

Architecture de grille générique, multi-

GIE Ports du Nord de la France 1 Coupe de principe – Sol Reach Hauteur digue ! Le REACHSTACKER ne peut atteindre que 3 largeurs : Nécessité de retourner.

DEFIS Groupe SRA.

Serveurs Partagés Oracle

Les bons de formation Software Assurance

Segments B,D,E,F et G Ic = 100 mA Ic = 400 mA Courant de la diode = 10 mA Facteur 5 (moyenne) Facteur 7 Coefficient de sécurité 2 Segments B,D,E,F.

BitDefender Enterprise Manager. BitDefender Enterprise Manager – protection centralisée pour votre réseau Principales fonctions Fonctions spéciales (WMI)

Module 4 : Création et gestion de comptes d'utilisateur

Alain Romeyer - 15/06/20041 UMH Machines livrées le 08/04/2005 Configuration choisie (différente des autres sites) : 6 machines SUN Fire V20Z.

Fast and Furious Decision Tree Induction

Présentation de Windows 2000 Quest-ce que Windows 2000? 2 versions principales : 1.Windows 2000 Professionnel : Système dexploitation client (comme Windows.

La Grille de Calcul du LHC

Projet région Thématique prioritaire n°10 Calculs Scientifiques Logiciels Rhône-Alpes : Grille pour le Traitement dInformations Médicales (RAGTIME ?)

1 CGP2P XtremWeb :mise en œuvre et management Laboratoire de laccelerateur lineaire, Paris Sud University, Orsay, France

Lyon, 24/04/2007 Ce que l'application a besoin de connaître: Paramètres physiques par scénario de 150 ans Nombre et numéro d'ordre des mois à effectuer.

LEGO EPISODE III LEGO: simulations climatiques avec DIET E.Maisonnave, V.Pichon.

Ipchains TP 1 TP 2 TP 3 Installer un serveur web sur votre poste,

Qu’est ce qu’une grille ?

Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

31/01/2001Réunionn WP6-Y. Schutz (SUBATECH) 1 Simulation-Reconstruction ALICE Une application pour le TestBed 0 ?

Réseaux LCG France Réunion LCG France 18 Mai 2009.

Plan Définitions et exemples Composants de cluster

Services de production grille en France Gilles Mathieu IN2P3-CC France Grilles Frédérique Chollet IN2P3-LAPP LCG France Rencontres France Grilles et LCG-France,

Les ouvertures au CC Pascal Calvat. Plan 2 Présentation des ouvertures Les besoins des utilisateurs Les solutions apportées par le CCIN2P3 Les ouvertures.

EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.

Fast and Furious Decision Tree Induction Projet 4INFO 1 Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs.

1Auteur : Oleg LODYGENSKY XtremWeb-HEP Atelier Opérations France Grille Lyon – Villeurbanne 13 et 14 octobre.

Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.

Chapitre 17 Sauvegardes.

CPI/BTS 2 Programmation Web Les sites dynamiques Prog Web CPI/BTS2 – M. Dravet – 02/10/2003 Dernière modification: 02/10/2003.

Calcul pour le spatial & le CC-IN2P3 Jean-Yves Nief (CC-IN2P3)

9 février 2010 Enrique Ruiz Mateos Architecte avant-vente Microsoft

Dominique Boutigny Une infrastructure informatique au service des chercheurs et des industriels rhônalpins Journée de lancement de l’initiative TIDRA Traitement.

Système local d’accounting de l’IPHC 31/05/2011 Eric Kieffer.

Mardi 31 mai 2016 JJS (Java Job Submission) Soumission de jobs sur grille Pascal Calvat Centre de calcul.

Mercredi 1er juin 2016 La biologie au centre de calcul Pascal Calvat Centre de calcul.

Mercredi 1er juin 2016 La biologie au centre de calcul Pascal Calvat Centre de calcul.

Biennale du LPNHE 2011, 20/09/ Le projet GRIF-UPMC : évolution et utilisation Liliana Martin Victor Mendoza Frédéric Derue

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Soumission de jobs C. Loomis / M. Jouvin.

INFSO-RI Enabling Grids for E-sciencE Sécurité sur la Grille C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 8 octobre 2007.

EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.

Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.

Tier 2 au LAPP. Plan Historique Objectifs Infrastructures Status/métriques Avenir Conclusion.

Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)

INFSO-RI Enabling Grids for E-sciencE La gestion des données Daniel Jouvenot LAL-IN2P3-CNRS 18/06/2008.

Fonctionnement de la grille

Transcription de la présentation:

Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA - Traitement de données et Informatique Distribuée en Rhône-Alpes.

Contexte biologique Bases de données dédiées à la phylogénomique HOVERGEN ( vertébrés), HOGENOM( génome complets), etc. Principe : pour chaque base de données: Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul dalignement et darbre phylogénétique pour chaque famille Généralisation Création dune base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases Calcul de similarité sur toutes les séquences de protéine : BLAST de 8,000,000 x 8,000,000 séquences

Technologie grille et services associés RAGRID (Grille Rhône-Alpes) 7000 coeurs (cpu) 7000 coeurs (cpu) 300 To de stockage 300 To de stockage 5 Noeuds 5 Noeuds LAPP (Annecy) LAPP (Annecy) LPSC (Grenoble) LPSC (Grenoble) IPNL (Lyon) IPNL (Lyon) IBCP (Lyon) IBCP (Lyon) CC-IN2P3 ( Lyon) CC-IN2P3 ( Lyon)

Technologie grille et services associés RAGRID (Grille Rhône-Alpes) Middleware: Middleware: Job management : gLite, LRMS Job management : gLite, LRMS Stockage : iRODS, SRM Stockage : iRODS, SRM Utilisateur : JSAGA implemtantation SAGA Utilisateur : JSAGA implemtantation SAGAvo.rhone-alpes.idgrilles.fr

Ressources SE/SRM CE/WN SE/SRM CE/WN

UI SE/SRM WN SE/SRM Control et Load balancing WMS SE/SRM WN

UI SE/SRM WN SE/SRM Stokage distribuée et catalogue global de Données LFC SE/SRM WN Job

UI WN Optimisation de calcul Serveur MyProxy WN Job

Client WN Gestion et stokage centralisé avec IRODS IRODS cluster WN Job

8 millions de séquences à blaster: Stratégie Programme BLAST options standards Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA 30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire

Tache unitaire : blast dun fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences. Une tache unitaire représente un temps de calcul assez court. Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches 8 millions de séquences à blaster: Stratégie

1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x Une fois tous les jobs terminés, génération dune nouvelle liste de fichier à traiter 4 - Retour au point 1 8 millions de séquences à blaster: Stratégie

Stratégie première production deuxième production

Stratégie Déroulement dun job numéro N: Récupération de différents outils via lcg-cp: outils iRODS outils pour lestimation du temps de calcul outils pour la gestion des proxy Renouvellement du proxy Lancement de lapplication: Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle: Traite le fichier i, copie le résultat via iRODS Tant que 95% du temps maximum nest pas atteint, passe au fichier suivant Post traitement: envoi de mail, copie des logs via iRODS

Résultats (en cours) jobs paramétriques jobs paramétriques millions dheures S12K millions dheures S12K jobs de 20h jobs de 20h Calcul en 1 semaine au lieu de 8 ans Calcul en 1 semaine au lieu de 8 ans