La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Calculs intensifs pour l étude de lévolution Le calcul de larbre du vivant.

Présentations similaires


Présentation au sujet: "Calculs intensifs pour l étude de lévolution Le calcul de larbre du vivant."— Transcription de la présentation:

1 Calculs intensifs pour l étude de lévolution Le calcul de larbre du vivant

2 Le génome Le génome est lensemble du materiel génétique dun individu ou dune espece Le génome est codé sous la forme de une ou plusieurs molécules dADN (par exemple les chromosomes) Il est présent chez tous les organismes vivants: plantes, animaux, insectes, champignons, microbes, bactéries Toutes les cellules dun individu contienent un exemplaire du génome (chaque cellule humaine contient 2 mètres d'ADN environ)

3 Les gènes Il sagit de zones dans le génome qui contiennent linformation sur la construction délements fondamentaux du fonctionnement des cellules, des organes, etc. Par exemple les gènes codent pour les protéines, des polypeptides impliqués a tous les niveaux de la vie cellulaire

4 Diversité des génomes Génome humain : 3,2 milliards de lettres environ gènes Génome de la mouche: 120 millions de lettres environ gènes Génome du maïs: 5 milliards de lettres gènes Génome de la bactérie Escherichia coli 4 millions de lettres gènes

5 Séquençage du génome Il sagit de connaître la « séquence » du génome cest à dire la formule : AATGCATAGTGCCGATG….. Certaines parties du génome sont des gènes qui codent des protéines AATGCATAGTGCCGATGTAGTGCATAGTGC

6 Explosion du nombre de génomes séquencés Cout du séquençage en chute libre (nouvelles technos) Accélération du nombre de génomes séquencés Génome de lhomme: Séquencage du génome humain : 12 ans En 2010 : projet « 1000 Génomes » (1000 génomes humains)

7 Explosion du nombre de génomes séquencés génomes disponibles aujourdhui Quelque projets parmi dautres: Génome 10K: génomes de vertébrés i5K: génomes dinsectes dans les 5 ans 1KP: génomes de plantes

8 Lévolution « rien en biologie na de sens, si ce nest à la lumière de lévolution » Theodosius Dobzhansky ( ) : La diversité des formes de vie est le résultat dun processus historique, fait de hasards et de contraintes : lévolution Comprendre lévolution pour expliquer les formes de vie Comprendre les formes de vie pour retracer lévolution

9 La phylogénie Etude de lhistoire des relation de parentés entre les êtres vivants Anatomie comparée Comparaison de séquence AATTACGATCGATTTACGC AATTGCGATCGATTTACGC AATTCCTATCGATTTACGC On peut observer des similarités entre les séquences intérêt: tous les organismes ont des séquences dADN (alors quils nont pas tous des pattes!) On observe une similarité qui permet de supposer qui il existait un ancêtre commun a ces organes

10 La phylogénie Gènes homologues: ce sont des gènes qui descendent du même gène ancestral Deux séquences présentant une forte similarité de séquence ont de grande chance dêtre des séquences homologues Nombreuse méthodes mathématique permettant de calculer la similarité entre 2 séquences Séquences ADN : 4 lettres Séquences de protéines : 20 lettres

11 La phylogénie Phylogénie dun gène On estime la distance évolutive entre différents gènes On la représente sous la forme dun arbre Phylogénie dun gène présent dans le génome de différents organismes Ces gènes sont des gènes « homologues » Le gène de la souris est plus proche du gène du rat que de celui de la vache : la distance entre gène est proportionelle la longeur de branche

12 La phylogénie Phylogénie des êtres vivants

13 La phylogénie Phylogénie des êtres vivants On utilise la phylogénie dun gène pour proposer une phylogénie des êtres vivants

14 La génomique comparative Autrefois on se basait sur quelques gènes pour reconstruire l histoire évolutive des organismes Mais tous les gènes nont pas la même histoire Aujourdhui on peut utiliser lensemble du génome pour comparer les organismes

15 La phylogénomique Calcul de la phylogénie des especes en se basant sur lensemble de leur génome

16 Projet Ancestrome Etude du fonctionnement et de lorganisation des génomes des êtres vivants actuels dans le but de construire des modèles permettant de connaître le génomes de leurs ancêtres ainsi que les processus évolutifs qui les ont engendrés Entre autres aspects: Base de données HOGENOM Calculs de similarité de séquences Clustering Programme PHYLDOG : Calcul simultané de larbre phylogénetique du vivant et des arbres phylogenétique de chaque gène

17 HOGENOM Base de données de familles de gènes homologues pour tous les génomes On recherche les familles de gènes homologues chez tous les organismes vivants Pour chaque famille on calcule un arbre phylogénétique: un « arbre de gène »

18 HOGENOM Base de données de familles de gènes homologues pour tous les génomes clustering phylogénie etc. génomes protéines génomes (tout lADN) gènes (ADN codant) protéines (traduction du gène)

19 HOGENOM Base de données de familles de gènes homologues pour tous les génomes Environ génomes (dont 140 eukaryotes : mamiferes, oiseaux, plantes etc.) Soit 160 milliards de lettres au total Environ 7 millions de gènes codants soit 3 milliards de lettres Résultat: ces 7 milions de gènes sont classés en familles

20 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Construction des familles de gènes homologues

21 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes protéines Construction des familles de gènes homologues

22 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes protéines Construction des familles de gènes homologues

23 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes protéines Construction des familles de gènes homologues

24 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Recherche de similarités locales entre les séquences (« BLAST ») protéines Construction des familles de gènes homologues

25 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Recherche de similarités locales entre les séquences (« BLAST ») protéines Clustering transitif avec condition (« SILIX») Construction des familles de gènes homologues

26 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Recherche de similarités locales entre les séquences (« BLAST ») protéines Clustering transitif avec condition (« SILIX») Construction des familles de gènes homologues A A A B C D

27 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Recherche de similarités locales entre les séquences (« BLAST ») protéines Clustering transitif avec condition (« SILIX») Construction des familles de gènes homologues A A A B C D B A C D Famille

28 HOGENOM Base de données de familles de gènes homologues pour tous les génomes génomes Marche à suivre

29 HOGENOM Base de données de familles de gènes homologues pour tous les génomes clustering phylogénie etc. génomes protéines Marche à suivre

30 Calcul distribué Parallélisation par les données banque BLAST Plusieurs millions de séquences « requêtes » 1 fichier texte Plusieurs millions de séquences « cibles » Plusieurs milliards de zones similaires entre les séquences

31 Calcul distribué Parallélisation par les données banque BLAST Plusieurs millions de séquences « requêtes » 1 fichier texte Plusieurs millions de séquences « cibles » banque BLAST Quelques dizaines séquences « requêtes » Centaines de milliers de fichiers texte Plusieurs milliards de zones similaires entre les séquences

32 Calcul distribué Parallélisation par les données Chaque calcul est indépendant On peut donc utiliser indifféremment et indépendamment un cluster de machines une grille de calcul le calcul dans le nuage une combinaison des précédents

33 Calculs BLAST incrémentiel sur toutes les séquences connues A chaque nouvelle version de la base, on classe les séquences comme « ancienne » ou « nouvelle » On calcule la similiarité: des nouvelles séquences entre-elles ( BLAST new x new) des nouvelles séquences avec les anciennes ( BLAST new x old) Finalement on ajoute BLAST new x new et BLAST new x old aux similarités de la release précédente (i. e. BLAST old x old)

34 Calculs BLAST incrémentiel sur toutes les séquences connues ReleaseNombre de séquences BLASTS 1 (2009) x (2011) x x (2013) x x

35 HOGENOM Base de données de familles de gènes homologues pour tous les génomes Comparaison de tous les gènes entre eux pour déterminer leur similarité Utilisation dun logiciel (« BLAST ») qui recherche des zones de similarités locales entre les séquences ( approche heuristique)

36 HOGENOM Base de données de familles de gènes homologues pour tous les génomes Exemple: un arbre phylogénetique de gène de HOGENOM Eukaryotes

37 Calculs effectués 1ère Release ( ) env séquences BLAST 8,000,000 x 8,000,000 séquences [grille TIDRA] 2ème Release (2011) env séquences BLAST 5,000,000 nouvelles x 5,000,000 nouvelles [cluster] BLAST 5,000,000 nouvelles x 8,000,000 anciennes [grilles TIDRA/GRISBI] 3ème Release (2013) env séquences BLAST 6,000,000 nouvelles x 6,000,000 nouvelles [cluster] BLAST 6,000,000 nouvelles x 13,000,000 anciennes [cluster]

38 Technologie grille et services associés sur TIDRA (Grille Rhône- Alpes) 7000 cœurs (cpu) 300 To de stockage 5 Sites LAPP (Annecy) LPSC (Grenoble) IPNL (Lyon) IBCP (Lyon) CC-IN2P3 ( Lyon)

39 Technologie grille et services associés TIDRA RAGRID (Grille Rhône- Alpes) Middleware : Job management : gLite, LRMS Stockage : iRODS, SRM Utilisateur : JSAGA implementation SAGA vo.rhone-alpes.idgrilles.fr

40 Mise en place sur TIDRA 1ère release ( ) 1 ère mouture de BGENR : séquences Uniprot (9 millions) 8 millions de séquences non redondantes à comparer. Historique : Mise en place de loutil avec 3 membres du CC - Y.Cardenas, P. Calvat, J.Y. Nief 1 er contact avec la grille Novembre 2008 Premiers tests de charge et développements blast intensifs Février 2009 Arrivée de iRODS Gros soulagement!!!Juin 2009 Début de la production + développementJuillet 2009 Fin de la productionJanvier 2010

41 Mémoire minimum des machines : 2 Go La solidité d'une chaîne dépend du maillon le plus faible : on veut éviter un dépassement de mémoire sur les machines les moins puissantes taille maximum de la banque BLAST : 2 x 10 6 séquences 8 x 10 6 = 4 banques de 2 x 10 6 séquences à traiter itérativement * nombre maximum de séquences à traiter avec une banque 2 x 10 6 : 30 La tâche unitaire compatible avec une mémoire de 2 Go est donc : 4 x BLAST de 30 séquences vs 2 x 10 6 séquences *La taille théorique de la banque BLAST est fixée (option -z) Contraintes dues à la mémoire

42 Le calcul d1 tâche unitaire est très court : env. 15 minutes Bien inférieur au temps disponible dans un job : variable selon les machines quelques heures - quelques jours Chaque job doit exécuter le plus grand nombre possible de tâches unitaires Optimisation du temps passé en calcul

43 Résumé Données ( format FASTA) 1 ère mouture de BGENR : séquences Uniprot (9 millions) : 8 millions non redondantes. Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines Séquences à blaster 8 millions de séquences, soit: 250, 000 fichiers de 30 séquences au format FASTA 30 séquences : nombre maximum de séquences pour éviter un dépassement de mémoire sur les machines les moins puissantes Chaque job doit exécuter le plus grand nombre possible de tâches quelque soit son temps de calcul maximum

44 1 - Liste de tâches à effectuer (250,000 fichiers de 30 séquences) 2 - Chaque job N tente de traiter les 100 tâches à partir de la tâche numéro N x Une fois tous les jobs terminés, génération dune nouvelle liste de tâches à traiter 4 - Retour au point 1 On a choisi un pas de 100 fichiers par job : cest au dessus du nombre de tâches quil est possible de traiter avec les durées les plus longues. Mais on peut ladapter à la production : vers la fin, on prend un pas plus court On utilise des jobs paramètriques, le paramètre est N Stratégie adoptée Plusieurs tâches par job

45 Stratégie première production deuxième production

46 exemple BGENR1 : 8 x 10 6 séquences 1 - Nombre de banques BLAST Nombre de séquences par fichiers Nombre max de fichiers par job Nombre de jobs par job paramétrique Délai entre la soumission des jobs paramétriques 20 mn Paramètres à ajuster:

47 Launcher : source launcher generic_par_irods_lst_new.jdl premier job dernier job nombre de jobs par job paramétrique délai de soumission entre les jobs Le launcher propose une liste de noeuds. Les jobs paramétriques seront répartis sur les noeuds choisis. Ici on a lancé 1000 jobs (de 1 à 1000) par paquets de 40 : 25 jobs paramétriques, temps total soumission = 8h Lancement des jobs script jdl

48 Monitoring Un job de monitoring est lancé qui envoie régulièrement des mails décrivant lavancement des tâches

49 Résultats Rappel : 250,000 fichiers à traiter 250,000 fichiers résultats 2,000,000,000 hits blast concaténation en 200 fichiers de 5 Go (1 To) moyenne de 50 fichiers par job environ 5000 jobs (plusieurs séries) moyenne : 125 jobs x 40 paramétriques x 50 fichiers = moyenne : jobs de 15 heures Calcul en 1 semaine au lieu de 8 ans

50 Description du JDL N est le paramètre du job paramétrique Déroulement dun job numéro N : récupération de différents outils via lcg-cp : outils iRODS outils pour lestimation du temps de calcul outils pour la gestion des proxies Renouvellement du proxy Lancement de lapplication : Copie des programmes BLAST en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter : fichiers numéros (N -1)x à N x 100 Boucle: pour i variant de (N -1)x à N x 100 traite le fichier i, copie le résultat via iRODS tant que 95% du temps maximum nest pas atteint, passe au fichier suivant Post-traitement: envoi de mail, copie des logs via iRODS

51 Mise en place sur TIDRA 2ème release (2011) 2 ère mouture de BGENR : séquences Uniprot + Ensembl + Autres (33 millions de séquences, 12 millions non redondantes) 5 millions de séquences non redondantes, soit 170,000 fichiers de 30 séquences à comparer avec 7 millons de séquence. Nouveaux développements : Outil DTM - Outil JJS - Acces iRODs

52 Mise en place sur TIDRA 2ème release Prototype du DTM (« Distributed Task Manager ») Yonny Cardenas Prototype du DTM (« Distributed Task Manager ») Yonny Cardenas gLite + iRODS gLite + iRODS système de base de données pour la gestion des jobs (runing, ended, canceled,etc.). système de base de données pour la gestion des jobs (runing, ended, canceled,etc.). destination des jobs : à la fois en local, BQS et Grille destination des jobs : à la fois en local, BQS et Grille gestion automatisée de la production (gestion des erreurs, etc.) gestion automatisée de la production (gestion des erreurs, etc.) lutilisateur fournit seulement une liste de tâches, DTM soccupe des jobs et de la production lutilisateur fournit seulement une liste de tâches, DTM soccupe des jobs et de la production Pour linstant fonction uniquement pour BQS, adaptation a la grille en cours

53 Mise en place sur TIDRA 2ème release JJS Java Job Submission (Pascal Calvat) JJS Java Job Submission (Pascal Calvat) commande « jjs-* » pour simplifier lutilisation de la grille : commande « jjs-* » pour simplifier lutilisation de la grille : soumission soumission monitoring monitoring gestion des proxy gestion des proxy gestion automatique de la répartition des jobs sur les noeuds de la grille, analyse de lefficacité des différents noeuds gestion automatique de la répartition des jobs sur les noeuds de la grille, analyse de lefficacité des différents noeuds fonctionne via des jdl crées a partir dun template avec une commande jjs fonctionne via des jdl crées a partir dun template avec une commande jjs Notion de « production » c-à-d dun ensemble de job Notion de « production » c-à-d dun ensemble de job

54 Mise en place sur TIDRA 2ème release Migration totale de nos données sur iRODS: Migration totale de nos données sur iRODS: accès direct aux données : icd,ils,ipwd,iput,iget,etc. accès direct aux données : icd,ils,ipwd,iput,iget,etc. programme de recherche des hits blast via iRODS (utilisation dune API C pour iRODS) programme de recherche des hits blast via iRODS (utilisation dune API C pour iRODS) utilisation des meta-données et des micro-services ( à développer) utilisation des meta-données et des micro-services ( à développer)

55 Mise en place sur TIDRA 2ème release Approche similaire Release 1, mais Approche similaire Release 1, mais irods intégré à la grille ( plus besoin de récupérer les utilitaire irods ) irods intégré à la grille ( plus besoin de récupérer les utilitaire irods ) gestion des proxies intégrée ( plus besoin de déclarer les proxies dans le script) gestion des proxies intégrée ( plus besoin de déclarer les proxies dans le script) Utilisation des commandes jjs ( plus de jobs paramétriques) Utilisation des commandes jjs ( plus de jobs paramétriques) Plus simple : 1 jdl + 1 script

56 Description du JDL avec JJS N est le paramètre du job paramétrique Déroulement dun job numéro N : récupération de différents outils via lcg-cp X: outils iRODSX outils pour lestimation du temps de calculX outils pour la gestion des proxiesX Renouvellement du proxyX Lancement de lapplication : Copie des programmes BLAST en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter : fichiers numéros (N -1)x à N x 100 Boucle: pour i variant de (N -1)x à N x 100 traite le fichier i, copie le résultat via iRODS tant que 95% du temps maximum nest pas atteint, passe au fichier suivantX Post-traitement: envoi de mail, copie des logs via iRODS

57 Mise en place sur TIDRA 2ème release Résultats Résultats Production par « bloc » de 1000 jobs paramétriques, avec 20 fichiers par job Production par « bloc » de 1000 jobs paramétriques, avec 20 fichiers par job soit fichiers traités. 9 « blocs » de 1000 job à lancer pour traiter les fichiers Qualité: Qualité: un proxy de 5 jours permet de perdre moins de jobs un proxy de 5 jours permet de perdre moins de jobs Productionjobsjobs récuperésjobs OK nb fichiers traités Productionjobsjobs récuperésjobs OK nb fichiers traités Production Production ,535 Production ,174 Production ,174 Production ,835 Production ,835

58 Problèmes rencontrés Beaucoup de choses à installer sur les machines Hétérogénéité des machines Information fournie par les machines au WMS pas toujours suffisante En général

59 Problèmes rencontrés Si trop de jobs soumis à la fois saturation du WMS saturation des commandes «iget» de iRODS Solution limiter le nombre de jobs qui attaquent en même temps jouer sur le nombre de job paramétriques par job délai aléatoire au début de chaque job entre les jobs Saturation

60 Problèmes rencontrés Estimation du temps de calcul dun job pour un arrêt «propre» : système hétérogène, dépend des nœuds Solution Release 1 : test de la présence dun outil pour estimer le temps de calcul Release 1 : récupération dun outil si besoin Release 2 : pas encore de solution, à améliorer Temps de calcul dun job

61 Problèmes rencontrés RELEASE 1 : 2 types de problèmes La soumission dure trop longtemps, on perd le proxy utiliser un serveur de proxies Le job dure trop longtemps, on perd le proxy car la grille ne gère pas le renouvellement automatique du proxy le job doit renouveler lui-même le proxy au départ. utiliser un serveur de proxies RELEASE 2 : plus de problèmes. Proxies de 5 jours, outil myProxy Renouvellement des proxies

62 Conclusion TIDRA BGENR Release 1 et 2 travail pionnier dans lutilisation en production de iRODS avec gLite 2 technologies/middleware integrées de manière transparente gLite (EGEE) pour le calcul iRODS pour le stockage Après ajustement iRODS semble bien supporter la charge ( à hauteur de 500 jobs en parallèle)

63 Intérêt dune grille régionale Pas trop de nœuds (pas lembaras du choix, connaissance des capacités des nœuds) En cas de problème sur un nœud, forte réactivité, facile de contacter un responsable

64 Perspectives TIDRA Fusion DTM et JJS Fusion DTM et JJS

65 Mise en place sur GRISBI Outils disponibles Outils disponibles Tous les outils nécessaires à la bioinformatique sont disponible (tags) Tous les outils nécessaires à la bioinformatique sont disponible (tags) Les bases de données biologiques sont disponible (tags) Les bases de données biologiques sont disponible (tags) Logiciel de statistique R installé (tags) Logiciel de statistique R installé (tags) Systême de fichiers XtreemFS : Systême de fichiers XtreemFS : répertoire partagé en réseau par tous les jobs de grille lié au proxy, totalement transparent lié au proxy, totalement transparent grmount : montage temporaire du répertoire grmount : montage temporaire du répertoire grmount -u : démontage grmount -u : démontage

66 Parallélisation par les « queries » Meme approche que TIDRA banque BLAST données fasta QUERY SUBJECT banque BLAST QUERY SUBJECT

67 Technologie grille et services associés sur GRISBI 856 cœurs (cpu) 25 To de stockage 7 Sites IBCP (Lyon) LBBE (Lyon) ABiMS (Roscoff) GenOuest (Rennes) CBiB ( Bordeaux) GenoTool (Toulouse) Outils bioinformatiques Bases de données biologiques XtreemFS

68 Stratégie « 1 job = 1 tâche » (sans XtreemFS) On utilise les outils disponibles sur la grille (blast) On dépose sur la grille la base de données blast à traiter (LFC) Fichier dentrée en local, définis par le jdl (SandBox) Fichier de sortie en local, définis par le jdl (SandBox)

69 Description du JDL GRISBI « 1 job = 1 tâche » InputSandBox: le fichier à traiter OutputSandBox: le résultat N est le paramètre du job paramétrique, Déroulement dun job numéro N : Copie des banques BLAST en local (lcg-cp ) Traitement du fichier numéro N 170,000 fichiers à traiter : 170,000 jobs paramètriques 170,000 fichiers à traiter : 170,000 jobs paramètriques ici 1 job = 1 fichier ici 1 job = 1 fichier Essais sur une production de 1000 jobs parametriques Essais sur une production de 1000 jobs parametriques 200 a 400 jobs en run simultanés 200 a 400 jobs en run simultanés

70 Stratégie « 1 job = 1 tâche » (sans XtreemFS) Ca marche, mais: Très grand nombre de jobs On utilise la SandBox pour les sorties : Taille des sorties importantes, risque de limitation! Pas très efficace ( temps de calcul court, on récupère la base blast pour chaque tâche, etc.) On souhaiterais utiliser une approche similaire à celle utilisée dans TIDRA avec une liste de tâches comme argument du jdl: Pas possible avec la SandBox

71 Stratégie « 1 job = n tâches » (avec XtreemFS) On utilise les outils disponibles sur la grille (blast) On dépose sur la grille la base de données blast à traiter (LFC) On dépose sur la grille tous les fichier dentrées (XtreemFS) Chaque jobs traite plusieurs fichiers dune liste (fournie par la SandBox) On stocke sur la grille les fichiers de sortie via XtreemFS 170,000 fichiers à traiter ici 1 job = 30 tâches ( = 30 fichiers soit 90 séquences) Production : 6 soumissions par paquets de 1000 jobs parametriques on atteint 850 jobs en run simultanés

72 Description du JDL GRISBI/XtreemFS InputSandBox: liste des fichiers à traiter N est le paramètre du job paramétrique, m est le nb de fichiers à traiter par job m fichiers à traiter : fichiers numéros (N -1)x m +1 à N x m Déroulement dun job numéro N : Copie des banques BLAST en local (lcg- cp ) Boucle: pour i variant de (N -1)x m +1 à N x m Montage du répertoire grille Vérifie si le fichier i a été calculé: si oui, saute à i +1 Copie du fichier i Démontage du répertoire grille Traite le fichier i avec blast, Montage du répertoire grille Copie du résultat Démontage du repertoire grille Fin de boucle 170,000 fichiers à traiter 170,000 fichiers à traiter ici 1 job = 30 tâches ( 30 fichiers soit 90 séquences) ici 1 job = 30 tâches ( 30 fichiers soit 90 séquences) Production : 6 soumissions par paquets de 1000 jobs parametriques Production : 6 soumissions par paquets de 1000 jobs parametriques on atteint 850 jobs en run simultanés on atteint 850 jobs en run simultanés Entrées et sorties sur XtreemFS Entrées et sorties sur XtreemFS

73 Problèmes rencontrés GRISBI Tags inexacts Information fournie par les machines au WMS pas toujours suffisante Saturation des accès XtreemFS Problèmes résolus sans difficultés

74 Conclusion GRISBI Travail pionnier dans lutilisation en production de XtreemFS avec gLite 2 technologies/middleware integrées gLite (EGEE) pour le calcul XtreemFS pour le stockage Après ajustement XtreemFS semble bien supporter la charge ( à hauteur de 500 jobs en parallèle)

75 Temps de calcul GRISBI et TIDRA TIDRA 1ère production jobs heures ( 13 ans) sur 1 processeur Intel Xeon. TIDRA 2 ème production jobs (répartis sur une dizaine de soumissions) heures ( 7 ans) sur 1 processeur Intel Xeon. pics de 650 jobs en parallèle GRISBI avec et sans XtreemFS job heures ( 1 an) sur 1 processeur Intel Xeon pics de 830 jobs en parallèle

76 CONCLUSIONS TIDRA vs GRISBI Différences TIDRAGRISBI GénéralisteBioinformatique RégionaleNationale Pas de softs/BDD installésLogiciels et BDD bioinfo et biostats disponibles Gestion des données avec iRODSGestion des données XtreemFS Commandes jjs*Commandes gri* DTM+JJS (en devéloppement) Gestion des tâches Adapté à des grandes productions Adapté a des calculs de bioinfo/biostats classiques Points communs Pas trop de nœuds (pas lembaras du choix, connaissance des capacités des nœuds) En cas de problème sur un nœud, forte réactivité, facile de contacter un responsable Commandes « grilles » simplifiées


Télécharger ppt "Calculs intensifs pour l étude de lévolution Le calcul de larbre du vivant."

Présentations similaires


Annonces Google