CALMIP : Calcul en Midi-Pyrénées Premiers résultats scientifiques avec le nouveau supercalculateur de CALMIP Pierrette BARBARESCO (UPS) Responsable Système CALMIP Boris DINTRANS (CNRS) Responsable Scientifique CALMIP Alain MILON (VP CS UPS) Président du Comité d'Orientation CALMIP Nicolas RENON (UPS) Responsable Calcul Scientifique CALMIP
Le Groupement Scientifique CALMIP : Historique Fondé en 1994 par 17 Laboratoires de Recherche Publics en Région Midi-Pyrénées et soutien des 5 établissements interuniversitaires de l'époque via le CICT Aujourd'hui : 5+1 établissements universitaires toulousains = PRES Université Paul Sabatier (Toulouse 3) Institut National Polytechnique de Toulouse (INPT) Institut National des Sciences Appliquées (INSA) Université des Sciences Sociales (Toulouse 1) Université du Mirail, Lettres, Langues et Arts (Toulouse 2) Institut Supérieur de l'Aéronautique et de l'Espace (Supaero + ENSICA) Missions CALMIP : Promotion du calcul scientifique haute performance Formation calcul parallèle, optimisation code Echanges d’expérience (Journées Thématiques) Mise à disposition d’un environnement en calcul scientifique performant Acquisition d’un système de calcul mutualisé Plus performant qu'un simple « cluster labo » « Facilement » exploitable par les chercheurs Stable Organisation de l’exploitation et du support aux utilisateurs
2010 : 3ème renouvellement machine #223 @ TOP500 33 000 Gflop x22 - PC 2010 : 40 Gflop / 4Go - loi Moore : x5 / 4 ans x900 / 10 ans x3,75 1500 Gflop 400 Gflop x10 40 Gflop Magellan 64 procs / 72 Go Soleil1 68 procs / 136 Go Soleil2 512 procs / 512 Go Hyperion 2912 procs / 14 To 2010 1999 2004 2007 Renouv. #1 Renouv. #2 Renouv. #3
CALMIP 2010 = 1er mésocentre de calcul en France Gouvernance régionale Puissance de Calcul Centres Européens PRACE 1000 TF CINES IDRIS CCRT (CEA) x10 GENCI Centres nationaux 100 TF x10 Gouvernance régionale / Universitaire CIMENT CALMIP CRIHAN … Mésocentre 10 TF Le groupement scientifique de calcul : c’est le mésocentre régional Intégration/identification Politique (maintenant) européenne de calcul 3 modeles labo-mesocentre Positionnement CALMIP Mésocentre de production multi-thématiques (+10 champs disciplinaires)
Le Groupement Scientifique CALMIP : Organisation Attribution des ressources Animation scientifique Pilotage Comité d'Orientation Comité de Programmes 6 Vice-Présidents des CS des établissements du PRES Directeur du C.I.C.T. Président du Comité de Programmes 3 représentants utilisateurs du calcul intensif 5 personnalités qualifiées : MENRT Région CNRS GENCI CERFACS Industriels via pôles de compétitivité 10 experts scientifiques issus des laboratoires 10+ thématiques scientifiques Support aux utilisateurs Support projets de Recherche Exploitation du supercalculateur Montage dossier Laboratoires moteurs et soutien interU. CICT organisme sous contrat avec les 5 universités toulousaines. Géré administrativement par l’UPS Fournit des services informatiques : Réseaux infrastructure web messagerie sécurité Calcul Hébergement Enseignement recherche Calcul haute performance : Calmip C.I.C.T Bureau CALMIP 1 Ingénieur calcul scientifique 2 Ingénieurs système Président Comité de Programmes Direction CICT Responsables CALMIP CICT
Gouvernance CALMIP : comment ça marche en pratique ? Comité de Programmes Rapport annuel CALMIP 2 appels d’offre annuels (printemps / automne) Rapport d'activité du projet Chercheurs laboratoires Projet Test 500h Allocation d’heures gratuites Session Formation Projet Scientifique (interface web) Évaluation scientifique et technique Comité de Programmes
Ouverture aux entreprises : le programme PRAI Idées forces PRAI : Programme Régional d’Actions Innovatrices Accès à des ressources de calcul de haut niveau pour les entreprises Synergies avec la recherche publique locale Cibles : PME-PMI via un tarif bonifié Disponibilité actuelle : 15 % du système de calcul dédié aux entreprises 2010 : 3 000 000 heures CPU Tarification à l’heure de calcul consommée : 30 000h achetées en 2010
CALMIP en 2010 : un supercalculateur qui «décolle» Evolution demandes temps Evolution nombre projets +58% +50% +30% +7% +318% Année 2005 2006 2007 2008 2009 2010 Heures demandées 760 000 1 200 000 1 800 000 2 345 000 2 520 000 10 550 000 Heures machine 400 000 800 000 1 600 000 17 000 000 Taux de satisfaction 52% 66% 44% 68% 64% 161%
PRES+EPST (CNRS+INRA+...) CALMIP : un supercalculateur au service des labos Répartition labos 2010 Répartition des thématiques 2010 30 labos 10 550 000h 143 projets 200 chercheurs PRES+EPST (CNRS+INRA+...)
CALMIP Projet #1 : Neptune_CFD (P0111 / 3 000 000h, Simonin / Neau / Laviéville, IMFT)
CALMIP Projet #2 : fragmentation des populations de poissons (P1003 / 12 000h, Paz / Loot / Blanchet, EdB) 1500 - 9000 ans 1500 - 6300 ans 2000 - 9000 ans 3000 - 4000 ans Ne correspondent pas à la fragmentation Magnitude des changements 1500 - 9000 ans 1500 - 6300 ans 2000 - 9000 ans 3000 - 4000 ans Correspondent aux colonisations post- glaciaires!! Non fragmentée Fragmentée
CALMIP et la formation au calcul intensif Arrivée d'Hyperion : Passage 256 processeurs → 2912 processeurs Faiblement parallèle → massivement parallèle Besoin urgent d'une formation adéquate Formation CALMIP en 2010 : 80 personnes 3 sessions de deux jours pour la prise en main d'Hyperion 1 session visualisation 1 session GPU (calcul sur cartes graphiques) 2011 : formation commune UPS / CNRS Session de deux jours mêlant théorie et pratique Objectif de 3 sessions / an 30 participants à chaque fois Intervenants locaux
Plan Exposé : Technique Maîtrise du Processus de renouvellement Solution Performante et Innovante
CALMIP : Processus de renouvellement Projet CPER 2007-2013 : Troisième génération de supercalculateur Enjeux : qualité, quantité, proximité et adhésion Qualité Système performant pour « tirer les applications vers le haut » Système stable et facilement utilisable : production scientifique Système généraliste multi-thématiques Environnement: efficacité/consommation électrique, mode de refroidissement, … Quantité Pallier la pénurie de ressources et anticiper les besoins Proximité Support de qualité: aide aux utilisateurs dans la transition, formations, portage de codes Adhésion de la communauté Faire participer les utilisateurs à ce choix.
CALMIP : Processus de renouvellement Procédure de renouvellement : Dialogue Compétitif Processus itératif en 4 phases 1 groupe de dialogue 1 groupe de tests de performance Objectif : Ouverture production début 2010 Groupe dialogue : Mission Sélectionner et auditionner les candidats : 6 retenus Rédiger le programme fonctionnel: fin du processus itératif Composition Jean-Pierre Silvain, Directeur du CICT Dominique Astruc, Président Comité de Programme IMFT Pierrette Barbaresco, Directrice technique du CICT Nicolas Renon, Ingénieur en Calcul Scientifique CALMIP Michel Dayde, Expert Informatique IRIT Thierry Monteil, Expert Informatique LAAS Qualité/Quantité
CALMIP : Processus de renouvellement Procédure de renouvellement : Groupe de tests de performance Mission Préparer les tests de performance : 11 tests Valider fonctionnement et résultats : phase dédiée du dialogue compétitif Groupe de tests de performance Composition Pierrette Barbaresco, Directrice technique du CICT Nicolas Renon, Ingénieur en Calcul Scientifique CALMIP Chimie Quantique : C. Lepetit (LCC), R. Poteau (LPCNO), L. Maron (LPCNO), F. Jolibois (LPCNO) Physico-chimie de la matière : H. Tang (CEMES), I. Gerber (LPCNO) Dynamique Moléculaire : J. Czaplicki (IPBS), P. Arnaud (LCC) et I. Andre (LISBP) Astrophysique : B. Dintrans (LATT, OBS-MIP) Mécanique des Fluides : A. Pedrono (IMFT) H. Neau (IMFT) Physique Théorique et Quantique: S. Capponi (LPT-IRSAMC) ; A. Scemama, T. Bouabca (LCPQ–IRSAMC) Génomique : E. Courcelles (LIPM) Algorithmique : I. Touche (LGC) Adhésion
CALMIP : Processus de renouvellement Calendrier Juillet 2008 : Lancement de la Procédure Novembre 2008 - Mai 2009 : 4 phases du dialogue (dont phase de tests de performance) 6 candidats Juillet 2009 : bilan et synthèse des deux groupes Septembre 2009 : Notification Novembre 2009 - Janvier 2010 : Installation et tests du système Février 2010 : Mise en Production Premières sessions de formation Ouverture utilisateurs Juillet 2010 : Enrichissement de la solution Installation ALTIX UV SGI® Maîtrise du Calendrier Période evolution technologique des proc Intel
CALMIP : Processus de renouvellement Bilan Processus renouvellement Dialogue compétitif : Bénéficier des dernières avancées technologiques : itérations Journée de test chez les candidats: « Principe de réalité » Evaluer la qualité du support applicatif et système proposé Participation des utilisateurs : Valider la réponse aux besoins Adhésion/Appropriation Un processus de choix complexe pour une mise en production rapide et réussie
Plan Exposé : Technique Maîtrise du Processus de renouvellement HYPERION : Solution Performante et Innovante Présentation de l’aboutissement de la procédure de choix qui vient d’être présentée. Résultat une machine du TOP 500, Présentation de ce qu’est un système de calcul haute performance du Top 500, ET PERFORMANCE de cette solution et des applications des utilisateurs
3ieme génération Système de calcul CALMIP : HYPERION Mémoire Partagé : Altix UV SGI® Massivement Parallèle : Altix ICE SGI® 352 nœuds de calcul 8 processeurs et 36 Gb ram /nœud du calcul 2816 processeurs Refroidissement par eau Espace Fichier : 250 To Préfiguration de ce que vous allez voir en salle machine (à cause de bruit) Un premier survol du système de calcul à travers ses éléments fondamentaux Elément socle : ressources calcul massivement parallèle Cluster Altix Ice de la société SGI : 352 nœuds de calcul 8cores/36 go par nœud, 2816 cores ou processe urs Un espace fichier où résides les données des programmes : 250 To (250 000 Go) Un service de visulaisation à distance : Calcul massif => génération massive de données Visualisation à distance pour directement post-traiter les données et ne pas perdre de temps dans le rapatriement de celles-ci. Elément qui chauffe énormément = > refroidissement par eau pour une meilleure efficacité. Enfin, depuis juillet 2010, un enrichissement qualitatif qui permet de répondre à l’ensemble des besoins des utilisateurs : nœud de calcul Altix UV On va y revenir par la suite. Cloture : rappel pour la visite de la salle machine Visualisation à Distance
HYPERION : Performance de la solution Exemple de code utilisateur : MésoNH Code de climatologie (GIEC / Changement Climatique) Code développé/maintenu au Laboratoire d’Aérologie (UMR 5560 UPS/CNRS) et au CNRM-GAME (URA 1357 CNRS/Météo-France) Code MASSIVEMENT Parallèle Pour mettre en avant ou exprimer la performance de la solution hyperion nous allons nous focaliser sur un code particulier : MésoNH C’est un code de climatologie, dev. LA et CNRM-Meteo France Code massivement parallèle.
Performance Code MesoNH sur HYPERION HYPERION meilleur temps Performance meilleure nbre proc. x 5 Qu’est-ce qu’un code massivement parallèle : C’est un code qui peut tourner ou s’exécuter une grand nombre de procésseurs voire un très grand nombre de processeurs : quelques centaines à quelques dizaine de milliers de processeurs Différentes courbes qui représentent, différente d’exécution sur différentes architectures : grands centres nationaux et Européens (voir pyramide) Pour 2048 cores ou processeurs : meilleur temps obtenu est sur HYPERION, Qu’est-ce que ça veut dire, c’est HYPERION qui est le plus rapide pour restituer la solution calculée attendue par l’utilisateur. Autre éléments : D’autres architectures sont moins performantes Ainsi sur une machine Blue Gene il faut multiplier par 5 le nombre de processeurs pour atteindre la même performance d’hyperion. Enfin MésoNH est un test en aveugle car pas dans les benchs du dialogue => machine généraliste pour la communauté. 10000
HYPERION : Enrichissement de la solution Problématique technique difficile : Certains codes sont Massivement Parallèles : exemple : MesoNH, Neptune, Pencil, etc… d’autres codes beaucoup moins… il FAUT néanmoins tirer les performances vers le haut Réponse : Solution technologique Innovante choix CALMIP : Altix UV SGI® choix reconnu par la communauté du Calcul Haute Performance : ORAP : Organisation Associative du Parallélisme (structure de collaboration : CEA, CNRS et INRIA) Focus spécial sur CALMIP dans le bulletin ORAP Avril 2010 GENCI Grands Equipements Nationaux en Calcul Intensif : AO EquipEX : Projet EQUIP@MESO CALMIP sélectionné comme partenaire GENCI sur le projet EQUIP@MESO Nous sommes dans une phase d’enrichissement d’HYPERION, phase prévue au sein du programme fonctionnel du dialogue compétitif. Pourquoi enrichir HYPERION ? Nous devons faire face à une Problématique technique difficile. Certains codes sont massivemeent parallèle, mais d’autres beaucoup moins. Des raisons objectives liées à cela : problématique sous-jacente qui se prète mal à une parallèlisation efficace. Il faut néanmoins leur permettre d’être toujours plus performant pour être toujours plus ambitieux (à chaque renouvellement) Cette problématique est d’autant plus forte (se sur-exprime) que CALMIP à le souci de l’ouverture et de répondre à l’ensemble des besoins dans leur diversité. La réponse passe par un choix technologique innovant : Choix CALMIP : enrichissement (qualitatif) de la solution avec solution ALtixUV machine à mémoire partagée. C’est un choix reconnu par la communauté du calcul haute performance : ORAP GENCI
Altix UV SGI® : Innovation Technologique HYPERION Altix UV SGI® : Innovation Technologique Hardware 96 cores 1 To RAM = 1000 Go RAM NHM EX 6 cores, 2,667GHz, 18 Mo cache, 45 nm Intégration transparente dans le système Quelle est la Spécificité de cette machine Altix UV : 1 To de RAM Intégration transparente pour l’utilisateur On y reviendra en salle machine
Altix UV : VU par les utilisateurs Physique Théorique Sylvain Capponi (Prof. UPS, membre Junior IUF, LPT-IRSAMC UPS-CNRS) Projet CALMIP p0677 : Physique N-corps L’Altix UV vu par les utilisateurs 1 exemple Physique Théorique : sylvain Capponi Résolution numérique de l’équation de shrödinger qui est l’équation de la mécanique quantique La résolution d’un problème au valeur propre=> Diagonalisation de matrice recherche du spectre de l’opérateur) Contexte exigeant et ambitieux ou la taille des matrices est gigantesque (plusieurs miliards de termes non nuls) Grâce à UV, 6 jours de calcul sur 96 cores en monopolisant 150 go de RAM, => attaquer et résoudre un problème qui n’avait pu être fait jusqu’à présent. Repasse la main à Boris. Diagonalisation Matrice réussie : 6 jours de calculs sur 96 cores et 150 go RAM sur Altix UV ®
MERCI AUX FINANCEURS... ET BONS CALCULS SUR HYPERION ! CALMIP 2 / Montaudran : renouvellement #4 fin 2013 Hyperion : rupture pour le calcul intensif en Midi-Pyrénées 33 TF & 3000 processeurs Réponse aux besoins exponentiels des chercheurs Adéquation avec GENCI x30 (2007-2010) Fondation solide pour l'HPC européen Tier-0 PRACE Tier-1 IDRIS/CCRT/CINES Tier-2 CALMIP HPC compétitif : renouvellement complet tous les 4 ans Projet plateforme numérique à Montaudran (Espace Clément Ader) CALMIP est un acteur central de ce projet : unique service inter-universitaire dans le domaine du calcul intensif depuis 1994 : savoir-faire reconnu au service des chercheurs expertise technique & gouvernance éprouvées par les 3 renouvellements en 10 ans bon timing au regard de la dynamique actuelle (1er mésocentre France) MERCI AUX FINANCEURS... ET BONS CALCULS SUR HYPERION !