Facilité d'Analyse au CC-IN2P3 (LAF) Renaud Vernet Journées LCG France 22 novembre 2010
22/11/2010 R. Vernet - Journées LCG France 2/2/ LAF et PROOF î LAF : Lyon Analysis Facility Cluster PROOF actuellement dédié à l'analyse pour communauté française des expériences LHC î PROOF : Parallel ROOt Facility q Service fourni par ROOT, basé sur xrootd, permettant analyse +/- finale sur N workers parallèles Sessions interactives : alternative intéressante à la GRID q Compilation en-ligne du code necessaires a l'analyse (proof archives) 3 Chargement de librairies pre-compilees possible q Connection possible depuis laptop personnel 3 Mais compte au CC requis q Contraintes: Accès aux données par xrootd 3 Code analyse basé sur TSelector (evt par evt)
22/11/2010 R. Vernet - Journées LCG France 3/3/ Concept de PROOF
22/11/2010 R. Vernet - Journées LCG France 4/4/ Plus en détail..
22/11/2010 R. Vernet - Journées LCG France 5/5/ Configuration actuelle de LAF machine interactiv e (ccali)
22/11/2010 R. Vernet - Journées LCG France 6/6/ Configuration actuelle de LAF maste r worker s PROOF 16 Dell PEM610 * 16 cores 2.53GHz... machine interactiv e (ccali) Nouvelles machines LAF PROOF
22/11/2010 R. Vernet - Journées LCG France 7/7/ Configuration actuelle de LAF maste r worker s PROOF 16 Dell PEM610 * 16 cores 2.53GHz... machine interactiv e (ccali) 2*1 Gb/s Sun Fire X TB storage 2*1 Gb/s xrootd storage xrootd redirector (ATLAS) 100 TB storage Nouvelles machines LAF PROOF
22/11/2010 R. Vernet - Journées LCG France 8/8/ Configuration actuelle de LAF xrootd storage 10 Gb/s 3 Dell EqualLogic PS 6010xv 16 blades x 600GB SAS 15krpm RAID5 20 TB eff. storage maste r worker s PROOF 16 Dell PEM610 * 16 cores 2.53GHz... machine interactiv e (ccali) 2*1 Gb/s Sun Fire X TB storage 2*1 Gb/s xrootd storage xrootd redirector (ATLAS) 100 TB storage Performances disques décevantes → seront mis sous forme d'une unité logique a haute connectivité (en cours...) Nouvelle baie de disques Nouvelles machines LAF PROOF
22/11/2010 R. Vernet - Journées LCG France 9/9/ Configuration actuelle de LAF xrootd storage 10 Gb/s 3 Dell EqualLogic PS 6010xv 16 blades x 600GB SAS 15krpm RAID5 20 TB eff. storage maste r worker s PROOF 16 Dell PEM610 * 16 cores 2.53GHz... machine interactiv e (ccali) 2*1 Gb/s Sun Fire X TB storage 2*1 Gb/s xrootd storage xrootd redirector (ATLAS) 100 TB storage Performances disques décevantes → seront mis sous forme d'une unité logique a haute connectivité (en cours...) Nouvelle baie de disques Nouvelles machines LAF PROOF
22/11/2010 R. Vernet - Journées LCG France 10/ Dernières nouvelles î Changement matériel depuis dernière réunion Achat de CPUs et baie de disques dédiés à l'analyse interactive Mise à jour de la documentation q q Sections dédiées : ALICE & ATLAS î Création d'une liste de diffusion pour utilisateurs î Forum utilisateurs q Très peu utilisé... î Interface xhelp pour tickets q Celle-ci est utilisée !
22/11/2010 R. Vernet - Journées LCG France 11/ Niveau de service & gestion des incidents î Au niveau système q Service (monit) assurant le fonctionnement des démons PROOF/xrootd q Vérification régulière et relance automatique î Alertes NAGIOS q Sondes testant connexion simple utilisateur : q Connexion OK 3 → RAS Connexion OK mais certains workers tombés (warning) 3 → Notification lafmaster et sysadmins q Connexion impossible (critique) 3 → Intervention rapide nécessaire → recettes a appliquer pour exploitation/astreint : relance des démons
22/11/2010 R. Vernet - Journées LCG France 12/ Utilisation de LAF î LAF peu populaire î En moyenne quelques dizaines de connections par jour (hors week-ends) Connections depuis Octobre
22/11/2010 R. Vernet - Journées LCG France 13/ Problèmes en cours î ALICE q Installation des modules spécifiques a l'expérience 3 Cf plus loin î ATLAS q RAS î Commun q “workers still sending” Sessions qui ne finissent pas (1-2 workers ne terminent pas leur tâche) 3 Peut arriver sur n'importe quel noeud 3 Probabilité augmente avec taille du dataset Ticket soumis sur ROOTTalk : En cours
22/11/2010 R. Vernet - Journées LCG France 14/ Mise en production LAF possède à présent q SL5 q Machines plus performantes, plus de machines q Service de relance automatique des démons q Alertes Nagios pour lafmaster, exploitation & astreint î → meilleures garanties de fonctionnement/accessibilité q Forum, mailing list, support tickets î → meilleure aide aux utilisateurs î Les problèmes en cours ne sont a priori pas dépendants du CC î → Mise en production officielle prévue dans les jours qui viennent (objectif = cette semaine)
22/11/2010 R. Vernet - Journées LCG France 15/ Amélioration apportées pour ALICE î Synchronisation des packages ALICE avec l'espace software GRID du CC q mêmes packages AliEn, ROOT, AliRoot que pour les jobs GRID q possible chargement direct des librairies 3 (= compilation des packages sur PROOF pas nécessaire) Accès direct aux données sur GRID possible q Mais pas de rapatriement automatique, les données restent distantes q Peu rapide, mais utile pour tests î Reconstruction des données brutes possibles
22/11/2010 R. Vernet - Journées LCG France 16/ Perspectives côté ALICE î Le déploiement de la solution AAF (Alice Analysis Facility) serait un gain substantiel î Inclusion de LAF dans le 'nuage' des AAF q Partage datasets, staging automatique etc. î Mais échec de l'installation au CC q Support de l'expérience requis mais demande d'ouverture de LAF a la collaboration (pas uniquement labos français) 3 Son utilisation resterait néanmoins en grande partie française q Discussions en cours î Tutoriel pour communauté ALICE prévu début décembre
22/11/2010 R. Vernet - Journées LCG France 17/ Conclusions î Nouveau cluster q OS, perf, # CPU î Problèmes techniques sur nouveaux disques q → mise en place d'une alternative en cours î Ajouts services de surveillance et sondes Nagios q Montrent que l'accessibilite du service ~ 100% Outils présents pour poser ses questions, exprimer son mécontentement etc. î → Mise en production imminente Nombre d'utilisateurs étonamment faible Problèmes de performances, d'utilisation ??? q Trop peu de retour des utilisateurs :(