LCG-France Tier-1 & AF Réunion mensuelle de coordination

Slides:



Advertisements
Présentations similaires
LHCb DC06 status report (LHCb Week, 13/09/06) concernant le CC : –Site currently fine / stable 3% of simulatated events 30% of reconstructed events –Site.
Advertisements

05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Grid Service Monitoring Working Group Exemple.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR Marseille Juin 2010Jean-Michel BARBET Subatech 1 /22 Support de la VO Alice à.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
Facilité d'Analyse au CC-IN2P3 (LAF) Renaud Vernet Journées LCG France 22 novembre 2010.
Yannick Patois 1 Utilisation LCG-France Les Technical Evolution Groups et LCG-France.
LCG-FRANCE_19/05/09L. Poggioli1 ATLAS Activités du nuage FR Production MC Reprocessing Analyse Au quotidien Next L.Poggioli, LAL.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Opérations : vers un modèle décentralisé...
ALICE February/March exercise summary Latchezar Betev WLCG Collaboration Workshop 22 April 2008.
C. Charlot, Calcul CMS, LCG-DIR, fév 2007 Calcul CMS 2006 TDR de Physique CMS Physics TDR, Volume 1, CERN-LHCC , feb. 2006, 548pp CMS Physics TDR,
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Passage de Main SYSGRID Réunion 1
IGTMD réunion du 4 Mai 2007 CC IN2P3 Lyon
FENIX Aperçu GLOBALE DU Système
Réunion Opérations France Grilles – 6 juin 2017
GENIUS – GANGA Alternative à la CLI
Compte rendu HEPIX et CHEP2015 Stockage et gestion des données
Les nouveautés dans les modèles de Calcul au LHC
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
Planification budgétaire Tier2s & Tier-3s Etat d’avancement
Etat des services grid de production
ATLAS Computing model et utilisation de LCG
12 mars 2004, Lyon Reunion CAF F.Chollet 1
Projet eXtreme DataCloud XDC
Point sur avancement du service de monitoring NAGIOS
Surveillance des services grille par NAGIOS
Status des problèmes d’accès à la software area de LHCb
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
LCG-France Tier-1 & AF Réunion mensuelle de coordination
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Activités présentes et à venir
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
LCG-France Tier-1 & AF Réunion mensuelle de coordination
LCG-France Tier-1 & AF Réunion mensuelle de coordination
2ème coloque LCG-France
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Réunion coordination WLCG Lyon, le 13 mars 2008
Etat actuel et perspectives des CEs
LCG-France Tier-1 & AF Réunion mensuelle de coordination
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
Résumé CB WLCG du 3 février 2005
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
CRG TM for YETS November 6th 2017.
Exercices: Système d’Information
Atelier régulation de la production dans un contexte grille
Résumé de la réunion PAF-CAF 12/04/2010
Organisation LCG-France Lien avec le computing LHC
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
HEPIX FALL 2013 Résumé.
La grille EGEE dans le monde et à Orsay
Introduction à GENIUS et GILDA
Préparer un rapport pour les organes de traités
Représentant technique Représentant scientifique
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Le Projet EGEE en bref Rolf Rumler (Présentée par Pierre Girard) Coordinateur projet EGEE au CCIN2P3 CIC Manager ROC Manager.
LCG – France et ALICE Bilan 2006 Planning fevrier 2007
Résumé des Actions Suite aux Réunions CB et MB
M’SILA University Information Communication Sciences and technology
Transcription de la présentation:

LCG-France Tier-1 & AF Réunion mensuelle de coordination 18/07/2018 15/09/2010 LCG-France Tier-1 & AF Réunion mensuelle de coordination Pierre Girard Pierre.girard@in2p3.fr

Plan Pledges Fonctionnement Nouvelles de LCG Résultats du site 2010 2011 Fonctionnement Effectifs Allocation du disque Nouvelles de LCG CR du GDB et MB Résultats du site Disponibilité Mai 2010 Point de vue des VOs LHC Avancement des chantiers Evénements 15/09/2010

Pledges 15/09/2010

Pledges 2010 CPU Quelques ajustements à faire. Serveurs Tier-1 FR-CCIN2P3, Lyon   ALICE ATLAS CMS LHCb SUM 2010 CPU [HEP-SPEC06] 3 779 21 600 9 065 9 742 44 185 Disk [TB] xrootd 708 dcache 2 464 1 209 728 4 401 total 5 109 MSS [TB] 1 069 1 598 2 102 531 5 300 Tier-2 France, CC-IN2P3, Lyon 1 469 4 807 4 704 4 674 15 655 207 418 296 80 794 1 001 Tier-3 4 145 2 016 6 161 LAF 92 ? GPFS 188 127 315 Serveurs 27 thors en cours d’installation DCACHE: Impossible de distinguer T1 et T2. GPFS: Reste à évaluer pour connaitre le volume restant à allouer en disque 15/09/2010

Pledges 2011 Attendu fin septembre par WLCG Budget prévisionnel LCG France de 4,6 M€ Restriction budgétaire attendue Cout estimé du disque 361 €/TB Cout estimé du disque 425 €/TB Appel d’offre en cours: 800 €/TB 15/09/2010

Fonctionnement 15/09/2010

Effectifs Dcachemaster Xrootd : critique Syslinux : flux tendu Recrutement de Nicolas Bernard Xrootd : critique Syslinux : flux tendu Recrutement d’Aurélien Gounon Sysunix (AFS/Serveurs de disque) : flux tendu Sysgrid Recrutement en cours User Support Départ annoncé de Damien Mercier (CMS) 15/09/2010

Allocation du disque En 2 étapes Chaque allocation Avril (officiel) et Octobre Chaque allocation Implique différents acteurs Responsable du projet LCG Définit et vérifie l’allocation des volumes Support de chaque VO Précise où il faut allouer en fonction des besoins de la VO Administrateur Dcache/Xrootd/GPFS Demande le matériel et le configure en fonction des demandes Administrateur Unix Réceptionne et installe le matériel en fonction des demandes Demande beaucoup d’interactions Réflexion à mener pour améliorer le processus 15/09/2010

Nouvelles de LCG 15/09/2010

GDB du 08/09/2010 Réunion T1/AF le jeudi de la semaine suivante. Ok ? 18/07/2018 GDB du 08/09/2010 Réunion T1/AF le jeudi de la semaine suivante. Ok ? Source: http://indico.cern.ch/conferenceDisplay.py?confId=72061 15/09/2010

Progrés annoncés depuis au dernier CAF GDB du 08/09/2010 Progrés annoncés depuis au dernier CAF 15/09/2010

GDB du 08/09/2010 Sites need to publish good data urgently Vue par tier Devrait être cohérent avec les pledges Sites need to publish good data urgently 15/09/2010

Shared Software Areas: tests à PIC et RAL GDB du 08/09/2010 Shared Software Areas: tests à PIC et RAL Tests effectués en collaboration avec Atlas et LHCb 15/09/2010

GDB du 08/09/2010 Gros changements dans l’infrastructure d’accounting du projet. Volonté d’arrêter RGMA en fin d’année Dossier à suivre: quelles implications pour la publication du CC ? Actuellement, on publie en injectant directement des données synthétisées dans la base données du RAL. 15/09/2010

GDB du 08/09/2010 Pour ne pas subir, il faudrait participer. 15/09/2010

GDB du 08/09/2010 URL de test: http://sonar1.munich.cnm.dfn.de/lhcopn-dashboard/cgi-bin-auto/cnm-table.cgi 15/09/2010

GDB du 08/09/2010 Session « Experiment Operations » ALICE LHCB CMS Latchezar Betev/CERN http://indico.cern.ch/materialDisplay.py?contribId=0&sessionId=1&materialId=slides&confId=72061 LHCB Roberto Santinelli/CERN http://indico.cern.ch/materialDisplay.py?contribId=1&sessionId=1&materialId=slides&confId=72061 CMS Ian Fisk/FNAL http://indico.cern.ch/materialDisplay.py?contribId=2&sessionId=1&materialId=slides&confId=72061 ATLAS Simone Campana/CERN, Stephane Jezequel/LAPP http://indico.cern.ch/materialDisplay.py?contribId=3&sessionId=1&materialId=slides&confId=72061 15/09/2010

GDB du 08/09/2010 LHCB/IN2P3 CREAM CE Software Area GGUS:61223 There was an error in the library paths. GGUS:61358 service unresponsive- restarted GGUS:61605 Network backbone intervention GGUS:61766 glexec failing to load some required libraries Software Area Shared area at IN2p3 preventing to install software and affecting performances of all jobs (most of them timing up Close interaction between SW-manager in LHCb and Lyon people. GGUS:59880 (July the 8th ) still open. Looking at other sites solutions and also involved CERN experts handling shared area via AFS. Required a WLCG coordination perhaps. 15/09/2010

GDB du 08/09/2010 LHCB news CREAM used in production: evaluating now direct submission. xroot: used at CERN for reading (lhcbmdst, serving mainly user analysis). Contributing to improve the QoS with close interaction with sys-managers. Run distribution (rather than per files) : “A run == a single site”. gLExec: LHCb dedicated Nagios probes now in place to allow MUPJ to invoke it when available (and working) at the site ! First prototype of LHCB HC: it could give possibility to sysadmins to run LHCb application whenever required and operations team to gather complementary metrics! 15/09/2010

GDB du 08/09/2010 CMS/IN2P3 Issues (voir les slides pour + de détails) Lot of SRM issues; Problems with their AFS area Jul. 9: timeout when accesing the CRLs file in the AFS volume onsite. Impacted all import transfers for several hours. Jul. 29: problem installing new CMSSW releases. AFS connection timeouts. Some memory troubles with dCache head node News CMS requested a Savannah-to-GGUS bridging. it works and CMS is happy All WMSs in use by CMS (INFN + CERN) were updated.CREAM CEs were put back in normal production operations Condor->CREAM submission was known to have problems with the current. Fixes should have been made available in Condor 7.5.3 (Development release, released on Jun 29, 2010) 15/09/2010

GDB du 08/09/2010 Atlas/DDM 15/09/2010

Résultats du site 15/09/2010

Disponibilité Juillet/Nagios ALICE: 92% ATLAS: 96% CMS: 98% LHCB: 90% Source: http://gvdev.cern.ch/GRIDVIEW/downloads/Reports/201007/wlcg/Tier1_Summary_Jul2010.pdf 15/09/2010

Disponibilité Août/Nagios ALICE: 95% ATLAS: 95% CMS: 98% LHCB: 59% Source: http://gvdev.cern.ch/GRIDVIEW/downloads/Reports/201008/wlcg/Tier1_Summary_aug2010.pdf 15/09/2010

Disponibilité LHCB/Août: comparaison 15/09/2010

Disponibilité LHCB/Août: détails 15/09/2010

Disponibilité LHCB/Sept.: détails 15/09/2010

Avancement des chantiers 15/09/2010

Chantiers en cours Problèmes à résoudre WNs SL5 + AFS Paramètre limitant le plantage des WNs Temps de latence importants SW Area lhcb, tests SAM, … Des avancées (?) sous l’impulsion de Luisa, cf. présentation de David Installation du soft. d’Atlas sur AFS Problème de timeout sur AFS release compris Manque de temps car expert surchargé Monitoring/Supervision/Reporting Alertes manquantes, recettes « grille » incomplète Demandes d’histogrammes sur l’utilisation des ressources (par Atlas) nécessaire pour réguler leur production Problèmes AFS récurrents Compris ? Saturation du réseau Réorganisation du réseau le 21/09 15/09/2010

Chantiers en cours Problèmes à résoudre (suite) Glexec / Argus Tests de LHCb et de OPS en erreur Plus de temps à accorder à ce dossier Dernier CREAM CE au comportement suspect LFC Atlas Saturé Manque un monitoring des sessions ouvertes Ajout de serveurs derrière le load-balancing Indisponibilité Dépendances inutiles à AFS Taux de transferts vers BNL (et autres) Résolu par nouveau paramétrage (pile TCP) des serveurs Solaris Intéressant de communiquer sur le sujet ?! 15/09/2010

Chantiers en cours Gros oeuvres Xrootd Alice Migration vers (S)GE Interfaçage avec HPSS fait Ajout de 8 nouveaux serveurs de disque Pb de software Xrootd/Alice pour Solaris Migration vers (S)GE Planning, CREAM CE, etc. Installation des ressources (Pledges 2010) En cours Ferme d’analyse (LAF) Etat de l’infrastructure Problème avec le matériel Dell Enregistrement des utilisateurs via VOMS Infrastructure de virtualisation de production Licences Vmware acheté Infrastructure installée 4 serveurs / 2 racks Serveur de disque Doit encore faire ses preuves 15/09/2010

Nouveaux chantiers Publication du site Infrastructure d’accounting Capacités installées Infrastructure d’accounting Doit-on publier via ActiveMQ ? Qui suit ce dossier Monitoring Grille Déploiement de machines pour étendre l’infrastructure Nagios local UI-NRPE, MyProxy Intégrer NRPE à l’installation des nœuds de grille pour monitorer l’état des machines et de services Collecte de données de la « Nagios Box » française 15/09/2010

Evénements Passés A venir Data Management and Storage Jamboree, Amsterdam, 16-18 June EGEE III Final Review, Amsterdam, 23-24 June LHC OPN, Barcelona, 28-29 June WLCG Workshop, London, 7-9 July A venir EGI Technical Forum, Amsterdam,13-17 September LHCOPN, CERN, 7-8 October CHEP 10, Taipei, 17-22 October HEPiX Fall Meeting, Cornell, 1-5 November 15/09/2010