lundi 11 juillet 2016 Exploitation globale de la grille Hélène Cordier Operations LCG
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille2 Status / Status / All-Activity Meeting- Bologna- Jan. 16th-17th 2007 ~17.5 million jobs run (6450 cpu-years) in 2006; Workloads of the “other VOs” start to be significant – approaching 8- 10K jobs per day; and 1000 cpu-months/month one year ago this was the overall scale of work for all VOs ~17.5 million jobs run (6450 cpu-years) in 2006; Workloads of the “other VOs” start to be significant – approaching 8- 10K jobs per day; and 1000 cpu-months/month one year ago this was the overall scale of work for all VOs
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille3 Sommaire Les outils de l’exploitation grille disponibles: –GOCDB –SAM/SAMAP –GSTAT –GGUS –RC REPORT –ACCOUNTING
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille4 A l’entrée dans la grille - site Enregistrement d’une fiche d’identité du site en question – GOC DB Certification - Soumission de tests – SAM, GSTAT Le site est en production, il publie grâce à son SI les ressources et services qu’il fournit par VO, ainsi que l’état courant de ces mêmes ressources. Le site remplit des rapports hebdomadaires - RC reports et publie son activité c.a.d Le site publie ses informations d’accounting
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille5 Exploitation et Système d’information - GOC DB Référenciel de tous les sites de LCG/EGEE –l’URL LDAP du GIIS/Site BDII de chaque site –Le statut/type (Certified/Production) de chaque site –La déclaration éventuelle de « Scheduled Downtime » Utilisable pour générer automatiquement la configuration des Top BDIIs avec la liste des sites déclarés en « Production » bdii/dteam/lcg2-all-sites.conf GOC DB HTTP URL SiteBDII1 URL SiteBDII2 … URL SiteBDII1 URL SiteBDII2 … BDII Config
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille6 Les tests «d’availability monitoring » Stabilité des sites grâce à cette soumission /2h –Alertes/délais/escalade Les sites peuvent soumettre leurs propres instances pour améliorer leur disponibilité cf samap. Les réactions sur les échecs de la semaine à consigner dans les site reports. Les infos des meetings SA1-FR ou T2/T3 doivent remonter au CC pour soit influer sur les développements soit pour proposer des volontaires dans les différents groupes de travail.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille7 Exploitation et Système d’information Tests fonctionnels et filtrage du SI SAM ( Service Availibility Monitoring ) – –système soumettant régulièrement des tests sur les sites –Le résultat des tests est utilisable pour filtrer les top BDIIs en supprimant les sites en échec.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille8 GGUS et le système de user-support local Les sites Tiers2 et Tiers3 contactent le Tier1 via: Depuis décembre dernier, la soumission des incidents pour le Tier1 IN2P3-CC se fait via un nouvel outil xhelp toujours à et le suivi de l’incident se fait ensuite à travers une interface web. L’interfaçage se fera avec l’outil de tracking des incidents pour le projet : GGUS. Pour l’instant une moyenne de 20 tickets/mois sont assignés à la fédération française.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille9 GGUS et le temps de réponse du Tier1 Le nombre de tickets créé reste stable… Le temps de réactivité de la fédération française…
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille10 Exploitation et Système d’information Tests fonctionnels et filtrage du SI: FCR A l’entrée dans la grille: AUP Les tests des sites peuvent être personnalisés dans SAM FCR ( Freedom of Choice for Resources ) – –permet à une VO de choisir les tests qu’elle considère critiques et d’ajouter ses propres tests de site. –prise en compte dans le filtrage des Top BDII (configurés pour) La soumission de jobs à une liste « validée » selon les demandes client - FCR
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille11 Reliability from LCG
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille12 Les métriques à partir des reports hebdomadaires
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille13 Les outils opérationnels « ce qui se profile » Les outils opérationnels « ce qui se profile » User tracking - contact d’un user de VO Notification d’un site admin en cas d’échec d’un test de disponibilité Dashboard en lecture seule similaire à celui de l’équipe de surveillance pour les administrateurs de sites Amélioration de la lisibilité pour les VOs des performances des sites par rapport à vos besoins permanents ou ponctuels. Etude des développements en cours cf : entdevelopments.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille14 Accounting basé sur R-GMA Relational Grid Monitoring Architecture Publication automatique tous les jours dans le « principal registry » à partir de la Mon Box. En France, celle du CC est utilisée par plusieurs sites. Il est conseillé d’avoir une instance locale. Le CC publie les infos grilles et non grille. ATTENTION : D’après John Gordon le 07/03/07 - GDB APEL est le mode de diffusion retenu. Les Tier1s doivent comparer les chiffres publiés dans APEL et les rapports générés manuellement. Les Tier2s doivent publier leurs données au 01/09/07 les rapports commencent au 01/04/07.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille15 Accounting – “ce qui se profile” User Level Accounting 1.gLite 3.0.1u10 inclue le DN dans le Usage Records mais celui-ci n’est pas publié par défaut. 2.Les sites devraient installer cette release et la configurer afin de publier les données encryptées des utilisateurs. Le deadline pour pour les T1s est le 1er Juin mais tous les sites sont encouragés à publier. 3.Aucun DN ne sera consultable avant qu’une politique d’accès ne soit établie.
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille16 Les plans pour 2007 Tier-1 : IN2P3-CC –Consolider les services de grille en service pour une intégartion sans les “opérations” normales. –Augmenter la bande passante avec les Tiers2 et celle de la liaison réseau avec les autres Tiers1 via FZK. –Accélérer le projet de la construction de la nouvelle salle machine initialement planifié pour Tier-2s/Tier-3s –Améliorer la disponibilité des sites. –Continuer à tester et à utiliser l’infrastructure de transfert de données. Communauté –Faire en sorte que les administrateurs de site comprennent bien comment se fera l’accès aux données (!).
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille17 Remerciements/ Liens utiles Système d’information, Pierre Girard, Jan Status of Tier1 and associated Tiers2, Fabio Hernandez, Jan SA1 All-Activity Meeting, Ian Bird, Bologna- Jan. 16th-17th 2007 Update on Accounting, John Gordon, GDB Mars 2007 CIC portail des opérations LCG-France website LCG-France T2-T3 Technical coordination wiki page: CC-IN2P3:
LCG-FR II 14/03/2007Hélène Cordier / Exploitation Globale de la Grille18 Questions