INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 2 Plan Objectifs de l’accounting Collecte des données Fonctionnement du CE
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 3 Fonctionnement d’un CE UI RB CE
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 4 Fonctionnement d’un CE Jobs Scheduler Worker Nodes
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 5 Problèmes d’ordonnancement Des petits jobs peuvent attendre longtemps avant de démarrer Des jobs trés parallèles peuvent ne pas passer à cause de petits jobs Les ressources peuvent être monopolisées par quelques uns qui soumettent beaucoup de jobs agressivement
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 6 EGEE/LCG Beaucoup de jobs uniprocesseurs Les jobs sont indépendants : Quand un site reçoit des jobs il peut les exécuter dans l'ordre qu'il souhaite. Une file d’attente virtuelle par groupes « Bag of Tasks »
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 7 Fonctionnement des sites La prochaine tâche à s'exécuter quand un processeur devient libre est celle ayant la priorité la plus élevée. La tâche s'exécute jusqu'à la fin ou est annulé par l'utilisateur L’objectif est de ne pas affamer certains utilisateurs
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 8 Qu’est-ce que l’accounting ? L’accounting établit un rapport de l’activité du site Cela permet de mesurer l'activité des utilisateurs et des groupes ainsi que les performances du système et son utilisation Avoir une trace de l’historique des jobs et les statistiques du système (comptabilité)
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 9 Qu’est-ce que l’accounting ? -Permet de donner aux utilisateur les statistiques d'utilisation du site et de faire connaître son activité -Transparence de l’utilisation du site vis à vis des groupes et des utilisateurs
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 10 Un outil d’évaluation -Un moyen pour simuler et améliorer l'ordonnancement -Permet de proposer et d'évaluer des modèles pour caractériser le workload et de créer des benchmarks pour les ordonnanceurs -Permet d’évaluer des politiques d’ordonnancement (priorités des jobs) pour éviter -La famine -Une attente trop longue -Une sous-utilisation des ressources
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 11 SWF: The Standard Workload Format Format standard créé pour faciliter l'utilisation et l’échange des workload (réels ou simulés) –Validation de modèles –Standard depuis + de 10 ans (NASA,..) Propose une information par VO et par utilisateurs Simple à analyser et portable –Chaque workload est representé par un fichier ASCII –Chaque tâche est representée par une ligne, le nombre de champs est constant.
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 12 SWF: The Standard Workload Format The Data Fields 1. Job Number 2. Submit Time 3. Wait Time 4. Run Time 5. Number of Allocated Processors 6. Average CPU Time Used 7. Used Memory 8. Requested Number of Processors. 9. Requested Time. 10. Requested Memory 11. Status 12. User ID 13. Group ID 14. Executable (Application) Number 15. Queue Number
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 13 Etats du scheduler
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 14 pbs2swf Analyse des logs PBS pour le traduire en SWF Chaque ligne des logs de PBS renseigne sur un changement d‘état du job avec des informations disponibles sur ce job Chaque job suit un changement d'états (Diagramme d‘états) Mais certains jobs ont des états incohérents –Que faire en cas d'erreurs ou d’informations contradictoires dans les logs ? –Éventuels problèmes d'horloge qui fausse le déroulement –Identifiants de jobs utilisés 2 fois –etc.
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 15 Autres outils: APEL 2 composants: Log parser et Publisher Un serveur RGMA doit être installé sur chaque site, idéalement sur un serveur dédié Analyse des fichiers de logs (Gatekeeper logs, System messages, Scheduler logs ) Stocké en local dans une BD MySQL Publication via RGMA dans une BD centrale pour tout les sites
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 16 Autres outils: DGAS « DataGrid Grid Accounting System » Mesure l’utilisation des ressources Senseurs sur les CEs (analyse des logs) Architecture distribué Secure (Toutes les communications sont cryptés) Extensible (Couches indépendentes)
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 17 Usage par Vos en 2006 (IN2P3-LPC) CLRLCGCE01CLRLCGCE02 CLRLCGCE03
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 18 Durées des jobs par VOs Dteam Atlas
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 19 Durées des jobs par VOs LHCb Biomed
Enabling Grids for E-sciencE INFSO-RI Statistiques d'usage d'un site de la grille LCG/EGEE - Emmanuel Medernach 20 Questions ? ?