AMI (ATLAS METADATA INTERFACES) AMI Databases AMI (ATLAS METADATA INTERFACES) Solveig Albrand 12/11/2018 S.A.
Plan ATLAS Donnees et Meta-données dans le contexte d’ATLAS AMI Databases Plan ATLAS Donnees et Meta-données dans le contexte d’ATLAS Conception d’AMI Dataset Search. 12/11/2018 S.A.
ATLAS ATLAS (A Toroidal LHC Apparatus ) http://atlas.ch/ AMI Databases ATLAS ATLAS (A Toroidal LHC Apparatus ) http://atlas.ch/ 1 des expériences du LHC au CERN Energie de LHC 14 Tev (deux 7Tev faisceaux de protons) ~10 PB de données/an (30 TB/jour données brutes) Le détecteur est ~ la taille d’1 bâtiment de 5 étages. 12/11/2018 S.A.
Tier 0 data flow (full operational rates) AMI Databases Tier 0 data flow (full operational rates) 11/12/2018David Cameron CERN CHEP 06, Mumbai, India 13-17 Feb 2006
Gestion des données Beaucoup de fichiers à gérer. AMI Databases Gestion des données Beaucoup de fichiers à gérer. On ne peut pas les stocker toutes ensemble. Il faut savoir où elles sont, Il faut pouvoir les accéder On ne peut plus les traiter toutes au CERN GRID + Distributed Data management. Il faut un catalogue pour identifier les données d’intérêt AMI 12/11/2018 S.A.
Le “dataset” Le physicien n’utilisera pas les fichiers explicitement, mais des ensembles de fichiers: Parce qu’il y a 1 limite à la taille d’un fichier. Parce qu’il est plus efficace de transporter un groupe de fichiers ensemble. Un dataset est une collection de fichiers. 12/11/2018 S.A.
Définition de « Dataset » AMI Databases Définition de « Dataset » “ A set of data produced under the same logical conditions and is a minimal portion of data movable across GRID by ATLAS Distributed Data Management system, and is expected to consist of uniform files suitable for processing with the same application in the transformation chain “ Atlas Dataset Definition Document 12/11/2018 S.A.
Monte-Carlo Production AMI Databases Monte-Carlo Production EVNTS TASK (EVGEN) HITS TASK (SIMUL) EvGen conditions LOG Task = « a set of jobs » 12/11/2018 S.A.
ATLAS revue d’AMI Avril – Juillet 2006. https://twiki.cern.ch/twiki/bin/view/Atlas/ReviewOfAMI “On the basis of the successful completion of this review, we recommend that AMI is deployed as the primary physicist interface to the metadata and Dataset Selection Catalog.” 12/11/2018 S.A.
ATLAS DDM Architecture AMI Databases ATLAS DDM Architecture AMI 12/11/2018 S.A.
AMI Databases Dataset search Permettre aux physiciens de trouver les données qui peuvent les intéresser en fonction des “méta données” Pour les données de simulation: “physics process”, version d’algorithm, nEvents,…. Pour les vraies données, run conditions, detector configuration, trigger configuration, quality factors….. AMI est un framework pour les applications de catalogues, développé principalement pour le « dataset search » d’ATLAS. 12/11/2018 S.A.
Principes Indépendant de plateformes et OS Java. AMI Databases Principes Indépendant de plateformes et OS Java. Plusieurs RDBMS JDBC connections. Interface web, API et CLI pour plusieurs langages de programmation. (Web service) « Scalable» déployé de façon transparent sur plusieurs serveurs (Nous utilisons une indirection gérée par l’endpoint du Web Service) Distribué Catalogues à Lyon et à Grenoble, de façon transparente pour l’utilisateur. Evolutif Auto-descriptif. 12/11/2018 S.A.
Architecture I Extra Tag Collector 12/11/2018 S.A. AMI Databases Middle software layer – for AMI compliant databases Lower level of AMI software – handles connections and SQL syntax (back-ends for different RDBMS) Java Data Base Connection Layer and DB specific drivers Other AMI compliant Databases Atlas Production Databases Other Packages Atlas Production Packages Java API for AMI databases Generic software: used by all AMI applications Application specific software: Application Databases Extra Tag Collector 12/11/2018 S.A.
Architecture II AMI Web Container : TOMCAT Client Side AMI Web Service AMI Databases Architecture II AMI Web Container : TOMCAT Client Side AMI Web Service AMI Web Interface AMI WS Client Core HTTP(S) (SOAP) AMI framework DB 12/11/2018 S.A.
Les base de données d’AMI Afin de pouvoir gérer des schémas différents, chaque «namespace » (groupe de tables qui constituent un catalogue) contient sa propre description. Namspace: ORACLE:Schema, MySQL:Database, SQLite:File Nous pourrions travailler avec toute base de données pourvue d’un interface JDBC. 12/11/2018 S.A.
Connection « indirection » L’utilisateur d’AMI n’est pas obligé de connaître le nom physique de son catalogue, ou le serveur sur lequel il se trouve, ou même le technologie utilise. Il se connecte avec un nom logique, qui est dans le domaine sémantique de l’application. Project = csc; subProject=[production|real_data] (et pas http://atlasbkk1.in2p3.fr/AMImySQL/CSC_Production_00_00_01) 12/11/2018 S.A.
AMI implémentation de l’EGEE Metadata Query Language MQL syntaxe est plus facile que SQL SELECT [fields] WHERE [values]. MQL : SELECT dataset WHERE phi > 10 SQL : SELECT dataset FROM dataset s, properties p WHERE s.identifier=p.datasetID AND p.phi > 10. MQL est indépendant de la structure de la base. On l’utilise pour une recherche simultanée sur plusieurs catalogues. 12/11/2018 S.A.
Web interface A partir de http://ami.in2p3.fr ;cliquez sur Dataset Search . Il y a une visite guidée pour les débutants. La recherche se fait sur plusieurs catalogues. Les résultats sont montrés catalogue par catalogue. Les utilisateurs sont avertis si un catalogue avec la bonne structure ne contient pas de résultats. Un catalogue avec un structure non approprie est automatiquement exclu de la recherche. 12/11/2018 S.A.
How does it work? JFlex lib parser 1. MQL query 2. Analyzed clauses Conf file defining grammar JFlex lib parser 1. MQL query 2. Analyzed clauses AMI 3. Get DB structure 5. Unified result XML message MySQL Database Oracle Database Other Database 4. Specific queries 12/11/2018
AMI Databases Web Search 12/11/2018
Web Search 12/11/2018
csc11.007003.singlepart_e_Et25.evgen.EVNT.v11000401 Le dataset le plus populaire! 12/11/2018 S.A.
AMI est un WEB SERVICE Il y a ~ 100 commandes disponibles. Plusieurs clients existent: Python Java … L’interface web utilise des commandes AMI avec des transformations XLS. 12/11/2018 S.A.
Renseignement d’AMI N.B. AMI n’est pas le PRIMARY SOURCE de la plupart de ces données. Nous devons gérer des liens vers d’autres sources de méta-données. 12/11/2018 S.A.
Sources de données d’AMI : Task Request DB Prod DB AMI Task Server AMI DB XSL/CSV files (physics info) Scripts Evgen Log files Job Options 12/11/2018 S.A.
Commissioning data and metadata AMI Databases Commissioning data and metadata Much progress since Commissioning Data Workshop (27 January) Dataset metadata for Tiles, LAr, and (some) production in AMI 12/11/2018 S.A.
Autorisation + Authentification. DB Connexions AMI Databases Autorisation + Authentification. DB Connexions Nous gérons notre propre base d’utilisateurs. Système hiérarchique et fin d’attribution de rôles. Chaque connexion DB fait par AMI utilise un compte unique pour le « namespace » Connection Pooling X509 (authentification par certificat) marche. Nous allons bientôt intégrer VOMS. 12/11/2018 S.A.
Quelques Liens AMI Home page https://ami3.in2p3.fr:8443/AMI/ AMI Databases Quelques Liens AMI Home page https://ami3.in2p3.fr:8443/AMI/ Dataset Search https://ami3.in2p3.fr:8443/AMI/datasetSearch.html Exemple d’une page qui combine des infos DDM et AMI http://lapp.in2p3.fr/atlas/Informatique/Offline/CCIN2P3_csc11/CBNT/list_CC.html Tag Collector (presenté aux JI d’Hourtin) Une autre application d’AMI pour ATLAS (metadonnees des « releases » de software) https://atlastagcollector.in2p3.fr 12/11/2018 S.A.
Collaborateurs AMI IN2P3 : Univ. Of Glasgow: Développeurs: Solveig Albrand, Jerome Fulachier, Fabian Lambert. (LPSC) Physiciens: Fairouz Malek (LPSC) Stephane Jezequel (LAPP) Univ. Of Glasgow: Tom Doherty, Paul Millar 12/11/2018 S.A.