DATA MANAGEMENT G. Lamanna, N. Neyroud, C. Barbier, J. Jacquemier, D. Sanchez CTA 1er Décembre 2014.

Slides:



Advertisements
Présentations similaires
MGP Groupe 30 Processus de projets, contrôle des risques
Advertisements

Les technologies décisionnelles et le portail
Analyse et Programmation Orientées Objets Cycle de vie dun projet.
« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
Automatisation de Tâches Scenarios
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Cours MIAGE « Urbanisation des Systèmes dInformation » Henry Boccon-Gibod 1 Urbanisation de Système d'Information L'approche Togaf © 2008 The Open Group.
Le Grid Computing Par Frédéric ARLHAC & Jérôme MATTERA.
Le processus unifié UML est un langage de modélisation et n ’impose pas de démarche de développement Le processus unifié : méthodologie de développement.
LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.
Les outils d’intégration continue
30/03/2017 Formation Plan 1.
Rennes, le 18 septembre 2006 Support du paradigme maître-travailleur dans les applications à base de composants Tâche 2.2 Hinde Bouziane Réunion LEGO.
Des outils pour le développement logiciel
Management des systèmes d’information Conclusion
Scientific Data Preservation Project Call: Mastodons
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Les étapes du cycle de développement du génie logiciel
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
•Présentation de Team Edition for Database Professionals •La méthodologie •Etude de cas.
22 VIR302 - Comment résoudre les problèmes de compatibilité applicative avec l’OS grâce à la virtualisation (XP Mode et MED-V) 8 février 2010 Enrique.
Partie A Système d ’information et organisation
Guillaume TORRENTE Marc BOUISSOU Recherche & Développement
Student Management Marks Gaston Berger University School Year Project on Mobile Application Development.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Introduction au Génie Logiciel
Dyalog.Net Peter Donnelly Managing Director Dyadic Systems Toronto 30/10/2002.
Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.
Software engineering, data stores and databases CHEP 2010 Andres Gomez Casanova CC-IN2P3 Storage Team.
CMS ATLAS LHCb CERN Tier 0 Centre at CERN National Centres Lab a Russia Lab c Uni n Lab b Manno Canada Uni y Uni x Tier3 physics department  Ge  Germany.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Présentation de stage : P.o.C Eucalyptus
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
Le noeud de grille Tier 3 LAPP.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Plan de viabilité de France Grilles Hélène Cordier, Gilles Mathieu CTE-15 – mardi 12 juin 2012.
Alain Le Hegarat Responsable Marketing Windows Server
Département de génie logiciel et des TI Université du Québec École de technologie supérieure Systèmes d’information dans les entreprises (GTI515) Chargé:
Transition EGEE SA1 FR vers Opérations France Grille
L’enseignement de spécialité SLAM
1 de 24 Cours 11 - synchronisationMGL Witold Suryn Cours 11 – SQIM - synchronisation et gestion de changements 1 Ingénierie de la qualité du système.
22 Lag110 : Le développement SharePoint 2010 avec Visual Studio 2010 Mardi 9 février 2010 Frédéric Wickert Partner Technical Specialist Microsoft.
PaCO++ André Ribes Réunion Hydrogrid Rennes 15/09/03.
L’environnement Labo : Laboratoire de Physique des Particules d’Annecy-le vieux: LAPP (PP, Astro) Effectif du labo : 144 personnes Nombre d’IT : 76 dont.
1 Journee gdr COSMAL 27/01/2009 Exécution Distribuée et Agile de Compositions de Services Françoise Baude & Virginie Legrand
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Techniques d’audit assisté par ordinateur
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
UNDP Regional Bureau for Africa MDG-based national Development Planning Training Workshop HIV/AIDS Assessments 10 March, 2006 Niger.
HEPIX N. Neyroud 1.
Le programme présent  GLAST (2008, calorimètre, calibration, logiciels, LLR,CENBG,LPTA )  13 chercheurs, 2 IR, 4 thèses, 2 post docs  ¼ des coordinateurs.
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
StratusLab is co-funded by the European Community’s Seventh Framework Programme (Capacities) Grant Agreement INFSO-RI StratusLab : Le projet et.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Stratégie: éléments généraux. France Grilles Est un Groupement d’Intérêt Scientifique… – créé en 2010 par 8 partenaires (CEA, CNRS,CPU, INRA, INRIA, INSERM,
Contrôle, configuration et acquisition de données à l’Irfu Laboratoire d’Ingénierie Logicielle pour les Applications Scientifiques.
GBIF NODES Committee Meeting Copenhague, Danemark 4 octobre 2009 L’outil de publication intégrée du GBIF (‘GBIF Integrated Publishing Toolkit’ ) Alberto.
Opérations France-Grilles : Etat des lieux Hélène Cordier/Gilles Mathieu LCG France, 30 Mai 2011.
Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Resource allocation: what can we learn from HPC? 20 janvier 2011 Vincent Breton Crédit: Catherine Le Louarn.
Planning Process « t’as un plan pour ce soir ? » Tony Carnal Altran.
Page : 1 ObjectWeb 04/10/2004 Direction Générale du Système d ’Information Ce document est la propriété intellectuelle de DASSAULT AVIATION. Il ne peut.
Framework de reconstruction et d’analyse pour Micromegas Jean Jacquemier 27 janvier 2008.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
Projet eXtreme DataCloud XDC
Transcription de la présentation:

DATA MANAGEMENT G. Lamanna, N. Neyroud, C. Barbier, J. Jacquemier, D. Sanchez CTA 1er Décembre 2014

Organizational structure Project Manager (software architect) N. Neyroud Software development services C. Barbier, S. Brau-Nogué, cta_support Project Leader (Scientific coordinator) G. Lamanna CTACG technical coordinator L. Arrabito Data Model J.-L. Contreras Low level E. Lyard Mid levelHigh level Response Functions J. Rico Common Components Metadata C. Boisson Pipelines K. Kosack Framework Calibration R. de los Reyes Reconstr. and analysis K. Kosack On-site analysis A. Bulgarelli Monte Carlo G.Maier Archives L.A. Antonelli Storage Management System S. Gallozzi Framework Observer access J. Knödlseder User support R. Walter Science tools J. Knödlseder Dissemination R. Walter Proposal handling B. Khelifi IC-Infrastructures N. Neyroud Network infrastructure G.Lamanna Computing architecture N. Neyroud User Services C. Barbier, E. Fede T. Le Flour J. Jacquemier C. Barbier D. Sanchez

DATA LAPP 1er Décembre Coordination des activités des différents sous-produits La vision globale et technique du projet L’animation de l’équipe projet DATA Management Les livrables projet en cours de finalisation: TDR en Latex, Schedule en MS/Project, PBS et WBS en Excel, les coûts associés, le risk register en excel, le Design Validation Document en Word, les ICD dans sharepoint/Word Les documents internes liés au projet: User Requirements, ICD internes …. La gestion du projet

DATA LAPP 1er Décembre Développement du logiciel Gestion de la qualité des codes Interfaces internes et externes Stratégie de gestion, distribution, validation et déploiement des logiciels => Proposition Software Validation Center Méthodologie de chiffrage des coûts du développement (K. Kosak pour l’idée, D. Sanchez + définition des paramètres communs pour la collecte de tous les coûts de développement) Stratégie d’intégration et tests jusqu’au commissioning Software Architect

DATA LAPP 1er Décembre Software Development Collaborative Platform (C. Barbier) Software Policy definition: CTA Software Policy documentCTA Software Policy – OS, languages, libraries, compilers, coding rules, licenses – Development environment, test and errors, packaging and deployment tools SVN (software repository): CC-IN2P3 SVN – In production, 137 CTA users (many for the TDR writing), ~15 users per week – Support for software transfers and permissions Redmine (project management and issue tracking): CC-IN2P3 Forge Redmine – In production, connected to CTA SVN, 260 CTA members already connected – Support for projects creation, configuration and management Jenkins (continuous integration tool): CC-IN2P3 Jenkins – Connected to the CC-IN2P3 OpenStack Cloud VMs and to CTA SVN – Sonar(Qube) plugin installed – Currently tested by Jean Jacquemier and other developers on 1 VM SonarQube (continuous inspection of code quality tool): TBD SonarQube – Not yet installed (only 1 VM required) – Needed by Jean-Luc Panazol and other developers 5

DATA LAPP 1er Décembre Exemple du site sud: Data Model: les volumes de données à traiter, à archiver et accéder Volume de données: 36.2 PB/An (Bande passante réseau de 6Gbits/s pour le site Sud) -> 69 PB/an si 12 telescopes SCT au site Sud.

DATA LAPP 1er Décembre L’étude réseau menée par Giovanni (Rapport GEANT)=> Hypothèse de réseau limité à 1Gbps => Obligation de réduire les données d’un facteur 10 sur site avant le transfer de données, Data Model: les conséquences

DATA LAPP 1er Décembre Cumulated data volumes - with data volume reduction Cumulated data volumes - with data volume reduction 3.6 PB de données brutes par an => 19 à 20 PB/an

DATA LAPP 1er Décembre Pipeline: Plan Projet Pipeline – Pipeline logiciel – Organigramme technique projet pipeline – Pipeline de réduction de données structure logiciel bas niveau – Description – Pipeline Framework Hadoop, solution Big Data

DATA LAPP 1er Décembre Responsabilités du projet pipelines Produire les logiciels: – Traiter les données brutes pour fournir des données de haut niveau aux scientifiques – Contrôle et surveillance

DATA LAPP 1er Décembre Organigramme technique de produit

DATA LAPP 1er Décembre Pipeline logiciel Séquence de traitements appliqués aux données pour atteindre un but de haut niveau. 12/8

DATA LAPP 1er Décembre Data Reduction Pipeline (DRP) Calibration : (par télescope) – Calcule coefficients de calibration – Applique coefficients sur données brutes 6/8 Reconstruction: – Combine les données de plusieurs télescopes – Reconstruit les caractéristiques de chaque évènement Analysis – Sélection d’évènement – Génération IRF

DATA LAPP 1er Décembre Structure logiciel bas niveau (Framework) C’est quoi; – Ensemble d’outils et de composants logiciels. – Pas une application. – Fonctionne par inversion de contrôle. Pour quoi faire: – Créer des différentes applications Utilisant composants logiciels du Framework – I/O – Log – exécutions parallèles. Ajoutant son propre code (classes dérivées) du Framework (C++)) Utilisant les outils du Framework – Tests, profilage… 14/8

DATA LAPP 1er Décembre Pipeline framework 8/8

DATA LAPP 1er Décembre Big data et Hadoop Big data – Volume de donnée et vitesse du résultat Hadoop – Utilisé par Yahoo, Facebook … – Traitement simple sur fichier texte. Utiliser Hadoop pour nos pipelines – Non car multiple sources entrées (données brutes, calibrations, techniques) structurées – Peut être pour On-site (Data volume reduction) 16

DATA LAPP 1er Décembre Des volumes jamais traités en Astro Les transférer (Data Transfer Unit sous la responsabilité de IC- Infra) Les indexer dans des bases de données Les archiver sur disque et bande Répondre aux requêtes Archive

DATA LAPP 1er Décembre Nous devons mettre en place un observatoire donc il faut fournir des services aux utilisateurs: -Proposal Handling -Science tools -Dissemination Observer access

DATA LAPP 1er Décembre En lien avec les physiciens et les requirements utilisateurs on définit l’Architecture informatique:  La courbe des données à gérer par an  La répartition de ces volumes entre technologies différentes: bande et disque  La gestion du niveau de disponibilité exigé  La distribution des données (mappage) et des traitements  Le Monitoring et Control à prévoir  Tous les outils à prévoir dans cet environnement  Toutes les interfaces aux applications dans cet environnement BigData IC Infrastructure

DATA LAPP 1er Décembre Computing architecture: distributed model

DATA LAPP 1er Décembre CTACG (C. Barbier, E. Fede) CTACG = CTA Computing Grid (EGI) – Monte-Carlo production and analysis – CTA-DIRAC project using SVN and RedmineSVNRedmine 1 coordinator : Luisa Arrabito (LUPM) 20 EGI sites supporting the CTA VO (Poland, Germany, France…): – 6000 cores for 100M HS06 CPUs hours (2014) – 1PB disk storage – LAPP  8% 1-2 contacts per site: – Resources allocation, – Monitoring of resource usage and problems solving 2 meetings per year: – Reports and planning for the production campaigns

DATA LAPP 1er Décembre Une interface unique pour toutes les applications: – Analyse des données – Virtual Observatory – Codage (Redmine, SVN) – Monitoring, Control – …. Gateway (C. Barbier, D. Sanchez)

DATA LAPP 1er Décembre Les défis: -L’environnement BigData avec ses défis technologiques sans les moyens humains des agences ou du CERN. -Les délais: -Le choix des sites (M-2015?) -L’inkind contribution (Qui va faire quoi?) - La phase de construction et déploiement (mi-2017-fin 2021) -L’implication du LAPP dans les 3 années à venir