Evolution des services Retour sur les incidents récents: Disfonctionnements cluster SUN (répertoires disques) : – Incidents et actions réalisées Disfonctionnements.

Slides:



Advertisements
Présentations similaires
Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.
Advertisements

Impact de la virtualisation sur le poste de travail, les serveurs, la salle machine et les programmes? Poste de travail? +Windows et Linux simultanés -Mémoire.
Les sauvegardes Pourquoi sauvegarder ? Que sauvegarder ? Quand sauvegarder ? Ou sauvegarder ? Et comment ?
Projet tuteuré 2009 Les clients légers Alexandre Cédric Joël Benjamin.
LHC Computing Grid Évolution du T2 de l'IPHC Yannick Patois.
Cloud computing Présenté par Robert Ogryzek, Teddy Frontin, Kevin Lambert et Matthew Cronne.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Autrans 1 er & 2 juin /05/15. Journées prospectives LPSC – Autrans 1 er & 2 juin thèmes retenus par le CU Organisation des projets au LPSC.
Xen et l' Art de la Virtualization Antoine Nivard Responsable technique Adéquat région Ouest Responsable de Site francophone de XEN Computer.
GPA – 19 novembre Urbanisation : « ranger » le SIE GCiB – 16 mars 2010 F. Rougerie – Onema / DCIE.
1 Identifier les composants d’un réseau local. 2 Les composants d’un réseau Des ordinateurs, appelés stations... …munis d’une carte réseau leur permettant.
L’intérêt de sauvegarder certaines données stockées localement sur les postes clients est souvent trop sous-estimée par nos utilisateurs. Casse matérielle,
Les mémoires de l’ordinateur
Claude KOJCHEN AFIM 28 février Disponibilité, Fiabilité et Maintenabilité Comment les optimiser ?
Salle informatique mutualisée Virtual Data – 2 juillet 2012
Virtualisation Anton Soubré Romain Meallet Dimitry Duong Jéremy Calado
Option « Contrôle-Commande » de
Présentation amendée de la preuve
RGPP 154 Mutualisation des applications métiers
2 Le technicien support Métier : Comment y parvenir ? Ou l’exercer ?
Centre de Calcul de l'IN2P3
JT11-RSI janvier et 8 janvier 1999
26 octobre 2016 Migration IT au Registre national Comité de concertation RN (AG 26/10/2016) Eric Roelandt.
Séminaire EOLE Dijon Septembre 2008
Evénement significatif niveau 1 INES
Module 7: Life Cycle Cost – projet n°4
Objectif: réaliser un croquis
BILAN D’ACTIVITES SEMESTRIEL 2014
PORTEFEUILLE DE COMPETENCES
Journée Analyse D0, 19 janvier 2004
CLUSTER DE BASCULEMENT SERVEUR DHCP
LE PASSAGE À L’EURO DE L’APPLICATION ICARE
Estimation du coût d'utilisation de CPU d'un cloud hébergé sur radiateurs P. Hennion 27 septembre 2016.
Compte-rendu des réunions de travail Groupware du 29/05
Ouverture.
Etat des services grid de production
Introduction Présentation du formateur : Adresse
Pierre Girard LCG-France Tier
Séquence1 . Séance 3 Problème posé :
Summer : Stockage capacitif mutualisé de UGA
2018/8/9 CLAP Cluster de virtualisation et de stockage distribué du LAPP Mardi 26 avril 2016 Entrez votre nom.
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Présentation du Service Informatique
Informations Comité des utilisateurs du mésocentre
S.T.S. S.I.O. 1ère année La gestion de projets
Estimation du coût d'utilisation de CPU d'un cloud hébergé sur radiateurs P. Hennion 22 juin 2016.
ETUDE SUR LES ORIENTATIONS STRATEGIQUES
Îlot n°5 Qu’est ce que la régulation thermique ? NOM Prénom1
Architecture de machines Le microprocesseur Cours
Les protocoles de la couche application Chapitre 7.
INDICATEURS ET TABLEAUX DE BORD EN MAINTENANCE. Définitions Indicateur : chiffre significatif d’une situation économique pour une période donnée. Tableau.
Introduction Présentation du formateur : Adresse
Gestion des photos Organisation du disque dur, Navigation
Travaux Personnels Encadrés classes de premières séries ES et L
Cloud Computing Formation continue ASF 2018.
Simulation d’entreprise
Mésocentre de calcul et de stockage ouvert sur la grille EGEE (MUST) LAPP/ Université de Savoie / EGEE.
Les mots à apprendre Les mots à apprendre elle est il est c’est
Missions Locales Serveur Mutualisé
Affaire MSM2T + CN : le retour !
GESTION DES INTERVENTIONS. Schéma d’une intervention de maintenance : de maintenance :  Événement prévu  Événement imprévu Maintenance préventive Maintenance.
Domaines d’activités et clusters possibles
Un cloud de production et de stockage
TP réalisée par: DIAS Rui. La méthode de l'Arbre Des Causes est un moyen simple et efficace pour rechercher des mesures de prévention à mettre en place.
Encadré par : M. Mohammad EL GHABZOURI Elaboré par : - AZEGAMOUT Mohamed - ABOULKACEM abdelouahed - GOUN Ayoub EXPOSÉ Sous le thème : SER 2018 Parallélisme.
Cluster CAU Sous Windows serveur 2012 R2.
Le système de production La TPM (Maintenance Productive Totale) Temps alloués au calcul TRS Norme AFNOR : NF E Temps total Fermeture Temps de fonctionnement.
Mise en place d’un Plan de Gestion des Données au GANIL
Accès aux Ressources Grille
Transcription de la présentation:

Evolution des services Retour sur les incidents récents: Disfonctionnements cluster SUN (répertoires disques) : – Incidents et actions réalisées Disfonctionnements de la climatisation: – Incidents et actions en cours Actions à plus long terme: – Stockage – Arrêt T64 – Evolution de la climatisation 21/10/2011COMUTI

Cluster SUN : les incidents Mise à jour qui n’a pas abouti – réinstallation totale des 2 machines en avril Problèmes avec les drivers des cartes réseau 10G : – (trop) fréquents basculements de services d’une machine à l’autre depuis la réinstallation Difficultés à remplacer des disques – Dégradation des espaces disques (mais les données toujours là!) (juin) 21/10/2011COMUTI

Cluster SUN : les actions (réalisées) Passage sur les cartes réseau Giga : – Stabilisation de la disponibilité du service au détriment de la vitesse d’accès réseau. – Décision de rester dans cet état (juillet) Planification de changement de disques – Services en ligne: impossible ! (incompatibilité de firmwares, mauvaise gestion du pb par Oracle) – Durant la coupure électrique planifiée: mauvaise stratégie du SI car on mélange les problèmes! 21/10/2011COMUTI

La climatisation: les incidents Causes: – Puissance énergétique de la SM très souvent au maximum de la clim (donc sous-dimensionnée) – Les 2 condenseurs en panne en même temps sans que l’on puisse savoir pourquoi ! Conséquences: – Plusieurs arrêts infra LAL non prévus qui s’ajoutent aux pbs cluster SUN: instabilité des services… – Mise en évidence de difficultés au redémarrage – Arrêt ressources grilles du LAL 21/10/2011COMUTI

La climatisation: Les actions (en cours) Travail sur la continuité de services : – Services critiques mieux identifiés et sécurisés (redondance et séparation électrique) – Mise en service de l’onduleur (réseau) – Information utilisateurs… Réparations de la climatisation : 26K euros ! Stabilisation de la consommation électrique pour 2012: – Arrêt d’anciennes machines (2006) de services et de groupes – Virtualisation de services et de serveurs 21/10/2011COMUTI

Les actions à plus long terme: stockage Achat 45T utiles « haute disponibilité » + 40T utiles « haute performance »: – Achat mutualisé projet Stratuslab Bilan de l’existant et des besoins : à mener avec les groupes et services Mise en service fin novembre : – migration des données (date cible de fin: janvier 2012) Réflexions en cours (à mener avec vous) : – espace de « scratch » (besoins, éventuelle remise à plat cluster SUN, …) – Sauvegardes (quels espaces, durées, comment,..) 21/10/2011COMUTI

Les actions à plus long terme: arrêt cluster T64 Infrastructure redondante qui fournit beaucoup de services majeurs  obsolète Arrêt programmé juin 2012 au plus tard Déplacement des services « à l’identique » sur des machines virtuelles Stratuslab: – Test en cours avec le service d’annuaire – Messagerie : plusieurs scénarios à étudier (avec vous) Gain aussi en coûts de maintenance T64! Arrêt de la machine asc depuis début juillet 21/10/2011COMUTI

Les actions à plus long terme : évolution de la climatisation Augmenter la capacité de base  utilisation moyenne de 75% en mode nominal Redondance minimale en cas de défaillance du système Augmentation des capacités de calcul et de stockage du laboratoire (grille comprise) dans les deux prochaines années Non déménagement du LAL, mutualisation possible SM P2IO  réutilisation de l’investissement 21/10/2011COMUTI