Vers une exploitation orientée performance Alain Le Saout Responsable Outils
Introduction SFR a mis en place une démarche proactive pour améliorer la qualité de service de son site sfr.fr, de ses serveurs vocaux, et de ses applications SI les plus critiques. La gestion de la performance applicative (APM), par exemple avec l’outil dynaTrace de Compuware, est un élément majeur de cette démarche. Ce type de solution permet de raccourcir drastiquement la résolution d’un incident en production, d’optimiser les infrastructures nécessaires aux applications, et de tenir compte de la performance dès le développement et l’intégration.
A propos de SFR
Amélioration de la qualité de service: Troubleshooting rapide en cas de crise en production pour limiter l’impact business Diagnostic des signaux faibles sur les dégradations de performance Visibilité de bout en bout sur les chaînes applicatives Anticipation des problèmes Optimisation des infrastructures Le besoin et les enjeux
Contexte applicatif Instrumentation en priorité des applications grand public: sfr.fr, serveurs vocaux Extension vers les applications internes (billing puis autres) Serveurs frontaux Apache, serveurs d’application Weblogic et Websphere, CAV800
Fonctionnalités indispensables d’un outil d’APM Visibilité de bout en bout sur les chaines applicatives Couverture de l’environnement technique SFR Très peu d’overhead de la solution en production Simplicité de déploiement Permet une communication efficace entre les équipes de développement, intégration, bench et production (langage commun) Développeurs Production Test, QA ArchitectesMaitrise d’ouvrage
Retour d’expérience sur l’utilisation de dynaTrace (Compuware APM ) 440 JVM à instrumenter. Actuellement 203 déployées en production Utilisation de l’outil en production, intégration et benchs Processus de déploiement simple et rodé: Calé sur le planning de bench Préparation des infras pour les collecteurs Ouverture des flux Temps elapse parfois long, mais charge faible
Résultats constatés Progrès significatifs dans la gestion des crises en production: Plus de tours de table avec 10 personnes L’outil permet de cibler la cause (max 2 personnes impliquées) Les discussions se basent sur des données réelles, partagées et comprises par toutes les équipes (dev, test, prod) Diminution du nombre de crises: Le diagnostic des signaux faibles en production permet de résoudre les incidents mineurs avant qu’ils ne deviennent critiques L’outil permet d’impliquer les développeurs pour améliorer la performance de manière proactive dès l’intégration
Résultats constatés Diminution des temps de bench: Moins de cycles de test Les benchs permettent maintenant de fournir des pré-requis d’optimisation des infrastructures Constatation en comparant l’avant et l’après: Les applications qui ont été benchées avec l’outil d’analyse de performance permettent de gagner de 2 à 3% de SLA en production Pas d’impact sur la performance des applications en production (aucun ajout de CPU sur machines de prod)
Perspectives Finalisation du déploiement sur la partie front-end (jusqu’au 440 JVM) Déploiement sur les applications internes critiques (billing puis autres) Déploiement sur le back-end et Mainframe pour la complétude des analyses (en cours d’étude) Suppression de notre outil de supervision par analyse de log, car redondant avec l’APM (en cours d’étude)