Taille: 100 employés
Industrie: Technologies de l'information et services
Emplacement: New York, État de New York
Client depuis : 2016
Quartet développe et fournit une plateforme cloud qui facilite la communication et la collaboration entre les prestataires médicaux et les prestataires de soins de santé comportementale pour les soins aux patients. Sa plateforme s'appuie sur des analyses avancées, des programmes de traitement éprouvés et une technologie moderne pour faire fonctionner les soins de santé pour les prestataires, les patients et les assureurs. Avec une forte concentration sur l'accueil des prestataires de soins de santé 24 heures sur 24, 7 jours sur 7, et sur la garantie d'une sécurité et d'une confidentialité maximales des données, il est important de garder un œil attentif sur leurs systèmes internes et de s'assurer que tout fonctionne efficacement et en toute sécurité. Mustafa Shabib, responsable de l'ingénierie, est responsable de la création des services et systèmes technologiques chez Quartet. Avec l'augmentation de la croissance de l'entreprise, y compris l'expansion de l'équipe de Shabib, la mise en place d'une solution de gestion des incidents est devenue une priorité absolue pour garantir que la plateforme réponde aux besoins et aux attentes des clients.
Surmonter le défi de résoudre les incidents plus rapidement
Au début, lorsque Quartet avait une petite équipe de sept ingénieurs, ils ont commencé à utiliser Sumo Logic et Slack pour fournir des informations informatiques en temps réel. Les ingénieurs recevaient leurs notifications d’alerte d’incident vers un canal spécifique dans Slack qui leur permettait de recevoir les alertes sur leurs téléphones portables et leurs ordinateurs de bureau. Il n’y avait pas de planning de rotation des astreintes, donc lorsqu’un problème survenait, tout le monde s’y attaquait en même temps. Finalement, après discussion, une seule personne prenait l’action – ce processus d’essaimage signifiait que l’interruption de service se poursuivait, ce qui entraînait une augmentation du temps moyen d’accusé de réception (MTTA) et du temps moyen de résolution (MTTR). Les notifications Sumo Logic et Slack ne donnaient pas un sentiment d’urgence au sein de l’équipe. « Nous ne faisions pas preuve de diligence raisonnable pour résoudre les incidents aussi rapidement que nous aurions pu le faire avec une solution et un processus différents », a déclaré Shabib. À mesure que l’entreprise se développait, l’absence d’une solution de gestion des incidents a eu des conséquences néfastes sur la fourniture de la plateforme toujours disponible que les clients et les patients attendaient.
Mise en œuvre d'une solution qui réduit le MTTA et le MTTR
Au fur et à mesure que l'équipe d'ingénierie de Quartet s'est développée, la nécessité de déployer une solution pour aider à maintenir ses services et systèmes critiques est devenue une question urgente. PagerDuty a été soigneusement choisi pour aider l'entreprise à surmonter les défis liés à la résolution rapide des incidents, tout en soutenant son objectif de réduction du MTTA, du MTTR et du nombre total d'incidents qui se produisent. Quartet a examiné quelques autres solutions, mais a trouvé que PagerDuty était plus mature et avait globalement la meilleure réputation au sein du secteur.
L'infrastructure complète de Quartet est construite sur AWS et ils exploitent CloudWatch pour la surveillance et la gestion des ressources au niveau du système. Ces alarmes sont déclenchées via PagerDuty, l'hôte Web, et en dehors de leur service tiers de gestion et d'analyse des journaux basé sur le cloud, Sumo Logic. Ils ont des agents exécutés sur tous leurs hôtes qui transmettent les journaux à Sumo Logic et créent des requêtes planifiées toutes les minutes qui déclencheront PagerDuty pour les alertes d'incident.
Shabib a noté que le fait d’avoir mis en place une solution qui déclenche des alertes et des rappels jusqu’à ce que le problème soit résolu a contribué à créer un sentiment de responsabilité au sein de l’équipe. Cela a finalement contribué à renforcer la génération de journaux de haute qualité, tout en permettant aux individus de déboguer ces problèmes plus rapidement au fur et à mesure qu’ils se produisent. L’équipe dispose également d’une politique d’escalade qui se déclenche lorsque le contact principal n’est pas en mesure de reconnaître les incidents, ce qui permet au contact secondaire de garde de prendre des mesures.
« Je pense que PagerDuty permet de placer la responsabilité entre les mains de l’ingénieur. En le plaçant plus près des incidents, de sorte que lorsqu’un incident se produit, les bonnes personnes qui ont réellement créé le logiciel sont informées et peuvent résoudre et améliorer le problème », a déclaré Shabib. C’est bien mieux que la « technique de l’essaimage » qui pouvait potentiellement placer les incidents entre les mains de quelqu’un sans le contexte ou les connaissances nécessaires pour le résoudre, sans parler du processus inefficace qui impliquait toute l’équipe alors que le problème aurait pu être traité par une seule personne.
L'objectif de l'entreprise est d'améliorer ses indicateurs opérationnels et de réduire le temps moyen de reconnaissance (MTTA) et le temps moyen de résolution (MTTR). « Ces indicateurs se sont considérablement améliorés grâce à PagerDuty, ce qui a entraîné une baisse de 25 % des incidents », a déclaré Shabib. La collecte de mesures à l'aide de la fonction d'analyse de PagerDuty permet à l'équipe de suivre les incidents passés et de mesurer l'efficacité opérationnelle du processus de gestion des incidents.
«PagerDuty est résilient et garantit que vous serez informé lorsque quelque chose de problématique se produit dans vos applications. Il n'existe pas beaucoup de services capables d'offrir ces garanties. »
– Mustafa Shabib , Responsable de l'ingénierie, Quartet
Assurer la résilience et la livraison garantie
PagerDuty a permis à Quartet de résoudre rapidement et efficacement les incidents et de réduire le nombre d'incidents de 25 %, tout en réduisant le MTTA et le MTTR. « Si nous n'avions pas PagerDuty, nous manquerions à nos obligations envers les gens d'une manière qui va au-delà des clients. Cela aurait un impact négatif sur la vie des gens si nous laissions ces incidents se produire sans les résoudre ou sans avoir l'urgence de les résoudre. Il ne s'agit pas seulement d'un échec commercial, mais plutôt d'un échec éthique pour les patients », a déclaré Shabib.