Capítulo 4. Utilizar métricas de incidencias para mejorar la SRE a escala
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Tanto si tu servicio busca añadir su próxima docena de usuarios como sus próximos mil millones de usuarios, tarde o temprano acabarás en una conversación sobre cuánto invertir en qué áreas para mantener la fiabilidad a medida que el servicio se amplía. En este capítulo, echamos un vistazo a cómo utilizar las métricas de incidencias para centrar las inversiones mediante un caso práctico de Microsoft Azure. Aplica las lecciones que hemos aprendido trabajando en la fiabilidad del servicio en una variedad de servicios, que van desde las startups hasta los servicios empresariales, pasando por la escala de la nube. Azure es un caso de estudio especialmente bueno, ya que la enorme escala, el crecimiento y la diversidad de ofertas de productos amplifican los temas típicos de fiabilidad. Mostramos cómo el uso de datos y algunas técnicas innovadoras para analizar e informar sobre estos temas nos ayudó a impulsar mejoras.
El ciclo virtuoso al rescate: Si no lo mides...
Como en cualquier esfuerzo de gestión de problemas, empezamos por examinar los datos. Sin embargo, cuando fuimos a hacerlo, resultó que teníamos miles de fuentes de datos, telemetría de servicios, métricas de gestión de incidencias, métricas de implementación, y así un largo etcétera. De hecho, teníamos tantas ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access