Capítulo 5. Alertas sobre SLO
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo explica cómo convertir tus SLO en alertas procesables sobre eventos significativos. Tanto nuestro primer libro de SRE como este libro hablan de la implementación de los SLO. Creemos que disponer de buenos SLO que midan la fiabilidad de tu plataforma, tal y como la experimentan tus clientes, proporciona la indicación de mayor calidad para saber cuándo debe responder un ingeniero de guardia. Aquí damos orientaciones específicas sobre cómo convertir esos SLO en reglas de alerta para que puedas responder a los problemas antes de que consuman demasiado de tu presupuesto para errores.
Nuestros ejemplos presentan una serie de implementaciones cada vez más complejas para las métricas y la lógica de las alertas; discutimos la utilidad y los defectos de cada una. Aunque nuestros ejemplos utilizan un servicio sencillo basado en solicitudes y la sintaxis de Prometheus, puedes aplicar este enfoque en cualquier marco de alerta.
Consideraciones sobre las alertas
Para generar alertas a partir de indicadores de nivel de servicio (IGS) y de un presupuesto de errores, necesitas una forma de combinar estos dos elementos en una regla específica. Tu objetivo es que se te notifique un evento significativo: un evento que consuma una gran fracción ...
Get El cuaderno de trabajo de la fiabilidad del sitio web now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.