Capítulo 8. De guardia

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Estar de guardia significa estar disponible durante un periodo de tiempo determinado, y estar preparado para responder a incidentes de producción durante ese tiempo con la urgencia adecuada. A menudo se pide a los Ingenieros de Fiabilidad del Sitio (SRE) que participen en turnos de guardia. Durante los turnos de guardia, los SRE diagnostican, mitigan, arreglan o escalan los incidentes según sea necesario. Además, los SRE se encargan regularmente de tareas de producción no urgentes.

En Google, estar de guardia es una de las características que definen la SRE. Los equipos de SRE mitigan los incidentes, reparan los problemas de producción y automatizan las tareas operativas. Como la mayoría de nuestros equipos de SRE aún no han automatizado completamente todas sus tareas operativas, las escaladas necesitan puntos de contacto humanos: ingenieros de guardia. Dependiendo de lo críticos que sean los sistemas soportados, o del estado de desarrollo en que se encuentren los sistemas, puede que no todos los equipos de SRE necesiten estar de guardia. Según nuestra experiencia, la mayoría de los equipos SRE tienen turnos de guardia.

La atención continuada es un tema amplio y complejo, con muchas limitaciones y un margen ...

Get El cuaderno de trabajo de la fiabilidad del sitio web now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.