Parte III. Prácticas
En pocas palabras, los SRE gestionan servicios -un conjunto de sistemas relacionados, operados para usuarios, que pueden ser internos o externos- y son responsables en última instancia de la salud de estos servicios. Operar con éxito un servicio conlleva una amplia gama de actividades: desarrollar sistemas de monitoreo, planificar la capacidad, responder a incidentes, garantizar que se abordan las causas fundamentales de las interrupciones, etc. Esta sección aborda la teoría y la práctica de la actividad cotidiana de un SRE: construir y operar grandes sistemas informáticos distribuidos.
Podemos caracterizar la salud de un servicio del mismo modo que Abraham Maslow categorizó las necesidades humanas [Mas43]-desde los requisitos más básicos necesarios para que un sistema funcione como servicio hasta los niveles superiores de función, que permiten la autorrealización y el control activo de la dirección del servicio en lugar de apagar incendios de forma reactiva. Esta comprensión es tan fundamental para la forma en que evaluamos los servicios en Google que no se desarrolló explícitamente hasta que varios SRE de Google, entre ellos nuestro antiguo colega Mikey Dickerson,1 se incorporaron temporalmente a la cultura radicalmente distinta del gobierno de Estados Unidos para ayudar en el lanzamiento de healthcare.gov a finales de 2013 y principios de 2014: necesitaban una forma de explicar cómo aumentar la fiabilidad de los sistemas.
Utilizaremos esta jerarquía, ilustrada ...
Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.