Capítulo 7. Construir un linaje de principio a fin
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el 27 de julio de 2004, una startup de cinco años llamada Google se enfrentó a un grave problema: su aplicación no funcionaba.
Durante varias horas, los usuarios de Estados Unidos, Francia y Gran Bretaña no pudieron acceder al popular motor de búsqueda. La empresa, que entonces contaba con 700 personas, y sus millones de usuarios se quedaron a oscuras mientras los ingenieros se esforzaban por solucionar el problema y descubrir la causa raíz del problema. A mediodía, un tedioso e intensivo proceso llevado a cabo por unos cuantos ingenieros presas del pánico determinó que el culpable era el virus MyDoom.
En 2021, una interrupción de esa duración y escala se consideraba bastante anómala, pero hace 15 años, este tipo de interrupciones del software no eran infrecuentes. Tras dirigir equipos en varias de estas experiencias a lo largo de los años, Benjamin Treynor Sloss, director de ingeniería de Google en aquella época, determinó que tenía que haber una forma mejor de gestionar y prevenir estos vertiginosos simulacros de incendio, no sólo en Google, sino en todo el sector.
Inspirado por su temprana carrera en la construcción de infraestructuras de datos y TI, Sloss codificó sus aprendizajes como una disciplina totalmente nueva -laingeniería de fiabilidaddel sitio(SRE, por sus siglas en inglés)- dedicada a optimizar ...