Capítulo 7. Construir un linaje de principio a fin

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el 27 de julio de 2004, una startup de cinco años llamada Google se enfrentó a un grave problema: su aplicación no funcionaba.

Durante varias horas, los usuarios de Estados Unidos, Francia y Gran Bretaña no pudieron acceder al popular motor de búsqueda. La empresa, que entonces contaba con 700 personas, y sus millones de usuarios se quedaron a oscuras mientras los ingenieros se esforzaban por solucionar el problema y descubrir la causa raíz del problema. A mediodía, un tedioso e intensivo proceso llevado a cabo por unos cuantos ingenieros presas del pánico determinó que el culpable era el virus MyDoom.

En 2021, una interrupción de esa duración y escala se consideraba bastante anómala, pero hace 15 años, este tipo de interrupciones del software no eran infrecuentes. Tras dirigir equipos en varias de estas experiencias a lo largo de los años, Benjamin Treynor Sloss, director de ingeniería de Google en aquella época, determinó que tenía que haber una forma mejor de gestionar y prevenir estos vertiginosos simulacros de incendio, no sólo en Google, sino en todo el sector.

Inspirado por su temprana carrera en la construcción de infraestructuras de datos y TI, Sloss codificó sus aprendizajes como una disciplina totalmente nueva -laingeniería de fiabilidaddel sitio(SRE, por sus siglas en inglés)- dedicada a optimizar ...

Get Fundamentos de la calidad de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.