Capítulo 7. Criando linhagem de ponta a ponta
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Em 27 de julho de 2004, uma startup de cinco anos chamada Google viu-se confrontada com um grave problema: a sua aplicação estava em baixo.
Durante várias horas, os utilizadores dos Estados Unidos, França e Grã-Bretanha não conseguiram aceder ao popular motor de busca. A empresa, então com 700 pessoas, e os seus milhões de utilizadores ficaram às escuras enquanto os engenheiros se esforçavam por resolver o problema e descobrir a causa raiz da questão. Ao meio-dia, um processo tedioso e intensivo conduzido por alguns engenheiros em pânico determinou que a culpa era do vírus MyDoom.
Em 2021, uma interrupção desta duração e escala foi considerada bastante anómala, mas há 15 anos, este tipo de interrupções de software não era invulgar. Depois de liderar equipas em várias destas experiências ao longo dos anos, Benjamin Treynor Sloss, um gestor de engenharia da Google na altura, determinou que tinha de haver uma melhor forma de gerir e prevenir estas vertiginosas falhas, não só na Google mas em toda a indústria.
Inspirado pelo início da sua carreira na construção de infra-estruturas de dados e TI, Sloss codificou os seus conhecimentos como uma disciplina totalmente nova -engenharia de fiabilidade desites(SRE) - dedicada a otimizar a manutenção e as operações de sistemas de software (como o motor de busca da Google) com ...