book

Buscando SRE

Name: Buscando SRE
Author: David N. Blank-Edelman
ISBN: 9798341602083

by David N. Blank-Edelman

October 2024

Intermediate to advanced

590 pages

19h 59m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Introducción
Y así comienza...Historia del origenVocesHacia adelante en todas las direcciones!1Agradecimientos
I. Implantación de la ESR
1. Contexto frente a control en la ESR
2. Entrevistar a los ingenieros de fiabilidad del emplazamiento
Entrevista 101Quién participaLa industria frente a la universidadPrejuiciosEl embudoEmbudos SREPantallas de teléfonoLa entrevista in situPreguntas para llevar a casaConsejos para los jefes de contrataciónReflexiones finales sobre las entrevistas a los SREOtras lecturas
3. ¿Así que quieres crear un equipo de SRE?
Elige la SRE por las razones correctasOrientación hacia un enfoque basado en datosCompromiso con la ESRTomar una decisión sobre la ESR
4. Utilizar métricas de incidencias para mejorar la SRE a escala
El ciclo virtuoso al rescate: Si no lo mides...Revisión de Métricas: Si una métrica cae en el bosque...Métricas SustitutasReparar la deudaDeuda de reparación virtual: exorcizar al fantasma de la máquinaCuadros de mando en tiempo real: El pan y la mantequilla de la SREAprendizajes: TL;DROtras lecturas
5. Trabajar con terceros no debería ser un asco
¿Construir, comprar o adoptar?Establecer la importanciaIdentificar a las partes interesadasToma una decisiónReconocer la realidadLos terceros como ciudadanos de primera claseCuando ellos están abajo, tú estás abajoEjecutar la Caja Negra como un servicioIndicadores de nivel de servicio, objetivos de nivel de servicio y ANSLibro de jugadas: De la puesta en escena a la producciónReflexiones finales
6. Cómo aplicar los principios de la SRE sin equipos dedicados a la SRE
¡Los SRE al rescate! (y cómo fracasaron)Cuestión de escala en términos de personalEl SRE integradoTú lo construyes, tú lo dirigesLa Plataforma de ImplementaciónCerrar el ciclo: Coge tu propio localizadorIntroducción a la ingeniería de producciónAlgunos detalles de la aplicaciónLa productividad y la salud de los desarrolladores frente al buscapersonasResolución de problemas de fiabilidad entre equipos mediante autopsiasInfraestructura y herramientas uniformes frente a autonomía e innovaciónConseguir apoyoConclusiónOtras lecturas
7. SRE sin SRE: El caso de Spotify
Tabula Rasa: 2006-2007PreludioAprendizajes claveBeta y lanzamiento: 2008-2009PreludioLlevar la escalabilidad y la fiabilidad al primer planoAprendizajes claveLa maldición del éxito: 2010PreludioUn nuevo modelo de propiedadFormalizar los servicios básicosBenditas franjas horarias de ImplementaciónAtención continuada y alertaApoyo interno a la oficinaAbordar las principales preocupaciones restantesCrear DetectivesAprendizajes claveMascotas y Ganado, y Ágil: 2011PreludioFormar malos hábitosRomper esos malos hábitosAprendizajes claveUn sistema que no escaló: 2012PreludioEl trabajo manual cae en picadoAprendizajes clavePresentación de Ops-in-Squads: 2013-2015PreludioConstruir sobre la confianzaImpulsar el cambio de paradigmaAprendizajes claveAutonomía frente a coherencia: 2015-2017PreludioBeneficiosContrapartidasAprendizajes claveEl Futuro: Velocidad a escala, con seguridad
8. Introducir la SRE en las grandes empresas
AntecedentesPresentación de la SREDefinir el estado actualIdentificar y educar a las partes interesadasPresentar el caso empresarialImplantación del equipo SRELecciones aprendidasEjemplo de hoja de ruta para la implantaciónReflexiones finalesOtras lecturas

9. De SysAdmin a SRE en 8.963 palabras
Aclarar la terminologíaIndicador de nivel de servicioSLAObjetivo a nivel de servicioEstablecer ANS para los componentes internosComprender las dependencias externasSoluciones no técnicasNivel de disponibilidad de seguimientoTratar los Casos EsquinadosConclusión
10. Despejando el camino para la ESR en la empresa
El trabajo duro, enemigo de la ESRTrabajar en la empresaSilos, colas y entradasLos silos estorbanLas colas de solicitudes basadas en tickets son carasActúa yaEmpieza por apoyarte en LeanElimina tantos traspasos como sea posibleSustituir las entregas restantes por el autoservicioEl autoservicio es más que un botónEl autoservicio ayuda a los SRE de múltiples manerasOperaciones como servicioPresupuestos de errores, límites de trabajo y otras herramientas para capacitar a los humanosPresupuestos de erroresLímites del trabajoAprovechar el entusiasmo existente por DevOpsUnificar los atrasos y proteger la capacidadSeguridad Psicológica y Factores HumanosÚnete al Movimiento
11. Patrones SRE amados por los DevOps de todo el mundo
Patrón 1: Nacimiento de las pruebas automatizadas en GooglePatrón 2: Revisión de la preparación para el lanzamiento y el traspaso en GooglePatrón 3: Crear un repositorio de código fuente compartidoConclusiónOtras lecturas y fuentes
12. DevOps y SRE: Voces de la Comunidad
AntecedentesMétodoResultadosResponde
13. Ingeniería de producción en Facebook
II. SRE de perímetro próximo
14. En el principio hubo caos
El problema de los sistemasPilares económicos de la complejidadCaos inicialNavegar por la complejidad en aras de la seguridadEl caos va a lo grandeFormalizaciónPrincipios avanzadosPreguntas frecuentesConclusión
15. La intersección entre fiabilidad y privacidad
La intersección entre fiabilidad y privacidadEl panorama general de la ingeniería de la privacidadPrivacidad y SRE: Enfoques comunesReducir el trabajoResolución eficaz y deliberada de problemasGestión de relacionesIntervención temprana y educación a través de la evangelizaciónMatices, diferencias e intercambiosConclusiónOtras lecturas
16. Ingeniería de fiabilidad de bases de datos
Principios rectores del ingeniero de fiabilidad de bases de datosProteger los datosAutoservicio a escalaLas bases de datos no son especialesUna cultura de ingeniería de fiabilidad de bases de datosRecuperabilidadConsideraciones para la recuperaciónAnatomía de una estrategia de recuperaciónBloque 1: DetecciónBuilding Block 2: Almacenamiento diversoBloque de construcción 3: Una caja de herramientas variadaBuilding Block 4: PruebasDefender la fiabilidad de la recuperaciónEntrega Continua: Del Desarrollo a la ProducciónEducación y colaboraciónColaboraciónImplementaciónMigraciones y versionadoAnálisis de impactoPatrones de migraciónDefendiendo la CDArgumentar a favor de la DBREOtras lecturas
17. Ingeniería para la durabilidad de los datos
La réplica es una apuesta de mesaCopias de seguridadReplicaciónDurabilidad en el mundo realAislamientoProtecciónPruebaGarantíasRecuperaciónVerificaciónEl poder del ceroCobertura de verificaciónVigilando a los VigilantesAutomatizaciónVentana de vulnerabilidadFatiga del operarioFiabilidadConclusión
18. Introducción al aprendizaje automático para la SRE
¿Por qué utilizar el aprendizaje automático para la SRE?¿Por qué y cómo debería participar mi empresa en esto?Algunos problemas de SRE que el aprendizaje automático puede ayudar a resolverEl despertar de la IA aplicada¿Qué es el aprendizaje automático?¿Qué entendemos por aprendizaje?Del Ajedrez al Go: ¿Hasta dónde podemos bucear?¿Por qué ahora? ¿Qué ha cambiado para nosotros?¿Qué son las redes neuronales?Neuronas y redes neuronales¿Cómo y cuándo debemos aplicar las redes neuronales?¿Qué tipo de datos podemos utilizar?Aprendizaje automático prácticoBibliotecas populares para redes neuronalesEjemplos prácticos de aprendizaje automáticoHistorias de éxitoOtras lecturasMi repositorio GitHubLibros recomendados
III. Buenas prácticas y tecnologías de la SRE
19. Hacer mejor los documentos: Integrar la documentación en el flujo de trabajo de ingeniería
Definir la calidad: ¿Cómo son los buenos médicos?Requisitos funcionales de la documentación sobre SREIntegrar los documentos en el flujo de trabajo de ingenieríaLa experiencia Google: g3doc y EngPlayLo que hemos aprendidoHacer mejor los documentos: Buenas prácticasCrear plantillas para cada tipo de documentaciónMejor > Mejor: Establece normas de calidad realistasExigir documentos como parte de la revisión del códigoDepura sin piedad tus documentosReconocer y recompensar la documentaciónComunicar el valor de la documentaciónOtras lecturas
20. Enseñanza y aprendizaje activos
Aprendizaje activoEjemplo de aprendizaje activo: La Rueda de la DesgraciaEjemplo de Aprendizaje Activo: Gestor de Incidentes (un juego de cartas)Ejemplo de aprendizaje activo: Aula SREEl coste de no aprenderHábitos de aprendizaje de los equipos SRE eficacesReuniones de producciónPostmortemsUna llamada a la acción: Deshazte de las diapositivas aburridas
21. El arte y la ciencia del objetivo de nivel de servicio
¿Por qué fijar objetivos?DisponibilidadCuanto de tiempoTransaccionesTransacciones en el tiempo QuantaSobre la evaluación de los SLOHistogramasDónde caen los percentiles (y suben los histogramas)Pensamiento de despedida: Mirar los SLO al revésOtras lecturas
22. La ESR como cultura del éxito
¿De dónde viene la ESR?Valores clave para la ESRMantener el sitioCapacitar a los equipos para "hacer lo correcto"Abordar las operaciones como un problema de ingenieríaConseguir el éxito empresarial mediante promesas (niveles de servicio)Funciones esenciales de la SREMonitoreo, métricas y KPIsGestión de Incidentes y Respuesta a EmergenciasPlanificación de la capacidad y previsión de la demandaAnálisis y optimización del rendimientoAprovisionamiento, gestión de cambios y velocidadFases de la ejecución de la ESRFase 1: Extinción de incendios/ReactivaFase 2: PorterosFase 3: Defensores/AsociadosFase 4: CatalíticaComplicaciones de las distintas fasesConcéntrate en los detalles del éxitoOtras lecturas
23. Antipatrones SRE
Antipatrón 1: Operaciones de fiabilidad del sitioAntipatrón 2: Humanos que miran fijamente a las pantallasAntipatrón 3: Respuesta a los incidentes de la mafiaAntipatrón 4: Causa raíz = Error humanoAntipatrón 5: Pasar el localizadorAntipatrón 6: ¡Salto de humo mágico!Antipatrón 7: Ingeniería de fiabilidad de alertasAntipatrón 8: Contratar a un paseador de perros para que atienda a tus mascotasAntipatrón 9: Ingeniería del badénAntipatrón 10: Diseño de puntos de estrangulamientoAntipatrón 11: Demasiado palo y poca zanahoriaAntipatrón 12: Posponer la producciónAntipatrón 13: Optimizar la prevención de fallos en lugar del tiempo de recuperación (MTTF > MTTR)Antipatrón 14: El infierno de la dependenciaAntipatrón 15: Gobernanza poco negociadoraAntipatrón 16: SLOh-Ohs mal pensadosAntipatrón 17: Arrojar tu API por encima del cortafuegosAntipatrón 18: Arreglar el equipo de operacionesEntonces, ¿eso es todo?
24. Infraestructura inmutable y SRE
Escalabilidad, fiabilidad y rendimientoRecuperación de fallosOperaciones más sencillasTiempos de arranque más rápidosEstado conocidoIntegración Continua/ Implementación Continua con ConfianzaSeguridadOperaciones multirregiónIngeniería de liberaciónConstruir la imagen de baseImplementación de aplicacionesDesventajasConclusión
25. Equilibradores de carga programables
Equilibradores de carga programables: El nuevo chico del barrio¿Por qué balanceadores de carga programables?Hacer fácil lo difícilEnrutamiento Shard-AwareAprovechar el potencialCaso práctico: IntermedioMiddleware de nivel de servicioMiddleware al rescateAPI del middleware de nivel de servicioCaso práctico: Mitigación WAF/BotEvitar el desastreSer inteligente con el EstadoCaso práctico: Cola de cajaMirando al futuro y otras lecturas
26. La Malla de Servicios: ¿El guardián de tus microservicios?
¿Listo para deshacerte del monolito?Estado actual de las redes de microserviciosMalla de servicio al rescateLas ventajas de un apoderado sidecarDescubrimiento de Servicios Eventualmente ConsistentesObservabilidad y AlarmaImplicaciones del rendimiento del sidecarBibliotecas delgadas y propagación de contextosGestión de la configuración (plano de control frente a plano de datos)La malla de servicios en la prácticaOrigen y desarrollo de Envoy en LyftOperando Envoy en LyftEl futuro de la malla de serviciosOtras lecturas
IV. El lado humano de la ESR
27. Seguridad psicológica en la ESR
El principal indicador del éxito de un equipoCómo crear seguridad psicológica en tu propio equipoOtras lecturas
28. SRE Trabajo Cognitivo
Introducción¿Qué hace la gente de SRE?¿Por qué debe importarnos la cognición del profesional?Las decisiones críticas tomadas bajo incertidumbre y presión de tiempo no se pueden guionizarEl Rendimiento Humano en los Sistemas Complejos Modernos: Los Temas PrincipalesObservaciones sobre el trabajo cognitivo de la SRE en torno a los incidentesCada incidente podría haber sido peorLas decisiones de sacrificio tienen lugar bajo incertidumbreReparaciones de sistemas funcionalesConocimientos especiales sobre sistemas complejosGestionar los costes de coordinaciónLas ESR son agentes cognitivos que trabajan en un sistema cognitivo conjuntoEl problema de la calibraciónModelos mentalesLos incidentes desencadenan la recalibración individualLos incidentes son oportunidades para la recalibración colectiva¿Cuáles son las implicaciones de todo esto?Los incidentes continuaránLos incidentes impondrán costesCambiarán las pautas de los incidentesLos incidentes apuntan a problemas y lugares concretos de calibración¿Qué debería ocurrir a continuación?Construye un corpus de casosEnfócate en hacer de la automatización un jugador de equipo en el trabajo de SREAbordar el problema de la calibración¿Qué puedes hacer?ConclusiónReferencias
29. Más allá del Burnout
Definición de los trastornos mentalesLos trastornos mentales están ausentes de la conversación sobre diversidadLa cordura no es un requisito empresarialLos pensamientos y las oraciones no son escalablesInclusividad Full-StackAplicaciónEntrevistaCompensaciónBeneficiosIncorporaciónCondiciones de trabajoFuncionesFormaciónPromociónSaliendo deLa inclusión de cualquiera ayuda a todosRecursos sobre trastornos mentales
30. Contra la guardia: Una polémica
La justificación de la atención continuadaPrimero, no hagas dañoParalelismos con SREDiferencias con la SRESupuestos subyacentes que determinan las guardias de los ingenierosLa guardia es medicina de urgencias en lugar de medicina de salaContraargumentosEl coste para los seres humanos de hacer guardiasNo necesitamos otro héroeSoluciones realesFormaciónPriorizaciónMejorar el rendimiento en el trabajoNecesitamos un cambio fundamental de enfoqueStrong-Anti-On-CallDébil-Anti-llamadaUna unión de los dosConclusión
31. Elegía por los sistemas complejos
Los sistemas informáticos y humanos no pueden separarseDecoherencia y fallo en cascadaSiempre en estado de fallo parcialNovedad Prioridad InversiónNadie prevé los gastos generales de coordinaciónTu healthcare.gov está ahí fueraPara participarOtras lecturas
32. Intersecciones entre operaciones y activismo social
Antes, Durante, DespuésCrear el plan perfectoPrincipios de organizaciónGestión de Crisis: Responder cuando las cosas se estropeanEscribiendo nuestra propia historia: Dar sentido a lo que ocurrióLa larga cola: convertir la acción en cambioActivismo y cambio en la empresaConclusión
33. Conclusión
Índice

Content preview from Buscando SRE

Capítulo 4. Utilizar métricas de incidencias para mejorar la SRE a escala

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Martin Check, Microsoft

Tanto si tu servicio busca añadir su próxima docena de usuarios como sus próximos mil millones de usuarios, tarde o temprano acabarás en una conversación sobre cuánto invertir en qué áreas para mantener la fiabilidad a medida que el servicio se amplía. En este capítulo, echamos un vistazo a cómo utilizar las métricas de incidencias para centrar las inversiones mediante un caso práctico de Microsoft Azure. Aplica las lecciones que hemos aprendido trabajando en la fiabilidad del servicio en una variedad de servicios, que van desde las startups hasta los servicios empresariales, pasando por la escala de la nube. Azure es un caso de estudio especialmente bueno, ya que la enorme escala, el crecimiento y la diversidad de ofertas de productos amplifican los temas típicos de fiabilidad. Mostramos cómo el uso de datos y algunas técnicas innovadoras para analizar e informar sobre estos temas nos ayudó a impulsar mejoras.

El ciclo virtuoso al rescate: Si no lo mides...

Como en cualquier esfuerzo de gestión de problemas, empezamos por examinar los datos. Sin embargo, cuando fuimos a hacerlo, resultó que teníamos miles de fuentes de datos, telemetría de servicios, métricas de gestión de incidencias, métricas de implementación, y así un largo etcétera. De hecho, teníamos tantas ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341602083

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Buscando SRE

by David N. Blank-Edelman

Capítulo 4. Utilizar métricas de incidencias para mejorar la SRE a escala

El ciclo virtuoso al rescate: Si no lo mides...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.