Apéndice D. Ejemplo de autopsia

Soneto de Shakespeare++ Postmortem (incidente nº 465)

Fecha: 2015-10-21

Autores: jennifer, martym, agoogler

Estado: Completado, acciones en curso

Resumen: Búsqueda de Shakespeare durante 66 minutos en un periodo de gran interés por Shakespeare debido al descubrimiento de un nuevo soneto.

Impacto:1 Estimación de 1.210 millones de consultas perdidas, sin impacto en los ingresos.

Causas principales:2 Fallo en cascada debido a la combinación de una carga excepcionalmente alta y una fuga de recursos cuando las búsquedas fallaban porque los términos no estaban en el corpus de Shakespeare. El soneto recién descubierto utilizaba una palabra que nunca antes había aparecido en una obra de Shakespeare, que resultó ser el término buscado por los usuarios. En circunstancias normales, la tasa de fallos de tareas debidos a fugas de recursos es lo suficientemente baja como para pasar desapercibida.

Desencadenante: Fallo latente desencadenado por un aumento repentino del tráfico.

Resolución: Dirigido el tráfico al clúster de sacrificio y añadida una capacidad 10 veces mayor para mitigar el fallo en cascada. Índice actualizado implementado, resolviendo la interacción con el fallo latente. Mantenimiento de la capacidad adicional hasta que pase el aumento del interés público por el nuevo soneto. Se identificó la fuga de recursos y se aplicó la solución.

Detección: Borgmon detectó un alto nivel de HTTP 500s y paginados de guardia.

Acciones:3

Acción Tipo Propietario ...

Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.