Cloudflare 18 de noviembre de 2023

Análisis de la gestión de errores: el 'unwrap' de Cloudflare y la importancia de la propiedad global del sistema

human-error

causa raíz

Timeline del incidente

Un incidente en Cloudflare el 18 de noviembre de 2023 fue atribuido a una línea de código que utilizaba 'unwrap' en Rust.

· código de aplicación

El uso de 'unwrap' en Rust, similar a un 'assert', causó que el programa fallara en lugar de manejar el error de forma degradada.

El post-mortem de Cloudflare generó debate sobre la idoneidad de 'asserts' y el manejo de errores en producción.

Análisis técnico

El incidente de Cloudflare del 18 de noviembre de 2023, aunque no se detalla completamente en el artículo, se centra en la decisión de diseño de usar unwrap en Rust, lo que llevó a un fallo del programa en lugar de una degradación controlada. La causa raíz subyacente no es un fallo técnico per se, sino una decisión de diseño de software que no consideró adecuadamente las implicaciones globales del manejo de errores. El unwrap es una operación que asume que una operación Result siempre tendrá éxito, y si no, provoca un pánico (crash) en el programa. En un sistema distribuido a escala de hyperscaler, un fallo de proceso no es intrínsecamente malo si es aislado y el sistema puede recuperarse rápidamente, pero se convierte en un problema si los fallos son correlacionados o si la tasa de fallos excede la capacidad de recuperación del sistema.

La cascada de fallo, aunque no explícitamente descrita para el incidente de Cloudflare, se infiere que la decisión de "crash the program" no fue apropiada para el contexto global del sistema, lo que llevó a una interrupción más amplia de lo deseado. Las salvaguardas fallaron porque la estrategia de manejo de errores fue vista como una propiedad local del componente, en lugar de una propiedad global del sistema. Esto significa que la resiliencia del sistema no fue diseñada para absorber la tasa o el tipo de fallos que este unwrap podría generar en un entorno de producción. La falta de una estrategia de manejo de errores a nivel de sistema que considerara la correlación de fallos, la capacidad de manejo en capas superiores y la posibilidad de continuar de manera significativa, contribuyó a la magnitud del incidente.

El artículo enfatiza que el manejo de errores no es una propiedad local, sino global del sistema. La idoneidad de un assert o unwrap depende de si los fallos están correlacionados, si pueden ser manejados por una capa superior (ej. un balanceador de carga reemplazando una instancia fallida) y si es posible continuar de manera significativa con la lógica de negocio. En el caso de Cloudflare, la implicación es que la decisión de fallar no cumplió con uno o más de estos principios, lo que llevó a un impacto mayor. La lección principal es que las decisiones de manejo de errores deben ser parte integral del diseño arquitectónico desde el principio, considerando el "blast radius" y la resiliencia general del sistema.

Remediaciones y action items

✓ Reevaluar y refactorizar el uso de `unwrap` y `panic` en código crítico para producción, reemplazándolos por un manejo explícito de `Result` y `Option`.
✓ Implementar una política de manejo de errores a nivel de sistema que considere la correlación de fallos, la capacidad de recuperación de capas superiores y la posibilidad de continuar de forma degradada.
✓ Adoptar patrones de diseño para la reducción del "blast radius" como arquitecturas basadas en celdas, regiones independientes y "shuffle sharding" para limitar el impacto de fallos.
✓ Mejorar las herramientas de linting (ej. Clippy) para Rust para requerir justificación o alternativas más seguras para `unwrap` en código de producción.

Lecciones para arquitectos

→ El manejo de errores es una propiedad global del sistema, no local de un componente.
→ Diseñar la resiliencia del sistema desde el principio, considerando cómo los fallos de componentes individuales afectan el todo.
→ Evaluar la correlación de fallos: los fallos no correlacionados pueden ser manejados por un crash y reemplazo; los correlacionados requieren estrategias de rechazo de errores.
→ Comprender la capacidad de las capas superiores para manejar fallos (ej. balanceadores de carga, autoscaling).
→ Determinar si es posible continuar de manera significativa con la lógica de negocio después de un error, o si la corrupción de estado es un riesgo inaceptable.
→ Implementar técnicas de reducción del "blast radius" para limitar el impacto de fallos inevitables.
→ Evitar el modo de operación degradado si introduce una complejidad excesiva sin beneficios claros de resiliencia.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp