Los incidentes de noviembre y diciembre de 2025 en Cloudflare fueron el resultado de configuraciones inválidas desplegadas en la red, lo que llevó a interrupciones globales. La causa raíz común fue la asunción de que las entradas de configuración siempre serían válidas, sin mecanismos de degradación o validación robustos. Esto se manifestó en un archivo de datos ilegible para Bot Management y un flag de control inválido en el sistema de configuración global, respectivamente.

Las salvaguardas existentes fallaron al no detectar o mitigar el impacto de estos cambios de configuración defectuosos antes de que se propagaran ampliamente. Los despliegues de configuración eran instantáneos o carecían de una mediación de salud consistente, lo que permitía que los errores afectaran a una gran parte de la red antes de ser identificados. La falta de un sistema unificado para despliegues progresivos con monitoreo de salud y rollback automático contribuyó a la magnitud de los incidentes.

El programa 'Code Orange' abordó estas deficiencias introduciendo 'Snapstone' para despliegues de configuración mediada por salud, mejorando los modos de fallo ('fail stale', 'fail open') y segmentando los servicios para reducir el radio de impacto. Además, se revisaron los procedimientos de 'break glass' y se estableció un 'Codex' interno con reglas de ingeniería obligatorias, reforzadas por revisiones de código asistidas por IA, para prevenir la reintroducción de patrones de fallo conocidos. La comunicación durante incidentes también fue un área clave de mejora.