Cloudflare 20 de febrero de 2026

Cloudflare BYOIP Outage: Unintentional BGP Route Withdrawals Due to Buggy API Query in Automated Cleanup Task

367

minutos

human-error

causa raíz

Timeline del incidente

2026-02-05 21:53 UTC · Cloudflare engineer

Código con subproceso defectuoso se fusiona en la base de código.

2026-02-20 17:46 UTC · Cloudflare automated deployment

Despliegue de la API de Addressing con el subproceso defectuoso completado.

2026-02-20 17:56 UTC · Automated cleanup sub-task

Inicio del impacto. El subproceso defectuoso comienza a ejecutarse, retirando prefijos BYOIP.

2026-02-20 18:13 UTC · Automated alerting

Cloudflare se involucra por fallos en one.one.one.one.

2026-02-20 18:18 UTC · Cloudflare SRE

Incidente interno declarado. Ingenieros investigan.

2026-02-20 18:21 UTC · On-call SRE

Equipo de Addressing API notificado y comienza la depuración.

2026-02-20 18:46 UTC · Cloudflare engineer

Problema identificado. Subproceso defectuoso terminado por un ingeniero.

2026-02-20 19:11 UTC · Cloudflare engineers

Comienza la mitigación. Ingenieros restauran prefijos retirados.

2026-02-20 19:19 UTC · Cloudflare dashboard / Customers

Algunos prefijos mitigados. Clientes pueden re-anunciar prefijos vía dashboard.

2026-02-20 19:44 UTC · Cloudflare engineers

Continúa mitigación adicional. Ingenieros inician recuperación de base de datos para prefijos eliminados.

2026-02-20 20:30 UTC · Cloudflare engineers

Comienza el proceso de mitigación final para prefijos con bindings existentes.

2026-02-20 21:08 UTC · Cloudflare engineers

Despliegue de actualización de configuración global para restaurar prefijos restantes.

2026-02-20 23:03 UTC · Cloudflare automated deployment

Despliegue de configuración global completado. Fin del impacto.

Análisis técnico

El incidente fue causado por un subproceso de limpieza automatizado que, debido a un error en la construcción de su consulta API, interpretó incorrectamente una solicitud de eliminación de prefijos BYOIP pendientes como una solicitud para eliminar *todos* los prefijos BYOIP. La consulta `/v1/prefixes?pending_delete` con un valor vacío para `pending_delete` fue malinterpretada por el servidor API, que devolvió todos los prefijos BYOIP, lo que llevó al subproceso a ponerlos en cola para su eliminación.

La cascada de fallos comenzó con la retirada de rutas BGP para aproximadamente el 25% de los prefijos BYOIP de Cloudflare, lo que hizo que los servicios de los clientes fueran inalcanzables. Esto provocó un comportamiento de 'BGP Path Hunting' y errores HTTP 403 para los usuarios. Las salvaguardas fallaron porque el entorno de staging y las pruebas no cubrieron el escenario en el que un servicio de tarea ejecutaría cambios en los datos del usuario de forma autónoma sin una entrada explícita, centrándose en cambio en el flujo de autoservicio del cliente. La falta de una validación de esquema API estricta contribuyó a la interpretación errónea de la consulta.

La recuperación no fue inmediata debido a la complejidad de los estados de impacto. Algunos clientes solo tuvieron sus prefijos retirados y pudieron auto-remediar. Otros tuvieron bindings de servicio eliminados, lo que requirió una restauración manual más intensiva por parte de los ingenieros de Cloudflare, incluyendo un despliegue de configuración global para reaplicar los bindings de servicio a los servidores edge. La ausencia de un sistema de rollback de snapshots de estado operacional en producción, parte de la iniciativa 'Code Orange: Fail Small', prolongó la duración del incidente.

Remediaciones y action items

✓ Mejorar la estandarización del esquema API para asegurar que las llamadas API estén correctamente formadas y facilitar las pruebas y la validación.
✓ Rediseñar el mecanismo de rollback y la configuración de la base de datos para separar el estado operacional del estado configurado, permitiendo rollbacks rápidos y la aplicación de snapshots de datos mediante despliegues mediado por salud.
✓ Mejorar la monitorización para detectar acciones de retirada o eliminación de prefijos BGP que ocurren demasiado rápido o ampliamente, implementando un 'circuit breaker' para detener despliegues de snapshots en tales casos.
✓ Implementar monitorización directa del comportamiento de los servicios de los clientes para usar estas señales como disparadores del 'circuit breaker'.

Lecciones para arquitectos

→ La validación estricta del esquema API es crucial para prevenir interpretaciones erróneas de las solicitudes y evitar comportamientos inesperados.
→ Separar el estado operacional del estado configurado en las bases de datos facilita los rollbacks y mejora la resiliencia del sistema.
→ Los despliegues mediado por salud y los rollbacks rápidos son esenciales para minimizar el impacto de los cambios defectuosos en producción.
→ La cobertura de pruebas debe incluir escenarios de ejecución autónoma de tareas y la interacción de los servicios con los datos de usuario, no solo los flujos de autoservicio.
→ Implementar 'circuit breakers' y monitorización de anomalías en acciones de gran escala (ej. retirada masiva de prefijos) para limitar el radio de explosión de los fallos.
→ La automatización de tareas manuales debe ir acompañada de validaciones robustas y pruebas exhaustivas en entornos que repliquen fielmente la producción.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp