Cloudflare

CUBIC Congestion Window Pinned at Minimum: Unraveling a Self-Perpetuating Recovery Trap in QUIC

configuration-drift

causa raíz

Timeline del incidente

· Equipo de QA/Ingeniería

Reporte de fallos inesperados en el pipeline de pruebas de integración del proxy de ingress de Cloudflare.

T+0 · Sistema de pruebas

Inicio de la prueba simulada: cliente y servidor HTTP/3 con CUBIC, RTT de 10ms, descarga de 10MB.

T+0s a T+2s · Sistema de pruebas

Inyección de 30% de pérdida de paquetes aleatoria.

T+2s · Sistema de pruebas

La pérdida de paquetes cesa por completo. Se espera que CUBIC se recupere y complete la descarga.

T+2s en adelante · Sistema de pruebas

Observación de que el 60% de las pruebas fallan: CUBIC cwnd permanece anclado en el mínimo (2 paquetes) y la descarga no se completa dentro del timeout de 10 segundos.

T+2s en adelante · Ingenieros de Cloudflare

Análisis de qlog muestra oscilación rápida entre los estados de 'congestion avoidance' y 'recovery' (999 transiciones en 6.7s, ~14ms por transición).

· Ingenieros de Cloudflare

Confirmación de que el comportamiento es específico de CUBIC; Reno se recupera limpiamente en el mismo escenario.

· Ingenieros de Cloudflare

Identificación de la causa raíz: un ajuste para el período de inactividad de CUBIC portado del kernel de Linux a quiche (QUIC de Cloudflare) en 2020, que incluía un bug ya corregido en el kernel original.

· Ingenieros de Cloudflare

El bug se activa cuando `bytes_in_flight == 0` después de un ACK, lo que lleva a un cálculo incorrecto del tiempo de inactividad y un avance excesivo de `congestion_recovery_start_time`.

· Ingenieros de Cloudflare

Implementación de un fix: medir la duración de la inactividad desde `last_ack_time` en lugar de `last_sent_time` cuando `bytes_in_flight` llega a cero.

· Ingenieros de Cloudflare

Validación del fix: el 100% de las pruebas de quiche se restauran, CUBIC se recupera y completa la descarga en 4-5 segundos.

Análisis técnico

El incidente se manifestó como fallos intermitentes en las pruebas de integración de Cloudflare para QUIC, donde CUBIC no lograba recuperarse de una fase de alta pérdida de paquetes, manteniendo su congestion window (cwnd) anclada en el mínimo. La causa raíz fue una implementación defectuosa de un ajuste para el período de inactividad de CUBIC, originalmente introducido en el kernel de Linux y luego portado a la implementación de QUIC de Cloudflare, 'quiche'. El bug residía en cómo se calculaba la duración de la inactividad: en lugar de medir el tiempo real en que la conexión estaba inactiva, el código medía el tiempo desde el último paquete enviado, lo que, en condiciones de cwnd mínima (dos paquetes), equivalía a un RTT completo.

Esta medición incorrecta del 'idle time' provocaba que el congestion_recovery_start_time se adelantara artificialmente en cada ciclo de ACK. Como resultado, CUBIC percibía la conexión como constantemente en un estado de recuperación o inactividad, lo que le impedía incrementar su cwnd. Esto creaba un 'death spiral' o trampa de recuperación auto-perpetuante: cada ACK vaciaba el buffer, el siguiente envío detectaba bytes_in_flight == 0, calculaba un delta de inactividad inflado (aproximadamente un RTT), y adelantaba el recovery_start_time al futuro, manteniendo el cwnd en el mínimo y el ciclo de estancamiento.

Las salvaguardas fallaron porque el bug se manifestaba en un 'corner case' específico: cwnd mínimo después de una pérdida severa, un escenario que no era cubierto por las pruebas de estado estable o crecimiento. Además, la naturaleza del bug (un ajuste de tiempo sutil que se amplificaba en condiciones extremas) lo hacía indetectable por revisiones estáticas o métricas de throughput generales. La oscilación entre estados de recuperación y evitación de congestión, sincronizada con el RTT, fue la pista clave para diagnosticar el problema, revelando que el controlador estaba malinterpretando el estado de la red.

Remediaciones y action items

✓ Se modificó el cálculo de la duración de la inactividad para usar `last_ack_time` (el momento en que `bytes_in_flight` realmente llegó a cero) en lugar de `last_sent_time` al ajustar `congestion_recovery_start_time`.

Lecciones para arquitectos

→ La definición de 'inactividad' en sistemas distribuidos puede ser engañosa; los retrasos normales del pipeline en ventanas pequeñas pueden simular inactividad.
→ Los 'corner cases' de mínimo cwnd o estados extremos de congestión requieren pruebas y consideraciones de diseño específicas, ya que el comportamiento puede ser radicalmente diferente al estado estable.
→ La portabilidad de optimizaciones de un entorno (ej. kernel de Linux) a otro (ej. userspace QUIC) debe incluir una revisión exhaustiva de las suposiciones subyacentes y las diferencias de contexto.
→ Bugs aparentemente pequeños en la lógica de control pueden tener efectos catastróficos y auto-perpetuantes en sistemas dinámicos.
→ La instrumentación detallada y la visualización de estados internos (ej. qlog) son cruciales para depurar problemas complejos de protocolos de transporte y control de congestión.
→ Un fix simple puede requerir un esfuerzo masivo de investigación para identificar la causa raíz, enfatizando la importancia del diagnóstico sobre la complejidad de la solución.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp