N/A

Función Go con timeout en producción: throttling de cgroup y la falacia del "CPU average"

resource-exhaustion

causa raíz

Timeline del incidente

T+0 · Sistema de aplicación

Una función Go en producción comienza a ser cancelada con 'context deadline exceeded'.

T+semanas · Equipo de SRE/Ingeniería

El equipo de ingeniería investiga, pero los dashboards de CPU average y los informes de usuarios indican que todo está 'bien'.

T+semanas · Equipo de SRE/Ingeniería

Se descubre que el problema es el throttling del cgroup, donde el contenedor agota su presupuesto de tiempo de CPU asignado (2000m) dentro de un periodo de 100ms, a pesar de que el uso promedio de CPU es bajo.

T+semanas · Sistema de aplicación

Se identifica que una goroutine diferente consume el presupuesto de CPU, dejando a la función crítica sin recursos y provocando el timeout.

T+semanas · Librería de terceros

Una librería de máquina de estados subyacente entra en un estado de deadlock al cancelarse su contexto, empeorando el impacto del incidente.

Análisis técnico

El incidente se originó por una comprensión errónea de cómo los límites de CPU de cgroup se aplican en entornos de contenedores. Aunque el monitoreo de CPU average mostraba un uso bajo, el sistema estaba experimentando un throttling severo. Los límites de CPU en cgroups no restringen el número de CPUs a las que un contenedor tiene acceso, sino que asignan un presupuesto de tiempo de CPU por un período de programación (por defecto, 100ms). Una carga de trabajo intensiva y "bursty" podía consumir rápidamente este presupuesto en todos los cores disponibles del host, dejando a otras goroutines sin CPU hasta el siguiente período de programación.

Las salvaguardas tradicionales, como los dashboards de CPU average, fallaron porque esta métrica es inadecuada para cargas de trabajo sensibles a la latencia. El CPU average es útil para preguntas de costo y utilización general, pero no revela la latencia inducida por el throttling o la contención de recursos. La falta de visibilidad sobre métricas específicas de cgroup, como nr_throttled y throttled_usec en /sys/fs/cgroup/cpu.stat, impidió una detección temprana y precisa del problema.

La cascada de fallos incluyó la cancelación de la función Go debido al agotamiento del presupuesto de CPU, lo que a su vez provocó un deadlock en una librería de máquina de estados de terceros. Este comportamiento inesperado de la librería complicó aún más la recuperación y el diagnóstico, ya que el sistema quedaba en un estado irrecuperable. La combinación de un modelo de recursos mal entendido y una dependencia con un comportamiento de fallo deficiente resultó en un incidente prolongado y difícil de depurar.

Remediaciones y action items

✓ Monitorear activamente las métricas de throttling de cgroup (`nr_throttled`, `throttled_usec`) y la información de presión del kernel (PSI) para detectar la saturación de CPU.
✓ Implementar detección de inanición a nivel de aplicación (application-level starvation detection) para que las aplicaciones puedan alertar y reaccionar cuando no reciben suficiente tiempo de CPU.
✓ Configurar `GOMAXPROCS` para que sea consciente de los límites de cgroup (por defecto en Go 1.25+), aunque esto no resuelve la inanición por procesos hermanos en el mismo contenedor.
✓ Revisar y ajustar los límites de CPU de los contenedores basándose en métricas de throttling y latencia, en lugar de solo el CPU average.
✓ Evaluar el impacto de las librerías de terceros en escenarios de cancelación de contexto y throttling de recursos.

Lecciones para arquitectos

→ El CPU average es una métrica engañosa para cargas de trabajo sensibles a la latencia; priorizar métricas de latencia y throttling de recursos.
→ Comprender la implementación subyacente de los límites de recursos (ej. cgroups) es crucial para evitar malinterpretaciones y fallos.
→ Diseñar aplicaciones con detección de inanición (starvation detection) para que puedan auto-diagnosticar y reaccionar a la falta de recursos.
→ Las dependencias de terceros deben ser robustas ante la cancelación de contexto y la inanición de recursos.
→ La capacidad extra es el precio de las bajas latencias; evitar la alta utilización de CPU en sistemas sensibles a la latencia.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp