Superluminal

Congelamientos del sistema Linux causados por race conditions y deadlocks en rqspinlock de eBPF

race-condition

causa raíz

Timeline del incidente

T+0 · Usuario

Un tester reporta congelamientos periódicos del sistema (250ms+) al usar Superluminal en Fedora 42 (kernel 6.17.4-200).

T+? · Equipo de Superluminal

El equipo de Superluminal reproduce el problema en una máquina física con Fedora, pero no en VMs.

T+? · Herramientas de diagnóstico

Análisis de capturas de Superluminal muestra periodos de 250ms+ donde el CPU está 'ocupado' sin muestras, y dmesg reporta 'NMI handler took too long to run: 250.424 msecs'.

T+? · Equipo de Superluminal

Intentos de depuración con gdb remoto fallan, ya que el kernel no responde durante los congelamientos.

T+? · Equipo de Superluminal

Se aísla el problema a una interacción entre eventos de sampling y context switch en eBPF, específicamente en bpf_ringbuf_reserve, que usa un spinlock.

T+? · Equipo de Superluminal

Se identifica que el rqspinlock tiene un timeout de 250ms, coincidiendo con la duración de los congelamientos.

T+? · Equipo de Superluminal

Se reporta el problema a la lista de correo del kernel eBPF, iniciando una colaboración con los mantenedores Kumar Kartikeya Dwivedi y Alexei Starovoitov.

T+? · Kumar Kartikeya Dwivedi, Alexei Starovoitov

Se descubre que una NMI (sampling interrupt) puede interrumpir la adquisición de un rqspinlock después del cmpxchg pero antes de actualizar la tabla de locks held, causando un deadlock AA no detectado y el timeout de 250ms.

T+? · Kumar Kartikeya Dwivedi

Se aplica un parche que reordena las operaciones en res_spin_lock para actualizar la tabla de locks held antes del cmpxchg, eliminando los congelamientos de 250ms.

T+? · Herramientas de diagnóstico

A pesar del parche, dmesg sigue mostrando warnings de NMI handler took too long (1-2ms y 6-26ms).

T+? · Equipo de Superluminal

Se identifica que los checks de deadlock en rqspinlock solo se activan después de 1ms de spinwait, causando los timeouts de 1-2ms en situaciones de deadlock AA.

T+? · Equipo de Superluminal

Se aplica un parche para activar los checks de deadlock inmediatamente al inicializar el timeout, eliminando los warnings de 1-2ms.

T+? · Kumar Kartikeya Dwivedi

Se descubre que NMIs frecuentes en el CPU que posee el spinlock pueden impedir que el holder progrese, causando los timeouts de 6-26ms.

T+? · Kumar Kartikeya Dwivedi

Se implementan cambios sutiles en la ruta lenta de rqspinlock para mitigar la inanición del lock holder por NMIs, eliminando los warnings restantes.

T+? · Equipo de Superluminal

Se confirma que los problemas no se habían presentado antes debido a que los sistemas de desarrollo y la mayoría de usuarios usaban kernels más antiguos (pre-6.15) que no incluían el rqspinlock en el ring buffer de eBPF.

T+? · Mantenedores del kernel Linux

Los fixes son incorporados en el kernel 6.19 y backportados a 6.17 y 6.18.

T+? · Equipo de Superluminal

Superluminal implementa un workaround para kernels antiguos, descartando NMIs recursivas durante el programa eBPF de context switch.

Análisis técnico

Este incidente revela una serie de race conditions y fallos en la lógica de detección de deadlocks dentro del rqspinlock (resilient queued spinlock) del kernel Linux, específicamente en el contexto de programas eBPF que interactúan con bpf_ringbuf_reserve. La causa raíz inicial fue una ventana de inconsistencia crítica: una NMI (Non-Maskable Interrupt) de sampling podía interrumpir la adquisición del spinlock después de que el lock fuera marcado como held pero antes de que se registrara en la tabla rqspinlock_held_locks del CPU. Esto impedía que la detección de deadlock AA (recursive lock) funcionara correctamente, llevando a un spinwait de 250ms y congelando el sistema.

La cascada de fallos continuó incluso después de la primera corrección. Se descubrió que la detección de deadlocks no se activaba inmediatamente al entrar en un spinwait, sino solo después de 1ms. Esto significaba que, incluso con la tabla de locks held actualizada correctamente, un deadlock AA seguiría causando un spinwait de al menos 1ms antes de ser detectado, resultando en micro-congelamientos. Finalmente, se identificó un problema más sutil: la alta frecuencia de NMIs podía impedir que el CPU que poseía el spinlock progresara y lo liberara, incluso si no había un deadlock directo, llevando a inanición y stalls más largos (6-26ms).

Las salvaguardas existentes, como la lógica de rqspinlock diseñada para ser resiliente a deadlocks, fallaron debido a la complejidad de las interacciones entre NMIs, eBPF y la implementación específica del spinlock. La suposición de que las interrupciones y la preemption estaban deshabilitadas durante la sección crítica de adquisición del lock fue violada por la naturaleza no enmascarable de las NMIs, exponiendo una race condition que no había sido anticipada en el diseño original del rqspinlock para eBPF. La falta de una detección de deadlock inmediata y la susceptibilidad a la inanición por NMIs recurrentes completaron la serie de vulnerabilidades.

Remediaciones y action items

✓ Reordenar las operaciones en `res_spin_lock` para actualizar la tabla `rqspinlock_held_locks` antes de intentar la adquisición del lock (`atomic_try_cmpxchg_acquire`).
✓ Modificar `check_timeout` para activar la detección de deadlocks inmediatamente al inicializar el timeout, en lugar de esperar 1ms.
✓ Implementar cambios sutiles en la ruta lenta de `rqspinlock` para mitigar la inanición del lock holder causada por NMIs frecuentes.
✓ Actualizar las máquinas de desarrollo a kernels más recientes (ej. Arch Linux) para detectar problemas del kernel más rápidamente.
✓ Implementar un workaround en el lado de Superluminal para kernels antiguos, descartando NMIs recursivas que ocurren durante el programa eBPF de context switch.

Lecciones para arquitectos

→ Las NMIs introducen un vector de interrupción que puede invalidar suposiciones de atomicidad y secciones críticas en el kernel, incluso con interrupciones enmascarables deshabilitadas.
→ La resiliencia en sistemas distribuidos o de bajo nivel (como el kernel) requiere una detección de deadlocks y timeouts que sea inmediata y exhaustiva, no solo periódica o para casos comunes.
→ Las interacciones entre subsistemas complejos (eBPF) y primitivas de sincronización (spinlocks) pueden revelar race conditions sutiles que son difíciles de reproducir y depurar.
→ El uso de almacenamiento per-CPU para el estado de locks (como en MCS lock) es crucial para evitar el cache line bouncing y mejorar el rendimiento en sistemas multi-core.
→ La validación de la lógica de sincronización debe considerar todos los posibles contextos de ejecución, incluyendo interrupciones de alta prioridad como las NMIs.
→ Los timeouts en spinwaits son una defensa final, pero no deben reemplazar una detección proactiva y correcta de deadlocks, ya que un timeout largo puede causar congelamientos perceptibles.
→ Mantener los entornos de desarrollo actualizados con las últimas versiones del software base (ej. kernel) puede ayudar a identificar problemas de compatibilidad y regresiones tempranamente.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp