Superluminal

Congelamientos del sistema Linux causados por race conditions en rqspinlock de eBPF debido a NMIs

race-condition

causa raíz

Timeline del incidente

T+0 · Usuario Aras

Usuario reporta congelamientos periódicos del sistema (250ms+) al usar Superluminal en Fedora 42 (kernel 6.17.4-200).

T+1 · Equipo de Superluminal

Intento fallido de reproducir el problema en una VM.

T+2 · Equipo de Superluminal

Problema reproducido en una máquina física con Fedora.

T+3 · Equipo de Superluminal

Análisis de capturas de Superluminal muestra hilos 'ocupados' sin samples, coincidiendo con mensajes de 'NMI handler took too long' de 250ms en dmesg.

T+4 · Equipo de Superluminal

Intento fallido de depurar el kernel con gdb remoto debido a que el debugger también se congela.

T+5 · Equipo de Superluminal

Se aísla el problema a la interacción entre eventos de sampling y context switch en eBPF, específicamente en bpf_ringbuf_reserve y bpf_ringbuf_discard.

T+6 · Equipo de Superluminal

Se crea un repro mínimo de eBPF que solo reserva y descarta espacio en un ring buffer, reproduciendo los congelamientos.

T+7 · Equipo de Superluminal

Análisis del código de bpf_ringbuf_reserve revela el uso de un spinlock (rqspinlock) con un timeout de 250ms, coincidiendo con la duración de los congelamientos.

T+8 · Equipo de Superluminal

Hipótesis: NMI de sampling interrumpe la adquisición del spinlock por el programa de context switch, intentando adquirir el mismo lock recursivamente.

T+9 · Equipo de Superluminal

Se reporta el problema a la lista de correo del kernel eBPF.

T+10 · Alexei Starovoitov, Equipo de Superluminal

Se identifica un race condition en rqspinlock: una NMI puede interrumpir entre la adquisición del lock y la actualización de la tabla de locks held, evadiendo la detección de deadlocks AA.

T+11 · Kumar Kartikeya Dwivedi

Se implementa un parche para actualizar la tabla de locks held antes de intentar la adquisición del lock, eliminando los congelamientos de 250ms.

T+12 · Equipo de Superluminal

Aún se observan timeouts de NMI de 1-2ms y 6-26ms en dmesg.

T+13 · Equipo de Superluminal

Se identifica que la detección de deadlocks AA no se activa inmediatamente, sino después de 1ms, causando los timeouts de 1-2ms.

T+14 · Equipo de Superluminal

Se implementa un parche para activar la detección de deadlocks AA inmediatamente, eliminando los timeouts de 1-2ms.

T+15 · Kumar Kartikeya Dwivedi

Se identifica que múltiples NMIs pueden prevenir que el holder del spinlock progrese, causando los timeouts de 6-26ms.

T+16 · Kumar Kartikeya Dwivedi

Se implementan cambios sutiles en el slow path de rqspinlock para mitigar la inanición por NMIs, eliminando los timeouts restantes.

T+17 · Kernel maintainers

Todos los parches se integran en el kernel 6.19 y se backportean a 6.17 y 6.18.

T+18 · Equipo de Superluminal

Superluminal implementa un workaround para kernels antiguos descartando NMIs recursivas durante el programa eBPF de context switch.

Análisis técnico

El incidente se manifestó como congelamientos periódicos del sistema Linux de 250ms mientras se ejecutaba el profiler Superluminal. La causa raíz fue una compleja race condition en la implementación del spinlock resiliente en cola (rqspinlock) del kernel Linux, específicamente en la función bpf_ringbuf_reserve utilizada por los programas eBPF de Superluminal. El problema surgió de la interacción entre Non-Maskable Interrupts (NMIs) de sampling y programas eBPF de context switch que intentaban adquirir el mismo rqspinlock en el mismo CPU.

La cascada de fallo comenzó cuando un programa eBPF de context switch adquiría el rqspinlock. Si una NMI de sampling se disparaba en el mismo CPU después de que el lock fuera adquirido pero antes de que la tabla de locks held del CPU se actualizara, el rqspinlock entraba en un estado inconsistente. Cuando el programa eBPF de sampling intentaba adquirir el mismo lock, la detección de deadlock recursivo (AA deadlock) del rqspinlock fallaba porque el lock no estaba registrado en la tabla. Esto llevaba a que el NMI spin-wait por el lock durante el timeout predeterminado de 250ms, congelando el CPU y, por ende, el sistema.

Las salvaguardas existentes fallaron debido a la naturaleza de las NMIs, que no pueden ser deshabilitadas por software y pueden interrumpir el código en puntos críticos. Aunque rqspinlock fue diseñado para ser resiliente y detectar deadlocks, el race condition específico en la actualización de la tabla de locks held antes de la detección de deadlocks permitió que el problema persistiera. Además, se descubrieron dos problemas secundarios: la detección de deadlocks no se activaba inmediatamente (causando stalls de 1-2ms) y múltiples NMIs podían inanicionar al holder del lock, impidiendo su progreso y causando stalls más largos (6-26ms). La introducción de rqspinlock en el ring buffer de eBPF en el kernel 6.15 expuso estos problemas que no existían en versiones anteriores del kernel.

Remediaciones y action items

✓ Reordenar las operaciones en `res_spin_lock` para que `grab_held_lock_entry` se llame antes de `atomic_try_cmpxchg_acquire`, asegurando que la tabla de locks held se actualice antes de la adquisición del lock.
✓ Modificar `check_timeout` para activar la detección de deadlocks inmediatamente al inicializar el timeout, en lugar de esperar 1ms.
✓ Implementar cambios sutiles en el slow path de `rqspinlock` para mitigar la inanición del holder del lock causada por múltiples NMIs.
✓ Backport de los fixes a los kernels 6.17 y 6.18, además de la inclusión en 6.19.
✓ Superluminal implementó un workaround para kernels antiguos descartando NMIs recursivas que ocurren durante el programa eBPF de context switch.
✓ Cambiar las máquinas de desarrollo a una distribución Linux con kernels más recientes (ej. Arch) para detectar problemas del kernel más rápidamente.

Lecciones para arquitectos

→ Las Non-Maskable Interrupts (NMIs) pueden introducir race conditions sutiles en código de bajo nivel, incluso en mecanismos de locking diseñados para ser robustos.
→ La resiliencia en sistemas distribuidos o de bajo nivel (como el kernel) requiere una consideración exhaustiva de todos los posibles puntos de interrupción y reentrada, especialmente con interrupciones de alta prioridad.
→ Los mecanismos de detección de deadlocks deben ser lo suficientemente rápidos y completos para cubrir todos los escenarios críticos, incluyendo aquellos que involucran interrupciones asíncronas.
→ La interacción entre subsistemas (eBPF y spinlocks del kernel) puede exponer fallas en las suposiciones de diseño de componentes individuales.
→ La prueba en entornos con versiones de software 'bleeding edge' puede ayudar a identificar problemas de regresión o nuevas interacciones antes de que afecten a una base de usuarios más amplia.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp