El incidente se centra en la deshabilitación del ioctl drm_gem_change_handle_ioctl en el kernel de Linux 7.1, una interfaz desarrollada por AMD para su iniciativa CRIU (Checkpoint and Restore in User-Space) para cargas de trabajo ROCm. La causa raíz principal es una combinación de una vulnerabilidad de seguridad (CVE-2026-23149) que permitía a user-space provocar advertencias del kernel, y una serie de errores de implementación y race conditions en los intentos de parcheo subsiguientes. La complejidad del código, la confusión en el manejo de variables (ej. handle vs new_handle), y la falta de un conjunto de pruebas IGT (Intel Graphics Test) adecuado y upstreamed para la funcionalidad original, contribuyeron a la imposibilidad de estabilizar la interfaz.
La cascada de fallos comenzó con la introducción de una funcionalidad compleja sin la debida cobertura de pruebas, lo que permitió que bugs sutiles y race conditions pasaran desapercibidos. La naturaleza de seguridad del problema llevó a discusiones "off-mailing-list", lo que dificultó la revisión pública y el consenso, exacerbando el problema. Los múltiples intentos de parcheo introdujeron más complejidad y errores, como la falta de manejo de errores en nuevas rutas de código o la aplicación inconsistente de correcciones, lo que demuestra una comprensión incompleta de los estados de carrera subyacentes y la gestión de referencias de objetos GEM.
Las salvaguardas fallaron en múltiples niveles. Primero, la revisión inicial del código no detectó la complejidad y los posibles problemas de seguridad/estabilidad. Segundo, la falta de pruebas IGT robustas y automatizadas significó que las regresiones y vulnerabilidades no se detectaron a tiempo. Tercero, la comunicación fragmentada (discusiones off-list) impidió una resolución colaborativa y transparente. Finalmente, la confianza en las afirmaciones de QA de AMD de que el bug estaba "arreglado" sin una verificación independiente y rigurosa por parte de la comunidad del kernel resultó ser errónea, llevando a la decisión drástica de deshabilitar la funcionalidad por completo hasta que se pueda garantizar su seguridad y estabilidad.