Este incidente destaca un cambio fundamental en el panorama de la seguridad, donde las herramientas basadas en LLM están demostrando ser excepcionalmente efectivas para descubrir vulnerabilidades en grandes bases de código críticas para la seguridad. El equipo de Wasmtime, a través de una colaboración intensiva, utilizó un "multi-agent harness" basado en LLM para analizar el código de Wasmtime, apuntando a la generación de código nativo en los motores Cranelift y Winch, y la implementación en tiempo de ejecución de la crate wasmtime, donde se utiliza unsafe Rust. Este enfoque reveló 11 vulnerabilidades significativas, incluyendo dos escapes de sandbox de severidad crítica, en un período de tres semanas.

La causa raíz de las vulnerabilidades es multifacética, abarcando errores en los backends del compilador (Winch y Cranelift), especialmente en el backend Winch más nuevo, y problemas con el manejo de cadenas del Component Model. Un fallo notable fue la falta de fuzzing continuo en aarch64 para ambos motores, lo que podría haber detectado algunos de los problemas. Además, un error crítico en las reglas de "instruction lowering" de Cranelift, introducido en Wasmtime 32.0.0, no fue detectado por la verificación formal existente porque el modelo no se había actualizado para incluir esos cambios, subrayando la importancia de una integración estricta entre la verificación formal y el desarrollo.

Las salvaguardas existentes de Wasmtime, como la implementación en Rust con uso regulado de unsafe, auditorías de dependencias con cargo vet, fuzzing continuo para funcionalidades de nivel 1 y mitigaciones de Spectre, no fueron suficientes para detectar estas clases de vulnerabilidades. La falta de fuzzing para verificar que los programas inválidos "trap" correctamente, y la ausencia de fuzzing continuo en aarch64, fueron lagunas significativas. La efectividad de las herramientas LLM en este caso sugiere que estas representan una nueva clase de salvaguarda que complementa y, en algunos aspectos, supera los métodos tradicionales de descubrimiento de vulnerabilidades.