La generación de video de alta fidelidad y larga duración (minutos) con control preciso de la cámara es un problema fundamental en la síntesis de medios. Los modelos existentes a menudo sacrifican la eficiencia computacional o la coherencia temporal para lograr calidad visual. SANA-WM aborda esto mediante una arquitectura que equilibra la capacidad de modelado de contexto a largo plazo con la eficiencia de inferencia, permitiendo la creación de mundos virtuales coherentes y controlables por el usuario.

El desafío principal radica en mantener la coherencia espacial y temporal a lo largo de secuencias extendidas, especialmente cuando se requiere adherencia a trayectorias de cámara complejas. Los modelos de difusión tradicionales luchan con la escala temporal debido a las limitaciones de memoria y cómputo de la atención softmax estándar. SANA-WM introduce mecanismos para superar estas barreras, permitiendo rollouts de un minuto con una calidad visual comparable a la de modelos industriales de mayor escala y menor eficiencia.

Arquitectura del Sistema

SANA-WM se basa en un Hybrid Linear Diffusion Transformer de 2.6B parámetros. Su arquitectura integra cuatro componentes clave. Primero, la Hybrid Linear Attention combina un Gated DeltaNet frame-wise con atención softmax periódica. Esta combinación permite modelar contextos largos de manera eficiente en memoria, manteniendo la coherencia global del video sin la explosión cuadrática de cómputo de la atención softmax pura.

Segundo, el Dual-Branch Camera Control utiliza una rama de pose global gruesa y una rama geométrica fina alineada a píxeles. Esto asegura una adherencia precisa a trayectorias de cámara de 6-DoF (grados de libertad) métricas. Tercero, un Two-Stage Generation Pipeline refina las salidas de la primera etapa con un "long-video refiner" dedicado de 17B parámetros, mejorando la textura, el movimiento y la calidad en ventanas de tiempo tardías. Finalmente, un Robust Annotation Pipeline extrae poses de cámara 6-DoF a escala métrica de videos públicos, proporcionando etiquetas de acción de alta calidad y consistencia espacio-temporal para el entrenamiento.

Flujo de Generación de Video SANA-WM

  1. 1 Input Imagen inicial + Trayectoria de cámara (6-DoF)
  2. 2 SANA-WM Backbone Hybrid Linear Diffusion Transformer (2.6B params) genera video base de 1 minuto
  3. 3 Dual-Branch Camera Control Asegura adherencia a la trayectoria de cámara durante la generación
  4. 4 Long-Video Refiner Modelo de 17B parámetros refina textura, movimiento y calidad en ventanas tar...
  5. 5 Output Video de 720p, 1 minuto, alta fidelidad
CapaTecnologíaJustificación
compute NVIDIA H100 Hardware de entrenamiento y inferencia de alto rendimiento para modelos de difusión y Transformers.
compute NVIDIA RTX 5090 GPU de consumo para inferencia optimizada y cuantificada (NVFP4) de la variante destilada. NVFP4 quantization
data-processing Robust Annotation Pipeline Extracción de poses de cámara 6-DoF a escala métrica de videos públicos para supervisión de entrenamiento.

Trade-offs

Ganancias
  • Long-horizon video generation (1 minute)
  • Precise camera control (6-DoF)
  • Computational efficiency (training & inference)
  • Visual quality comparable to larger industrial baselines
Costes

    Fundamentos Teóricos

    El problema de la coherencia temporal en la generación de secuencias largas se relaciona con los desafíos de memoria y cómputo de los modelos de Transformer, como se describe en "Attention Is All You Need" (Vaswani et al., 2017). La atención lineal híbrida de SANA-WM es una evolución de las técnicas de atención eficiente, que buscan reducir la complejidad cuadrática a lineal o log-lineal, un área activa de investigación desde trabajos como "Linformer: Self-Attention with Linear Complexity" (Wang et al., 2020) o "Performer: Rethinking Attention with Performers" (Choromanski et al., 2020). La idea de un pipeline de refinamiento de dos etapas es un patrón común en la mejora de la calidad de salida de modelos generativos, similar a los enfoques de "super-resolución" o "refinamiento iterativo" vistos en la literatura de visión por computadora.