Infinity Cache — KernelDigest

Infinity Cache es una arquitectura de caché de nivel 3 (L3) de gran capacidad y alta densidad, implementada directamente en el die de la GPU. Su propósito principal es actuar como un búfer de datos intermedio entre los Compute Units (CUs) de la GPU y la memoria de video principal (VRAM), típicamente GDDR6 o GDDR6X. Al ser una caché de baja latencia y alto ancho de banda, permite que la GPU acceda a los datos más frecuentemente utilizados sin tener que ir a la VRAM, que es más lenta y consume más energía. Esto es particularmente efectivo para reducir la contención y mejorar la eficiencia en escenarios donde los datos se reutilizan o se acceden de forma no secuencial, como en el renderizado de gráficos complejos o cargas de trabajo de cómputo intensivo.

El ejemplo más prominente de Infinity Cache se encuentra en las tarjetas gráficas de AMD, comenzando con la arquitectura RDNA 2 (serie Radeon RX 6000) y continuando con RDNA 3 (serie Radeon RX 7000). En estas implementaciones, AMD ha integrado Infinity Cache con tamaños que van desde 96 MB hasta 128 MB o más, dependiendo del modelo de GPU. Esta caché se utiliza para complementar un bus de memoria VRAM más estrecho (por ejemplo, 256-bit o 192-bit) en comparación con soluciones de la competencia, logrando un ancho de banda efectivo comparable o superior al de buses más anchos con VRAM de mayor velocidad, pero con un menor consumo de energía y complejidad de diseño en la PCB. También se ha visto su aplicación en APUs de AMD, donde ayuda a mitigar las limitaciones de ancho de banda de la memoria del sistema compartida.

Para un arquitecto de sistemas, Infinity Cache representa una estrategia de diseño de hardware que impacta directamente en el rendimiento y la eficiencia energética de sistemas que dependen de GPUs. Permite diseñar sistemas con un bus de memoria VRAM más económico o con menos canales, reduciendo costos de BOM y complejidad de diseño, sin sacrificar significativamente el rendimiento en cargas de trabajo típicas. Sin embargo, su efectividad puede variar; para cargas de trabajo con conjuntos de datos que exceden el tamaño de la caché o con patrones de acceso muy aleatorios y de un solo uso, los beneficios pueden ser menores, ya que se incurrirá en más accesos a la VRAM. Los arquitectos deben considerar este trade-off al seleccionar GPUs para estaciones de trabajo, servidores de renderizado o sistemas de IA, evaluando si los patrones de acceso a la memoria de sus aplicaciones se benefician de una caché de este tipo frente a un mayor ancho de banda de VRAM bruta.