2 de junio de 2026 4 min lectura

Evaluación del Modo de Acceso Uniforme a Memoria (NPS0) en AMD EPYC Turin: Latencia vs. Rendimiento

Lecciones clave

→ La abstracción de hardware para simplificar la programación a menudo introduce compromisos de rendimiento, especialmente en la latencia de memoria.
→ En sistemas con topologías de memoria complejas, la efectividad de los mecanismos de caché es crítica para mitigar el impacto de la alta latencia de DRAM.
→ Las cargas de trabajo intensivas en CPU con altas tasas de acierto de caché pueden beneficiarse de mayores frecuencias de reloj, incluso con latencias de memoria elevadas.
→ Para cargas de trabajo sensibles a la latencia de memoria, la optimización consciente de NUMA sigue siendo una necesidad, a pesar de su complejidad de implementación.
→ Evaluar el rendimiento del sistema requiere considerar múltiples métricas (latencia, ancho de banda, frecuencia de reloj) y cómo interactúan en diferentes tipos de cargas de trabajo.
→ La elección del modo NUMA debe basarse en el perfil de rendimiento de la aplicación y la capacidad del equipo para implementar optimizaciones conscientes de NUMA.

El problema fundamental que aborda este artículo es la tensión inherente entre la complejidad de la programación para arquitecturas de memoria no uniforme (NUMA) y el deseo de simplificar el desarrollo de software mediante la abstracción de un acceso uniforme a la memoria. A medida que los sistemas de servidor modernos integran un número creciente de núcleos de CPU y controladores de memoria, la interconexión interna se vuelve intrínsecamente no uniforme, lo que lleva a diferencias significativas en la latencia de acceso a la memoria dependiendo de la ubicación física del núcleo y la memoria. La configuración NUMA tradicional expone esta topología al software, permitiendo optimizaciones de afinidad que minimizan los accesos a memoria remota. Sin embargo, estas optimizaciones son costosas en términos de esfuerzo de desarrollo y pueden limitar la escalabilidad de aplicaciones que no están diseñadas para ser conscientes de NUMA.

El modo NPS0 de AMD, que presenta un sistema de doble socket como una entidad monolítica con acceso uniforme a la memoria, intenta mitigar esta complejidad. Este enfoque, similar a los sistemas de escritorio, distribuye los accesos a memoria de manera uniforme a través de todos los controladores. La pregunta clave es si los beneficios de la simplificación de la programación superan los costos de rendimiento introducidos por una mayor latencia de memoria promedio, especialmente en un contexto donde las interconexiones internas son cada vez más no uniformes. Este análisis explora cómo esta compensación se manifiesta en el rendimiento real de un procesador AMD EPYC 9575F, conectando la decisión de diseño de hardware con los desafíos de rendimiento de las aplicaciones a gran escala.

Arquitectura del Sistema

La arquitectura de los procesadores AMD EPYC modernos, como el 9575F, se basa en un diseño de chiplets interconectados por Infinity Fabric. Cada chiplet (Core Complex Die o CCD) contiene núcleos de CPU y caché L3, y se conecta a otros CCDs y a los I/O Die (que contienen los controladores de memoria y PCIe) a través de esta interconexión de alta velocidad. En un sistema de doble socket, dos procesadores EPYC se interconectan entre sí, formando una topología NUMA compleja donde cada socket y, a menudo, cada grupo de CCDs dentro de un socket, puede ser un nodo NUMA distinto.

El modo NPS0 (Nodes Per Socket 0) es una configuración de firmware que abstrae esta topología NUMA subyacente. En lugar de exponer múltiples nodos NUMA por socket o por sistema, NPS0 presenta todos los controladores de memoria del sistema (en este caso, 24 controladores para un sistema de doble socket) como parte de un único nodo NUMA lógico. Esto significa que el sistema operativo y las aplicaciones ven una única región de memoria uniforme, eliminando la necesidad de que el software realice asignaciones de memoria conscientes de NUMA o gestione la afinidad de hilos. La distribución de accesos a memoria se realiza a nivel de hardware, intentando balancear la carga a través de todos los canales de memoria disponibles. Esta configuración busca simplificar la programación, pero introduce una latencia de acceso a DRAM significativamente mayor debido a la necesidad de atravesar interconexiones más complejas para acceder a memoria que, en una configuración NUMA optimizada, estaría localmente accesible.

Capa	Tecnología	Justificación
compute	AMD EPYC 9575F	Procesador principal del servidor, evaluado en su rendimiento bajo diferentes modos NUMA (NPS0 vs. NPS1). vs Intel Xeon (arquitecturas con diferentes topologías NUMA) `Modo NPS0 (Uniform Memory Access) y NPS1 (Non-Uniform Memory Access).`
storage	DRAM	Memoria principal del sistema, su latencia y ancho de banda son métricas clave para evaluar el impacto de los modos NUMA. `24 controladores de memoria en modo NPS0 para un sistema de doble socket.`
compute	Infinity Fabric	Interconexión interna de alta velocidad entre CCDs y I/O Dies en los procesadores AMD EPYC, fundamental para la comunicación de datos y la coherencia de caché. vs Intel UPI (Ultra Path Interconnect) `Enlaces GMI-Wide para los CCDs, proporcionando 64B/ciclo de ancho de banda de lectura/escritura.`

Trade-offs

Ganancias

▲ Simplificación de la programación
▲ Mayor ancho de banda de memoria agregado
▲ Mayor frecuencia de reloj (5 GHz en EPYC 9575F)

Costes

▲▲ Mayor latencia de acceso a DRAM
▲ Rendimiento reducido en cargas de trabajo sensibles a la latencia de memoria

Fundamentos Teóricos

El concepto de acceso a memoria no uniforme (NUMA) y los desafíos asociados con su gestión en sistemas distribuidos y de alto rendimiento han sido un tema recurrente en la investigación de arquitectura de computadoras y sistemas operativos desde las décadas de 1980 y 1990. Trabajos seminales como los de Richard P. Feynman sobre computación paralela y los primeros diseños de máquinas multiprocesador ya anticipaban la complejidad de coordinar el acceso a recursos compartidos, incluida la memoria.

La necesidad de optimizar la localidad de los datos para mejorar el rendimiento se relaciona directamente con principios de caché y jerarquía de memoria, fundamentales en la arquitectura de computadoras. El principio de localidad, tanto temporal como espacial, es un pilar que explica por qué los sistemas de caché son efectivos. En un entorno NUMA, este principio se extiende a la localidad de los datos en relación con los nodos de memoria. La decisión de implementar un modo como NPS0, que prioriza la uniformidad sobre la localidad explícita, es un ejemplo de un trade-off de diseño que se ha explorado en la academia. Se busca simplificar la programación a expensas de una latencia de memoria potencialmente mayor, un compromiso que ha sido analizado en papers sobre sistemas operativos y compiladores que buscan optimizar la asignación de memoria y la planificación de hilos en arquitecturas NUMA. La efectividad de NPS0 depende de la capacidad del hardware para enmascarar eficientemente la no uniformidad subyacente y de la robustez de los mecanismos de caché para absorber el impacto de la mayor latencia de DRAM, un área de investigación activa en el diseño de procesadores multinúcleo.

Fuente original: https://chipsandcheese.com/p/evaluating-uniform-memory-access

Publicado originalmente: 26 de noviembre de 2025

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Estimación de Rendimiento FP64 y Arquitectura de Supercomputadoras Exascale con AMD MI430X

Priorizar el ancho de banda y la capacidad de memoria (HBM) es tan crítico como los FLOPs brutos para cargas de trabajo HPC, especialmente aquellas limitadas por la memoria.

CPU Architecture GPU Architecture Performance Profiling

2 jun 2026

Nvidia B200: Arquitectura Chiplet y Jerarquía de Caché para Computación a Escala

La adopción de arquitecturas multi-die es una estrategia clave para escalar el rendimiento de hardware cuando las mejoras de nodo de proceso se ralentizan, pero introduce complejidades en la gestión de la coherencia y la latencia inter-die.

CPU Architecture GPU Architecture LLM Inference

2 jun 2026

Análisis Profundo del Subsistema de Memoria de Nvidia GB10 desde la Perspectiva de la CPU

La heterogeneidad de núcleos (big.LITTLE) es una estrategia efectiva para optimizar el rendimiento y la eficiencia en SoCs, pero introduce complejidad en la gestión de la jerarquía de memoria y el scheduler del SO.

CPU Architecture GPU Architecture Performance Profiling