24 de marzo de 2026 3 min lectura

Optimizando el Edge: Rediseño de Software para Arquitecturas de CPU con Menos Cache L3

Lecciones clave

→ El co-diseño hardware-software es crítico: las decisiones de arquitectura de software deben considerar las características de rendimiento del hardware subyacente.
→ No asumir el rendimiento: medir y perfilar el comportamiento del sistema (ej. contadores de rendimiento de CPU) es esencial para diagnosticar cuellos de botella reales.
→ La jerarquía de memoria es fundamental: entender cómo el software interactúa con la caché y la DRAM es clave para optimizar la latencia y el throughput.
→ El trade-off entre latencia y throughput es una constante: las arquitecturas de CPU pueden priorizar uno sobre el otro, y el software debe adaptarse.
→ Las reescrituras de sistemas críticos pueden ser justificadas si abordan limitaciones fundamentales que impiden escalar con el hardware moderno.
→ Lenguajes de programación con control de bajo nivel (como Rust) pueden ser ventajosos para sistemas de alto rendimiento donde la gestión de memoria es crítica.
→ La optimización de la localidad de datos y la reducción de la huella de memoria activa son estrategias efectivas para mitigar los efectos de cachés más pequeñas.

El problema fundamental que aborda este artículo es cómo las decisiones de diseño de software, particularmente en capas críticas de manejo de solicitudes, deben co-evolucionar con las arquitecturas de hardware subyacentes para maximizar la eficiencia y el rendimiento. Históricamente, el aumento de la densidad de núcleos en las CPUs ha sido acompañado por mejoras en la jerarquía de caché para mantener la localidad de datos. Sin embargo, las arquitecturas modernas, como los procesadores AMD EPYC Turin, están realizando un trade-off explícito: priorizar un conteo masivo de núcleos y throughput total sobre la caché L3 por núcleo.

Este cambio arquitectónico expone una vulnerabilidad en stacks de software legados que dependen implícitamente de grandes cachés L3 para mantener baja latencia. La tesis central es que para desbloquear el potencial de rendimiento de estas nuevas CPUs, es imperativo rediseñar el software para que sea menos sensible a la latencia de acceso a memoria, optimizando los patrones de acceso y reduciendo la huella de memoria activa. La reescritura de FL1 a FL2 en Rust es un ejemplo de cómo una reingeniería profunda del software puede alinear la aplicación con las características del hardware, transformando una limitación en una ventaja competitiva.

Arquitectura del Sistema

La arquitectura original, FL1, se basaba en NGINX y LuaJIT, una combinación que, si bien era eficiente para su época, exhibía patrones de acceso a memoria que dependían fuertemente de la localidad de caché L3. Esto se evidenció por el aumento drástico de las tasas de fallos de caché L3 y la latencia de acceso a DRAM en las nuevas CPUs Turin, que ofrecen significativamente menos caché L3 por núcleo.

La nueva arquitectura, FL2, es una reescritura completa en Rust, construida sobre los frameworks Pingora y Oxy. Esta transición implica un cambio fundamental en cómo se manejan las solicitudes y se accede a la memoria. Rust, con su seguridad de memoria y control de bajo nivel, permite a los ingenieros diseñar patrones de acceso a memoria más predecibles y eficientes. Esto incluye la reducción de asignaciones dinámicas, la optimización de la disposición de datos en memoria y la minimización de la huella de trabajo (working set) para que quepa en cachés más pequeñas. El resultado es un sistema con menos fallos de caché y, por lo tanto, menor latencia, incluso en arquitecturas de CPU con menor caché L3 por núcleo. La modularidad y el sistema de tipos estricto de Rust también contribuyen a una mayor velocidad de desarrollo y seguridad, que fueron motivaciones iniciales para el proyecto FL2, además del rendimiento.

Capa	Tecnología	Justificación
compute	AMD EPYC 5th Gen Turin (Zen 5)	Procesadores de nueva generación para la capa de manejo de solicitudes, ofreciendo mayor conteo de núcleos (hasta 192) y mejoras de IPC, pero con menor caché L3 por núcleo.
compute	AMD EPYC 4th Gen Genoa-X (Zen 4)	Procesadores de generación anterior, con 96 núcleos y una gran caché L3 (12MB por núcleo) gracias a 3D V-Cache, que era ideal para el stack FL1.
data-processing	FL1 (NGINX + LuaJIT)	Capa de manejo de solicitudes legada, que exhibía alta dependencia de la caché L3 y patrones de acceso a memoria ineficientes para arquitecturas con menor caché por núcleo.
data-processing	FL2 (Rust + Pingora + Oxy)	Nueva capa de manejo de solicitudes reescrita en Rust, diseñada con patrones de acceso a memoria optimizados para arquitecturas con menor caché L3 por núcleo, permitiendo un escalado lineal del throughput.
observability	AMD uProf	Herramienta utilizada para recolectar contadores de rendimiento de CPU y datos de profiling para diagnosticar problemas de caché y latencia en FL1.
orchestration	AMD Platform Quality of Service (PQOS)	Extensiones de hardware utilizadas para la regulación fina de recursos compartidos como caché y ancho de banda de memoria, permitiendo la asignación dedicada de caché L3 a FL1 en experimentos de optimización.

Trade-offs

Ganancias

▲▲ Throughput total
▲ Performance/watt
▲ Costo total de propiedad (TCO)

Costes

▲▲ Caché L3 por núcleo
▲ Latencia de acceso a memoria para software no optimizado

Fundamentos Teóricos

Este escenario resalta la importancia de la jerarquía de memoria, un concepto fundamental en la arquitectura de computadoras. El principio de localidad, tanto temporal como espacial, es clave para el rendimiento de los sistemas. Cuando un programa exhibe buena localidad, los datos y las instrucciones que necesita están a menudo en la caché, lo que resulta en accesos rápidos. La reducción de la caché L3 por núcleo en las CPUs Turin, sin un cambio correspondiente en el software, viola la expectativa de localidad de FL1, forzando accesos más lentos a la DRAM.

El problema de la latencia de acceso a memoria ha sido estudiado extensamente, por ejemplo, en trabajos sobre la 'Memory Wall' que describen la creciente brecha de rendimiento entre las CPUs y la memoria principal. La solución de Cloudflare con FL2, al optimizar los patrones de acceso a memoria y reducir la dependencia de grandes cachés, es una aplicación práctica de principios de diseño de software consciente de la arquitectura de memoria, buscando minimizar los fallos de caché y el costo de los accesos a memoria fuera de la caché. Esto se alinea con técnicas de optimización de rendimiento que se encuentran en la literatura de sistemas operativos y compiladores, donde la gestión eficiente de la memoria es crucial.

Fuente original: https://blog.cloudflare.com/gen13-launch/

Publicado originalmente: 23 de marzo de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

Redis vs Valkey → Redis vs Dragonfly →

Inferencia de LLM MoE en MacBook Pro: Streaming de Expertos desde SSD con Metal

Priorizar la comprensión profunda del hardware: las optimizaciones de bajo nivel (FMA, Metal kernels) pueden generar ganancias significativas en rendimiento.

LLM Inference GPU Architecture Performance Profiling Edge Computing

23 mar 2026

Manyana: Control de Versiones Basado en CRDTs para Conflictos Informados

Reconsiderar los fundamentos de la consistencia: Los CRDTs ofrecen una alternativa robusta a los modelos de consistencia basados en bloqueos o coordinación centralizada, útil para sistemas distribuidos donde la disponibilidad y la tolerancia a particiones son críticas (CAP Theorem).

Consensus Replication Databases Distributed Tracing

22 mar 2026

OMT y OmniSONAR: Escalando la Traducción Automática a 1600+ Idiomas con LLMs Especializados

La especialización de modelos fundacionales (LLMs) para tareas específicas puede superar a modelos genéricos de mayor tamaño en rendimiento y eficiencia computacional.

LLM Inference Databases ML Training